385 research outputs found

    Modeling Driver Behavior From Demonstrations in Dynamic Environments Using Spatiotemporal Lattices

    Get PDF
    International audienceOne of the most challenging tasks in the development of path planners for intelligent vehicles is the design of the cost function that models the desired behavior of the vehicle. While this task has been traditionally accomplished by hand-tuning the model parameters, recent approaches propose to learn the model automatically from demonstrated driving data using Inverse Reinforcement Learning (IRL). To determine if the model has correctly captured the demonstrated behavior, most IRL methods require obtaining a policy by solving the forward control problem repetitively. Calculating the full policy is a costly task in continuous or large domains and thus often approximated by finding a single trajectory using traditional path-planning techniques. In this work, we propose to find such a trajectory using a conformal spatiotemporal state lattice, which offers two main advantages. First, by conforming the lattice to the environment, the search is focused only on feasible motions for the robot, saving computational power. And second, by considering time as part of the state, the trajectory is optimized with respect to the motion of the dynamic obstacles in the scene. As a consequence, the resulting trajectory can be used for the model assessment. We show how the proposed IRL framework can successfully handle highly dynamic environments by modeling the highway tactical driving task from demonstrated driving data gathered with an instrumented vehicle

    Imitation learning based on entropy-regularized forward and inverse reinforcement learning

    Get PDF
    This paper proposes Entropy-Regularized Imitation Learning (ERIL), which is a combination of forward and inverse reinforcement learning under the framework of the entropy-regularized Markov decision process. ERIL minimizes the reverse Kullback-Leibler (KL) divergence between two probability distributions induced by a learner and an expert. Inverse reinforcement learning (RL) in ERIL evaluates the log-ratio between two distributions using the density ratio trick, which is widely used in generative adversarial networks. More specifically, the log-ratio is estimated by building two binary discriminators. The first discriminator is a state-only function, and it tries to distinguish the state generated by the forward RL step from the expert's state. The second discriminator is a function of current state, action, and transitioned state, and it distinguishes the generated experiences from the ones provided by the expert. Since the second discriminator has the same hyperparameters of the forward RL step, it can be used to control the discriminator's ability. The forward RL minimizes the reverse KL estimated by the inverse RL. We show that minimizing the reverse KL divergence is equivalent to finding an optimal policy under entropy regularization. Consequently, a new policy is derived from an algorithm that resembles Dynamic Policy Programming and Soft Actor-Critic. Our experimental results on MuJoCo-simulated environments show that ERIL is more sample-efficient than such previous methods. We further apply the method to human behaviors in performing a pole-balancing task and show that the estimated reward functions show how every subject achieves the goal.Comment: 33 pages, 10 figure

    SUSTAINABLE FUTURES IN A CHANGING CLIMATE : Proceedings of the Conference “Sustainable Futures in a Changing Climate”, 11–12 June 2014, Helsinki, Finland

    Get PDF
    How does climate change influence our understanding of the future? How can we contribute to creating desirable but possible futures in the era of climate change? The Finland Futures Research Centre’s 16th Annual International Conference ‘Sustainable Futures in a Changing Climate’ focused on presenting current future-oriented research on different aspects of climate change, and thus, the conference contributed to the global field of knowledge sharing concerning climate change. This conference gathered together 140 participants from 21 different countries. During the two days, altogether 67 presentations were held in 11 thematic working groups dealing with various topics. This conference proceedings collects some of the full conference papers presented in the thematic working groups. The articles in this publication are divided to chapters according to the themes of the working groups. Each article in this conference proceedings has gone through a peer review process. We thank all the authors of the articles and the anonymous referees for their valuable contribution to this publication

    License to Supervise:Influence of Driving Automation on Driver Licensing

    Get PDF
    To use highly automated vehicles while a driver remains responsible for safe driving, places new – yet demanding, requirements on the human operator. This is because the automation creates a gap between drivers’ responsibility and the human capabilities to take responsibility, especially for unexpected or time-critical transitions of control. This gap is not being addressed by current practises of driver licensing. Based on literature review, this research collects drivers’ requirements to enable safe transitions in control attuned to human capabilities. This knowledge is intended to help system developers and authorities to identify the requirements on human operators to (re)take responsibility for safe driving after automation

    Driver Attention Assessment from Gaze and Situational Variables

    Get PDF
    Fahrer, die der Fahrsituation nicht genĂŒgend Aufmerksamkeit widmen, stellen eine Gefahr fĂŒr die Verkehrssicherheit dar. Dies liegt daran, dass in diesem Fall das Fahrvermögen der Betroffenen deutlich verringert ist, was in Folge zu einem erhöhten Unfallrisiko fĂŒhrt. Deshalb versprechen Systeme, die die Fahreraufmerksamkeit automatisch beurteilen und entsprechend warnen oder eingreifen können, eine große Verbesserung der Verkehrssicherheit. Hierbei ist aber eine genaue und echtzeitfĂ€hige Beurteilung der Fahreraufmerksamkeit bezĂŒglich des damit verbundenen Unfallrisikos erforderlich. Diese Dissertation fĂŒhrt eine neue Methode zur Beurteilung von Fahreraufmerksamkeit im situativen Kontext ein. Es wird vorgeschlagen angemessenes Blickverhalten durch Blickstrategien in einem entscheidungstheoretischen Formalismus festzulegen. In diesem Ansatz werden Modelle der Fahrsit- uation sowie der Wahrnehmung und der FahrzeugfĂŒhrung des Fahrers verwendet. Bisherige Arbeiten beurteilen Fahreraufmerksamkeit zumeist alleine anhand Fahr- und Blickverhaltens. Ein deutlicher Nachteil ist dabei, dass somit das Zusammenspiel aus Fahrerverhalten, Fahrsituation und Unfallrisiko vernachlĂ€ssigt wird. Das ist umso gravierender, da bekannt ist, dass erfahrene Fahrer an die Fahrsituation abgestimmte Blickstrategien zeigen, die die BeeintrĂ€chtigung ihrer Fahrleistung abmildern können. Ähnliche Blickstrategien enstehen auf natĂŒrliche Art und Weise aus dem gewĂ€hlten entscheidungstheoretischen Ansatz. In der Arbeit wird der entscheidungstheoretische Ansatz beispielhaft an der Fahraufgabe des Spurhaltens untersucht. Hier wird auf die Modellbildung, die Echtzeitberechnung, die passende Parametrisierung sowie auf die Evaluierung der Methode in der Anwendung in einem neuen Warnsystem eingegangen. Zuerst wird die Aufgabe des Spurhaltens bei einer Nebenaufgabe, die um die visuelle Aufmerksamkeit konkurriert, modelliert. Dazu wird ein Partially Observable Markov Decision Process (POMDP) verwendet, der ein kinematisches Model der Fahraufgabe, ein Model der sensorischen Eigenschaften des Fahrers sowie ein Modell der Nebenaufgabe enthĂ€lt. Danach wird die Berechnung von Strategien in dem POMDP untersucht. Diese Strategien dienen dazu das angemessene Blickverhalten festzulegen. Schließlich wird die Wirklichkeitstreue dieser Strategien ĂŒberprĂŒft und der erforderliche Rechenaufwand analysiert. Zweitens wird die Wahl einer passenden Belohnungsfunktion betrachtet. Diese ist deswegen von Bedeutung, da sie schlussendlich das angemessene Blickverhalten festlegt. Es wird ein neues Verfahren der inversen optimalen Steuerung entwickelt, das es vermag Parameter der Belohnungsfunktion aus dem Verhalten erfahrener Fahrer zu schĂ€tzen. In einem Experiment im Realverkehr erhobenes Fahrerverhalten wird benutzt um die entwickelte Methode hinsichtlich der Genauigkeit in der Verhaltensvorhersage zu prĂŒfen. Die vorliegende Arbeit untersucht drittens die SchĂ€tzung von Modellen der sensorischen Eigenschaften von Fahrern. Dazu wird der erste allgemeine Ansatz fĂŒr dieses Inferenzproblem in sequenziellen Entscheidungsproblemen vorgestellt. Darauffolgend wird eine Umsetzung des Ansatzes fĂŒr den vorherig eingefĂŒhrten POMDP entwickelt. Das resultierende Verfahren wird mittels Fahrverhaltensdaten aus einem weiteren Fahrversuch geprĂŒft. Schließlich wird viertens die Entwicklung eines Warnsystems und dessen Einbindung in ein Versuchsfahrzeug verfolgt. Das System zielt darauf ab den Fahrer bei der Aufrechterhaltung von genĂŒgen Aufmerksamkeit zu unterstĂŒtzen. In einem abschließenden Nutzertest wird das entwickelte System mit einem Warnsystem nach dem aktuellen Stand der Technik verglichen, wobei sowohl die Akzeptanz durch die Nutzer als auch die Auswirkungen auf die Fahrleistung untersucht werden. Im Ganzen verdeutlicht diese Arbeit die Umsetzbarkeit und die Vorteile des verfolgten Ansatzes des angemessenen Blickverhaltens fĂŒr die automatische Bewertung von Fahreraufmerksamkeit. Es wurde gezeigt, dass der benötigte Rechenaufwand eine Echtzeitanwendung zulĂ€sst und dass geeignete Modellparameter automatisch geschĂ€tzt werden können. Schließlich wurde die Verbesserung eines Ablenkungswarnsystems belegt. Folglich stellt die Methodologie, die in dieser Arbeit eingefĂŒhrt wurde, einen vielversprechenden neuen Ansatz zur Bewertung von Fahreraufmerksamkeit dar, der die Probleme des aktuellen Standes der Technik vermeidet
    • 

    corecore