Search CORE

385 research outputs found

Modeling Driver Behavior From Demonstrations in Dynamic Environments Using Spatiotemporal Lattices

Author: Dibangoye Jilles
Erkent Özgür
Laugier Christian
Romero-Cano Víctor
Sierra González David
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 21/05/2018
Field of study

International audienceOne of the most challenging tasks in the development of path planners for intelligent vehicles is the design of the cost function that models the desired behavior of the vehicle. While this task has been traditionally accomplished by hand-tuning the model parameters, recent approaches propose to learn the model automatically from demonstrated driving data using Inverse Reinforcement Learning (IRL). To determine if the model has correctly captured the demonstrated behavior, most IRL methods require obtaining a policy by solving the forward control problem repetitively. Calculating the full policy is a costly task in continuous or large domains and thus often approximated by finding a single trajectory using traditional path-planning techniques. In this work, we propose to find such a trajectory using a conformal spatiotemporal state lattice, which offers two main advantages. First, by conforming the lattice to the environment, the search is focused only on feasible motions for the robot, saving computational power. And second, by considering time as part of the state, the trajectory is optimized with respect to the motion of the dynamic obstacles in the scene. As a consequence, the resulting trajectory can be used for the model assessment. We show how the proposed IRL framework can successfully handle highly dynamic environments by modeling the highway tactical driving task from demonstrated driving data gathered with an instrumented vehicle

Crossref

INRIA a CCSD electronic archive server

Imitation learning based on entropy-regularized forward and inverse reinforcement learning

Author: Doya Kenji
Uchibe Eiji
Publication venue
Publication date: 17/08/2020
Field of study

This paper proposes Entropy-Regularized Imitation Learning (ERIL), which is a combination of forward and inverse reinforcement learning under the framework of the entropy-regularized Markov decision process. ERIL minimizes the reverse Kullback-Leibler (KL) divergence between two probability distributions induced by a learner and an expert. Inverse reinforcement learning (RL) in ERIL evaluates the log-ratio between two distributions using the density ratio trick, which is widely used in generative adversarial networks. More specifically, the log-ratio is estimated by building two binary discriminators. The first discriminator is a state-only function, and it tries to distinguish the state generated by the forward RL step from the expert's state. The second discriminator is a function of current state, action, and transitioned state, and it distinguishes the generated experiences from the ones provided by the expert. Since the second discriminator has the same hyperparameters of the forward RL step, it can be used to control the discriminator's ability. The forward RL minimizes the reverse KL estimated by the inverse RL. We show that minimizing the reverse KL divergence is equivalent to finding an optimal policy under entropy regularization. Consequently, a new policy is derived from an algorithm that resembles Dynamic Policy Programming and Soft Actor-Critic. Our experimental results on MuJoCo-simulated environments show that ERIL is more sample-efficient than such previous methods. We further apply the method to human behaviors in performing a pole-balancing task and show that the estimated reward functions show how every subject achieves the goal.Comment: 33 pages, 10 figure

arXiv.org e-Print Archive

OIST Institutional Repository

A framework for overall sustainability assessment of local small-scale energy production - demonstration of an approach

Author: Havukainen J.
Niskanen A.
Sinkko T.
Sokka L.
Väisänen S.
Publication venue: 'Baishideng Publishing Group Inc.'
Publication date: 01/01/2015
Field of study

201

Jukuri

New and enhanced policy measures for the sustainable use of natural resources in agriculture and forestry

Author: Ervola Asta
Hujala Teppo
Makkonen Marika
Rikkonen Pasi
Rintamäki Heidi
Uusivuori Jussi
Publication venue: 'Baishideng Publishing Group Inc.'
Publication date: 01/01/2015
Field of study

201

Jukuri

SUSTAINABLE FUTURES IN A CHANGING CLIMATE : Proceedings of the Conference “Sustainable Futures in a Changing Climate”, 11–12 June 2014, Helsinki, Finland

Author: Hatakka Aino (ed.)
Vehmas Jarmo (ed.)
Publication venue: fi=Turun yliopisto. Turun kauppakorkeakoulu|en=University of Turku, Turku School of Economics|
Publication date: 21/05/2019
Field of study

How does climate change influence our understanding of the future? How can we contribute to creating desirable but possible futures in the era of climate change? The Finland Futures Research Centre’s 16th Annual International Conference ‘Sustainable Futures in a Changing Climate’ focused on presenting current future-oriented research on different aspects of climate change, and thus, the conference contributed to the global field of knowledge sharing concerning climate change. This conference gathered together 140 participants from 21 different countries. During the two days, altogether 67 presentations were held in 11 thematic working groups dealing with various topics. This conference proceedings collects some of the full conference papers presented in the thematic working groups. The articles in this publication are divided to chapters according to the themes of the working groups. Each article in this conference proceedings has gone through a peer review process. We thank all the authors of the articles and the anonymous referees for their valuable contribution to this publication

UTUPub

License to Supervise:Influence of Driving Automation on Driver Licensing

Author: Heffelaar Tobias
Huijboom Chris
van den Beukel Arie P.
Publication venue
Publication date: 13/06/2018
Field of study

To use highly automated vehicles while a driver remains responsible for safe driving, places new – yet demanding, requirements on the human operator. This is because the automation creates a gap between drivers’ responsibility and the human capabilities to take responsibility, especially for unexpected or time-critical transitions of control. This gap is not being addressed by current practises of driver licensing. Based on literature review, this research collects drivers’ requirements to enable safe transitions in control attuned to human capabilities. This knowledge is intended to help system developers and authorities to identify the requirements on human operators to (re)take responsibility for safe driving after automation

University of Twente Research Information

Driver Attention Assessment from Gaze and Situational Variables

Author: Schmitt Felix Martin
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2018
Field of study

Fahrer, die der Fahrsituation nicht genügend Aufmerksamkeit widmen, stellen eine Gefahr für die Verkehrssicherheit dar. Dies liegt daran, dass in diesem Fall das Fahrvermögen der Betroffenen deutlich verringert ist, was in Folge zu einem erhöhten Unfallrisiko führt. Deshalb versprechen Systeme, die die Fahreraufmerksamkeit automatisch beurteilen und entsprechend warnen oder eingreifen können, eine große Verbesserung der Verkehrssicherheit. Hierbei ist aber eine genaue und echtzeitfähige Beurteilung der Fahreraufmerksamkeit bezüglich des damit verbundenen Unfallrisikos erforderlich. Diese Dissertation führt eine neue Methode zur Beurteilung von Fahreraufmerksamkeit im situativen Kontext ein. Es wird vorgeschlagen angemessenes Blickverhalten durch Blickstrategien in einem entscheidungstheoretischen Formalismus festzulegen. In diesem Ansatz werden Modelle der Fahrsit- uation sowie der Wahrnehmung und der Fahrzeugführung des Fahrers verwendet. Bisherige Arbeiten beurteilen Fahreraufmerksamkeit zumeist alleine anhand Fahr- und Blickverhaltens. Ein deutlicher Nachteil ist dabei, dass somit das Zusammenspiel aus Fahrerverhalten, Fahrsituation und Unfallrisiko vernachlässigt wird. Das ist umso gravierender, da bekannt ist, dass erfahrene Fahrer an die Fahrsituation abgestimmte Blickstrategien zeigen, die die Beeinträchtigung ihrer Fahrleistung abmildern können. Ähnliche Blickstrategien enstehen auf natürliche Art und Weise aus dem gewählten entscheidungstheoretischen Ansatz. In der Arbeit wird der entscheidungstheoretische Ansatz beispielhaft an der Fahraufgabe des Spurhaltens untersucht. Hier wird auf die Modellbildung, die Echtzeitberechnung, die passende Parametrisierung sowie auf die Evaluierung der Methode in der Anwendung in einem neuen Warnsystem eingegangen. Zuerst wird die Aufgabe des Spurhaltens bei einer Nebenaufgabe, die um die visuelle Aufmerksamkeit konkurriert, modelliert. Dazu wird ein Partially Observable Markov Decision Process (POMDP) verwendet, der ein kinematisches Model der Fahraufgabe, ein Model der sensorischen Eigenschaften des Fahrers sowie ein Modell der Nebenaufgabe enthält. Danach wird die Berechnung von Strategien in dem POMDP untersucht. Diese Strategien dienen dazu das angemessene Blickverhalten festzulegen. Schließlich wird die Wirklichkeitstreue dieser Strategien überprüft und der erforderliche Rechenaufwand analysiert. Zweitens wird die Wahl einer passenden Belohnungsfunktion betrachtet. Diese ist deswegen von Bedeutung, da sie schlussendlich das angemessene Blickverhalten festlegt. Es wird ein neues Verfahren der inversen optimalen Steuerung entwickelt, das es vermag Parameter der Belohnungsfunktion aus dem Verhalten erfahrener Fahrer zu schätzen. In einem Experiment im Realverkehr erhobenes Fahrerverhalten wird benutzt um die entwickelte Methode hinsichtlich der Genauigkeit in der Verhaltensvorhersage zu prüfen. Die vorliegende Arbeit untersucht drittens die Schätzung von Modellen der sensorischen Eigenschaften von Fahrern. Dazu wird der erste allgemeine Ansatz für dieses Inferenzproblem in sequenziellen Entscheidungsproblemen vorgestellt. Darauffolgend wird eine Umsetzung des Ansatzes für den vorherig eingeführten POMDP entwickelt. Das resultierende Verfahren wird mittels Fahrverhaltensdaten aus einem weiteren Fahrversuch geprüft. Schließlich wird viertens die Entwicklung eines Warnsystems und dessen Einbindung in ein Versuchsfahrzeug verfolgt. Das System zielt darauf ab den Fahrer bei der Aufrechterhaltung von genügen Aufmerksamkeit zu unterstützen. In einem abschließenden Nutzertest wird das entwickelte System mit einem Warnsystem nach dem aktuellen Stand der Technik verglichen, wobei sowohl die Akzeptanz durch die Nutzer als auch die Auswirkungen auf die Fahrleistung untersucht werden. Im Ganzen verdeutlicht diese Arbeit die Umsetzbarkeit und die Vorteile des verfolgten Ansatzes des angemessenen Blickverhaltens für die automatische Bewertung von Fahreraufmerksamkeit. Es wurde gezeigt, dass der benötigte Rechenaufwand eine Echtzeitanwendung zulässt und dass geeignete Modellparameter automatisch geschätzt werden können. Schließlich wurde die Verbesserung eines Ablenkungswarnsystems belegt. Folglich stellt die Methodologie, die in dieser Arbeit eingeführt wurde, einen vielversprechenden neuen Ansatz zur Bewertung von Fahreraufmerksamkeit dar, der die Probleme des aktuellen Standes der Technik vermeidet

KITopen