3 research outputs found
Videobasierte Verfahren zur Schätzung des Interaktionsinteresses bei der Mensch-Roboter-Interaktion mittels Analyse durch Synthese
To realize the operation of mobile service robots in everyday life, it
isnecessary to develop intelligent and adaptive dialog systems. Such
dialogsystems must be designed in a way that allows an easy and intuitive
operationeven for untrained users.For that purpose, it is necessary to
detect the mood and intentions of a user.In this thesis, methods for the
detection and estimation of the attentionand/or interaction interest of a
user of a mobile service robot will bedeveloped and presented.
For this purpose, three subsystems are presented: the estimation of
theorientation of the upper body, the estimation of the head pose, and
theanalysis of the facial expression of a user.Each subsystem is realized
by using an Analysis by Synthesis approach.More precisely, Active Shape
Models and Active Appearance Modelsare utilized within the three
subsystems.Furthermore, different classification and function approximation
systems willbe applied to estimate the different features. For that,
different methodslike linear regression, Multi Layer Perceptrons, Support
Vector Machines,and Self-organizing Maps will be compared.This thesis shows
that it is possible to estimate the requested featuresin a sufficient
quality and robustness by using the proposed subsystems.Hence it is
possible, to estimate the attention and interaction interestby using the
upper body orientation, the head pose and the facial expression.Each
subsystem was tested with different data sets. Besides own data basesalso
foreign data sets were utilized to show the robustness and to measurethe
detection rates of the proposed methods.Additionally, this thesis shows,
that a selection of the relevant modelparameters leads to better results or
at least to equal results, whichcan be achieved by easier classifiers. For
this parameter selection theMutal Information is applied in this thesis.
Furthermore, an overall system, which integrates the results of the
differentsubsystems, is presented in this thesis. The fusion of the results
isrealized by using methods from the domain of probabilistic robotics.Based
on some easy experiments (performed by briefed subjects) it is shown,that
all subsystems can deliver feasible results, which can be integratedin an
overall estimation of the attention and/or interaction interest ofa user.
Thus, the work presented in this thesis can be used for
furthersocioscientific experiments, which are not part of this thesis.Um den Einsatz von mobilen Servicerobotern im Alltag zu realisieren,
istes notwendig, intelligente und adaptive Dialogsysteme zu entwickeln, die
es auch einem nicht-eingewiesenen Benutzer erlauben, einen Serviceroboter
intuitiv bedienen und nutzen zu können. Dazu ist es erforderlich, die
Stimmung und den Gemütszustand des Benutzers zu erfassen, um entsprechend
darauf reagieren zu können. Im Rahmen dieser Dissertation werden Methoden
entwickelt und vorgestellt, die als Indikatoren zur Schätzung des
Interaktionsinteresses (bzw. der Aufmerksamkeit) eines Benutzers auf einem
mobilen Serviceroboter unter Realweltbedingungen verwendet werden
können.Hierfür werden drei Teilsysteme präsentiert, die die Orientierung
des Oberkörpers, die Blickrichtung und die Mimik des Benutzers schätzen
können. Alle drei Teilsysteme werden mittels Analysis-by-Synthesis
Verfahren realisiert. Dabei kommen Active Shape Models und Active
Appearance Modelszum Einsatz. Zur anschließenden Klassifikation bzw.
Schätzung der gesuchten Merkmale werden u.a. Verfahren der linearen
Regression, Multi Layer Perceptrons, Support Vector Machines und
Self-organizing Maps miteinander verglichen. Es wird gezeigt, dass es mit
den drei Teilsystemen möglich ist, die gesuchten Informationen zu
bestimmen und damit Indizien für Interesse und Aufmerksamkeit gewonnen
werden können. Die Tests wurden dabei jeweils mit bekanntem und
unbekanntem Datenmaterial durchgeführt. Zusätzlich wird gezeigt, dass
eine Vorauswahl relevanter Parameter auf Basis der Mutual Information zu
besseren Ergebnissen führt bzw. gleich gute Ergebnisse mittels einfacherer
Klassifikatoren erreicht werden können. Weiterhin wird ein Gesamtsystem
vorgestellt, in dem alle drei Teilsysteme miteinander kombiniert werden.
Zur Schätzung von Interesse und Aufmerksamkeit kommen dabei Methoden aus
der probabilistischen Robotik zum Einsatz. Anhand durchgeführter
Experimente mit eingewiesenen Probanden wird gezeigt, dass die Ergebnisse
der drei Teilmodule plausibel sind und die Resultate zur Schätzung von
Interesse und Aufmerksamkeit verwendet werden können. Das prototypische
Gesamtsystem kann daher als Grundlage und Basis fürzukünftige
sozialwissenschaftliche Untersuchungen zur Bestimmung des
Interaktionsinteresses genutzt werden, die nicht Bestandteil dieser
Dissertation sind
Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicrobotern
Methods of vision-based User Perception for a natural Interaction with mobile
Service Robots
In man-machine communication, particularly in the field of service robotics, the
perception of the user is often constricted to people detection and tracking.
This is in strong contrast to communication between people, where social
information like gender, age, identity and facial expression is essential. The
assumption of this thesis is that an improved perception of the user's state is
necessary for future service robots to be successfully deployed in human
centered service tasks. The example application is a service robot helping
customers in a home store to find the desired products. During interaction, the
robot should show a certain degree of social competence, e.g. by detecting
persons and establishing and keeping eye contact. Furthermore, it should be able
to build user models, identify known users robustly and estimate their
affections by determining gender, age, identity and facial expression from video
images.
To realize this functionality, a biologically motivated separation into a
peripheral and a foveal vision system is proposed. The former uses images of an
omnidirectional camera with a large field of view but relatively low resolution
to generate hypotheses of the position of potential users in the surroundings of
the robot. Therefore, skin color and movement as well as the measurements of
sonar sensors are integrated into a saliency map. Salient structures are tracked
by a multi target tracking system based on the CONDENSATION algorithm. To
realize a skin color detection which is insensitive to changes of the
illumination chrominance, an automatic white balance algorithm was developed
which takes advantage of the special geometry of the omnidirectional objective.
After selecting a hypothesis, the head of the robot is continously directed in
its direction. In this way, the user receives a feedback signal of the robots
attention, while the robot is able to capture high resolution images of the
users face suitable for a further two step analysis. The first step produces a
normalized view of the users face by detecting the face and the eyes and
applying affine image transformations. For the analysis itself, three methods
were implemented and tested: Elastic Graph Matching, Independent Component
Analysis and Active Appearance Models. With respect to the estimation of gender,
age, facial expression and identity a comprehensive face image database was
recorded for training and testing the different methods. The efficiency of the
integrated system was demonstrated by empirical experiments.Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern
Im Gegensatz zur zwischenmenschlichen Kommunikation, bei der die Beziehungsebene im Vergleich zur Sachebene den weitaus größeren Anteil einnimmt, wird diese bei der Mensch-Roboter-Interaktion bislang nur in Ansätzen berücksichtigt. Insbesondere die Nutzerwahrnehmung bleibt in der Regel auf eine reine Personendetektion oder ein einfaches Personen-Tracking beschränkt. Vor diesem Hintergrund wurde eine verbesserte Wahrnehmung des aktuellen Zustandes des Nutzers als Voraussetzung für eine Personalisierung des Dialogs als Zielstellung dieser Arbeit abgeleitet. Beim exemplarischen Anwendungsszenario handelt es sich um einen Shopping-Assistenten, der in einem Baumarkt den Kunden bei der Suche nach Produkten behilflich ist. Dieser sollte zumindest einen gewissen Grad an sozialer Kompetenz zeigen, indem er z.B. Personen in seiner Umgebung detektiert und während der Interaktion kontinuierlich Blickkontakt hält. Um Nutzermodelle erstellen, kurzzeitig verlorene Nutzer wiedererkennen und den Gemütszustand des Nutzers abschätzen zu können, sollen Geschlecht, Alter, Identität und Gesichtsausdruck des Nutzers aus einem Videobild ermittelt werden.
Für die Realisierung dieser Aufgabe wurde eine biologisch motivierte Aufteilung in ein peripheres und ein foveales Vision-System vorgeschlagen. Das periphere System arbeitet auf den Bildern einer omnidirektionalen Kamera und verfügt damit über einen sehr großen Sichtbereich, aber nur eine vergleichsweise geringe Auflösung. In diesem System werden zunächst Hypothesen über die Position von Personen im Umfeld des Roboters gebildet. Dafür werden Hautfarbe, Bewegung und Entfernung in einer Auffälligkeitskarte integriert und auffällige Bildbereiche mittels eines Multi-Target-Trackers verfolgt. Für die omnidirektionale Kamera wurde ein automatischer Weißabgleich entwickelt, der die Hautfarbdetektion unempfindlich gegen Änderungen der Chrominanz der Beleuchtung macht.
Nach Auswahl einer Nutzerhypothese wird der Kopf des Roboters kontinuierlich in die entsprechende Richtung ausgerichtet. Damit erhält der Nutzer zum einen eine Rückmeldung über die gerichtete Aufmerksamkeit des Roboters während der Interaktion. Zum anderen kann der Roboter hochaufgelöste Bilder der Person aufnehmen, so dass eine weitere nachfolgende Analyse ermöglicht wird. Diese ist wiederum in zwei Teilschritte unterteilt. Der erste Schritt besteht aus einer Detektion des Gesichtes und einer anschließenden Detektion der Augen, anhand derer eine normalisierte Darstellung des Gesichtes erzeugt wird. Für den Analyseschritt wurden das Elastic-Graph-Matching, die Independent Component Analysis und die Active-Appearance Models implementiert und vergleichend untersucht. Unter Berücksichtigung der Anforderungen einer Geschlechts-, Alters-, Mimik- und Identitätsschätzung wurde hierfür eine umfassende Gesichtsdatenbank zum Training und zum Test der Verfahren angelegt. Die Leistungsfähigkeit des Gesamtsystems wurde schließlich anhand von empirischen Experimenten demonstriert