Methods of vision-based User Perception for a natural Interaction with mobile
Service Robots
In man-machine communication, particularly in the field of service robotics, the
perception of the user is often constricted to people detection and tracking.
This is in strong contrast to communication between people, where social
information like gender, age, identity and facial expression is essential. The
assumption of this thesis is that an improved perception of the user's state is
necessary for future service robots to be successfully deployed in human
centered service tasks. The example application is a service robot helping
customers in a home store to find the desired products. During interaction, the
robot should show a certain degree of social competence, e.g. by detecting
persons and establishing and keeping eye contact. Furthermore, it should be able
to build user models, identify known users robustly and estimate their
affections by determining gender, age, identity and facial expression from video
images.
To realize this functionality, a biologically motivated separation into a
peripheral and a foveal vision system is proposed. The former uses images of an
omnidirectional camera with a large field of view but relatively low resolution
to generate hypotheses of the position of potential users in the surroundings of
the robot. Therefore, skin color and movement as well as the measurements of
sonar sensors are integrated into a saliency map. Salient structures are tracked
by a multi target tracking system based on the CONDENSATION algorithm. To
realize a skin color detection which is insensitive to changes of the
illumination chrominance, an automatic white balance algorithm was developed
which takes advantage of the special geometry of the omnidirectional objective.
After selecting a hypothesis, the head of the robot is continously directed in
its direction. In this way, the user receives a feedback signal of the robots
attention, while the robot is able to capture high resolution images of the
users face suitable for a further two step analysis. The first step produces a
normalized view of the users face by detecting the face and the eyes and
applying affine image transformations. For the analysis itself, three methods
were implemented and tested: Elastic Graph Matching, Independent Component
Analysis and Active Appearance Models. With respect to the estimation of gender,
age, facial expression and identity a comprehensive face image database was
recorded for training and testing the different methods. The efficiency of the
integrated system was demonstrated by empirical experiments.Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern
Im Gegensatz zur zwischenmenschlichen Kommunikation, bei der die Beziehungsebene im Vergleich zur Sachebene den weitaus größeren Anteil einnimmt, wird diese bei der Mensch-Roboter-Interaktion bislang nur in Ansätzen berücksichtigt. Insbesondere die Nutzerwahrnehmung bleibt in der Regel auf eine reine Personendetektion oder ein einfaches Personen-Tracking beschränkt. Vor diesem Hintergrund wurde eine verbesserte Wahrnehmung des aktuellen Zustandes des Nutzers als Voraussetzung für eine Personalisierung des Dialogs als Zielstellung dieser Arbeit abgeleitet. Beim exemplarischen Anwendungsszenario handelt es sich um einen Shopping-Assistenten, der in einem Baumarkt den Kunden bei der Suche nach Produkten behilflich ist. Dieser sollte zumindest einen gewissen Grad an sozialer Kompetenz zeigen, indem er z.B. Personen in seiner Umgebung detektiert und während der Interaktion kontinuierlich Blickkontakt hält. Um Nutzermodelle erstellen, kurzzeitig verlorene Nutzer wiedererkennen und den Gemütszustand des Nutzers abschätzen zu können, sollen Geschlecht, Alter, Identität und Gesichtsausdruck des Nutzers aus einem Videobild ermittelt werden.
Für die Realisierung dieser Aufgabe wurde eine biologisch motivierte Aufteilung in ein peripheres und ein foveales Vision-System vorgeschlagen. Das periphere System arbeitet auf den Bildern einer omnidirektionalen Kamera und verfügt damit über einen sehr großen Sichtbereich, aber nur eine vergleichsweise geringe Auflösung. In diesem System werden zunächst Hypothesen über die Position von Personen im Umfeld des Roboters gebildet. Dafür werden Hautfarbe, Bewegung und Entfernung in einer Auffälligkeitskarte integriert und auffällige Bildbereiche mittels eines Multi-Target-Trackers verfolgt. Für die omnidirektionale Kamera wurde ein automatischer Weißabgleich entwickelt, der die Hautfarbdetektion unempfindlich gegen Änderungen der Chrominanz der Beleuchtung macht.
Nach Auswahl einer Nutzerhypothese wird der Kopf des Roboters kontinuierlich in die entsprechende Richtung ausgerichtet. Damit erhält der Nutzer zum einen eine Rückmeldung über die gerichtete Aufmerksamkeit des Roboters während der Interaktion. Zum anderen kann der Roboter hochaufgelöste Bilder der Person aufnehmen, so dass eine weitere nachfolgende Analyse ermöglicht wird. Diese ist wiederum in zwei Teilschritte unterteilt. Der erste Schritt besteht aus einer Detektion des Gesichtes und einer anschließenden Detektion der Augen, anhand derer eine normalisierte Darstellung des Gesichtes erzeugt wird. Für den Analyseschritt wurden das Elastic-Graph-Matching, die Independent Component Analysis und die Active-Appearance Models implementiert und vergleichend untersucht. Unter Berücksichtigung der Anforderungen einer Geschlechts-, Alters-, Mimik- und Identitätsschätzung wurde hierfür eine umfassende Gesichtsdatenbank zum Training und zum Test der Verfahren angelegt. Die Leistungsfähigkeit des Gesamtsystems wurde schließlich anhand von empirischen Experimenten demonstriert