3 research outputs found

    Videobasierte Verfahren zur Schätzung des Interaktionsinteresses bei der Mensch-Roboter-Interaktion mittels Analyse durch Synthese

    Get PDF
    To realize the operation of mobile service robots in everyday life, it isnecessary to develop intelligent and adaptive dialog systems. Such dialogsystems must be designed in a way that allows an easy and intuitive operationeven for untrained users.For that purpose, it is necessary to detect the mood and intentions of a user.In this thesis, methods for the detection and estimation of the attentionand/or interaction interest of a user of a mobile service robot will bedeveloped and presented. For this purpose, three subsystems are presented: the estimation of theorientation of the upper body, the estimation of the head pose, and theanalysis of the facial expression of a user.Each subsystem is realized by using an Analysis by Synthesis approach.More precisely, Active Shape Models and Active Appearance Modelsare utilized within the three subsystems.Furthermore, different classification and function approximation systems willbe applied to estimate the different features. For that, different methodslike linear regression, Multi Layer Perceptrons, Support Vector Machines,and Self-organizing Maps will be compared.This thesis shows that it is possible to estimate the requested featuresin a sufficient quality and robustness by using the proposed subsystems.Hence it is possible, to estimate the attention and interaction interestby using the upper body orientation, the head pose and the facial expression.Each subsystem was tested with different data sets. Besides own data basesalso foreign data sets were utilized to show the robustness and to measurethe detection rates of the proposed methods.Additionally, this thesis shows, that a selection of the relevant modelparameters leads to better results or at least to equal results, whichcan be achieved by easier classifiers. For this parameter selection theMutal Information is applied in this thesis. Furthermore, an overall system, which integrates the results of the differentsubsystems, is presented in this thesis. The fusion of the results isrealized by using methods from the domain of probabilistic robotics.Based on some easy experiments (performed by briefed subjects) it is shown,that all subsystems can deliver feasible results, which can be integratedin an overall estimation of the attention and/or interaction interest ofa user. Thus, the work presented in this thesis can be used for furthersocioscientific experiments, which are not part of this thesis.Um den Einsatz von mobilen Servicerobotern im Alltag zu realisieren, istes notwendig, intelligente und adaptive Dialogsysteme zu entwickeln, die es auch einem nicht-eingewiesenen Benutzer erlauben, einen Serviceroboter intuitiv bedienen und nutzen zu können. Dazu ist es erforderlich, die Stimmung und den Gemütszustand des Benutzers zu erfassen, um entsprechend darauf reagieren zu können. Im Rahmen dieser Dissertation werden Methoden entwickelt und vorgestellt, die als Indikatoren zur Schätzung des Interaktionsinteresses (bzw. der Aufmerksamkeit) eines Benutzers auf einem mobilen Serviceroboter unter Realweltbedingungen verwendet werden können.Hierfür werden drei Teilsysteme präsentiert, die die Orientierung des Oberkörpers, die Blickrichtung und die Mimik des Benutzers schätzen können. Alle drei Teilsysteme werden mittels Analysis-by-Synthesis Verfahren realisiert. Dabei kommen Active Shape Models und Active Appearance Modelszum Einsatz. Zur anschließenden Klassifikation bzw. Schätzung der gesuchten Merkmale werden u.a. Verfahren der linearen Regression, Multi Layer Perceptrons, Support Vector Machines und Self-organizing Maps miteinander verglichen. Es wird gezeigt, dass es mit den drei Teilsystemen möglich ist, die gesuchten Informationen zu bestimmen und damit Indizien für Interesse und Aufmerksamkeit gewonnen werden können. Die Tests wurden dabei jeweils mit bekanntem und unbekanntem Datenmaterial durchgeführt. Zusätzlich wird gezeigt, dass eine Vorauswahl relevanter Parameter auf Basis der Mutual Information zu besseren Ergebnissen führt bzw. gleich gute Ergebnisse mittels einfacherer Klassifikatoren erreicht werden können. Weiterhin wird ein Gesamtsystem vorgestellt, in dem alle drei Teilsysteme miteinander kombiniert werden. Zur Schätzung von Interesse und Aufmerksamkeit kommen dabei Methoden aus der probabilistischen Robotik zum Einsatz. Anhand durchgeführter Experimente mit eingewiesenen Probanden wird gezeigt, dass die Ergebnisse der drei Teilmodule plausibel sind und die Resultate zur Schätzung von Interesse und Aufmerksamkeit verwendet werden können. Das prototypische Gesamtsystem kann daher als Grundlage und Basis fürzukünftige sozialwissenschaftliche Untersuchungen zur Bestimmung des Interaktionsinteresses genutzt werden, die nicht Bestandteil dieser Dissertation sind

    Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicrobotern

    Get PDF
    Methods of vision-based User Perception for a natural Interaction with mobile Service Robots In man-machine communication, particularly in the field of service robotics, the perception of the user is often constricted to people detection and tracking. This is in strong contrast to communication between people, where social information like gender, age, identity and facial expression is essential. The assumption of this thesis is that an improved perception of the user's state is necessary for future service robots to be successfully deployed in human centered service tasks. The example application is a service robot helping customers in a home store to find the desired products. During interaction, the robot should show a certain degree of social competence, e.g. by detecting persons and establishing and keeping eye contact. Furthermore, it should be able to build user models, identify known users robustly and estimate their affections by determining gender, age, identity and facial expression from video images. To realize this functionality, a biologically motivated separation into a peripheral and a foveal vision system is proposed. The former uses images of an omnidirectional camera with a large field of view but relatively low resolution to generate hypotheses of the position of potential users in the surroundings of the robot. Therefore, skin color and movement as well as the measurements of sonar sensors are integrated into a saliency map. Salient structures are tracked by a multi target tracking system based on the CONDENSATION algorithm. To realize a skin color detection which is insensitive to changes of the illumination chrominance, an automatic white balance algorithm was developed which takes advantage of the special geometry of the omnidirectional objective. After selecting a hypothesis, the head of the robot is continously directed in its direction. In this way, the user receives a feedback signal of the robots attention, while the robot is able to capture high resolution images of the users face suitable for a further two step analysis. The first step produces a normalized view of the users face by detecting the face and the eyes and applying affine image transformations. For the analysis itself, three methods were implemented and tested: Elastic Graph Matching, Independent Component Analysis and Active Appearance Models. With respect to the estimation of gender, age, facial expression and identity a comprehensive face image database was recorded for training and testing the different methods. The efficiency of the integrated system was demonstrated by empirical experiments.Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern Im Gegensatz zur zwischenmenschlichen Kommunikation, bei der die Beziehungsebene im Vergleich zur Sachebene den weitaus größeren Anteil einnimmt, wird diese bei der Mensch-Roboter-Interaktion bislang nur in Ansätzen berücksichtigt. Insbesondere die Nutzerwahrnehmung bleibt in der Regel auf eine reine Personendetektion oder ein einfaches Personen-Tracking beschränkt. Vor diesem Hintergrund wurde eine verbesserte Wahrnehmung des aktuellen Zustandes des Nutzers als Voraussetzung für eine Personalisierung des Dialogs als Zielstellung dieser Arbeit abgeleitet. Beim exemplarischen Anwendungsszenario handelt es sich um einen Shopping-Assistenten, der in einem Baumarkt den Kunden bei der Suche nach Produkten behilflich ist. Dieser sollte zumindest einen gewissen Grad an sozialer Kompetenz zeigen, indem er z.B. Personen in seiner Umgebung detektiert und während der Interaktion kontinuierlich Blickkontakt hält. Um Nutzermodelle erstellen, kurzzeitig verlorene Nutzer wiedererkennen und den Gemütszustand des Nutzers abschätzen zu können, sollen Geschlecht, Alter, Identität und Gesichtsausdruck des Nutzers aus einem Videobild ermittelt werden. Für die Realisierung dieser Aufgabe wurde eine biologisch motivierte Aufteilung in ein peripheres und ein foveales Vision-System vorgeschlagen. Das periphere System arbeitet auf den Bildern einer omnidirektionalen Kamera und verfügt damit über einen sehr großen Sichtbereich, aber nur eine vergleichsweise geringe Auflösung. In diesem System werden zunächst Hypothesen über die Position von Personen im Umfeld des Roboters gebildet. Dafür werden Hautfarbe, Bewegung und Entfernung in einer Auffälligkeitskarte integriert und auffällige Bildbereiche mittels eines Multi-Target-Trackers verfolgt. Für die omnidirektionale Kamera wurde ein automatischer Weißabgleich entwickelt, der die Hautfarbdetektion unempfindlich gegen Änderungen der Chrominanz der Beleuchtung macht. Nach Auswahl einer Nutzerhypothese wird der Kopf des Roboters kontinuierlich in die entsprechende Richtung ausgerichtet. Damit erhält der Nutzer zum einen eine Rückmeldung über die gerichtete Aufmerksamkeit des Roboters während der Interaktion. Zum anderen kann der Roboter hochaufgelöste Bilder der Person aufnehmen, so dass eine weitere nachfolgende Analyse ermöglicht wird. Diese ist wiederum in zwei Teilschritte unterteilt. Der erste Schritt besteht aus einer Detektion des Gesichtes und einer anschließenden Detektion der Augen, anhand derer eine normalisierte Darstellung des Gesichtes erzeugt wird. Für den Analyseschritt wurden das Elastic-Graph-Matching, die Independent Component Analysis und die Active-Appearance Models implementiert und vergleichend untersucht. Unter Berücksichtigung der Anforderungen einer Geschlechts-, Alters-, Mimik- und Identitätsschätzung wurde hierfür eine umfassende Gesichtsdatenbank zum Training und zum Test der Verfahren angelegt. Die Leistungsfähigkeit des Gesamtsystems wurde schließlich anhand von empirischen Experimenten demonstriert
    corecore