6 research outputs found

    Stereo Vision Tracking of Multiple Objects in Complex Indoor Environments

    Get PDF
    This paper presents a novel system capable of solving the problem of tracking multiple targets in a crowded, complex and dynamic indoor environment, like those typical of mobile robot applications. The proposed solution is based on a stereo vision set in the acquisition step and a probabilistic algorithm in the obstacles position estimation process. The system obtains 3D position and speed information related to each object in the robot’s environment; then it achieves a classification between building elements (ceiling, walls, columns and so on) and the rest of items in robot surroundings. All objects in robot surroundings, both dynamic and static, are considered to be obstacles but the structure of the environment itself. A combination of a Bayesian algorithm and a deterministic clustering process is used in order to obtain a multimodal representation of speed and position of detected obstacles. Performance of the final system has been tested against state of the art proposals; test results validate the authors’ proposal. The designed algorithms and procedures provide a solution to those applications where similar multimodal data structures are found

    Exploring Motion Signatures for Vision-Based Tracking, Recognition and Navigation

    Get PDF
    As cameras become more and more popular in intelligent systems, algorithms and systems for understanding video data become more and more important. There is a broad range of applications, including object detection, tracking, scene understanding, and robot navigation. Besides the stationary information, video data contains rich motion information of the environment. Biological visual systems, like human and animal eyes, are very sensitive to the motion information. This inspires active research on vision-based motion analysis in recent years. The main focus of motion analysis has been on low level motion representations of pixels and image regions. However, the motion signatures can benefit a broader range of applications if further in-depth analysis techniques are developed. In this dissertation, we mainly discuss how to exploit motion signatures to solve problems in two applications: object recognition and robot navigation. First, we use bird species recognition as the application to explore motion signatures for object recognition. We begin with study of the periodic wingbeat motion of flying birds. To analyze the wing motion of a flying bird, we establish kinematics models for bird wings, and obtain wingbeat periodicity in image frames after the perspective projection. Time series of salient extremities on bird images are extracted, and the wingbeat frequency is acquired for species classification. Physical experiments show that the frequency based recognition method is robust to segmentation errors and measurement lost up to 30%. In addition to the wing motion, the body motion of the bird is also analyzed to extract the flying velocity in 3D space. An interacting multi-model approach is then designed to capture the combined object motion patterns and different environment conditions. The proposed systems and algorithms are tested in physical experiments, and the results show a false positive rate of around 20% with a low false negative rate close to zero. Second, we explore motion signatures for vision-based vehicle navigation. We discover that motion vectors (MVs) encoded in Moving Picture Experts Group (MPEG) videos provide rich information of the motion in the environment, which can be used to reconstruct the vehicle ego-motion and the structure of the scene. However, MVs suffer from high noise level. To handle the challenge, an error propagation model for MVs is first proposed. Several steps, including MV merging, plane-at-infinity elimination, and planar region extraction, are designed to further reduce noises. The extracted planes are used as landmarks in an extended Kalman filter (EKF) for simultaneous localization and mapping. Results show that the algorithm performs localization and plane mapping with a relative trajectory error below 5:1%. Exploiting the fact that MVs encodes both environment information and moving obstacles, we further propose to track moving objects at the same time of localization and mapping. This enables the two critical navigation functionalities, localization and obstacle avoidance, to be performed in a single framework. MVs are labeled as stationary or moving according to their consistency to geometric constraints. Therefore, the extracted planes are separated into moving objects and the stationary scene. Multiple EKFs are used to track the static scene and the moving objects simultaneously. In physical experiments, we show a detection rate of moving objects at 96:6% and a mean absolute localization error below 3:5 meters

    Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicrobotern

    Get PDF
    Methods of vision-based User Perception for a natural Interaction with mobile Service Robots In man-machine communication, particularly in the field of service robotics, the perception of the user is often constricted to people detection and tracking. This is in strong contrast to communication between people, where social information like gender, age, identity and facial expression is essential. The assumption of this thesis is that an improved perception of the user's state is necessary for future service robots to be successfully deployed in human centered service tasks. The example application is a service robot helping customers in a home store to find the desired products. During interaction, the robot should show a certain degree of social competence, e.g. by detecting persons and establishing and keeping eye contact. Furthermore, it should be able to build user models, identify known users robustly and estimate their affections by determining gender, age, identity and facial expression from video images. To realize this functionality, a biologically motivated separation into a peripheral and a foveal vision system is proposed. The former uses images of an omnidirectional camera with a large field of view but relatively low resolution to generate hypotheses of the position of potential users in the surroundings of the robot. Therefore, skin color and movement as well as the measurements of sonar sensors are integrated into a saliency map. Salient structures are tracked by a multi target tracking system based on the CONDENSATION algorithm. To realize a skin color detection which is insensitive to changes of the illumination chrominance, an automatic white balance algorithm was developed which takes advantage of the special geometry of the omnidirectional objective. After selecting a hypothesis, the head of the robot is continously directed in its direction. In this way, the user receives a feedback signal of the robots attention, while the robot is able to capture high resolution images of the users face suitable for a further two step analysis. The first step produces a normalized view of the users face by detecting the face and the eyes and applying affine image transformations. For the analysis itself, three methods were implemented and tested: Elastic Graph Matching, Independent Component Analysis and Active Appearance Models. With respect to the estimation of gender, age, facial expression and identity a comprehensive face image database was recorded for training and testing the different methods. The efficiency of the integrated system was demonstrated by empirical experiments.Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern Im Gegensatz zur zwischenmenschlichen Kommunikation, bei der die Beziehungsebene im Vergleich zur Sachebene den weitaus größeren Anteil einnimmt, wird diese bei der Mensch-Roboter-Interaktion bislang nur in Ansätzen berücksichtigt. Insbesondere die Nutzerwahrnehmung bleibt in der Regel auf eine reine Personendetektion oder ein einfaches Personen-Tracking beschränkt. Vor diesem Hintergrund wurde eine verbesserte Wahrnehmung des aktuellen Zustandes des Nutzers als Voraussetzung für eine Personalisierung des Dialogs als Zielstellung dieser Arbeit abgeleitet. Beim exemplarischen Anwendungsszenario handelt es sich um einen Shopping-Assistenten, der in einem Baumarkt den Kunden bei der Suche nach Produkten behilflich ist. Dieser sollte zumindest einen gewissen Grad an sozialer Kompetenz zeigen, indem er z.B. Personen in seiner Umgebung detektiert und während der Interaktion kontinuierlich Blickkontakt hält. Um Nutzermodelle erstellen, kurzzeitig verlorene Nutzer wiedererkennen und den Gemütszustand des Nutzers abschätzen zu können, sollen Geschlecht, Alter, Identität und Gesichtsausdruck des Nutzers aus einem Videobild ermittelt werden. Für die Realisierung dieser Aufgabe wurde eine biologisch motivierte Aufteilung in ein peripheres und ein foveales Vision-System vorgeschlagen. Das periphere System arbeitet auf den Bildern einer omnidirektionalen Kamera und verfügt damit über einen sehr großen Sichtbereich, aber nur eine vergleichsweise geringe Auflösung. In diesem System werden zunächst Hypothesen über die Position von Personen im Umfeld des Roboters gebildet. Dafür werden Hautfarbe, Bewegung und Entfernung in einer Auffälligkeitskarte integriert und auffällige Bildbereiche mittels eines Multi-Target-Trackers verfolgt. Für die omnidirektionale Kamera wurde ein automatischer Weißabgleich entwickelt, der die Hautfarbdetektion unempfindlich gegen Änderungen der Chrominanz der Beleuchtung macht. Nach Auswahl einer Nutzerhypothese wird der Kopf des Roboters kontinuierlich in die entsprechende Richtung ausgerichtet. Damit erhält der Nutzer zum einen eine Rückmeldung über die gerichtete Aufmerksamkeit des Roboters während der Interaktion. Zum anderen kann der Roboter hochaufgelöste Bilder der Person aufnehmen, so dass eine weitere nachfolgende Analyse ermöglicht wird. Diese ist wiederum in zwei Teilschritte unterteilt. Der erste Schritt besteht aus einer Detektion des Gesichtes und einer anschließenden Detektion der Augen, anhand derer eine normalisierte Darstellung des Gesichtes erzeugt wird. Für den Analyseschritt wurden das Elastic-Graph-Matching, die Independent Component Analysis und die Active-Appearance Models implementiert und vergleichend untersucht. Unter Berücksichtigung der Anforderungen einer Geschlechts-, Alters-, Mimik- und Identitätsschätzung wurde hierfür eine umfassende Gesichtsdatenbank zum Training und zum Test der Verfahren angelegt. Die Leistungsfähigkeit des Gesamtsystems wurde schließlich anhand von empirischen Experimenten demonstriert

    Seguimiento de múltiples objetos en entornos interiores muy poblados basado en la combinación de métodos probabilísticos y determinísticos

    Get PDF
    La presente tesis se encuentra enmarcada dentro del área de la robótica personal y de servicios. Es éste un área de investigación que ha tomado gran relevancia en las últimas dos décadas gracias a los continuos avances de la tecnología y su inserción en la vida diaria de la sociedad moderna. Dentro de este contexto, en la tesis se propone un nuevo algoritmo para el seguimiento de múltiples objetos ("multiple target tracking", MTT abreviadamente), concebido para su uso en entornos interiores complejos. El proceso de MTT diseñado, proporciona información completa sobre los diferentes objetos detectados en cada momento en el entorno del robot, indicando el número, posición, velocidad, camino recorrido e identidad de los mismos. Esta información es obtenida por el algoritmo de seguimiento a partir de los datos recogidos por el sistema de observación de entrada al sistema. La solución propuesta cumple todas las especificaciones establecidas por el comportamiento deseado para el seguidor: ha de tener en cuenta la incertidumbre de los modelos de estado y medida de los objetos bajo seguimiento; ha de ser flexible al uso de distintos tipos de sensores ha de poder adaptarse al tipo de información de entrada al algoritmo que proporcione el sistema (visión, ultrasonidos, infrarrojo, radio frecuencia, etc.) que conformen el sistema de observación empleado; debe ser capaz de seguir los diferentes tipos de objetos que el robot pueda encontrar en su movimiento por el entorno, independientemente de la dinámica o la forma de estos objetos; finalmente, tiene que alcanzar el nivel de robustez y fiabilidad que requiere la aplicación de robótica personal en la que se enmarca, en la cual la seguridad del propio robot y de los objetos seguidos (generalmente personas u otros robots) es una especificación básica. Para poder cumplir todas las especificaciones necesarias, el algoritmo de seguimiento diseñado en esta tesis adopta como mejor solución la combinación de métodos probabilísticos y determinísticos. De este modo, se propone un filtro de partículas como núcleo de estimación del algoritmo de seguimiento, al cual se le incorporan dos procesos de clasificación que actúan, respectivamente, como algoritmo de asociación y filtro de salida. Esta combinación da lugar al "Filtro de Partículas Extendido con Proceso de Clasificación" ("Extended Particle Filter with Clustering Process", XPFCP), nombre con el que se identifica el algoritmo propuesto por la autora para el seguimiento de múltiples objetos en entornos interiores muy poblados. El filtro de partículas permite modelar múltiples estados en una única distribución multimodal; su flexibilidad lo hace idóneo para su aplicación con distintos tipos de modelos de estado y observación. Tales características convierten a esta versión del filtro de Bayes en la más adecuada para realizar el seguimiento de múltiples objetos, con la prestación adicional de poder realizar tal tarea de seguimiento con un coste computacional prácticamente constante. La idea de usar el filtro de partículas como estimador multimodal en aplicaciones de seguimiento ya ha sido propuesta en varios trabajos previos de investigación, pero la falta de robustez del sistema así obtenido ha llevado en todos los casos a descartar estas soluciones. Esta tesis propone y demuestra que la incorporación de una parte determinística en el algoritmo de seguimiento basado en filtro de partículas añade la robustez que el estimador multimodal requiere. En el presente documento, se incluye una profunda revisión (sobre algoritmos y resultados) de los trabajos llevados a cabo por la comunidad científica en esta misma línea de investigación. Además, se muestra también un estudio exhaustivo del comportamiento del sistema de seguimiento propuesto en situaciones complejas en términos de robustez, fiabilidad, eficiencia y tiempo de ejecución. Finalmente, se realiza la comparación de la solución diseñada por la autora con dos de los algoritmos más conocidos y usados por la comunidad científica en tareas de seguimiento similares: el "Filtro de Asociación Conjunta de Datos" o "Joint Probabilistic Data Association Filter", en su versión continua (JPDAF) y muestreada (SJPDAF). Estas comparativas permiten contrastar y validar la contribución de la presente tesis en esta área de investigación
    corecore