1,140 research outputs found

    Towards gestural understanding for intelligent robots

    Get PDF
    Fritsch JN. Towards gestural understanding for intelligent robots. Bielefeld: Universität Bielefeld; 2012.A strong driving force of scientific progress in the technical sciences is the quest for systems that assist humans in their daily life and make their life easier and more enjoyable. Nowadays smartphones are probably the most typical instances of such systems. Another class of systems that is getting increasing attention are intelligent robots. Instead of offering a smartphone touch screen to select actions, these systems are intended to offer a more natural human-machine interface to their users. Out of the large range of actions performed by humans, gestures performed with the hands play a very important role especially when humans interact with their direct surrounding like, e.g., pointing to an object or manipulating it. Consequently, a robot has to understand such gestures to offer an intuitive interface. Gestural understanding is, therefore, a key capability on the way to intelligent robots. This book deals with vision-based approaches for gestural understanding. Over the past two decades, this has been an intensive field of research which has resulted in a variety of algorithms to analyze human hand motions. Following a categorization of different gesture types and a review of other sensing techniques, the design of vision systems that achieve hand gesture understanding for intelligent robots is analyzed. For each of the individual algorithmic steps – hand detection, hand tracking, and trajectory-based gesture recognition – a separate Chapter introduces common techniques and algorithms and provides example methods. The resulting recognition algorithms are considering gestures in isolation and are often not sufficient for interacting with a robot who can only understand such gestures when incorporating the context like, e.g., what object was pointed at or manipulated. Going beyond a purely trajectory-based gesture recognition by incorporating context is an important prerequisite to achieve gesture understanding and is addressed explicitly in a separate Chapter of this book. Two types of context, user-provided context and situational context, are reviewed and existing approaches to incorporate context for gestural understanding are reviewed. Example approaches for both context types provide a deeper algorithmic insight into this field of research. An overview of recent robots capable of gesture recognition and understanding summarizes the currently realized human-robot interaction quality. The approaches for gesture understanding covered in this book are manually designed while humans learn to recognize gestures automatically during growing up. Promising research targeted at analyzing developmental learning in children in order to mimic this capability in technical systems is highlighted in the last Chapter completing this book as this research direction may be highly influential for creating future gesture understanding systems

    Visual SLAM and scale estimation from omnidirectional wearable vision

    Get PDF
    La resolución del problema de Localización y Mapeado Simultáneos (SLAM) con sistemas de visión permite reconstruir un mapa del entorno a partir de medidas extraídas de imágenes y, al mismo tiempo, estimar la trayectoria u odometría visual de la cámara. En los último años el SLAM visual ha sido uno de los problemas más tratados en el campo de la visión por computador y ha sido abordado tanto con sistemas estéreo como monoculares. Los sistemas estéreo tienen la característica de que conocida la distancia entre las cámaras se pueden triangular los puntos observados y por lo tanto, es posible obtener una estimación tridimensional completa de la posición de los mismos. Por el contrario, los sistemas monoculares, al no poderse medir la profundidad a partir de una sola imagen, permiten solamente una reconstrucción tridimensional con una ambigüedad en la escala. Además, como es frecuente en la resolución del problema de SLAM, el uso de filtros probabilísticos que procesan las imágenes de forma secuencial, da lugar a otro problema más alla de una ambigüedad de escala. Se trata de la existencia de una deriva en la escala que hace que esta no sea constate durante en toda la reconstrucción, y que da lugar a una deformación gradual en la reconstrucción final a medida que el mapa crece. Dado el interés en el uso de dichos sensores por su bajo coste, su universalidad y su facilidad de calibración existen varios trabajos que proponen resolver dicho problema; bien utilizando otros sensores de bajo coste como IMUs, o sensores de odometría disponibles en los vehículos con ruedas; bien sin necesidad de sensores adicionales a partir de algún tipo de medida conocida a priori como la distancia de la cámara al suelo o al eje de rotación del vehículo. De entre los trabajos mencionados, la mayoría se centran en cámaras acopladas a vehículos con ruedas. Las técnicas descritas en los mismos son dificilmente aplicables a una cámara llevada por una persona, debido en primer lugar a la imposibilidad de obtener medidas de odometría, y en segundo lugar, por el modelo más complejo de movimiento. En este TFM se recoge y se amplia el trabajo presentado en el artículo ``Full Scaled 3D Visual Odometry From a Single Wearable Omnidirectional Camera'' enviado y aceptado para su publicación en el próximo ``IEEE International Conference on Intelligent Robots and Sytems (IROS)''. En él se presenta un algoritmo para estimar la escala real de la odometría visual de una persona a partir de la estimación SLAM obtenida con una cámara omnidireccional catadióptrica portable y sin necesidad de usar sensores adicionales. La información a priori para la estimación en la escala viene dada por una ley empírica que relaciona directamente la velocidad al caminar con la frecuencia de paso o, dicho de otra forma equivalente, define la longitud de zancada como una función de la frecuencia de paso. Dicha ley está justificada en una tendencia de la persona a elegir una frecuencia de paso que minimiza el coste metabólico para una velocidad dada. La trayectoria obtenida por SLAM se divide en secciones, calculándose un factor de escala en cada sección. Para estimar dicho factor de escala, en primer lugar se estima la frecuencia de paso mediante análisis espectral de la señal correspondiente a la componente zz de los estados de la cámara de la sección actual. En segundo lugar se calcula la velocidad de paso mediante la relación empírica descrita anteriormente. Esta medida de velocidad real, así como el promedio de la velocidad absoluta de los estados contenidos en la sección, se incluyen dentro de un filtro de partículas para el cálculo final del factor de escala. Dicho factor de escala se aplica a la correspondiente sección mediante una fórmula recursiva que asegura la continuidad en posición y velocidad. Sobre este algoritmo básico se han introducido mejoras para disminuir el retraso entre la actualización de secciones de la trayectoria, así como para ser capaces de descartar medidas erróneas de la frecuencia de paso y detectar zonas o situaciones, como la presencia de escaleras, donde el modelo empírico utilizado para estimar la velocidad de paso no sería aplicable. Además, dado que inicialmente se implementó el algoritmo en MATLAB, aplicándose offline a la estimación de trayectoria completa desde la aplicación SLAM, se ha realizado también su implementación en C++ como un módulo dentro de esta aplicación para trabajar en tiempo real conjuntamente con el algoritmo de SLAM principal. Los experimentos se han llevado a cabo con secuencias tomadas tanto en exteriores como en interiores dentro del Campus Río Ebro de la Universida dde Zaragoza. En ellos se compara la estimación de la trayectoria a escala real obtenida mediante nuestro método con el Ground Truth obtenido de las imágenes por satélite de Google Maps. Los resultados de los experimentos muestran que se llega a alcanzar un error medio de hasta menos de 2 metros a lo largo de recorridos de 232 metros. Además se aprecia como es capaz de corregir una deriva de escala considerable en la estimación inicial de la trayectoria sin escalar. El trabajo realizado en el presente TFM utiliza el realizado durante mi Proyecto de Fin de Carrera, "Localización por Visión Omnidireccional para Asistencia Personal", con una beca de Iniciación a la Investigación del I3A y defendido en septiembre de 2011. En dicho proyecto se adaptó una completa aplicación C++ de SLAM en tiempo real con cámaras convencionales para ser usada con cámaras omnidireccionales de tipo catadióptrico. Para ello se realizaron modificaciones sobre dos aspectos básicos: el modelo de proyección y las transformaciones aplicadas a los descriptores de los puntos característicos. Fruto de ese trabajo se realizó una publicación, "Adapting a Real-Time Monocular Visual SLAM from Conventional to Omnidirectional Cameras" en el ``11th OMNIVIS'' celebrado dentro del ICCV 2011

    Laban Movement Analysis Using a Bayesian Model and Perspective Projections

    Get PDF
    Human body movements are meant to move a, or some, body parts to a specific location along a certain trajectory. A person observing the movement might be able to recognize it through the spatial pathway alone. Kendon (Kendon, 2004) holds the view that willingly or not, humans, when in co-presence, continuously inform one another about their intentions

    A Hybrid Visual Control Scheme to Assist the Visually Impaired with Guided Reaching Tasks

    Get PDF
    In recent years, numerous researchers have been working towards adapting technology developed for robotic control to use in the creation of high-technology assistive devices for the visually impaired. These types of devices have been proven to help visually impaired people live with a greater degree of confidence and independence. However, most prior work has focused primarily on a single problem from mobile robotics, namely navigation in an unknown environment. In this work we address the issue of the design and performance of an assistive device application to aid the visually-impaired with a guided reaching task. The device follows an eye-in-hand, IBLM visual servoing configuration with a single camera and vibrotactile feedback to the user to direct guided tracking during the reaching task. We present a model for the system that employs a hybrid control scheme based on a Discrete Event System (DES) approach. This approach avoids significant problems inherent in the competing classical control or conventional visual servoing models for upper limb movement found in the literature. The proposed hybrid model parameterizes the partitioning of the image state-space that produces a variable size targeting window for compensatory tracking in the reaching task. The partitioning is created through the positioning of hypersurface boundaries within the state space, which when crossed trigger events that cause DES-controller state transition that enable differing control laws. A set of metrics encompassing, accuracy (DD), precision (θe\theta_{e}), and overall tracking performance (ψ\psi) are also proposed to quantity system performance so that the effect of parameter variations and alternate controller configurations can be compared. To this end, a prototype called \texttt{aiReach} was constructed and experiments were conducted testing the functional use of the system and other supporting aspects of the system behaviour using participant volunteers. Results are presented validating the system design and demonstrating effective use of a two parameter partitioning scheme that utilizes a targeting window with additional hysteresis region to filtering perturbations due to natural proprioceptive limitations for precise control of upper limb movement. Results from the experiments show that accuracy performance increased with the use of the dual parameter hysteresis target window model (0.91D10.91 \leq D \leq 1, μ(D)=0.9644\mu(D)=0.9644, σ(D)=0.0172\sigma(D)=0.0172) over the single parameter fixed window model (0.82D0.980.82 \leq D \leq 0.98, μ(D)=0.9205\mu(D)=0.9205, σ(D)=0.0297\sigma(D)=0.0297) while the precision metric, θe\theta_{e}, remained relatively unchanged. In addition, the overall tracking performance metric produces scores which correctly rank the performance of the guided reaching tasks form most difficult to easiest

    Modeling the environment with egocentric vision systems

    Get PDF
    Cada vez más sistemas autónomos, ya sean robots o sistemas de asistencia, están presentes en nuestro día a día. Este tipo de sistemas interactúan y se relacionan con su entorno y para ello necesitan un modelo de dicho entorno. En función de las tareas que deben realizar, la información o el detalle necesario del modelo varía. Desde detallados modelos 3D para sistemas de navegación autónomos, a modelos semánticos que incluyen información importante para el usuario como el tipo de área o qué objetos están presentes. La creación de estos modelos se realiza a través de las lecturas de los distintos sensores disponibles en el sistema. Actualmente, gracias a su pequeño tamaño, bajo precio y la gran información que son capaces de capturar, las cámaras son sensores incluidos en todos los sistemas autónomos. El objetivo de esta tesis es el desarrollar y estudiar nuevos métodos para la creación de modelos del entorno a distintos niveles semánticos y con distintos niveles de precisión. Dos puntos importantes caracterizan el trabajo desarrollado en esta tesis: - El uso de cámaras con punto de vista egocéntrico o en primera persona ya sea en un robot o en un sistema portado por el usuario (wearable). En este tipo de sistemas, las cámaras son solidarias al sistema móvil sobre el que van montadas. En los últimos años han aparecido muchos sistemas de visión wearables, utilizados para multitud de aplicaciones, desde ocio hasta asistencia de personas. - El uso de sistemas de visión omnidireccional, que se distinguen por su gran campo de visión, incluyendo mucha más información en cada imagen que las cámara convencionales. Sin embargo plantean nuevas dificultades debido a distorsiones y modelos de proyección más complejos. Esta tesis estudia distintos tipos de modelos del entorno: - Modelos métricos: el objetivo de estos modelos es crear representaciones detalladas del entorno en las que localizar con precisión el sistema autónomo. Ésta tesis se centra en la adaptación de estos modelos al uso de visión omnidireccional, lo que permite capturar más información en cada imagen y mejorar los resultados en la localización. - Modelos topológicos: estos modelos estructuran el entorno en nodos conectados por arcos. Esta representación tiene menos precisión que la métrica, sin embargo, presenta un nivel de abstracción mayor y puede modelar el entorno con más riqueza. %, por ejemplo incluyendo el tipo de área de cada nodo, la localización de objetos importantes o el tipo de conexión entre los distintos nodos. Esta tesis se centra en la creación de modelos topológicos con información adicional sobre el tipo de área de cada nodo y conexión (pasillo, habitación, puertas, escaleras...). - Modelos semánticos: este trabajo también contribuye en la creación de nuevos modelos semánticos, más enfocados a la creación de modelos para aplicaciones en las que el sistema interactúa o asiste a una persona. Este tipo de modelos representan el entorno a través de conceptos cercanos a los usados por las personas. En particular, esta tesis desarrolla técnicas para obtener y propagar información semántica del entorno en secuencias de imágen

    A Large Scale Inertial Aided Visual Simultaneous Localization And Mapping (SLAM) System For Small Mobile Platforms

    Get PDF
    In this dissertation we present a robust simultaneous mapping and localization scheme that can be deployed on a computationally limited, small unmanned aerial system. This is achieved by developing a key frame based algorithm that leverages the multiprocessing capacity of modern low power mobile processors. The novelty of the algorithm lies in the design to make it robust against rapid exploration while keeping the computational time to a minimum. A novel algorithm is developed where the time critical components of the localization and mapping system are computed in parallel utilizing the multiple cores of the processor. The algorithm uses a scale and rotation invariant state of the art binary descriptor for landmark description making it suitable for compact large scale map representation and robust tracking. This descriptor is also used in loop closure detection making the algorithm efficient by eliminating any need for separate descriptors in a Bag of Words scheme. Effectiveness of the algorithm is demonstrated by performance evaluation in indoor and large scale outdoor dataset. We demonstrate the efficiency and robustness of the algorithm by successful six degree of freedom (6 DOF) pose estimation in challenging indoor and outdoor environment. Performance of the algorithm is validated on a quadcopter with onboard computation

    Autonomous aerial robot for high-speed search and intercept applications

    Get PDF
    In recent years, high-speed navigation and environment interaction in the context of aerial robotics has become a field of interest for several academic and industrial research studies. In particular, Search and Intercept (SaI) applications for aerial robots pose a compelling research area due to their potential usability in several environments. Nevertheless, SaI tasks involve a challenging development regarding sensory weight, onboard computation resources, actuation design, and algorithms for perception and control, among others. In this work, a fully autonomous aerial robot for high-speed object grasping has been proposed. As an additional subtask, our system is able to autonomously pierce balloons located in poles close to the surface. Our first contribution is the design of the aerial robot at an actuation and sensory level consisting of a novel gripper design with additional sensors enabling the robot to grasp objects at high speeds. The second contribution is a complete software framework consisting of perception, state estimation, motion planning, motion control, and mission control in order to rapidly and robustly perform the autonomous grasping mission. Our approach has been validated in a challenging international competition and has shown outstanding results, being able to autonomously search, follow, and grasp a moving object at 6 m/s in an outdoor environment.Agencia Estatal de InvestigaciónKhalifa Universit
    corecore