10 research outputs found

    Unifying terrain awareness for the visually impaired through real-time semantic segmentation.

    Get PDF
    Navigational assistance aims to help visually-impaired people to ambulate the environment safely and independently. This topic becomes challenging as it requires detecting a wide variety of scenes to provide higher level assistive awareness. Vision-based technologies with monocular detectors or depth sensors have sprung up within several years of research. These separate approaches have achieved remarkable results with relatively low processing time and have improved the mobility of impaired people to a large extent. However, running all detectors jointly increases the latency and burdens the computational resources. In this paper, we put forward seizing pixel-wise semantic segmentation to cover navigation-related perception needs in a unified way. This is critical not only for the terrain awareness regarding traversable areas, sidewalks, stairs and water hazards, but also for the avoidance of short-range obstacles, fast-approaching pedestrians and vehicles. The core of our unification proposal is a deep architecture, aimed at attaining efficient semantic understanding. We have integrated the approach in a wearable navigation system by incorporating robust depth segmentation. A comprehensive set of experiments prove the qualified accuracy over state-of-the-art methods while maintaining real-time speed. We also present a closed-loop field test involving real visually-impaired users, demonstrating the effectivity and versatility of the assistive framework

    Design, modeling and analysis of object localization through acoustical signals for cognitive electronic travel aid for blind people

    Full text link
    El objetivo de la tesis consiste en el estudio y análisis de la localización de objetos en el entorno real mediante sonidos, así como la posterior integración y ensayo de un dispositivo real basado en tal técnica y destinado a personas con discapacidad visual. Con el propósito de poder comprender y analizar la localización de objetos se ha realizado un profundo estado de arte sobre los Sistemas de Navegación desarrollados durante las últimas décadas y orientados a personas con distintos grados de discapacidad visual. En el citado estado del arte, se han analizado y estructurado los dispositivos de navegación existentes, clasificándolos de acuerdo con los componentes de adquisición de datos del entorno utilizados. A este respecto, hay que señalar que, hasta el momento, se conocen tres clases de dispositivos de navegación: 'detectores de obstáculos', que se basan en dispositivos de ultrasonidos y sensores instalados en los dispositivos electrónicos de navegación con el objetivo de detectar los objetos que aparecen en el área de trabajo del sistema; 'sensores del entorno' - que tienen como objetivo la detección del objeto y del usuario. Esta clase de dispositivos se instalan en las estaciones de autobús, metro, tren, pasos de peatones etc., de forma que cuando el sensor del usuario penetra en el área de alcance de los sensores instalados en la estación, éstos informan al usuario sobre la presencia de la misma. Asimismo, el sensor del usuario detecta también los medios de transporte que tienen instalado el correspondiente dispositivo basado en láser o ultrasonidos, ofreciendo al usuario información relativa a número de autobús, ruta etc La tercera clase de sistemas electrónicos de navegación son los 'dispositivos de navegación'. Estos elementos se basan en dispositivos GPS, indicando al usuario tanto su locación, como la ruta que debe seguir para llegar a su punto de destino. Tras la primera etapa de elaboración del estaDunai ., L. (2010). Design, modeling and analysis of object localization through acoustical signals for cognitive electronic travel aid for blind people [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/8441Palanci

    A Highly Accurate And Reliable Data Fusion Framework For Guiding The Visually Impaired

    Get PDF
    The world has approximately 285 million visually impaired (VI) people according to a report by the World Health Organization. Thirty-nine million people are estimated to be blind, whereas 246 million people are estimated to have impaired vision. An important factor that motivated this research is the fact that 90% of VI people live in developing countries. Several systems have been designed to improve the quality of the life of VI people and support the mobility of VI people. Unfortunately, none of these systems provides a complete solution for VI people, and the systems are very expensive. Therefore, this work presents an intelligent framework that includes several types of sensors embedded in a wearable device to support the visually impaired (VI) community. The proposed work is based on an integration of sensor-based and computer vision-based techniques in order to introduce an efficient and economical visual device. The designed algorithm is divided to two components: obstacle detection and collision avoidance. The system has been implemented and tested in real-time scenarios. A video dataset of 30 videos and an average of 700 frames per video was fed to the system for the testing purpose. The achieved 96.53% accuracy rate of the proposed sequence of techniques that are used for real-time detection component is based on a wide detection view that used two camera modules and a detection range of approximately 9 meters. The 98% accuracy rate was obtained for a larger dataset. However, the main contribution in this work is the proposed novel collision avoidance approach that is based on the image depth and fuzzy control rules. Through the use of x-y coordinate system, we were able to map the input frames, whereas each frame was divided into three areas vertically and further 1/3 of the height of that frame horizontally in order to specify the urgency of any existing obstacles within that frame. In addition, we were able to provide precise information to help the VI user in avoiding front obstacles using the fuzzy logic. The strength of this proposed approach is that it aids the VI users in avoiding 100% of all detected objects. Once the device is initialized, the VI user can confidently enter unfamiliar surroundings. Therefore, this implemented device can be described as accurate, reliable, friendly, light, and economically accessible that facilitates the mobility of VI people and does not require any previous knowledge of the surrounding environment. Finally, our proposed approach was compared with most efficient introduced techniques and proved to outperform them

    Ayuda técnica para la autonomía en el desplazamiento

    Get PDF
    The project developed in this thesis involves the design, implementation and evaluation of a new technical assistance aiming to ease the mobility of people with visual impairments. By using processing and sounds synthesis, the users can hear the sonification protocol (through bone conduction) informing them, after training, about the position and distance of the various obstacles that may be on their way, avoiding eventual accidents. In this project, surveys were conducted with experts in the field of rehabilitation, blindness and techniques of image processing and sound, which defined the user requirements that served as guideline for the design. The thesis consists of three self-contained blocks: (i) image processing, where 4 processing algorithms are proposed for stereo vision, (ii) sonification, which details the proposed sound transformation of visual information, and (iii) a final central chapter on integrating the above and sequentially evaluated in two versions or implementation modes (software and hardware). Both versions have been tested with both sighted and blind participants, obtaining qualitative and quantitative results, which define future improvements to the project. ---------------------------------------------------------------------------------------------------------------------------------------------El proyecto desarrollado en la presente tesis doctoral consiste en el diseño, implementación y evaluación de una nueva ayuda técnica orientada a facilitar la movilidad de personas con discapacidad visual. El sistema propuesto consiste en un procesador de estereovisión y un sintetizador de sonidos, mediante los cuales, las usuarias y los usuarios pueden escuchar un código de sonidos mediante transmisión ósea que les informa, previo entrenamiento, de la posición y distancia de los distintos obstáculos que pueda haber en su camino, evitando accidentes. En dicho proyecto, se han realizado encuestas a expertos en el campo de la rehabilitación, la ceguera y en las técnicas y tecnologías de procesado de imagen y sonido, mediante las cuales se definieron unos requisitos de usuario que sirvieron como guía de propuesta y diseño. La tesis está compuesta de tres grandes bloques autocontenidos: (i) procesado de imagen, donde se proponen 4 algoritmos de procesado de visión estéreo, (ii) sonificación, en el cual se detalla la propuesta de transformación a sonido de la información visual, y (iii) un último capítulo central sobre integración de todo lo anterior en dos versiones evaluadas secuencialmente, una software y otra hardware. Ambas versiones han sido evaluadas con usuarios tanto videntes como invidentes, obteniendo resultados cualitativos y cuantitativos que permiten definir mejoras futuras sobre el proyecto finalmente implementado

    Sustitución sensorial con motores de vibración

    Full text link
    En el Trabajo de Fin de Máster que se presenta a continuación, se ha diseñado, construido y programado un prototipo para un Dispositivo de Sustitución Sensorial, del cual, investigadores del Laboratorio de Visión y Percepción de la Facultad de Psicología de la UAM, ya habían realizado un prototipo inicial, muy costoso, lento de procesamiento y sin optimizar. Un Dispositivo de Sustitución Sensorial son dispositivos que generalmente están formados por sensores encargados de recopilar información del entorno e interpretarla y traducirla en estimulaciones de uno de los sentidos humanos. El prototipo diseñado en este TFM se trata de un Dispositivo de Sustitución Sensorial encargado de traducir la información visual del entorno mediante cámaras, para posteriormente traducirlo a diferentes vibraciones mediante una matriz de motores colocados en un chaleco vestible. Siguiendo los requisitos marcados por el equipo de investigación antes mencionado, y basándose en el prototipo ya existente, se ha realizado un nuevo diseño optimizado, donde se ha mantenido el uso de Xbee como método de comunicación inalámbrica entre la unidad de procesamiento de imágenes y el prototipo. Para la comunicación y control de cada uno de los motores que forman el chaleco se continúa usando el protocolo de comunicación I2C, a través del cual se mandan las direcciones y comandos de cada uno de los dispositivos esclavos que activan y controlan los motores de forma independiente. Además de la fabricación del prototipo, se ha realizado el software de control que lleva cargado el microprocesador. El cometido de este software es realizar la interpretación de los datos enviados por la unidad de procesamiento de imágenes y traducirlos a vibraciones de diferentes intensidades en cada uno de los motores, consiguiendo así una transformación del entorno visual a un entorno táctil.In the Project presented below, a prototype for a Sensorial Substitution Dispositive has been designed, built and programmed. There was a preliminary version developed by the researchers from the Vision and Perception Laboratory of the UAM's School of Psychology that was very expensive, slow processing and not optimized. A Sensorial Substitution Device is a device that is generally formed by sensors responsible for collecting information from the environment and interpreting and translating it into stimulations of one of the human senses. The prototype designed in this TFM is a Sensorial Substitution Device in charge of translating the visual information of the environment through cameras, to later translate it to different vibrations by means of a matrix of motors placed in a wearable vest. Following the requirements set by this research team, and based on the existing prototype, a new optimized design has been carried out, in which the use of Xbee as a method of wireless communication between the image processing unit and the prototype has been implemented. For the communication and control of each of the motors on the vest, the I2C communication protocol is implemented, through which are sent the addresses and commands of each of the slave devices that activate and control the motors independently. In addition to the manufacture of the prototype, the control software carried by the microprocessor has been made. The main purpose of this software is to perform the interpretation of the data sent by the image processing unit and translate it into vibrations of different intensities in each of the motors, thus achieving a transformation of the visual environment to a tactile environment

    Techniques d'interaction multimodales pour l'accès aux mathématiques par des personnes non-voyantes

    Get PDF
    Cette thèse s‟inscrit dans le domaine de l‟interaction Homme-Machine et plus précisément dans celui des interfaces multimodales destinées aux non-voyants. Elle a pour thème principal la présentation des expressions mathématiques aux non-voyants. Pour les étudiants non-voyants, apprendre les mathématiques est une tâche ardue et peut constituer une barrière, les séparant des disciplines techniques. Les travaux de recherche présentés ici décrivent les problèmes rencontrés dans la conception d‟un système permettant l‟accès aux mathématiques pour les utilisateurs déficients visuels. En effet, nous présentons une analyse des outils existants puis nous proposons des solutions pour combler leurs insuffisances. Nous exposons les techniques utilisées au sein de notre système pour répondre aux problèmes de la présentation des expressions mathématiques aux non-voyants. Nous exploitons la multimodalité comme technique d‟interaction pour développer des applications destinées à ce type d‟utilisateurs parce qu‟elle offre plusieurs opportunités grâce à sa richesse des interactions. Nous dotons également notre système d‟un comportement intelligent pour assurer une certaine autonomie à l‟utilisateur. En effet, le système est capable de présenter l‟information en fonction du contexte de l‟interaction (c-à-d. l‟utilisateur, son environnement et sa machine) et de la nature de l‟information. Le système est « pervasif » et adaptatif. L‟accès à l‟information est assuré n‟importe où n‟importe quand et il s‟adapte dynamiquement aux changements du contexte tout en fournissant continuellement des services à l‟utilisateur non-voyant, sans intervention humaine. Pour rendre le système adaptatif, nous avons élaboré un modèle qui détermine la complexité de l‟expression mathématique et nous avons intégré une technique d‟apprentissage automatique pour implémenter les mécanismes de décisions. Enfin, l‟architecture proposée est du type multi-agent. Ces techniques ont été validées par des études de cas et en utilisant les réseaux de Pétri et l‟outil de simulations JADE

    Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

    Get PDF
    More than 315 million people worldwide suffer from visual impairments, with several studies suggesting that this number will double by 2030 due to the ageing of the population. To compensate for the loss of sight the current approaches consist of either specific aids designed to answer particular needs or generic systems such as neuroprostheses and sensory substitution devices. These holistic approaches, which try to restore vision as a whole, have been shown to be very inefficient in real life situations given the low resolution of output interfaces. To overcome these obstacles we propose the use of artificial vision in order to pre-process visual scenes and provide the user with relevant information. We have validated this approach through the development of a novel assistive device for the blind called Navig. Through shape recognition and spatialized sounds synthesis, this system allows users to locate and grab objects of interest. It also features navigational aids based on a new positioning method combining GPS, inertial sensors and the visual detection of geolocalized landmarks. To enhance the performance of the visual module we further developed, as part of this thesis, a bio-inspired pattern recognition algorithm which uses latency-based coding of visual information, oriented edge representations and a cascaded architecture combining detection at different resolutions.La déficience visuelle touche aujourd’hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d’ici à 2030 du fait du vieillissement de la population. Les deux grandes approches existantes pour compenser la perte de vision sont les aides spécifiques, répondant à un besoin identifié, et les systèmes génériques tels que les neuroprothèses ou les systèmes de substitution sensorielle. Ces approches holistiques, tentant de restituer l’ensemble de l’information visuelle, s’avèrent inadaptées de par la trop faible résolution des interfaces de sortie, rendant ces systèmes inutilisables dans la vie quotidienne. Face à ce constat, nous proposons dans cette thèse une démarche alternative, consistant à intégrer des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Pour valider cette approche, nous présenterons le développement d’un système de suppléance baptisé Navig. Grâce à la reconnaissance de formes et à la synthèse de sons spatialisés, il permet à l’utilisateur de localiser des objets d’intérêt. Il offre également des fonctions de navigation, basées sur une nouvelle méthode de positionnement combinant GPS, données inertielles, et détections de cibles visuelles géolocalisées. Afin d’améliorer les performances du module de vision artificielle, nous proposerons également dans cette thèse un nouvel algorithme de reconnaissance de formes bio-inspiré, reposant sur un codage de l’information visuelle par latence, sur des représentations sous forme d’arêtes orientées, et sur une architecture en cascade combinant des détections à différentes résolutions
    corecore