17 research outputs found

    Détection et suivi d'objets mobiles perçus depuis un capteur visuel embarqué

    Get PDF
    Cette thèse traite de la détection et du suivi d'objets mobiles dans un environnement dynamique, en utilisant une caméra embarquée sur un robot mobile. Ce sujet représente encore un défi important car on exploite uniquement la vision mono-caméra pour le résoudre. Nous devons détecter les objets mobiles dans la scène par une analyse de leurs déplacements apparents dans les images, en excluant le mouvement propre de la caméra. Dans une première étape, nous proposons une analyse spatio-temporelle de la séquence d'images, sur la base du flot optique épars. La méthode de clustering a contrario permet le groupement des points dynamiques, sans information a priori sur le nombre de groupes à former et sans réglage de paramètres. La réussite de cette méthode réside dans une accumulation suffisante des données pour bien caractériser la position et la vitesse des points. Nous appelons temps de pistage, le temps nécessaire pour acquérir les images analysées pour bien caractériser les points. Nous avons développé une carte probabiliste afin de trouver les zones dans l'image qui ont les probabilités la plus grandes de contenir un objet mobile. Cette carte permet la sélection active de nouveaux points près des régions détectées précédemment en permettant d'élargir la taille de ces régions. Dans la deuxième étape nous mettons en oeuvre une approche itérative pour exécuter détection, clustering et suivi sur des séquences d'images acquises depuis une caméra fixe en intérieur et en extérieur. Un objet est représenté par un contour actif qui est mis à jour de sorte que le modèle initial reste à l'intérieur du contour. Finalement nous présentons des résultats expérimentaux sur des images acquises depuis une caméra embarquée sur un robot mobile se déplaçant dans un environnement extérieur avec des objets mobiles rigides et non rigides. Nous montrons que la méthode est utilisable pour détecter des obstacles pendant la navigation dans un environnement inconnu a priori, d'abord pour des faibles vitesses, puis pour des vitesses plus réalistes après compensation du mouvement propre du robot dans les images.This dissertation concerns the detection and the tracking of mobile objets in a dynamic environment, using a camera embedded on a mobile robot. It is an important challenge because only a single camera is used to solve the problem.We must detect mobile objects in the scene, analyzing their apparent motions on images, excluding the motion caused by the ego-motion of the camera. First it is proposed a spatio-remporal analysis of the image sequence based on the sparse optical flow. The a contrario clustering method provides the grouping of dynamic points, without using a priori information and without parameter tuning. This method success is based on the accretion of sufficient information on positions and velocities of these points. We call tracking time, the time required in order to acquire images analyzed to provide the points characterization. A probabilistic map is built in order to find image areas with the higher probabilities to find a mobile objet; this map allows an active selection of new points close the previously detected mobile regions, making larger these regions. In a second step, it is proposed an iterative approach to perform the detection-clustering-tracking process on image sequences acquired from a fixed camera for indoor or outdoor applications. An object is described by an active contour, updated so that the initial object model remains inside the contour. Finally it is presented experimental results obtained on images acquired from a camera embedded on a mobile robot navigating in outdoor environments with rigid or non rigid mobile objects ; it is shown that the method works to detect obstacles during the navigation in a priori unknown environments, first with a weak speed, then with more a realistic speed, compensating the robot ego-motion in images

    Vision dynamique pour la navigation d'un robot mobile

    Get PDF
    Les travaux présentés dans cette thèse concernent l’étude des fonctionnalités visuelles sur des scènes dynamiques et ses applications à la robotique mobile. Ces fonctionnalités visuelles traitent plus précisément du suivi visuel d’objets dans des séquences d’images. Quatre méthodes de suivi visuel ont été étudiées, dont trois ont été développées spécifiquement dans le cadre de cette thèse. Ces méthodes sont : (1) le suivi de contours par un snake, avec deux variantes permettant son application à des séquences d’images couleur ou la prise en compte de contraintes sur la forme de l’objet suivi, (2) le suivi de régions par différences de motifs, (3) le suivi de contours par corrélation 1D, et enfin (4) la méthode de suivi d’un ensemble de points, fondée sur la distance de Hausdorff, développée lors d’une thèse précédente. Ces méthodes ont été analysées pour différentes tâches relatives à la navigation d’un robot mobile; une comparaison dans différents contextes a été effectuée, donnant lieu à une caractérisation des cibles et des conditions pour lesquelles chaque méthode donne de bons résultats. Les résultats de cette analyse sont pris en compte dans un module de planification perceptuelle, qui détermine quels objets (amers plans) le robot doit suivre pour se guider le long d’une trajectoire. Afin de contrôler l’exécution d’un tel plan perceptuel, plusieurs protocoles de collaboration ou d’enchaînement entre méthodes de suivi visuel ont été proposés. Finalement, ces méthodes, ainsi qu’un module de contrôle d’une caméra active (site, azimut, zoom), ont été intégrées sur un robot. Trois expérimentations ont été effectuées: a) le suivi de route en milieu extérieur, b) le suivi de primitives pour la navigation visuelle en milieu intérieur, et c) le suivi d’amers plans pour la navigation fondée sur la localisation explicite du robot. ABSTRACT : The work presented on this thesis concerns the study of visual functionalities over dynamic scenes and their applications to mobile robotics. These visual functionalities consist on visual tracking of objects on image sequences. Four methods of visual tracking has been studied, from which tree of them has been developed specifically for the context of this thesis. These methods are: (1) snakes contours tracking, with two variants, the former, to be able to applying it to a sequence of color images and the latter to consider form constraints of the followed object, (2) the tracking of regions by templates differences, (3) contour tracking by 1D correlation, and (4) the tracking method of a set of points, based on Hausdorff distance, developed on a previous thesis. These methods have been analyzed for different tasks, relatives to mobile robot’s navigation. A comparison for different contexts has been done, given to a characterization of objects and conditions for which each method gives the best results. Results from this analysis has been take into account on a perceptual planification module, that determines which objects (plane landmarks) must be tracked by the robot, to drive it over a trajectory. In order to control the execution of perceptual plan, a lot of collaboration or chaining protocols have been proposed between methods. Finally, these methods and a control module of an active camera (pan, tilt, zoom), has been integrated on a robot. Three experiments have been done: a) road tracking over natural environments, b) primitives tracking for visual navigation over human environments and c) landmark tracking for navigation based on explicit localization of robo

    Évaluation d’un jeu sérieux exploitant un joystick permettant des interations non-visuelles à l'aide d’une canne intelligente

    Get PDF
    Le pourcentage de la population présentant une déficience visuelle augmente rapidement. Chaque année, le nombre de personnes à déficience visuelle croît d'environ 2 millions dans le monde. L'Organisation Mondiale de la Santé (OMS) estime qu'il y a 39 millions d'aveugles et 246 millions personnes à déficience visuelle sur la planète. De plus, les déficiences visuelles sont fortement reliées au vieillissement. Environ 63% des personnes à déficience visuelle sont âgées de 50 ans ou plus, avec environ 20% de la population mondiale dans ce groupe d‟âge. Pour parvenir à certains niveaux d‟autonomie, la canne blanche est l‟outil qu‟utilise cette tranche de la population. Hors, plusieurs études ont montré que cet outil semble constituer un symbole de discrimination pour ces personnes. Notre recherche entend offrir un outil qui vise non seulement à donner de l‟autonomie aux aveugles mais aussi à amener les personnes voyantes à changer leur point de vue concernant cette population. Sachant que la canne blanche reste l‟outil le plus utilisée par les personnes souffrant de déficience visuelle, nous avons intégré plusieurs senseurs (capteurs de position, accéléromètre etc) dans un bâton (canne blanche) afin de le transformer en ce que nous dénommons une manette pour aveugle. Cet outil permet essentiellement de détecter les gestes que l‟on fait avec l‟outil et aussi de communiquer avec un téléphone intelligent. En plus de cela, nous proposons un jeu qui utilise cette manette comme principal moyen d‟interaction. Ce jeu permet en autre à des personnes voyantes et non-voyantes de pouvoir jouer au même jeu en utilisant les mêmes moyens d‟interaction. Cette problématique a été abordée sous deux volets : la création de la canne et le développement du jeu sérieux. Phase 1 : C‟est la réalisation de la canne intelligente, la canne est composée d‟un accéléromètre, d‟un clavier et d‟un détecteur à ultra son. La fonction de base ce celle-ci est de permettre une détection des obstacles se trouvant sur le chemin de l‟utilisateur, et ce, à l‟aide d‟un détecteur ultra son. Celui-ci, relié à un téléphone intelligent, avertira l‟aveugle de la distance exacte entre lui et l‟obstacle. Cette option sera activable selon le bon vouloir de l‟utilisateur pour ne pas offrir un surplus d‟information inutilisable. Phase 2 : La conception d‟un jeu spécialisé pertinent et sérieux, directement relié à la canne, représente le défi fondamental du projet. Le but est d‟élaborer un jeu intéressant, pouvant se jouer de n‟importe quelle place et directement à l‟aide de la canne. L‟utilisation du clavier comme interface est donc évidemment nécessaire. La connexion déjà établie avec le téléphone intelligent offre de nombreuses possibilités quant à la nature du jeu. L‟objectif est de créer un jeu stimulant pour rejoindre l‟intérêt de l‟utilisateur, mais tout de même assez simple dans son fonctionnement pour pouvoir être joué uniquement sur le clavier de 12 cases. L‟absence de possibilité de stimulation tactile, comme l‟offrent beaucoup de jeu pour aveugles et malvoyants, et la limitation dans les stimulations sonores compliquent grandement les tâches et ne laissent que très peu de possibilités de jeu. En résumé, les travaux de ce mémoire présentent les bases pour l'utilisation d'une canne intelligente visant à développer un jeu sérieux qui utilise cet outil comme moyen d‟interaction dans le but d'améliorer le reflex de l‟aveugle. De plus, notre outil va lui faire oublier son handicap, vu qu‟il va avoir la même chance de gagner contre un concurrent voyant

    Exploration visuelle d'environnement intérieur par détection et modélisation d'objets saillants

    Get PDF
    Un robot compagnon doit comprendre le lieu de vie de l'homme pour satisfaire une requête telle que "Va chercher un verre dans la cuisine" avec un haut niveau d'autonomie. Pour cela, le robot doit acquérir un ensemble de représentations adaptées aux différentes tâches à effectuer. Dans cette thèse, nous proposons d'apprendre en ligne un modèle d'apparence de structures locales qui pourront être nommées par l'utilisateur. Cela permettra ensuite de caractériser un lieu topologique (ex: la cuisine) par un ensemble de structures locales ou d'objets s'y trouvant (réfrigérateur, cafetière, evier, ...). Pour découvrir ces structures locales, nous proposons une approche cognitive, exploitant des processus visuels pré-attentif et attentif, mis en oeuvre à partir d'un système sensoriel multi-focal. Le processus pré-attentif a pour rôle la détection de zones d'intérêt, supposées contenir des informations visuelles discriminantes: basé sur le modèle de 'saillance' de Itti et Koch, il détecte ces zones dans une carte de saillance, construite à partir d'images acquises avec une caméra large champ; une zone détectée est ensuite suivie sur quelques images afin d'estimer grossièrement la taille et la position 3D de la structure locale de l'environnement qui lui correspond. Le processus attentif se focalise sur la zone d'intérêt: le but est de caractériser chaque structure locale, par un modèle d'apparence sous la forme de mémoires associatives vues-patches-aspects. De chaque image sont extraits des points d'intérêt, caractérisés par un descripteur d'apparence local. Après cette phase d'exploration, l'homme peut annoter le modèle en segmentant les structures locales en objets, en nommant ces objets et en les regroupant dans des zones (cuisine). Ce modèle d'apparence sera ensuite exploité pour la reconnaissance et la localisation grossière des objets et des lieux perçus par le robot. ABSTRACT : A robot companion has to understand a domotic environment in order to execute requests like « Search a glass in the kitchen » with a high level of autonomy. So the robot must acquire several representations adapted to the tasks to be executed. This thesis proposes an on line learning method of an environment model expressed as a set of local structures described by appearance-based characteristics, and possibly named by a tutor. Such descriptions could be used in order to define a topological area (e.g. the kitchen) by a set of local structures or objects that could be found here (e.g. glasses, fridge, pans). For the construction of such a representation, it is proposed a cognitive mehod, based on attentive and preattentive visual processes, acquiring images from a multifocal sensor. The preattentive process aims at detect interest regions, that could contain discriminant visual information ; based on the saliency concept proposed initially bu Itti and Koch, interest regions are extracted from a saliency map, built from images acquired by a short lens or panoramic camera (large view field). Such a region is then tracked on several successive images acquired while the robot is moving, so that the size and the 3D position of the corresponding local structure could be coarsely estimated. Then the attentive process exploits attentionam mechanisms in order to be focused successively on each interest region : it aims to characterize each local structure by an appearance-based model defined by an associative memort views-patches-aspects. Salient scaled patches or SIFT features are extracted from every image. After this exploration step is over, the robot tutor could annotated the model, segmenting local structures in objects, naming objects and grouping them in areas (kitchen). Then, the robot exploits this environment model for the recognition and the coarse localization of objects and areas

    Aide à la conduite des systèmes à risques par la prise en compte du risque : exemple de l'application à la conduite automobile

    Get PDF
    Les systèmes à risques peuplent aujourd'hui notre quotidien, qu'il s'agisse des centrales nucléaires, du transport aérien ou de l'automobile individuelle. La conduite de ses systèmes diffère grandement entre chaque système. Cependant, un facteur essentiel est commun à chacun de ces systèmes. La conscience de la situation et en particulier la conscience du risque encouru conditionne en effet toute conduite d'un tel système. La défaillance de cette conscience de la situation peut ainsi entraîner des conduites en conditions dégradées plus risquées qui ont plus de risques d'accidents. Cette thèse propose ainsi un concept d'aide à la conduite visant à améliorer le niveau de sûreté de ces systèmes à risques. Pour ce faire on propose d'évaluer le niveau de risque courant et d'en informer le conducteur afin de l'inciter à rester dans une conduite sûre. Ce travail de thèse s'attache ensuite à proposer une telle aide appliquée au domaine de la conduite automobile et en propose une implémentation basée sur l'utilisation de la fusion de données multi capteurs pour détecter l'état de l'environnement, du véhicule et de son conducteur. Cette fusion de données permet par la suite au système de comprendre la situation de conduite courante et d'anticiper son évolution afin de prédire les risques encourus puis d'en informer le conducteur.Nowadays, risky systems are encountered in everyday life, from nuclear power plants to civilian air transport or individual vehicle driving. Driving such systems is greatly different from one system to the next. Yet, an essential factor is shared among all these systems. Situation awareness and risk awareness in particular drive any such system driving. Failure in correctly understanding the driving situation can result in driving in degraded conditions that are riskier and thus have more probability of an accident. This thesis thus proposes a driving assistant system aimed at improving risky systems safety. To reach this goal it is proposed to assess current risk level and to inform the driver to bring him to safer driving conditions. This concept is then applied for automotive driving. This thesis proposes an implementation of such an automotive driving assistant system based on multi sensors data fusion to assess environment, driver and vehicles states. Such fusion is later used by the system to understand current driving situation, predict its evolution to predict the risks applied to the driver and his vehicle so as to inform the driver afterwards

    Estimation du contexte par vision embarquée et schémas de commande pour l'automobile

    Get PDF
    Les systèmes dotés d autonomie doivent continument évaluer leur environnement, via des capteurs embarqués, afin de prendre des décisions pertinentes au regard de leur mission, mais aussi de l endosystème et de l exosystème. Dans le cas de véhicules dits intelligents , l attention quant au contexte environnant se porte principalement d une part sur des objets parfaitement normalisés, comme la signalisation routière verticale ou horizontale, et d autre part sur des objets difficilement modélisables de par leur nombre et leur variété (piétons, cyclistes, autres véhicules, animaux, ballons, obstacles quelconques sur la chaussée, etc ). La décision a contrario offre un cadre formel, adapté à ce problème de détection d objets variables, car modélisant le bruit plutôt qu énumérant les objets à détecter. La contribution principale de cette thèse est d adapter des mesures probabilistes de type NFA (Nombre de Fausses Alarmes) au problème de la détection d objets soit ayant un mouvement propre, soit saillants par rapport au plan de la route. Un point fort des algorithmes développés est qu ils s affranchissent de tout seuil de détection. Une première mesure NFA permet d identifier le sous-domaine de l'image (pixels non nécessairement connexes) dont les valeurs de niveau de gris sont les plus étonnantes, sous hypothèse de bruit gaussien (modèle naïf). Une seconde mesure NFA permet ensuite d identifier le sous-ensemble des fenêtres de significativité maximale, sous hypothèse de loi binômiale (modèle naïf). Nous montrons que ces mesures NFA peuvent également servir de critères d optimisation de paramètres, qu il s agisse du mouvement 6D de la caméra embarquée, ou d un seuil de binarisation sur les niveaux de gris. Enfin, nous montrons que les algorithmes proposés sont génériques au sens où ils s appliquent à différents types d images en entrée, radiométriques ou de disparité.A l opposé de l approche a contrario, les modèles markoviens permettent d injecter des connaissances a priori sur les objets recherchés. Nous les exploitons dans le cas de la classification de marquages routiers.A partir de l estimation du contexte (signalisation, détection d objets inconnus ), la partie commande comporte premièrement une spécification des trajectoires possibles et deuxièmement des lois en boucle fermée assurant le suivi de la trajectoire sélectionnée. Les diverses trajectoires possibles sont regroupées en un faisceau, soit un ensemble de fonctions du temps où divers paramètres permettent de régler les invariants géométriques locaux (pente, courbure). Ces paramètres seront globalement fonction du contexte extérieur au véhicule (présence de vulnérables, d'obstacles fixes, de limitations de vitesse, etc.) et permettent de déterminer l'élément du faisceau choisi. Le suivi de la trajectoire choisie s'effectue alors en utilisant des techniques de type platitude différentielle, qui s'avèrent particulièrement bien adaptées aux problèmes de suivi de trajectoire. Un système différentiellement plat est en effet entièrement paramétré par ses sorties plates et leurs dérivées. Une autre propriété caractéristique de ce type de systèmes est d'être linéarisable de manière exacte (et donc globale) par bouclage dynamique endogène et transformation de coordonnées. Le suivi stabilisant est alors trivialement obtenu sur le système linéarisé.To take relevant decisions, autonomous systems have to continuously estimate their environment via embedded sensors. In the case of 'intelligent' vehicles, the estimation of the context focuses both on objects perfectly known such as road signs (vertical or horizontal), and on objects unknown or difficult to describe due to their number and variety (pedestrians, cyclists, other vehicles, animals, any obstacles on the road, etc.). Now, the a contrario modelling provides a formal framework adapted to the problem of detection of variable objects, by modeling the noise rather than the objects to detect. Our main contribution in this PhD work was to adapt the probabilistic NFA (Number of False Alarms) measurements to the problem of detection of objects simply defined either as having an own motion, or salient to the road plane. A highlight of the proposed algorithms is that they are free from any detection parameter, in particular threshold. A first NFA criterion allows the identification of the sub-domain of the image (not necessarily connected pixels) whose gray level values are the most amazing under Gaussian noise assumption (naive model). A second NFA criterion allows then identifying the subset of maximum significant windows under binomial hypothesis (naive model). We prove that these measurements (NFA) can also be used for the estimation of intrinsec parameters, for instance either the 6D movement of the onboard camera, or a binarisation threshold. Finally, we prove that the proposed algorithms are generic and can be applied to different kinds of input images, for instance either radiometric images or disparity maps. Conversely to the a contrario approach, the Markov models allow to inject a priori knowledge about the objects sought. We use it in the case of the road marking classification. From the context estimation (road signs, detected objects), the control part includes firstly a specification of the possible trajectories and secondly the laws to achieve the selected path. The possible trajectories are grouped into a bundle, and various parameters are used to set the local geometric invariants (slope, curvature). These parameters depend on the vehicle context (presence of vulnerables, fixed obstacles, speed limits, etc ... ), and allows determining the selected the trajectory from the bundle. Differentially flat system is indeed fully parameterized by its flat outputs and their derivatives. Another feature of this kind of systems is to be accurately linearized by endogenous dynamics feed-back and coordinate transformation. Tracking stabilizer is then trivially obtained from the linearized system.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

    Get PDF
    More than 315 million people worldwide suffer from visual impairments, with several studies suggesting that this number will double by 2030 due to the ageing of the population. To compensate for the loss of sight the current approaches consist of either specific aids designed to answer particular needs or generic systems such as neuroprostheses and sensory substitution devices. These holistic approaches, which try to restore vision as a whole, have been shown to be very inefficient in real life situations given the low resolution of output interfaces. To overcome these obstacles we propose the use of artificial vision in order to pre-process visual scenes and provide the user with relevant information. We have validated this approach through the development of a novel assistive device for the blind called Navig. Through shape recognition and spatialized sounds synthesis, this system allows users to locate and grab objects of interest. It also features navigational aids based on a new positioning method combining GPS, inertial sensors and the visual detection of geolocalized landmarks. To enhance the performance of the visual module we further developed, as part of this thesis, a bio-inspired pattern recognition algorithm which uses latency-based coding of visual information, oriented edge representations and a cascaded architecture combining detection at different resolutions.La déficience visuelle touche aujourd’hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d’ici à 2030 du fait du vieillissement de la population. Les deux grandes approches existantes pour compenser la perte de vision sont les aides spécifiques, répondant à un besoin identifié, et les systèmes génériques tels que les neuroprothèses ou les systèmes de substitution sensorielle. Ces approches holistiques, tentant de restituer l’ensemble de l’information visuelle, s’avèrent inadaptées de par la trop faible résolution des interfaces de sortie, rendant ces systèmes inutilisables dans la vie quotidienne. Face à ce constat, nous proposons dans cette thèse une démarche alternative, consistant à intégrer des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Pour valider cette approche, nous présenterons le développement d’un système de suppléance baptisé Navig. Grâce à la reconnaissance de formes et à la synthèse de sons spatialisés, il permet à l’utilisateur de localiser des objets d’intérêt. Il offre également des fonctions de navigation, basées sur une nouvelle méthode de positionnement combinant GPS, données inertielles, et détections de cibles visuelles géolocalisées. Afin d’améliorer les performances du module de vision artificielle, nous proposerons également dans cette thèse un nouvel algorithme de reconnaissance de formes bio-inspiré, reposant sur un codage de l’information visuelle par latence, sur des représentations sous forme d’arêtes orientées, et sur une architecture en cascade combinant des détections à différentes résolutions

    Contributions pour les applications de réalité augmentée. Suivi visuel et recalage 2D. Suivi d'objets 3D représentés par des modèles par points

    Get PDF
    Cette thèse présente plusieurs méthodes de recalage pour les applications de réalité augmentée (R.A.). Nous décrivons d'abord des expériences de R.A. utilisant des recalages et suivis uniquement 2D. Nous nous intéressons ensuite au suivi visuel d'un objet naturel dont on connaît un modèle 3D et dont l'image peut ainsi être augmentée avec une cohérence spatiale et temporelle. Dans une première partie, nous proposons d'abord d'utiliser un recalage homographique en temps-réel pour augmenter des séquences filmées par une caméra en rotation autour de son centre optique. Dans une autre application, des transformations non rigides sont calculées hors ligne pour augmenter les images naturelles des parois gravées d'une grotte préhistorique. Le recalage géométrique des interprétations graphiques d'un préhistorien permet de créer un logiciel de découverte interactive des parois. Dans la seconde et majeure partie de ce travail, nous partons des méthodes de suivi 3D de l'état de l'art prises parmi les plus performantes. Ces méthodes consistent à suivre un objet naturel connaissant sa représentation par un maillage 3D. Nous proposons une approche de suivi visuel 3D utilisant quant à elle des modèles par points de l'objet. Ce type de modèle, caractérisé par l'absence de topologie, est encore peu utilisé en vision par ordinateur mais il présente une souplesse intéressante par rapport aux modèles constitués de facettes. La méthode de suivi que nous proposons consiste à interpréter des mises en correspondances 2D entre points d'intérêt en termes de variations de positions 3D. Le processus d'estimation sous-jacent utilise des champs de mouvements déduits des modèles 3D par points et des reconstructions par Moving Least Squares et splatting. Ces techniques développées par la communauté d'informatique graphique s'attachent à reconstruire localement (explicitement ou implicitement) la surface de l'objet à suivre et certains attributs dénis de manière éparse sur le nuage de points. Nous les adaptons à l'interpolation des champs de mouvements. L'avantage de notre approche est d'aboutir à un algorithme enchaînant quelques étapes d'estimation linéaires pour la détermination du mouvement 3D inter-images. Notre technique de résolution est intégrée à une adaptation originale d'un algorithme de suivi visuel de l'état de l'art qui repose sur un suivi hybride, combinant les informations issues de l'image précédente et celles apportées par des images clés acquises hors ligne. Une des particularités de notre implantation vient aussi de l'exploitation des capacités des unités de calcul graphiques (GPU) modernes pour les parties critiques de l'algorithme (extraction de points d'intérêt, appariement et calcul de champs de mouvements)

    Apport de la vision par ordinateur dans l'utilisabilité des neuroprothèses visuelles

    Get PDF
    L'OMS estime que 45 millions de personnes dans le monde sont aveugles. Avec le vieillissement de la population, ce chiffre ne cesse de progresser car la cécité touche majoritairement les personnes âgées. Les neuroprothèses visuelles ont pour objectif de restaurer une forme de vision. Ces systèmes convertissent les informations de la scène visuelle en percepts lumineux via des microstimulations électriques du système visuel. La perception visuelle ainsi générée consiste en un ensemble restreint de phosphènes. Ces systèmes sont, à ce jour, inutilisables dans un environnement naturel : l'information visuelle restituée est insuffisante pour que les personnes implantées puissent se déplacer, localiser des objets et les reconnaître. Au cours des dernières décennies, la vision par ordinateur a connu d'énormes avancées, grâce aux améliorations apportées aux algorithmes de traitement d'images et à l'augmentation de la puissance de calcul disponible. Il est désormais possible de localiser de manière fiable des objets, des visages ou du texte dans un environnement naturel. Or, la plupart des neuroprothèses visuelles intègrent une caméra facilement associable à un module de traitement d'images. Partant de ces constatations, nous avons montré qu'il est possible d'améliorer l'utilisabilité de ces systèmes, en utilisant des algorithmes de traitement d'images performants. En détectant des zones d'intérêt dans une scène naturelle et en les restituant à l'utilisateur par le biais d'un nombre limité de phosphènes, nos résultats indiquent qu'il est possible de restaurer des comportements visuo-moteurs adaptés : localisation d'objets, de visages ou encore de textes.The WHO estimates that 45 million people worldwide are blind. This figure is rapidly increasing because of the ageing of the world population, as blindness primarily affects elderly people. Visual neuroprostheses aim at restoring a sort of vision. These systems convert visual information captured by a camera into dots-like percepts via electrical microstimulation of the visual system. The evoked visual perception corresponds to a black and white image with a few dozen of pixels with gaps separating them. Although these systems give great hope to blind people, they are still inefficient in a natural environment: the restored visual information is too coarse to allow complex functions such as navigation, object localization and recognition, or reading at a convenient speed. Over the last decades, computer vision has been steadily improving, thanks to the development of new image processing algorithms and the increase of processing power. For instance, this is now possible to localize objects, faces or texts in real outdoor conditions. Interestingly, most of the current visual neuroprostheses include an external camera making it possible to process the input images in order to adapt the phosphenes display. In the current work, we showed that real-time image processing can improve the usability of low resolution visual neuroprostheses relying on the extraction of high-level information from the input images. Indeed, our results showed that the augmentation of the phosphene display with a limited number of phosphenes allows restoring visuomotor behaviors, such as localizing pertinent objects, faces or texts within a natural scene

    Substitution visuelle par électro-stimulation linguale : étude des procédés affectant la qualité de perception

    Get PDF
    Our perception of the world is by essence multimodal. Various sensory cues (vision, hearing, touch, etc.) are hence integrated to allow us the execution of daily life activities. When one sense organ is missing or impaired, in some circumstances, the central nervous system can replace or reinforce the missing sensory information by using reliable sensory information coming from an other intact sense organ. This doctoral thesis was designed to explore this so-called ‘sensory substitution' concept through the exploitation of a visual-to-tactile sensory substitution device. the Tongue Display Unit (TDU) is made of a 12x12 electro-tactile matrix capable of rendering visual scences on the dorsal part of the tongue.However, the effectiveness of this device suffers from numerous drawbacks among which two main problems : (i) the problem of ‘fading' (mitigation) which corresponds to a rapid loss of perception of electrostimulation signal by the individuals and (ii) the problem of multimodal fusion. In the present work, we propose to investigate these problems and their effects on the quality of perception, by (i) applying some eye-inspired mechanisms (micro-saccades) to the electro-tactile signal on the tongue, (ii) studying how individuals perceive a picture signal with multi-modal perceptual (visual stimulus + substitution on the tongue) and (iii) the effect produced contradictions of information in this context.This work evidence the importance of applying saccades and sparkle mechanisms in electro-tactile signal to resolve the problem of fading especially when stimulation periods are relatively long. Furthermore, the experiments we have conducted on multi-modal perception and contradictions suggested that the perception of image information through the TDU was comparable to that of vision. Finally, we were able to identify a conflicting information fusion effect between visual perception and electrotactile tongue perception. This phenomenon is known as Mc Gurck effect (fusion of visual and auditory information). Understanding the effect of these processes to improve the quality of perception through the visual substitution paradigm and the importance of multi-modal fusion effects during this thesis could be applied in various areas where these effects are present or required, especially in the emerging field of prosthetic vision.Notre perception du monde est multimodale. Les différents sens (vision, audition, tactile, etc) sont coordonnés entre eux afin d'accomplir nos tâches quotidiennes. Dans le cas où un organe des sens connaît un dysfonctionnement, le système nerveux central est capable de remplacer ou de renforcer l'information manquante en faisant appel à d'autres modalités sensorielles intactes. Le cadre conceptuel de ce remplacement d'un sens par un autre est le paradigme de substitution sensorielle. Cette thèse se situe dans ce contexte et, pour explorer certains aspects de ce paradigme, exploite un dispositif d'électro-stimulation linguale, le Tongue Display Unit (TDU), une matrice de 12x12 électrodes destinée à restituer sous la forme de voltages variables des scènes visuelles sur la langue.L'efficacité de ce dispositif souffre de nombreux problèmes au rang desquels le problème de fading (atténuation) qui correspond à une perte rapide de perception du signal d'électro-stimulation par les sujets et celui de la fusion de perceptions multi-modales qui, nous le verrons, se complique avec l'usage du TDU. Dans cette thèse, nous proposons d'étudier l'effet sur la qualité de perception et sur l'atténuation du signal de l'adjonction au signal image de saccades et de tremblements, processus qui nous ont été inspirés par la vision. Nous étudions également la façon dont les sujets perçoivent un signal image en cas de multi-modalité perceptive (vision + substitution visuelle sur la langue) et l'effet que produisent des contradictions d'information dans ce contexte.Ce travail met en évidence l'importance de la présence de saccades ou de scintillement dans le signal d'électro-stimulation pour contrer les effets de fading : grâce à ces procédés, même lorsque les stimulations sont longues, les sujets continuent de percevoir correctement le signal image. De plus, les expériences de perception multi-modale et de contradictions nous ont permis de montrer que la perception d'informations de type image par l'intermédiaire du TDU était comparable à celle de la vision. Enfin, nous avons pu mettre en évidence un effet de fusion d'informations contradictoires entre la perception visuelle et linguale, connu dans le cadre de la fusion d'information visuo-auditives sous le nom d'effet Mc Gurck.La compréhension de l'effet de procédés destinés à améliorer la perception dans le cadre de la substitution visuelle et celle de l'importance des effets de fusion multi-modale dégagée au cours de thèse devraient trouver application dans de nombreux domaines où ces effets sont présents ou requis, en particulier dans le domaine émergent de la vision prothétique
    corecore