31 research outputs found

    Positionnement robuste et précis de réseaux d’images

    Get PDF
    To compute a 3D representation of a rigid scene from a collection of pictures is now possible thanks to the progress made by the multiple-view stereovision methods, even with a simple camera. The reconstruction process, arising from photogrammetry, consists in integrating information from multiple images taken from different viewpoints in order to identify the relative positions and orientations. Once the positions and orientations (external calibration) of the cameras are retrieved, the structure of the scene can be reconstructed. To solve the problem of calculating the Structure from Motion (SfM), sequential and global methods have been proposed. By nature, sequential methods tend to accumulate errors. This is observable in trajectories of cameras that are subject to drift error. When pictures are acquired around an object it leads to reconstructions where the loops do not close. In contrast, global methods consider the network of cameras as a whole. The configuration of cameras is searched and optimized in order to preserve at best the constraints of the cyclical network. Reconstructions of better quality can be obtained, but at the expense of computation time. This thesis aims at analyzing critical issues at the heart of these methods of external calibration and at providing solutions to improve their performance(accuracy , robustness and speed) and their ease of use (restricted parametrization).We first propose a fast and efficient feature tracking algorithm. We then show that the widespread use of a contrario robust estimation of parametric models frees the user from choosing detection thresholds, and allows obtaining a reconstruction pipeline that automatically adapts to the data. Then in a second step, we use the adaptive robust estimation and a series of convex optimizations to build a scalable global calibration chain. Our experiments show that the a contrario based estimations improve significantly the quality of the pictures positions and orientations, while being automatic and without parameters, even on complex camera networks. Finally, we propose to improve the visual appearance of the reconstruction by providing a convex optimization to ensure the color consistency between imagesCalculer une représentation 3D d'une scène rigide à partir d'une collection d'images est aujourd'hui possible grâce aux progrès réalisés par les méthodes de stéréo-vision multi-vues, et ce avec un simple appareil photographique. Le principe de reconstruction, découlant de travaux de photogrammétrie, consiste à recouper les informations provenant de plusieurs images, prises de points de vue différents, pour identifier les positions et orientations relatives de chaque cliché. Une fois les positions et orientations de caméras déterminées (calibration externe), la structure de la scène peut être reconstruite. Afin de résoudre le problème de calcul de la structure à partir du mouvement des caméras (Structure-from-Motion), des méthodes séquentielles et globales ont été proposées. Par nature, les méthodes séquentielles ont tendance à accumuler les erreurs. Cela donne lieu le plus souvent à des trajectoires de caméras qui dérivent et, lorsque les photos sont acquises autour d'un objet, à des reconstructions où les boucles ne se referment pas. Au contraire, les méthodes globales considèrent le réseau de caméras dans son ensemble. La configuration de caméras est recherchée et optimisée pour conserver au mieux l'ensemble des contraintes de cyclicité du réseau. Des reconstructions de meilleure qualité peuvent être obtenues, au détriment toutefois du temps de calcul. Cette thèse propose d'analyser des problèmes critiques au cœur de ces méthodes de calibration externe et de fournir des solutions pour améliorer leur performance (précision, robustesse, vitesse) et leur facilité d'utilisation (paramétrisation restreinte).Nous proposons tout d'abord un algorithme de suivi de points rapide et efficace. Nous montrons ensuite que l'utilisation généralisée de l'estimation robuste de modèles paramétriques a contrario permet de libérer l'utilisateur du réglage de seuils de détection, et d'obtenir une chaine de reconstruction qui s'adapte automatiquement aux données. Puis dans un second temps, nous utilisons ces estimations robustes adaptatives et une formulation du problème qui permet des optimisations convexes pour construire une chaine de calibration globale capable de passer à l'échelle. Nos expériences démontrent que les estimations identifiées a contrario améliorent de manière notable la qualité d'estimation de la position et de l'orientation des clichés, tout en étant automatiques et sans paramètres, et ce même sur des réseaux de caméras complexes. Nous proposons enfin d'améliorer le rendu visuel des reconstructions en proposant une optimisation convexe de la consistance colorée entre image

    Reconstruction tridimensionnelle de scènes sous- marines à partir de séquences d'images acquises par des caméras acoustiques

    Get PDF
    According to recent studies, climate change is having a significant impact on our marine environment inducing temperature increases, chemistry changes, ocean circulation influencing both population dynamics and underwater structure stability. Environmental change is thus a growing scientific concern requiring a regular monitoring of the evolution of underwater ecosystems with appropriate studies combined with accurate and relevant detailed information extraction and preservation. Tracking and modeling such changes in a marine environment is one of the current challenges for underwater exploration. The most common technique used to observe underwater environment, relies on vision-based systems either acoustical or optical. Optical cameras are widely used for acquiring images of the seafloor/underwater structures as they can provide information about the physical properties of the image that will enable the description of the observed scene (color, reflection, geometry). However, the range limitation and non-ideal underwater conditions (dark and turbid waters) make acoustic imaging the most reliable means of sight inside the underwater environment. Traditional sonar systems cannot provide an acoustic image sequences like optical cameras. To overcome those drawbacks, acoustic camera was built. They can produce real time high resolution underwater image sequences, with high refresh rate. Moreover, compared to optical devices, they can acquire acoustic images in turbid, deep and dark water making acoustic camera imaging a reliable means for observing underwater environment. However, although acoustic cameras can provide 2-D resolution of the order of centimeters, they do not resolve the altitude of observed scene. Thus they offer a 2D environment representation which provides incomplete information about the underwater environment. Hence, it would be very interesting to have a system which can provide height information as well as a high resolution. This is the purpose of this thesis where we developed a methodology that enables 3D reconstruction of underwater scenes using sequences of acoustic images. The proposed methodology is inspired from stereovision techniques that allow 3D information computation from image sequences. It consists of two main steps. In the first step, we propose an approach that enables the extraction of relevant salient points from several images. In the second step, two different methods have been proposed (curvilinear approach and volumetric approach) in order to reconstruct the observed scene using images acquired from different viewpoints. The Covariance Matrix Adaptation Evolution Strategy algorithm (CMA-ES) has been used to compute camera movement between images. This movement has been then used to retrieve 3D information. The methodology performances have been evaluated: feature extraction approach has been assessed using criteria of good detection, repeatability and good localization and 3D reconstruction approach has been assessed by comparison between estimated camera movement and 3D information with real data.Depuis que les études des impacts des changements climatiques ont montré que le milieu marin pourrait être énormément fragilisé par la disparition de certaines espèces de sa faune et de sa flore, ainsi que par le vieillissement rapide de son infrastructure sous-marine, la recherche de systèmes d'observation robustes et continus est classée parmi les sujets de recherche les plus prioritaires des scientifiques. Généralement, l'observation de l'environnement et l'inspection des infrastructures sous-marines se font au moyen des capteurs imageurs tels que les capteurs optiques ou les systèmes acoustiques. Toutefois, ces outils souffrent de certaines limitations lors de leur utilisation. Les caméras optiques fournissent des données caractérisées par une bonne résolution permettant une interprétation facile des scènes observées mais aussi par des problèmes techniques lors de l'acquisition liés aux conditions du milieu marin (e.g. manque de visibilité) empêchant une observation continue du milieu. Les sonars traditionnels produisent aussi des images mais ils n'offrent pas de séquences d'images de haute cadence tels que les capteurs optiques, et leur utilisation est parfois contrainte dans les milieux portuaires et de faible profondeur. C'est pour pallier ces problèmes que les caméras acoustiques ont été conçues. Elles ont la capacité d'acquérir des séquences d'images multi-vues avec une haute cadence et de fonctionner dans des milieux très turbides. Néanmoins, ces caméras ne produisent que des images en 2D où l'élévation de la scène observée est inconnue. Or, une représentation 2D de l'environnement ne peut présenter qu'une partie des informations, elle n'est pas en mesure de représenter "fidèlement" le milieu où le phénomène est observé. Ceci n'est possible qu'à travers une représentation 3D. L'objectif de cette thèse est donc de développer une approche de reconstruction 3D de scènes sous-marines à partir de séquences d'images acquises par des caméras acoustiques. Pour ce faire, nous nous sommes inspirés du principe de la stéréovision pour une reconstruction 3D à partir de points saillants. Néanmoins, la géométrie et la nature bruitée des images acoustiques ne permettent pas une application directe du principe de la stéréovision. Ainsi nous proposons dans cette thèse, une méthodologie de reconstruction 3D qui répond aux problématiques posées par les images des caméras acoustiques. Elle se base, en première partie, sur la conception d'un processus d'extraction de points saillants pertinents sur lesquels, en deuxième partie, va pouvoir s'appuyer la reconstruction 3D de la scène observée. Pour la reconstruction 3D, nous proposons deux approches différentes : une approche curviligne et une approche volumique. Dans ces deux approches, l'algorithme d'optimisation CMA-ES issu de la famille des stratégies d'évolution intervient dans le calcul du mouvement de la caméra entre les images, la détermination de ce mouvement permettant par la suite, l'estimation des informations 3D. La performance de l'approche d'extraction de primitives ainsi que celle des approches de reconstruction 3D ont été évaluées: la première au travers de critères de bonne détection, de répétabilité et de bonne localisation et la deuxième au travers de la comparaison du mouvement et des informations 3D estimés avec des données réelles

    Acquisition 3D et visualisation d'objets culturels pour les applications de la réalité augmentée

    Get PDF
    Au cours des dernières décennies, le domaine de la reconstruction 3D a connu une croissance rapide et de nombreuses techniques ont été présentées par les scientifiques. L'enveloppe visuelle et la stéréovision sont deux de ces techniques, et sont classées parmi les techniques IBMR. Les enveloppes visuelles utilisent la forme d'un objet dérivée des images prises sous différents angles pour créer un modèle 3D approximatif de l'objet. La stéréovision calcule la dimension 3D (profondeur) en comparant deux images de la même scène qui ont été prises sous deux angles différents. Les pixels correspondants dans les deux images sont ensuite calculés pour déduire une carte de disparité qui est utilisée pour déterminer les profondeurs. Les deux techniques présentent des inconvénients lorsqu'elles sont utilisées seules, et l'un des objectifs de cette recherche est de surmonter ces problèmes et de développer une technique de reconstruction 3D efficace et robuste. Notre étude a abouti à la proposition d’une méthode innovante pour estimer l'enveloppe visuelle. Deux approches ont été combinées, à savoir, « la correspondance de caractéristiques » et « l’approche par bloc ». Ce qui a permis de reconstruire des objets avec des gains considérables de temps et sans perte de qualité. Nous avons utilisé les informations géométriques présentes dans les images pour réduire l'espace de recherche des algorithmes stéréoscopiques, réduisant ainsi le temps d'exécution de plus de la moitié du temps initial. Dans le cadre de cette recherche, nous avons eu l’occasion de reconstruire des objets culturels réels et d’intégrer leur modèles 3D à des applications de réalité augmentée.

    Compréhension de scènes urbaines par combinaison d'information 2D/3D

    Get PDF
    Cette thèse traite du problème de segmentation sémantique d'une séquence d'images calibrées acquises dans un environnement urbain. Ce problème consiste, plus précisément, à partitionner chaque image en régions représentant les objets de la scène (façades, routes, etc.). Ainsi, à chaque région est associée une étiquette sémantique. Dans notre approche, l'étiquetage s'opère via des primitives visuelles de niveau intermédiaire appelés super-pixels, lesquels regroupent des pixels similaires au sens de différents critères proposés dans la littérature, qu'ils soient photométriques (s'appuyant sur les couleurs) ou géométriques (limitant la taille des super-pixels formés). Contrairement à l'état de l'art, où les travaux récents traitant le même problème s'appuient en entrée sur une sur-segmentation initiale sans la remettre en cause, notre idée est de proposer, dans un contexte multi-vues, une nouvelle approche de constructeur de superpixels s'appuyant sur une analyse tridimensionnelle de la scène et, en particulier, de ses structures planes. Pour construire de «meilleurs» superpixels, une mesure de planéité locale, qui quantifie à quel point la zone traitée de l'image correspond à une surface plane de la scène, est introduite. Cette mesure est évaluée à partir d'une rectification homographique entre deux images proches, induites par un plan candidat au support des points 3D associés à la zone traitée. Nous analysons l'apport de la mesure UQI (Universal Quality Image) et montrons qu'elle se compare favorablement aux autres métriques qui ont le potentiel de détecter des structures planes. On introduit ensuite un nouvel algorithme de construction de super-pixels, fondé sur l'algorithme SLIC (Simple Linear Iterative Clustering) dont le principe est de regrouper les plus proches voisins au sens d'une distance fusionnant similarités en couleur et en distance, et qui intègre cette mesure de planéité. Ainsi la sur-segmentation obtenue, couplée à la cohérence interimages provenant de la validation de la contrainte de planéité locale de la scène, permet d'attribuer une étiquette à chaque entité et d'obtenir ainsi une segmentation sémantique qui partitionne l'image en objets plans

    Reconfiguration stéréoscopique

    Get PDF
    Au cours des dernières années, le cinéma tridimensionnel a connu un regain de popularité. La réalisation de plusieurs films d'animation 3D de qualité, de même que le succès fulgurant du film Avatar aura permis au grand public de constater la qualité de cette nouvelle génération de technologies 3D. Cependant, un problème fondamental ralentit toujours l'adoption à la maison de ce mode de divertissement. En effet, tout contenu visuel produit en se basant sur des techniques de stéréoscopie subira des distorsions visuelles lorsqu'observé dans des conditions différentes de celles considérées lors de la création du contenu. Autrement dit, un film 3D tourné pour un cinéma de grande dimension n'aura pas une richesse de profondeur aussi grande lorsqu'il sera visualisé sur un écran domestique. Ce mémoire présente un cadre de travail, un modèle mathématique et un ensemble de techniques permettant de"reconfigurer", en générant de nouvelles images, le contenu stéréoscopique original afin que l'effet de profondeur original soit préservé dans les nouvelles conditions de visualisation

    Images et modèles 3D en milieux naturels

    Get PDF
    Ce numéro 12 de la Collection EDYTEM est à l'image des précédents : un espace ouvert d'expression dédié au croisement de regards scientifiques. L'accent est ici mis sur les méthodes dédiées aux représentations 3D des milieux naturels afin d'en extraire les données nécessaires aux recherches aussi bien en géosciences, en sciences de l'environnement, qu'en sciences humaines et sociales. Ce numéro recueille plus de vingt articles consacrés à l'imagerie et à la modélisation 3D. Ce volume s'ouvre par quatre articles qui posent les concepts, les méthodes et les outils de la lasergrammétrie et de la photogrammétrie. Les articles suivants constituent autant d'exemples d'application. Un tiers de ceux-ci sont issus des recherches menées par des collègues qui participent à l'école thématique. Les deux autres tiers concernent les travaux que mène le laboratoire EDYTEM en montagne (glaciers, parois, torrents...) et en milieu souterrain naturel

    Métrologie et modélisation de l'aspect pour l'inspection qualité des surfaces

    Get PDF
    In industry, controlling the surface appearance is an important issue in the product creation, from the conception phases through the manufacturing phase all the way to delivery to the final consumer. The surface quality control is mostly carried out by human controllers, except for specific applications where inspection devices have been designed. Our prime purpose is to help manufacturers for the assessment of the surface finish appearance and move towards automation of the inspection process.From a metrological point of view, the relevant quantity is the Bidirectional Reflectance Distribution Function (BRDF) that describes the angular distribution of the reflected light from a surface. The human visual system is able to extract information about these surface reflectance properties, that allow us to construct a mental representation of the stimulus and give meaning to the observations : structural regularity, color uniformity, gloss quality, characteristics of salience, etc.Our approach is based on the use of techniques known as Reflectance Transformation Imaging (RTI), initialy developed to study the surface of cultural heritage artefacts, as industrial measurement instrument. The RTI techniques allow us to obtain both a reduced and simplified BRDF estimation and the normal field to the surface.A RTI acquisition system called MeSurA Sphere provides photometric stereo datasets (radiance values captured under varying illumination). The continuous model of the local reflection of radiances is based on the Discrete Modal Decomposition (DMD). A comparative analysis with other RTI models shows that the DMD is well suited for approximating the complex physical behavior of light reflections and enhance the overall accuracy of appearance reconstruction of shiny reflective surfaces.We developed a method to measure the similarity of surface appearance using rotation invariant descriptors obtained by chan- ging the DMD parameterization. We then calculate distance maps to extract the most salient features leading to an effective separa- tion of surface defects. We identify relevant parameters from which controllers are able to decide on product conformity.We propose orientation-preserving maps of slopes and curvatures for identifying and separating the periodic and aperiodic components of the surface. We are then able to make a geometric characterization of the detected surface defects or of the manu- facturing process signature.The results of this work make possible to help manufacturers in the control of surface appearance using a software called MsaTool® bringing together several modalities of our treatments.Dans les secteurs industriels, la maîtrise de l’aspect des surfaces est une problématique majeure de la conception jusqu’à la réalisation des produits. En entreprise, l’évaluation de la qualité des surfaces est généralement réalisée par des contrôleurs humains, sauf pour certaines applications spécifiques pour lesquels des systèmes ont pu être mis en œuvre. L’objectif est donc d’aider les fabricants à mieux évaluer l’aspect et d’avancer vers l’automatisation du processus d’inspection qualité des surfaces.D’un point de vue métrologique, la quantification de l’aspect passe par l’acquisition de la fonction de répartition du coefficient de luminance (BRDF) qui fournit une cartographie de la lumière réfléchie à la surface d’un échantillon. Le système visuel humain extrait de cette mesure des facteurs à partir desquels il élabore des attributs de l’aspect : régularité d’une texture, uniformité de la couleur, qualité du brillant, saillance d’une anomalie, etc.En conséquence, notre approche consiste à utiliser les techniques appelées Reflectance Transformation Imaging (RTI) originellement issues du domaine archéologique, pour l’industrie. Elles permettent d’obtenir simultanément une estimation réduite et simplifiée de la BRDF et une estimation des normales à la surface.Un dispositif d’acquisition RTI appelé la Sphère MeSurA permet d’obtenir des données stéréophotométriques (luminances). L’approximation de forme des mesures discrètes de luminances acquises est fournie selon le principe de la Décomposition Modale Discrète (DMD). Une analyse comparative avec les autres modèles montre que la DMD décrit plus fidèlement les réflexions spéculaires, et plus généralement les zones locales de surfaces brillantes.Nous développons une méthode permettant de mesurer la similarité d’aspect en définissant des descripteurs invariants à la rotation obtenus par un changement de paramétrage de la DMD. Nous calculons ainsi des cartes de distance permettant d’extraire les anomalies les plus saillantes. Nous proposons également leur évaluation par des attributs pertinents sur lesquels les contrôleurs pourront se baser pour décider de la conformité d’un produit.De plus, nous mettons l’accent sur des indicateurs directionnels de normales et de courbures à la surface. Ils permettent de séparer efficacement les composantes périodiques et non-périodiques de la surface, et ainsi de caractériser géométriquement les anomalies d’aspect d’une part et d’autre part la signature d’un procédé de fabrication.Les résultats de ces travaux permettent ainsi d’aider les fabricants à maîtriser la qualité d’aspect en accédant à différentes modalités de la surface inspectée, dans un logiciel d’application appelé MsaTool®

    Modélisation 3D d'objets par un capteur visuel déplacé par un opérateur

    Get PDF
    The work of this thesis focuses on modeling 3D objects from small to medium sized (1m3 maximum) with an innovative sensor moved manually by an operator, developed by theNOOMEOTM company.To acquire 3D data, the sensor consists of a camera system coupled with an illuminator. Weinfer information from a a visual pattern projected on the scene, used to create the artificialtexture on 3D surface, to produce a 3D image of the scene. Surfaces are represented as 3Dpoints reconstructed from the current viewpoint. To completely model an object, the sensormust be moved around the object to acquire several 3D images. These images are successivelyregistered and merged into a single 3D point cloud. A triangular mesh is then generated fromthe 3D point cloud. The appearance (color and texture) of the object can also be extractedfrom data acquisition to enrich the final model.This thesis addresses the problem of registration of 3D views in two ways : the fast onlineregistration and offline accurate optimization. For the first approach we proposed a variant ofthe ICP algorithm using information from images and inertial measurement. This method wasvalidated by comparing it to other common geometric registration methods. For the secondapproach, we proposed a refinment strategy by minimization of cycles in a graph of relationsbetween the 3D views ; and a global pose optimization method.Our methods and their integration into a complete modeling system were validated bycomparing our results with those from other scanning systems commonly used in scientificand industrial communities.Les travaux de cette thèse portent sur la modélisation 3D d’objets de petite et moyenne tailles(1 m3 maximum) par un système innovant, développé par la société NOOMEOTM, déplacémanuellement par un opérateur.Pour acquérir les données 3D, le capteur est constitué d’un système de caméras couplé à unilluminateur. La projection sur la scène d’un motif visuel permet de créer sur les surfaces3D une texture artificielle exploitée pour produire une image 3D de la scène, soit l’ensemblede points 3D reconstruits depuis le point de vue courant. Pour obtenir le modèle completd’un objet, le capteur doit être déplacé autour de l’objet afin d’acquérir plusieurs images3D. Ces images sont successivement recalées et fusionnées dans un seul nuage de points 3D.Un maillage triangulaire est ensuite généré à partir de ce nuage de points 3D. L’apparence(couleur et texture) de l’objet peut également être extraite des données d’acquisition afind’enrichir le modèle final.Cette thèse aborde le problème du recalage de vues 3D selon deux approches : le recalagerapide en ligne et l’optimisation précise hors ligne. La première approche nous a conduit àproposer une variante de la méthode ICP exploitant l’information des images et la mesureinertielle. Cette méthode a été validée en la comparant à d’autres méthodes courantes derecalage géométrique. Pour la seconde approche, nous avons proposé une stratégie de raffinageexploitant la minimisation de cycles dans un graphe de relations entre les vues 3D ; puis uneméthode d’optimisation globale des poses.Nos méthodes et leur intégration dans le système de modélisation complet ont été validésen comparant nos résultats avec ceux d’autres systèmes de numérisation couramment utilisésdans les communautés scientifique et industrielle

    Système d'apprentissage multitâche dédié à la segmentation des lésions sombres et claires de la rétine dans les images de fond d'oeil

    Get PDF
    Le travail de recherche mené dans le cadre de cette maîtrise porte sur l’exploitation de l’imagerie de la rétine à des fins de diagnostic automatique. Il se concentre sur l’image de fond d’oeil, qui donne accès à une représentation en deux dimensions et en couleur de la surface de la rétine. Ces images peuvent présenter des symptômes de maladie, sous forme de lésions ou de déformations des structures anatomiques de la rétine. L’objet de cette maîtrise est de proposer une méthodologie de segmentation simultanée de ces lésions dans l’image de fond d’oeil, regroupées en deux catégories : claires ou sombres. Réaliser cette double segmentation de façon simultanée est inédit : la vaste majorité des travaux précédents se concentrant sur un seul type de lésions. Or, du fait des contraintes de temps et de la difficulté que cela représente dans un environnement clinique, il est impossible pour un clinicien de tester la multitude d’algorithmes existants. D’autant plus que lorsqu’un patient se présente pour un examen, le clinicien n’a aucune connaissance a priori sur le type de pathologie et par conséquent sur le type d’algorithme à utiliser. Pour envisager une utilisation clinique, il est donc important de réfléchir à une solution polyvalente, rapide et aisément déployable. Parallèlement, l’apprentissage profond a démontré sa capacité à s’adapter à de nombreux problèmes de visions par ordinateur et à généraliser ses performances sur des données variées malgré des ensembles d’entraînement parfois restreints. Pour cela, de nouvelles stratégies sont régulièrement proposées, ambitionnant d’extraire toujours mieux les informations issues de la base d’entraînement. En conséquence, nous nous sommes fixés pour objectif de développer une architecture de réseaux de neurones capable de rechercher toutes les lésions dans une image de fond d’oeil. Pour répondre à cet objectif, notre méthodologie s’appuie sur une nouvelle architecture de réseaux de neurones convolutifs reposant sur une structure multitâche entraînée selon une approche hybride faisant appel à de l’apprentissage supervisé et faiblement supervisé. L’architecture se compose d’un encodeur partagé par deux décodeurs spécialisés chacun dans un type de lésions. Ainsi, les mêmes caractéristiques sont extraites par l’encodeur pour les deux décodeurs. Dans un premier temps, le réseau est entraîné avec des régions d’images et la vérité terrain correspondante indiquant les lésions (apprentissage supervisé). Dans un second temps, seul l’encodeur est ré-entraîné avec des images complètes avec une vérité terrain composé d’un simple scalaire indiquant si l’image présente des pathologies ou non, sans préciser leur position et leur type (apprentissage faiblement supervisé).----------ABSTRACT: This work focuses on automatic diagnosis on fundus images, which are a bidimensional representation of the inner structure of the eye. The aim of this master’s thesis is to discuss a solution for an automatic segmentation of the lesions that can be observed in the retina. The proposed methodology regroups those lesions in two categories: red and bright. Obtaining a simultaneous double segmentation is a novel approach; most of the previous works focus on the detection of a single type of lesions. However, due to time constraints and the tedeous nature of this work, clinicians usually can not test all the existing methods. Moreover, from a screening perspective, the clinician has no clue a priori on the nature of the pathology he deals with and thus on which algorithm to start with. Therefore, the proposed algorithm requires to be versatile, fast and easily deployable. Conforted by the recent progresses obtained with machine learning methods (and especially deep learning), we decide to develop a novel convolutional neural network able to segment both types of lesions on fundus images. To reach this goal, our methodology relies on a new multitask architecture, trained on a hybrid method combining weak and normal supervised training. The architecture relies on hard parameter sharing: two decoders (one per type of lesion) share a single encoder. Therefore, the encoder is trained on deriving an abstrast representation of the input image. Those extracted features permit a discrimination between both bright and red lesions. In other words, the encoder is trained on detecting pathological tissues from normal ones. The training is done in two steps. During the first one, the whole architecture is trained with patches, with a groundtruth at a pixel level, which is the typical way of training a segmentation network. The second step consists in weak supervision. Only the encoder is trained with full images and its task is to predict the status of the given image (pathological or healthy), without specifying anything concerning the potential lesions in it (neither location nor type). In this case, the groundtruth is a simple boolean number. This second step allows the network to see a larger number of images: indeed, this type of groundtruth is considerably easier to acquire and already available in large public databases. This step relies on the hypothesis that it is possible to use an annotation at an image level (globally) to enhance the performance at a pixel level (locally). This is an intuitive idea, as the pathological status is directly correlated with the presence of lesions

    Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

    Get PDF
    More than 315 million people worldwide suffer from visual impairments, with several studies suggesting that this number will double by 2030 due to the ageing of the population. To compensate for the loss of sight the current approaches consist of either specific aids designed to answer particular needs or generic systems such as neuroprostheses and sensory substitution devices. These holistic approaches, which try to restore vision as a whole, have been shown to be very inefficient in real life situations given the low resolution of output interfaces. To overcome these obstacles we propose the use of artificial vision in order to pre-process visual scenes and provide the user with relevant information. We have validated this approach through the development of a novel assistive device for the blind called Navig. Through shape recognition and spatialized sounds synthesis, this system allows users to locate and grab objects of interest. It also features navigational aids based on a new positioning method combining GPS, inertial sensors and the visual detection of geolocalized landmarks. To enhance the performance of the visual module we further developed, as part of this thesis, a bio-inspired pattern recognition algorithm which uses latency-based coding of visual information, oriented edge representations and a cascaded architecture combining detection at different resolutions.La déficience visuelle touche aujourd’hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d’ici à 2030 du fait du vieillissement de la population. Les deux grandes approches existantes pour compenser la perte de vision sont les aides spécifiques, répondant à un besoin identifié, et les systèmes génériques tels que les neuroprothèses ou les systèmes de substitution sensorielle. Ces approches holistiques, tentant de restituer l’ensemble de l’information visuelle, s’avèrent inadaptées de par la trop faible résolution des interfaces de sortie, rendant ces systèmes inutilisables dans la vie quotidienne. Face à ce constat, nous proposons dans cette thèse une démarche alternative, consistant à intégrer des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Pour valider cette approche, nous présenterons le développement d’un système de suppléance baptisé Navig. Grâce à la reconnaissance de formes et à la synthèse de sons spatialisés, il permet à l’utilisateur de localiser des objets d’intérêt. Il offre également des fonctions de navigation, basées sur une nouvelle méthode de positionnement combinant GPS, données inertielles, et détections de cibles visuelles géolocalisées. Afin d’améliorer les performances du module de vision artificielle, nous proposerons également dans cette thèse un nouvel algorithme de reconnaissance de formes bio-inspiré, reposant sur un codage de l’information visuelle par latence, sur des représentations sous forme d’arêtes orientées, et sur une architecture en cascade combinant des détections à différentes résolutions
    corecore