53 research outputs found

    Les Forêts Aléatoires en Apprentissage Semi-Supervisé (Co-forest) pour la segmentation des images rétiniennes

    Get PDF
    Nous proposons une approche qui permet la reconnaissance automatique des régions Disques et Cups pour la mesure du rapport CDR (Cup/Disc Ratio) par apprentissage semi-supervisé. Une étude comparative de plusieurs techniques est proposée. Le principe repose sur une croissance de région en classifiant les pixels voisins à partir des pixels d'intérêt de l'image par apprentissage semi-supervisé. Les points d'intérêt sont détectés par l'algorithme Fuzzy C-means (FCM)

    Détection et conciliation d'erreurs intégrées dans un décodeur vidéo : utilisation des techniques d'analyse statistique

    Get PDF
    This report presents the research conducted during my PhD, which aims to develop an efficient algorithm for correcting errors in a digital image decoding process and ensure a high level of visual quality of decoded images. Statistical analysis techniques are studied to detect and conceal the artefacts. A control loop is implemented for the monitoring of image visual quality. The manuscript consists in six chapters. The first chapter presents the principal state of art image quality assessment methods and introduces our proposal. This proposal consists in a video quality measurement tool (VQMT) using the Human Visual System to indicate the visual quality of a video (or an image). Three statistical learning models of VQMT are designed. They are based on classification, artificial neural networks and non-linear regression and are developed in the second, third and fourth chapter respectively. The fifth chapter presents the principal state of art image error concealment technics. The latter chapter uses the results of the four former chapters to design an algorithm for error concealment in images. The demonstration considers blur and noise artefacts and is based on the Wiener filter optimized on the criterion of local linear minimum mean square error. The results are presented and discussed to show how the VQMT improves the performances of the implemented algorithm for error concealment.Ce manuscrit présente les travaux de recherche réalisés au cours de ma thèse, dont le but est de développer des algorithmes de correction d'erreurs dans un décodage numérique d'images et d'assurer un haut niveau de la qualité visuelle des images décodées. Nous avons utilisé des techniques d'analyse statistique pour détecter et dissimuler les artefacts. Une boucle de contrôle de la qualité est implémentée afin de surveiller et de corriger la qualité visuelle de l'image. Le manuscrit comprend six chapitres. Le premier chapitre présente les principales méthodes d'évaluation de la qualité des images trouvées dans l'état de l'art et introduit notre proposition. Cette proposition est en fait un outil de mesure de la qualité des vidéos (OMQV) qui utilise le système visuel humain pour indiquer la qualité visuelle d'une vidéo (ou d'une image). Trois modèles d'OMQV sont conçus. Ils sont basés sur la classification, les réseaux de neurones artificiels et la régression non linéaire, et sont développés dans le deuxième, troisième et quatrième chapitre respectivement. Le cinquièmechapitre présente quelques techniques de dissimulation d'artefacts présents dans l'état de l'art. Le sixième et dernier chapitre utilise les résultats des quatre premiers chapitres pour mettre au point un algorithme de correction d'erreurs dans les images. La démonstration considère uniquement les artefacts flou et bruit et s'appuie sur le filtre de Wiener, optimisé sur le critère du minimum linéaire local de l'erreur quadratique moyenne. Les résultats sont présentés et discutés afin de montrer comment l'OMQV améliore les performances de l'algorithme mis en œuvre pour la dissimulation des artefacts

    Recherche d'information dans les images de documents

    Get PDF
    L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur. Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants. Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams. Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image. Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents

    Développement et validation d’un système automatique de classification de la dégénérescence maculaire liée à l’âge

    Get PDF
    RÉSUMÉ La dégénérescence maculaire liée à l’âge (DMLA) est une des principales causes de déficience visuelle menant à une cécité irréversible chez les personnes âgées dans les pays industrialisés. Cette maladie regroupe une variété d’anomalies touchant la macula, se présentant sous diverses formes. Un des moyens les plus couramment utilisés pour rapidement examiner la rétine est la photographie de fond d’œil. À partir de ces images, il est déjà possible de détecter et de poser un diagnostic sur l’avancée de la maladie. Une classification recommandée pour évaluer la DMLA est la classification simplifiée de l’AREDS qui consiste à diviser la maladie en quatre catégories : non-DMLA, précoce, modérée, et avancée. Cette classification aide à déterminer le traitement spécifique le plus optimal. Elle se base sur des critères quantitatifs mais également qualitatifs, ce qui peut entrainer des variabilités inter- et intra-expert. Avec le vieillissement de la population et le dépistage systématique, le nombre de cas de DMLA à être examinés et le nombre d’images à être analysées est en augmentation rendant ainsi le travail long et laborieux pour les cliniciens. C’est pour cela, que des méthodes automatiques de détection et de classification de la DMLA ont été proposées, afin de rendre le processus rapide et reproductible. Cependant, il n’existe aucune méthode permettant une classification du degré de sévérité de la DMLA qui soit robuste à la qualité de l’image. Ce dernier point est important lorsqu’on travaille dans un contexte de télémédecine. Dans ce projet, nous proposons de développer et valider un système automatique de classification de la DMLA qui soit robuste à la qualité de l’image. Pour ce faire, nous avons d’abord établi une base de données constituée de 159 images, représentant les quatre catégories de l’AREDS et divers niveaux de qualité d’images. L’étiquetage de ces images a été réalisé par un expert en ophtalmologie et nous a servi de référence. Ensuite, une étude sur l’extraction de caractéristiques nous a permis de relever celles qui étaient pertinentes et de configurer les paramètres pour notre application. Nous en avons conclu que les caractéristiques de texture, de couleur et de contexte visuel semblaient les plus intéressantes. Nous avons effectué par après une étape de sélection afin de réduire la dimensionnalité de l’espace des caractéristiques. Cette étape nous a également permis d’évaluer l’importance des différentes caractéristiques lorsqu’elles étaient combinées ensemble.----------ABSTRACT Age-related macular degeneration (AMD) is the leading cause of visual deficiency and legal blindness in the elderly population in industrialized countries. This disease is a group of heterogeneous disorders affecting the macula. For eye examination, a common used modality is the fundus photography because it is fast and non-invasive procedure which may establish a diagnostic on the stage of the disease. A recommended classification for AMD is the simplified classification of AREDS which divides the disease into four categories: non-AMD, early, moderate and advanced. This classification is helpful to determine the optimal and specific treatment. It is based on quantitative criteria but also on qualitative ones, introducing inter- and intra-expert variability. Moreover, with the aging population and systematic screening, more cases of AMD must be examined and more images must be analyzed, rendering this task long and laborious for clinicians. To address this problem, automatic methods for AMD classification were then proposed for a fast and reproducible process. However, there is no method performing AMD severity classification which is robust to image quality. This last part is especially important in a context of telemedicine where the acquisition conditions are various. The aim of this project is to develop and validate an automatic system for AMD classification which is robust to image quality. To do so, we worked with a database of 159 images, representing the different categories at various levels of image quality. The labelling of these images is realized by one expert and served as a reference. A study on feature extraction is carried out to determine relevant features and to set the parameters for this application. We conclude that features based on texture, color and visual context are the most interesting. After, a selection is applied to reduce the dimensionality of features space. This step allows us to evaluate the feature relevance when all the features are combined. It is shown that the local binary patterns applied on the green channel are the most the discriminant features for AMD classification. Finally, different systems for AMD classification were modeled and tested to assess how the proposed method classifies the fundus images into the different categories. The results demonstrated robustness to image quality and also that our method outperforms the methods proposed in the literature. Errors were noted on images presenting diabetic retinopathy, visible choroidal vessels or too much degradation caused by artefacts. In this project, we propose the first AMD severities classification robust to image quality

    Contributions au tri automatique de documents et de courrier d'entreprises

    Get PDF
    Ce travail de thèse s inscrit dans le cadre du développement de systèmes de vision industrielle pour le tri automatique de documents et de courriers d entreprises. Les architectures existantes, dont nous avons balayé les spécificités dans les trois premiers chapitres de la thèse, présentent des faiblesses qui se traduisent par des erreurs de lecture et des rejets que l on impute encore trop souvent aux OCR. Or, les étapes responsables de ces rejets et de ces erreurs de lecture sont les premières à intervenir dans le processus. Nous avons ainsi choisi de porter notre contribution sur les aspects inhérents à la segmentation des images de courriers et la localisation de leurs régions d intérêt en investissant une nouvelle approche pyramidale de modélisation par coloration hiérarchique de graphes ; à ce jour, la coloration de graphes n a jamais été exploitée dans un tel contexte. Elle intervient dans notre contribution à toutes les étapes d analyse de la structure des documents ainsi que dans la prise de décision pour la reconnaissance (reconnaissance de la nature du document à traiter et reconnaissance du bloc adresse). Notre architecture a été conçue pour réaliser essentiellement les étapes d analyse de structures et de reconnaissance en garantissant une réelle coopération entres les différents modules d analyse et de décision. Elle s articule autour de trois grandes parties : une partie de segmentation bas niveau (binarisation et recherche de connexités), une partie d extraction de la structure physique par coloration hiérarchique de graphe et une partie de localisation de blocs adresse et de classification de documents. Les algorithmes impliqués dans le système ont été conçus pour leur rapidité d exécution (en adéquation avec les contraintes de temps réels), leur robustesse, et leur compatibilité. Les expérimentations réalisées dans ce contexte sont très encourageantes et offrent également de nouvelles perspectives à une plus grande diversité d images de documents.This thesis deals with the development of industrial vision systems for automatic business documents and mail sorting. These systems need very high processing time, accuracy and precision of results. The current systems are most of time made of sequential modules needing fast and efficient algorithms throughout the processing line: from low to high level stages of analysis and content recognition. The existing architectures that we have described in the three first chapters of the thesis have shown their weaknesses that are expressed by reading errors and OCR rejections. The modules that are responsible of these rejections and reading errors are mostly the first to occur in the processes of image segmentation and interest regions location. Indeed, theses two processes, involving each other, are fundamental for the system performances and the efficiency of the automatic sorting lines. In this thesis, we have chosen to focus on different sides of mail images segmentation and of relevant zones (as address block) location. We have chosen to develop a model based on a new pyramidal approach using a hierarchical graph coloring. As for now, graph coloring has never been exploited in such context. It has been introduced in our contribution at every stage of document layout analysis for the recognition and decision tasks (kind of document or address block recognition). The recognition stage is made about a training process with a unique model of graph b-coloring. Our architecture is basically designed to guarantee a good cooperation bewtween the different modules of decision and analysis for the layout analysis and the recognition stages. It is composed of three main sections: the low-level segmentation (binarisation and connected component labeling), the physical layout extraction by hierarchical graph coloring and the address block location and document sorting. The algorithms involved in the system have been designed for their execution speed (matching with real time constraints), their robustness, and their compatibility. The experimentations made in this context are very encouraging and lead to investigate a wider diversity of document images.VILLEURBANNE-DOC'INSA-Bib. elec. (692669901) / SudocSudocFranceF

    Vision artificielle pour les non-voyants : une approche bio-inspirée pour la reconnaissance de formes

    Get PDF
    More than 315 million people worldwide suffer from visual impairments, with several studies suggesting that this number will double by 2030 due to the ageing of the population. To compensate for the loss of sight the current approaches consist of either specific aids designed to answer particular needs or generic systems such as neuroprostheses and sensory substitution devices. These holistic approaches, which try to restore vision as a whole, have been shown to be very inefficient in real life situations given the low resolution of output interfaces. To overcome these obstacles we propose the use of artificial vision in order to pre-process visual scenes and provide the user with relevant information. We have validated this approach through the development of a novel assistive device for the blind called Navig. Through shape recognition and spatialized sounds synthesis, this system allows users to locate and grab objects of interest. It also features navigational aids based on a new positioning method combining GPS, inertial sensors and the visual detection of geolocalized landmarks. To enhance the performance of the visual module we further developed, as part of this thesis, a bio-inspired pattern recognition algorithm which uses latency-based coding of visual information, oriented edge representations and a cascaded architecture combining detection at different resolutions.La déficience visuelle touche aujourd’hui plus de 315 millions de personnes à travers le monde, un chiffre qui pourrait doubler d’ici à 2030 du fait du vieillissement de la population. Les deux grandes approches existantes pour compenser la perte de vision sont les aides spécifiques, répondant à un besoin identifié, et les systèmes génériques tels que les neuroprothèses ou les systèmes de substitution sensorielle. Ces approches holistiques, tentant de restituer l’ensemble de l’information visuelle, s’avèrent inadaptées de par la trop faible résolution des interfaces de sortie, rendant ces systèmes inutilisables dans la vie quotidienne. Face à ce constat, nous proposons dans cette thèse une démarche alternative, consistant à intégrer des méthodes de vision artificielle, afin de prétraiter la scène visuelle, et de ne restituer au non-voyant que les informations extraites pertinentes. Pour valider cette approche, nous présenterons le développement d’un système de suppléance baptisé Navig. Grâce à la reconnaissance de formes et à la synthèse de sons spatialisés, il permet à l’utilisateur de localiser des objets d’intérêt. Il offre également des fonctions de navigation, basées sur une nouvelle méthode de positionnement combinant GPS, données inertielles, et détections de cibles visuelles géolocalisées. Afin d’améliorer les performances du module de vision artificielle, nous proposerons également dans cette thèse un nouvel algorithme de reconnaissance de formes bio-inspiré, reposant sur un codage de l’information visuelle par latence, sur des représentations sous forme d’arêtes orientées, et sur une architecture en cascade combinant des détections à différentes résolutions

    Évaluation de la qualité des documents anciens numérisés

    Get PDF
    Les travaux de recherche présentés dans ce manuscrit décrivent plusieurs apports au thème de l évaluation de la qualité d images de documents numérisés. Pour cela nous proposons de nouveaux descripteurs permettant de quantifier les dégradations les plus couramment rencontrées sur les images de documents numérisés. Nous proposons également une méthodologie s appuyant sur le calcul de ces descripteurs et permettant de prédire les performances d algorithmes de traitement et d analyse d images de documents. Les descripteurs sont définis en analysant l influence des dégradations sur les performances de différents algorithmes, puis utilisés pour créer des modèles de prédiction à l aide de régresseurs statistiques. La pertinence, des descripteurs proposés et de la méthodologie de prédiction, est validée de plusieurs façons. Premièrement, par la prédiction des performances de onze algorithmes de binarisation. Deuxièmement par la création d un processus automatique de sélection de l algorithme de binarisation le plus performant pour chaque image. Puis pour finir, par la prédiction des performances de deux OCRs en fonction de l importance du défaut de transparence (diffusion de l encre du recto sur le verso d un document). Ce travail sur la prédiction des performances d algorithmes est aussi l occasion d aborder les problèmes scientifiques liés à la création de vérités-terrains et d évaluation de performances.This PhD. thesis deals with quality evaluation of digitized document images. In order to measure the quality of a document image, we propose to create new features dedicated to the characterization of most commons degradations. We also propose to use these features to create prediction models able to predict the performances of different types of document analysis algorithms. The features are defined by analyzing the impact of a specific degradation on the results of an algorithm and then used to create statistical regressors.The relevance of the proposed features and predictions models, is analyzed in several experimentations. The first one aims to predict the performance of different binarization methods. The second experiment aims to create an automatic procedure able to select the best binarization method for each image. At last, the third experiment aims to create a prediction model for two commonly used OCRs. This work on performance prediction algorithms is also an opportunity to discuss the scientific problems of creating ground-truth for performance evaluation.BORDEAUX1-Bib.electronique (335229901) / SudocSudocFranceF

    Contribution au pronostic de défaut dans les systèmes complexes par les techniques intelligentes

    Get PDF
    Nous avons présenté une nouvelle approche basée sur l'utilisation d'une méthode guidée par les données pour le pronostic des défauts. Cette méthode requiert des données décrivant le processus de dégradation. Lorsque les données sont insuffisantes, la prédiction des états devient difficile avec les modèles profonds de type mémoire à long terme (LSTM), qui nécessitent une quantité importante de données d'apprentissage. Pour résoudre ce problème de rareté des données dans la prédiction de la durée de vie restante (RUL), nous proposons d'adopter une stratégie d'augmentation des données. Les résultats obtenus sont démontrent que l'application d'une stratégie d'augmentation des données, peut améliorer les performances de prédiction de la RUL en utilisant les techniques LSTM. Nous avons validé cette approche en utilisant les données de la NASA Commercial Modular Aero-Propulsion System Simulation (C-MAPPS)

    Représentation et reconnaissance des signaux acoustiques sous-marins

    Get PDF
    This thesis aims to identify and develop new representation methods of the underwater acoustic signals. Ourgoal is to interpret, recognize and automatically identify underwater signals from sonar system. The idea hereis not to replace the machine petty officer, whose experience and hearing finesse make it indispensable for thisposition, but to automate certain processing information to relieve the analyst and offer support to the decision.In this thesis, we are inspired by what is best in this area: the human. On board a submarine, they are experts inthe analysis of sounds that are entrusted to the listening task signals to identify suspicious sounds. Whatinterests us is the ability of the human to determine the class of a sound signal on the basis of his hearing.Indeed, the human ear has the power to differentiate two distinct sounds through psychoacoustic perceptualcriteria such as tone, pitch, intensity. The operator is also helped by representations of the sound signal in thetime-frequency plane coming displayed on the workstation. So we designed a representation that approximatesthe physiology of the human ear, i.e how humans hear and perceive frequencies. To construct thisrepresentation space, we will use an algorithm that we called the Hearingogram and a denoised version theDenoised Hearingoram. All these representations will input an automatic identification system, which wasdesigned during this thesis and is based on the use of SVM.Cette thèse a pour but de définir et concevoir de nouvelles techniques de représentation des signauxacoustiques sous-marins. Notre objectif est d’interpréter, reconnaître et identifier de façon automatique lessignaux sous-marins émanant du système sonar. L’idée ici n’est pas de substituer la machine à l’officiermarinier, dont l’expérience et la finesse d’ouïe le rendent indispensable à ce poste, mais d’automatiser certainstraitements de l’information pour soulager l’analyste et lui offrir une aide à la décision.Dans cette thèse, nous nous inspirons de ce qui se fait de mieux dans ce domaine : l’humain. A bord d’un sousmarin,ce sont des experts de l’analyse des sons à qui l’on confie la tâche d'écoute des signaux afin de repérerles sons suspects. Ce qui nous intéresse, c’est cette capacité de l’humain à déterminer la classe d’un signalsonore sur la base de son acuité auditive. En effet, l’oreille humaine a le pouvoir de différencier deux sonsdistincts à travers des critères perceptuels psycho-acoustiques tels que le timbre, la hauteur, l’intensité.L’opérateur est également aidé par des représentations du signal sonore dans le plan temps-fréquence quiviennent s’afficher sur son poste de travail. Ainsi nous avons conçu une représentation qui se rapproche de laphysiologie de l’oreille humaine, autrement dit de la façon dont l’homme entend et perçoit les fréquences. Pourconstruire cet espace de représentation, nous utiliserons un algorithme que nous avons appelé l’Hearingogramet sa version débruitée le Denoised Hearingoram. Toutes ces représentations seront en entrée d’un systèmed’identification automatique, qui a été conçu durant cette thèse et qui est basé sur l’utilisation des SVM

    Approche neuro-mimétique au service du dépistage du cancer du sein

    Get PDF
    Les méthodes de classification automatiques sont un outil important de nos jours pour identifier différentes données et étudier leurs propriétés. On retrouve aujourd'hui l'utilisation des réseaux de neurones en tant que classifieurs dans plusieurs domaines d'application, notamment, le dépistage du cancer du sein. En effet, dans cet axe de recherche, beaucoup de travaux ont été réalisés en employant une approche neuronale pour la reconnaissance de formes et ont abouti à des résultats intéressants. Ceci étant, chaque modèle de réseau de neurones diffère d'un autre de par ses paramètres expérimentaux, sa complexité d'implantation et son domaine d'applicabilité. Ainsi, chaque modèle possède ses avantages et ses inconvénients, faisant qu'il soit plus approprié pour une tâche donnée qu'un autre. Dans (Freeman 1987, Freeman et al., 1988) des expérimentations electrophysiologiques ont été réalisées sur des lapins prouvant l'existence de la dynamique chaotique dans les neurones réels. Depuis les années quatre-vingts, les réseaux de neurones chaotiques ont été le centre d'intérêt de plusieurs travaux en raison de leur dynamique complexe et leur application potentielle dans la dynamique associative, l'optimisation, et le traitement de l'information (Adachi et Aihara, 1997 ; Aihara et al., 1990 ; Tokuda et al., 1997). Dans cette optique, on s'intéresse dans ce travail à étudier la performance d'un modèle de réseau de neurones chaotique sur une tâche de classification reliée à la détection du cancer du sein. À cet effet, on procède dans un premier temps à la revue critique de certains travaux portant sur le sujet et qui ont été rapportés dans la littérature, de manière à situer le travail par rapport à ces travaux et mettre en évidence les contributions qu'il permet. Une étude comparative est ensuite établie où l'on met en avant les avantages d'utiliser une mémoire associative bidirectionnelle chaotique pour le travail de classification, relativement à deux modèles de réseau de neurones classiques, à savoir, une mémoire associative bidirectionnelle standard et un réseau multicouche à rétropropagation d'erreur
    • …
    corecore