3 research outputs found

    Système d'apprentissage multitâche dédié à la segmentation des lésions sombres et claires de la rétine dans les images de fond d'oeil

    Get PDF
    Le travail de recherche mené dans le cadre de cette maîtrise porte sur l’exploitation de l’imagerie de la rétine à des fins de diagnostic automatique. Il se concentre sur l’image de fond d’oeil, qui donne accès à une représentation en deux dimensions et en couleur de la surface de la rétine. Ces images peuvent présenter des symptômes de maladie, sous forme de lésions ou de déformations des structures anatomiques de la rétine. L’objet de cette maîtrise est de proposer une méthodologie de segmentation simultanée de ces lésions dans l’image de fond d’oeil, regroupées en deux catégories : claires ou sombres. Réaliser cette double segmentation de façon simultanée est inédit : la vaste majorité des travaux précédents se concentrant sur un seul type de lésions. Or, du fait des contraintes de temps et de la difficulté que cela représente dans un environnement clinique, il est impossible pour un clinicien de tester la multitude d’algorithmes existants. D’autant plus que lorsqu’un patient se présente pour un examen, le clinicien n’a aucune connaissance a priori sur le type de pathologie et par conséquent sur le type d’algorithme à utiliser. Pour envisager une utilisation clinique, il est donc important de réfléchir à une solution polyvalente, rapide et aisément déployable. Parallèlement, l’apprentissage profond a démontré sa capacité à s’adapter à de nombreux problèmes de visions par ordinateur et à généraliser ses performances sur des données variées malgré des ensembles d’entraînement parfois restreints. Pour cela, de nouvelles stratégies sont régulièrement proposées, ambitionnant d’extraire toujours mieux les informations issues de la base d’entraînement. En conséquence, nous nous sommes fixés pour objectif de développer une architecture de réseaux de neurones capable de rechercher toutes les lésions dans une image de fond d’oeil. Pour répondre à cet objectif, notre méthodologie s’appuie sur une nouvelle architecture de réseaux de neurones convolutifs reposant sur une structure multitâche entraînée selon une approche hybride faisant appel à de l’apprentissage supervisé et faiblement supervisé. L’architecture se compose d’un encodeur partagé par deux décodeurs spécialisés chacun dans un type de lésions. Ainsi, les mêmes caractéristiques sont extraites par l’encodeur pour les deux décodeurs. Dans un premier temps, le réseau est entraîné avec des régions d’images et la vérité terrain correspondante indiquant les lésions (apprentissage supervisé). Dans un second temps, seul l’encodeur est ré-entraîné avec des images complètes avec une vérité terrain composé d’un simple scalaire indiquant si l’image présente des pathologies ou non, sans préciser leur position et leur type (apprentissage faiblement supervisé).----------ABSTRACT: This work focuses on automatic diagnosis on fundus images, which are a bidimensional representation of the inner structure of the eye. The aim of this master’s thesis is to discuss a solution for an automatic segmentation of the lesions that can be observed in the retina. The proposed methodology regroups those lesions in two categories: red and bright. Obtaining a simultaneous double segmentation is a novel approach; most of the previous works focus on the detection of a single type of lesions. However, due to time constraints and the tedeous nature of this work, clinicians usually can not test all the existing methods. Moreover, from a screening perspective, the clinician has no clue a priori on the nature of the pathology he deals with and thus on which algorithm to start with. Therefore, the proposed algorithm requires to be versatile, fast and easily deployable. Conforted by the recent progresses obtained with machine learning methods (and especially deep learning), we decide to develop a novel convolutional neural network able to segment both types of lesions on fundus images. To reach this goal, our methodology relies on a new multitask architecture, trained on a hybrid method combining weak and normal supervised training. The architecture relies on hard parameter sharing: two decoders (one per type of lesion) share a single encoder. Therefore, the encoder is trained on deriving an abstrast representation of the input image. Those extracted features permit a discrimination between both bright and red lesions. In other words, the encoder is trained on detecting pathological tissues from normal ones. The training is done in two steps. During the first one, the whole architecture is trained with patches, with a groundtruth at a pixel level, which is the typical way of training a segmentation network. The second step consists in weak supervision. Only the encoder is trained with full images and its task is to predict the status of the given image (pathological or healthy), without specifying anything concerning the potential lesions in it (neither location nor type). In this case, the groundtruth is a simple boolean number. This second step allows the network to see a larger number of images: indeed, this type of groundtruth is considerably easier to acquire and already available in large public databases. This step relies on the hypothesis that it is possible to use an annotation at an image level (globally) to enhance the performance at a pixel level (locally). This is an intuitive idea, as the pathological status is directly correlated with the presence of lesions

    Modélisation interprétable du diagnostic de pathologies rétiniennes par apprentissage profond

    No full text
    RÉSUMÉ: Cette thèse traite de la reconnaissance automatique des pathologies rétiniennes au sein de deux modalités : la Tomographie par Cohérence Optique (OCT) et le fond d’oeil. Les travaux menés s’appuient sur différents types de réseaux de neurones pour la reconnaissance des maladies, mais en s’imposant une condition supplémentaire nécessaire à leur acceptabilité clinique : au delà de la performance d’un algorithme, il faut optimiser sa capacité à produire une prédiction interprétable par un opérateur humain. Plusieurs approches ont été expérimentées. La première consiste à utiliser un modèle de segmentation pour décomposer une image en un ensemble de structures sémantiques significatives pour le diagnostic. Un réseau de neurones convolutif est entraîné à segmenter quatre classes de lésions dans l’imagerie de fond d’oeil. Plusieurs bases de données sont utilisées à cette fin, dont la caractérisation détaillée révèle l’hétérogénéité. Or, celle-ci entraîne des contraintes additionnelles sur l’entraînement du modèle dans la mesure où les styles d’annotations divergent fortement. Elle questionne donc sur la capacité de généralisation du modèle. Celle-ci est étudiée sous le prisme de la compatibilité inter-bases et aboutit à la création d’un modèle généraliste capable d’adopter, de manière modulaire, les divers styles de segmentation. L’adaptation est obtenue à partir du concept des attaques adversariales portées sur une sonde d’identification de l’origine d’une image placée au coeur de l’encodeur du réseau. Il en résulte un modèle aux multiples styles de segmentation, configurable par l’utilisateur de façon prédictible, sans ré-entraînement ni même modification de ce dernier. La segmentation obtenue est convertie en une représentation sous forme de graphe, permettant de préserver la localité des lésions dans un format allégé de l’image. Ce graphe est utilisé pour la gradation automatique de la rétinopathie diabétique, en comparant une architecture existante avec une proposition originale, toutes deux basées sur le principe des GNNs (Graph Neural Networks). En limitant la structure du graphe aux lésions segmentées, le lien causal reliant ces dernières au diagnostic est intrinsèquement induit dans le modèle ; ce qui distingue ce dernier de l’état de l’art et favorise la transparence de la prise de décision. La seconde approche étudiée se focalise sur un modèle récent de classification d’image, le Transformer. Un nouveau mécanisme est introduit, basé sur le ré-échantillonnage, d’abord par simple interpolation mais ensuite conditionnel de manière stochastique, de la séquence fournie en entrée. Dans ce second cas, la sélection conditionnelle se fait suivant la carte d’attention autogénérée du modèle. L’algorithme, appelé Attention Concentrée, produit une carte d’attribution locale indiquant les structures lues dans l’image par le réseau de manière précise, contribuant ainsi également à une autre forme d’interprétabilité du diagnostic automatisé. Pour éprouver les algorithmes et modèles développés, deux applications cliniques seront étudiées : la première, dédiée au suivi de l’évolution longitudinale de la dégénérescence maculaire liée à l’âge au sein d’une cohorte de patients et la seconde au développement d’une plateforme d’aide au diagnostic à des fins de télédépistage. Ce travail a donné lieu à plusieurs contributions techniques originales. Dans le cadre de la généralisation, l’approche par attaque adversariale permet une adaptation multi-domaines d’une unique architecture conventionnelle, sans modifier ni ré-entraîner celle-ci ; ce qui la distingue des travaux existants dans la littérature. Elle trace une voie vers un entraînement d’un même modèle à partir de données hétérogènes pour lesquelles il n’existe pas nécessairement de domaines source et cible. En termes d’interprétabilité, les travaux sur les architectures Transformers aboutissent à une technique de génération de cartes d’attributions approuvées par les cliniciens. Les Transformers ne permettent pas de manipuler des images de hautes dimensions : l’Attention Concentrée pave le chemin vers de nouvelles architectures se libérant de ces contraintes mémoires. ABSTRACT: This thesis deals with the automatic recognition of retinal pathologies in two modalities: Optical Coherence Tomography (OCT) and fundus imaging. The work relies on various types of neural networks for disease recognition while imposing an additional condition necessary for their clinical acceptability: beyond the performance of an algorithm, it is essential to optimize its ability to produce predictions interpretable by a human operator. Several approaches have been experimented with. The first approach consists of using a segmentation model to decompose an image into a set of semantically meaningful structures for diagnosis. A convolutional neural network is trained to segment four classes of lesions in fundus imaging. Several databases are used for this purpose, and their detailed characterization reveals heterogeneity, which poses additional constraints on the model’s training due to divergent annotation styles. This raises questions about the model’s generalization capability, which is studied through the prism of inter-database compatibility. The result is the creation of a general model capable of modularly adopting various segmentation styles. The adaptation is achieved through the concept of adversarial attacks on an image origin identification probe placed at the heart of the network’s encoder. The outcome is a model with multiple segmentation styles, configurable by the user in a predictable manner, without retraining or modification. The obtained segmentation is converted into a graph representation, preserving the lesions’ locality in a lightweight image format. This graph is used for the automatic grading of diabetic retinopathy, comparing an existing architecture with an original proposal, both based on Graph Neural Networks (GNNs). By limiting the graph structure to segmented lesions, the causal link between these lesions and the diagnosis is intrinsically induced in the model, distinguishing it from previous published models and promoting transparency in decision-making. The second approach focuses on a recent image classification model, the Transformer. A new mechanism is introduced based on resampling, first by simple interpolation and then stochastically conditioned on the self-generated attention map of the model. This algorithm, called Focused Attention, produces a local attribution map indicating the structures read in the image by the network with precision, thus contributing to another form of interpretability in automated diagnosis. To test the developed algorithms and models, two clinical applications are studied: the first dedicated to monitoring the longitudinal evolution of age-related macular degeneration within a patient cohort, and the second to the development of a diagnostic support platform for tele-screening purposes. This work has resulted in several original technical contributions. Regarding generalization, the adversarial attack approach allows for multi-domain adaptation of a single conventional architecture without modifying or retraining it, setting it apart from existing works in the literature. It paves the way for training a single model with heterogeneous data where there may not necessarily be distinct source and target domains. In terms of interpretability, the work on Transformer architectures leads to a technique for generating attribution maps approved by clinicians. Transformers do not handle high-dimensional images, and Focused Attention opens the path to new architectures that are free from these memory constraints
    corecore