Search CORE

122 research outputs found

Segmentation invariante en rasance des images sonar latéral par une approche neuronale compétitive

Author: Nait-Chabane Ahmed
Publication venue: HAL CCSD
Publication date: 09/12/2013
Field of study

The sidescan sonar records the energy of an emitted acoustical wave backscattered by the seabed for a large range of grazing angles. The statistical analysis of the recorded signals points out a dependence according grazing angles, which penalizes the segmentation of the seabed into homogeneous regions. To improve this segmentation, classical approaches consist in compensating artifacts due to the sonar image formation (geometry of acquisition, gains, etc.) considering a flat seabed and using either Lambert’s law or an empirical law estimated from the sonar data. The approach chosen in this study proposes to split the sonar image into stripes in the swath direction; the stripe width being limited so that the statistical analysis of pixel values can be considered as independent of grazing angles. Two types of texture analysis are used for each stripe of the image. The first technique is based on the Grey-Level Co-occurrence Matrix (GLCM) and various Haralick attributes derived from. The second type of analysis is the estimation of spectral attributes. The starting stripe at mid sonar slant range is segmented with an unsupervised competitive neural network based on the adaptation of Self- Organizing Feature Maps (SOFM) algorithm. Then, from the knowledge acquired on the segmentation of this first stripe, the classifier adapts its segmentation to the neighboring stripes, allowing slight changes of statistics from one stripe to the other. The operation is repeated until the beginning and the end of the slant range are reached. The study made in this work is validated on real data acquired by the sidescan sonar Klein 5000. Segmentation performances of the proposed algorithm are compared with those of conventional approaches.Un sonar latéral de cartographie enregistre les signaux qui ont été rétrodiffusés par le fond marin sur une large fauchée. Les signaux sont ainsi révélateurs de l’interaction entre l’onde acoustique émise et le fond de la mer pour une large plage de variation de l’angle de rasance. L’analyse des statistiques de ces signaux rétrodiffusés montre une dépendance à ces angles de rasance, ce qui pénalise fortement la segmentation des images en régions homogènes. Pour améliorer cette segmentation, l’approche classique consiste à corriger les artefacts dus à la formation de l’image sonar (géométrie d’acquisition, gains variables, etc.) en considérant un fond marin plat et en estimant des lois physiques (Lambert, Jackson, etc.) ou des modèles empiriques. L’approche choisie dans ce travail propose de diviser l’image sonar en bandes dans le sens de la portée ; la largeur de ces bandes étant suffisamment faible afin que l’analyse statistique de la rétrodiffusion puisse être considérée indépendante de l’angle de rasance. Deux types d’analyse de texture sont utilisés sur chaque bande de l’image. La première technique est basée sur l’estimation d’une matrice des cooccurrences et de différents attributs d’Haralick. Le deuxième type d’analyse est l’estimation d’attributs spectraux. La bande centrale localisée à la moitié de la portée du sonar est segmentée en premier par un réseau de neurones compétitifs basé sur l’algorithme SOFM (Self-Organizing Feature Maps) de Kohonen. Ensuite, la segmentation est réalisée successivement sur les bandes adjacentes, jusqu’aux limites basse et haute de la portée sonar. A partir des connaissances acquises sur la segmentation de cette première bande, le classifieur adapte sa segmentation aux bandes voisines. Cette nouvelle méthode de segmentation est évaluée sur des données réelles acquises par le sonar latéral Klein 5000. Les performances de segmentation de l’algorithme proposé sont comparées avec celles obtenues par des techniques classiques

Thèses en Ligne

HAL-Université de Bretagne Occidentale

Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique

Author: DAHER Hani
VINCENT Nicole
Publication venue
Publication date: 01/01/2012
Field of study

Mes travaux de thèse s inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d étude et dedéchiffrage des écritures.L objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l Institut de Recherche en Histoire des Textes (IRHT Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l évolutiondes formes de l écriture par la mise en place de méthodes efficaces d accès au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphèmes). Dans mes travaux de doctorats, j ai choisi d étudier la dynamique del élément le plus basique de l écriture appelé le ductus2 et qui d après les paléographes apportebeaucoup d informations sur le style d écriture et l époque d élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une première étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphèmescontenant l information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d une méthodologie complète de suivi de traits à partir del extraction d un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l application des règlesfondamentales d exécution des traits d écriture, enseignées aux copistes du Moyen Age. Il s agitd information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphèmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complète possible de l écriture d unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphèmes en classeshomogènes par l utilisation d un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphèmes a conduit à la formation dedictionnaires de formes caractérisant de manière individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d obtenir la meilleure représentation d un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L ensemble de ces contributions a été testé à partir d une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d Oxford et manuscrits de l IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d identification de scripteurs d ICDAR 2011. L exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l identification d écritures etétudier son pouvoir de généralisation à d autres types de documents. Les résultats trèsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractèrerésolument généralisable à tout type de documents écrits.My thesis work is part of the ANR GRAPHEM Project (Grapheme based Retrieval andAnalysis for Expertise paleographic Manuscripts of Middle Age). It represents a methodologicalcontribution applicable to the automatic analysis of ancient writings to assist the experts inpaleography in the delicate work of the studying and deciphering the writing.The main objective is to contribute to an instrumentation of the corpus of medievalmanuscripts held by Institut de Recherche en Histoire de Textes (IRHT-Paris), by helping thepaleographers specialized in this field in their work of understanding the evolution of forms inthe writing, with the establishment of effective methods to access the contents of manuscriptsbased on a fine analysis of the forms described in the form of small fragments (graphemes). Inmy PhD work, I chose to study the dynamic of the most basic element of the writing called theductus and which according to the paleographers, brings a lot of information on the style ofwriting and the era of the elaboration of the manuscript.My major contribution is situated at two levels: a first step of preprocessing of severelydegraded images to ensure an optimal decomposition of the forms into graphemes containingthe ductus information. For this decomposition step of manuscripts, we have proceeded to theestablishment of a complete methodology for the tracings of strokes by the extraction of theskeleton obtained from the contrast enhancement and the diffusion of the gradient procedures.The complete tracking of the strokes was obtained from the application of fundamentalexecution rules of the strokes taught to the scribes of the Middle Ages. It is related to thedynamic information of the formation of strokes focusing essentially on indications of theprivileged directions.In a second step, we have tried to characterize the graphemes by visual shape descriptorsunderstandable by both the computer scientists and the paleographers and thus unsuring themost complete possible representation of the wrting from a geometrical and morphological pointof view. From this characterization, we have have proposed a clustering approach insuring agrouping of graphemes into homogeneous classes by using a non-supervised classificationalgorithm based on the graph coloring. The result of the clustering of graphemes led to theformation of a codebook characterizing in an individual and discriminating way each processedmanuscript. We have also studied the discriminating power of the descriptors in order to obtaina better representation of a manuscript into a codebook. This study was done by exploiting thegenetic algorithms by their ability to produce a good feature selection.The set of the contributions was tested from a CBIR application on three databases ofmanuscripts including two medieval databases (manuscripts from the Oxford and IRHTdatabases), and database of containing contemporary manuscripts used in the writersidentification contest of ICDAR 2011. The exploitation of our description and classificationmethod was applied on a cotemporary database in order to position our contribution withrespect to other relevant works in the writrings identification domain and study itsgeneralization power to other types of manuscripts. The very encouraging results that weobtained on the medieval and contemporary databases, showed the robustness of our approachto the variations of the shapes and styles and its resolutely generalized character to all types ofhandwritten documents.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF

OpenGrey Repository

Détection de communautés dans les réseaux d'information utilisant liens et attributs

Author: COMBE David
EGYED-ZSIGMOND Elöd
LARGERON Christine
Publication venue
Publication date: 01/01/2013
Field of study

Alors que les réseaux sociaux s'attachent à représenter des entités et les relations existant entre elles, les réseaux d'information intègrent également des attributs décrivant ces entités ; ce qui conduit à revisiter les méthodes d'analyse et de fouille de ces réseaux. Dans ces travaux, nous proposons des méthodes de classification des entités du réseau d'information qui exploitent d'une part les relations entre celles-ci et d'autre part les attributs les caractérisant. Nous nous penchons sur le cas des réseaux à vecteurs d'attributs, où les entités du réseau sont décrites par des vecteurs numériques. Ainsi nous proposons des approches basées sur des techniques reconnues pour chaque type d'information, faisant appel notamment à l'inertie pour la classification automatique et à la modularité de Newman et Girvan pour la détection de communautés. Nous évaluons nos propositions sur des réseaux issus de données bibliographiques, faisant usage en particulier d'information textuelle. Nous évaluons également nos approches face à diverses évolutions du réseau, notamment au regard d'une détérioration des informations des liens et des attributs, et nous caractérisons la robustesse de nos méthodes à celle-ciWhile social networks use to represent entities and relationships between them, information networks also include attributes describing these entities, leading to review the analysis and mining methods for these networks. In this work, we discuss classification of the entities in an information network. Classification operate simultaneously on the relationships and on the attributes characterizing the entities. We look at the case of attributed graphs where entities are described by numerical feature vectors. We propose approaches based on proven classification techniques for each type of information, including the inertia for machine learning and Newman and Girvan's modularity for community detection. We evaluate our proposals on networks from bibliographic data, using textual information. We also evaluate our methods against various changes in the network, such as a deterioration of the relational or vector data, mesuring the robustness of our methods to themST ETIENNE-Bib. électronique (422189901) / SudocSudocFranceF

OpenGrey Repository

L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

Author: Clavier Viviane
Publication venue: HAL CCSD
Publication date: 10/03/2014
Field of study

Ce mémoire d’habilitation à diriger des recherches dresse une synthèse des travaux réalisés en sciences de l’information et de la communication et portent sur la description et la caractérisation de contenus textuels, sur leur représentation sous la forme de connaissances organisées et médiatisées pour la recherche d’information. L’organisation des connaissances est abordée comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modéliser le réel » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour appréhender cet objet. Dans la première partie du mémoire, la recherche d’information est saisie dans le seul rapport à la technique : les connaissances linguistiques sont utilisées pour organiser les données afin d’améliorer l’indexation en texte intégral et la classification de textes. Dans la seconde partie, la recherche d’information est appréhendée comme une activité humaine et sociale : les connaissances linguistiques sont utilisées pour favoriser l’accès aux documents et permettre diverses activités informationnelles (lire, écrire, annoter, partager, etc.). Ce mémoire témoigne d’un parcours qui traverse les deux grandes conceptions de l’information. La première est inspirée du courant nord-américain de l’information retrieval qui cherche à établir des principes généraux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirée de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels précis

Hal - Université Grenoble Alpes

Contraintes et opportunités pour l'automatisation de l'inspection visuelle au regard du processus humain

Author: Désage Simon-Frédéric
Publication venue: HAL CCSD
Publication date: 24/11/2015
Field of study

This research has the ambition to contribute to the automation of visual inspection, in the quality control of complex geometry metal parts. Firstly, many optical techniques, scanning, implementation of photorealistic rendering, classification of images or data, and pattern recognition are already highly developed and applied in each particular areas. But they are not, or rarely, in special cases, combined for a complete scanning method of appearance to the recognition, effective and perceptual, of object and aesthetic anomalies.This work benefited from the advancements of previous thesis on the formalization of quality control, as well as an agile system of surface appearance scanning to highlight the diversity of aesthetic anomalies surfaces. Thus, the major contribution lies in the adaptation of image processing methods to the formal structure of quality control, rich appearance data format and classification methods to achieve recognition as the human controller.In this sense, the thesis deciphers the different methodologies related to quality control, the human controller processes, surface appearance defects, the managements and processing of visual information, to the combination of all these constraints for a partial substitution system of the human controller. The aim of the thesis is to identify and reduce sources of variability to obtain better quality control, including through the intelligent and structured automation of visual inspection. From a selected computer vision device, the proposed solution is to analyze visual texture. This is regarded as a global signature of superior visual appearance information to a single image containing images textures. The analysis is performed with pattern recognition and machine learning mechanisms to develop automatic detection and evaluation of appearance defects.Ces travaux de recherche ont pour ambition de contribuer à l'automatisation de l'inspection visuelle, dans le cadre du contrôle qualité de pièces métalliques à géométrie complexe. En soi, de nombreuses techniques d'optique, de numérisation, d'implémentation de rendu photo-réaliste, de classification d'images ou de données, et de reconnaissance de formes sont déjà fortement développées et appliquées chacune dans des domaines particuliers. Or, elles ne sont pas, ou rarement pour des cas particuliers, combinées pour obtenir une méthode complète de numérisation de l'apparence jusqu'à la reconnaissance, effective et perceptuelle, de l'objet et des anomalies esthétiques.Ces travaux ont profité des avancements des thèses précédentes sur la formalisation du contrôle qualité ainsi que sur un système agile de numérisation d'aspect de surface permettant la mise en évidence de toute la diversité d'anomalies esthétiques de surfaces. Ainsi, la contribution majeure réside dans l'adaptation des méthodes de traitement d'images à la structure formalisée du contrôle qualité, au format riche des données d'apparence et aux méthodes de classification pour réaliser la reconnaissance telle que le contrôleur humain.En ce sens, la thèse propose un décryptage des différentes méthodologies liées au contrôle qualité, au comportement du contrôleur humain, aux anomalies d'aspect de surface, aux managements et traitements de l'information visuelle, jusqu'à la combinaison de toutes ces contraintes pour obtenir un système de substitution partielle au contrôleur humain. L'objectif de la thèse, et du décryptage, est d'identifier et de réduire les sources de variabilité pour obtenir un meilleur contrôle qualité, notamment par l'automatisation intelligente et structurée de l'inspection visuelle. A partir d'un dispositif de vision par ordinateur choisi, la solution proposée consiste à analyser la texture visuelle. Celle est considérée en tant que signature globale de l'information d'apparence visuelle supérieure à une unique image contenant des textures images. L'analyse est effectuée avec des mécanismes de reconnaissance de formes et d'apprentissage machine pour établir la détection et l'évaluation automatiques d'anomalies d'aspect

Thèses en Ligne

Hal - Université Grenoble Alpes

HAL Université de Savoie

L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

Author: Clavier Viviane
Publication venue: HAL CCSD
Publication date: 10/03/2014
Field of study

Thèses en Ligne

Hal - Université Grenoble Alpes

HAL Descartes

Interprétation littéraire numérique : modélisation algorithmique, cybersémiotique et herméneutique

Author: Audin Yann
Publication venue
Publication date: 01/08/2022
Field of study

Dans ce mémoire, nous explorons les possibilités d’une herméneutique algorithmique littéraire en faisant d’abord des parallèles entre la lecture humaine et la modélisation textuelle numérique. À partir des caractéristiques de ces deux formes de rapports au texte littéraire, nous différencions les modèles littéraires nés de la cognition et de la computation, en plus de rester critique des formes représentatives ainsi générées. Nous utilisons ensuite les cadres théoriques de la sémiotique et de la cybersémiotique pour placer l’interprétation humaine et computationnelle sur un même continuum d’évolution biotechnologique. Ainsi, nous envisageons la possibilité de sens littéraire numérique à partir de méthodes d’exploration de données appliquées aux modèles littéraires algorithmiques. Finalement, nous considérons les potentielles conséquences, limites et avantages d’une pratique de l’herméneutique algorithmique, et la forme qu’une telle pratique pourrait prendre.In this master thesis, we explore the possibilities of digital criticism, first by creating parallels between human reading and computational text modelling. From the characteristics of both these approaches to literary work, we differentiate literary models born of cognition and computation, and stay critical of these representative forms. We then use literary semiotics and cybersemiotics as theoretical frameworks to set human and computer interpretations as two steps on the same biotechnological evolutionary ladder. Thus, we consider the possibility of digital literary meaning produced with advanced data mining tools applied to algorithmically generated literary models. Finally, we contemplate what consequences, limits and advantages such a digital hermeneutic practice would have and offer, and the shapes it may or may not take

Dépôt Institutionnel Numérique

Reconnaissance de scènes multimodale embarquée

Author: Blachon David
Publication venue: HAL CCSD
Publication date: 29/02/2016
Field of study

Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation.Contexte : Cette thèse se déroule dans les contextes de l'intelligence ambiante et de la reconnaissance de scène (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il émane d'un besoin de développer et intégrer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une réunion de travail où le téléphone sonne~; grâce à la reconnaissance de la scène, le téléphone peut automatiquement réagir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas déranger.Les principaux problèmes de la thèse sont les suivants : d'abord, proposer une définition de ce qu'est une scène et des exemples de scènes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de données à exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problème de la reconnaissance de scène.Collecte de données : Aucune des bases de données existantes ne remplit les critères fixés (longs enregistrements continus, composés de plusieurs sources de données synchronisées dont l'audio, avec des annotations pertinentes).Par conséquent, j'ai développé une application Android pour la collecte de données. L'application est appelée RecordMe et a été testé avec succès sur plus de 10 appareils. L'application a été utilisée pour 2 campagnes différentes, incluant la collecte de scènes. Cela se traduit par plus de 500 heures enregistrées par plus de 25 bénévoles, répartis principalement dans la région de Grenoble, mais aussi à l'étranger (Dublin, Singapour, Budapest). Pour faire face au problème de protection de la vie privée et de sécurité des données, des mesures ont été mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardé, mes des coefficients MFCCs sont enregistrés.Définition de scène : L'étude des travaux existants liés à la tâche de reconnaissance de scène, et l'analyse des annotations fournies par les bénévoles lors de la collecte de données, ont permis de proposer une définition d'une scène. Elle est définie comme la généralisation d'une situation, composée d'un lieu et une action effectuée par une seule personne (le propriétaire du smartphone). Des exemples de scènes incluent les moyens de transport, la réunion de travail, ou le déplacement à pied dans la rue. La notion de composition permet de décrire la scène avec plusieurs types d'informations. Cependant, la définition est encore trop générique, et elle pourrait être complétée par des informations additionnelles, intégrée à la définition comme de nouveaux éléments de la composition.Algorithmique : J'ai réalisé plusieurs expériences impliquant des techniques d'apprentissage automatique supervisées et non non-supervisées. La partie supervisée consiste en de la classification. La méthode est commune~: trouver des descripteurs des données pertinents grâce à l'utilisation d'une méthode de sélection d'attribut ; puis, entraîner et tester plusieurs classifieurs (arbres de décisions et forêt d'arbres décisionnels ; GMM ; HMM, et DNN). Également, j'ai proposé un système à 2 étages composé de classifieurs formés pour identifier les concepts intermédiaires et dont les prédictions sont fusionnées afin d'estimer la scène la plus probable. Les expérimentations non-supervisées visent à extraire des informations à partir des données. Ainsi, j'ai appliqué un algorithme de regroupement hiérarchique ascendant, basé sur l'algorithme EM, sur les données d'accélération et acoustiques considérées séparément et ensemble. L'un des résultats est la distinction des données d'accélération en groupes basés sur la quantité d'agitation

Thèses en Ligne

Hal - Université Grenoble Alpes

Étude de l’hétérogénéité génétique de la leucémie myéloïde aigue par analyse scRNA-seq.

Author: Farah Azer
Publication venue
Publication date: 01/10/2021
Field of study

Les leucémies myéloïdes aiguës (LMA) sont un groupe de cancers résultant de la différenciation anormale et incomplète des cellules souches et progénitrices hématopoïétiques (HSPC), suite à l'acquisition séquentielle de diverses anomalies génétiques et cytogénétiques. Ce processus se reflète probablement dans l'hétérogénéité cellulaire de la LMA mais reste mal caractérisé. Les technologies de séquençage de l'ARN sur cellule unique (scRNA-seq) ont permis d'explorer l'hétérogénéité phénotypique. Cependant, déduire l'hétérogénéité génotypique telle que les variantes sous-clonales d'un seul nucléotide (SNV) et les variations du nombre de copies (CNV) est très difficile en partie à cause de la rareté des données. Pour résoudre ce problème, nous avons développé un classificateur de forêt aléatoire pour annoter les cellules LMA. Nous avons développé un pipeline pour identifier les mutations liées à la LMA qui peuvent être détectées dans scRNA-seq. Nous avons combiné les données scRNA-seq avec les données de séquençage en « Bulk » d'exome appariées tumoraux et sains des mêmes échantillons pour définir la sous-structure clonale dans ces échantillons. Nous avons appliqué notre classificateur à plus de 130K cellules obtenues à partir de 20 patients LMA en utilisant le système 10X Genomics Chromium. Nous avons identifié 35 types cellulaires distincts, y compris un grand nombre de cellules de type HSPC. Dans cette cohorte, nous avons remarqué que des mutations dans les gènes NPM1, U2AF1, SMC3, EZH2, RAD21 et KRAS peuvent être détectées dans les données scRNA-seq à des occurrences allant de 0,02 % à 75 % de cellules mutées par échantillon. Dans huit échantillons, nous avons identifié des sous-populations de cellules tumorales portant de grandes CNV telles que les aneuploïdies des chromosomes 5 et 7. Ces aneuploïdies sont récurrentes et pertinentes sur le plan pronostique dans la LMA. Notre travail fournit un outil de recherche unique pour étudier la relation entre la diversité phénotypique et génotypique ; offrant de nouvelles perspectives sur le développement de la leucémie.Acute myeloid leukemias (AML) are a group of cancers resulting from the abnormal and incomplete differentiation of hematopoietic stem and progenitor cells (HSPC), following the sequential acquisition of various genetic and cytogenetic abnormalities. This process is likely reflected in the AML cellular heterogeneity but it remains poorly characterized. Single-cell RNA sequencing (scRNA-seq) technologies enabled the exploration of phenotypic heterogeneity. However, inferring the genotypic heterogeneity such as subclonal single nucleotide variants (SNV) and copy number variations (CNV) is highly challenging partly because of data sparsity. To address this, we developed a random forest classifier to annotate AML cells. We developed a pipeline to identify which of the known AML driver mutations can be detected in scRNA-seq. We combined scRNA-seq data with bulk tumoral and germline exomes data from the same samples to define the clonal substructure in these samples. We applied our classifier to over 130K cells obtained from 20 AML patients using the 10X Genomics Chromium system. We identified 35 distinct cell types including large numbers of HSPClike. In this cohort, we noticed that mutations in NPM1, U2AF1, SMC3, EZH2, RAD21 and KRAS genes can be detected in scRNA-seq data at occurrences ranging from 0.02% to 75% of mutated cells per sample. In eight samples, we identified sub-populations of tumor cells carrying large CNVs such as aneuploidies of chromosomes 5 and 7. These aneuploidies are recurrent and prognostically relevant in AML. Our work provides a unique research tool to investigate the relationship between phenotypic and genotypic diversity; offering novel insights into leukemia development

Dépôt Institutionnel Numérique