122 research outputs found

    Segmentation invariante en rasance des images sonar latéral par une approche neuronale compétitive

    No full text
    The sidescan sonar records the energy of an emitted acoustical wave backscattered by the seabed for a large range of grazing angles. The statistical analysis of the recorded signals points out a dependence according grazing angles, which penalizes the segmentation of the seabed into homogeneous regions. To improve this segmentation, classical approaches consist in compensating artifacts due to the sonar image formation (geometry of acquisition, gains, etc.) considering a flat seabed and using either Lambert’s law or an empirical law estimated from the sonar data. The approach chosen in this study proposes to split the sonar image into stripes in the swath direction; the stripe width being limited so that the statistical analysis of pixel values can be considered as independent of grazing angles. Two types of texture analysis are used for each stripe of the image. The first technique is based on the Grey-Level Co-occurrence Matrix (GLCM) and various Haralick attributes derived from. The second type of analysis is the estimation of spectral attributes. The starting stripe at mid sonar slant range is segmented with an unsupervised competitive neural network based on the adaptation of Self- Organizing Feature Maps (SOFM) algorithm. Then, from the knowledge acquired on the segmentation of this first stripe, the classifier adapts its segmentation to the neighboring stripes, allowing slight changes of statistics from one stripe to the other. The operation is repeated until the beginning and the end of the slant range are reached. The study made in this work is validated on real data acquired by the sidescan sonar Klein 5000. Segmentation performances of the proposed algorithm are compared with those of conventional approaches.Un sonar latĂ©ral de cartographie enregistre les signaux qui ont Ă©tĂ© rĂ©trodiffusĂ©s par le fond marin sur une large fauchĂ©e. Les signaux sont ainsi rĂ©vĂ©lateurs de l’interaction entre l’onde acoustique Ă©mise et le fond de la mer pour une large plage de variation de l’angle de rasance. L’analyse des statistiques de ces signaux rĂ©trodiffusĂ©s montre une dĂ©pendance Ă  ces angles de rasance, ce qui pĂ©nalise fortement la segmentation des images en rĂ©gions homogĂšnes. Pour amĂ©liorer cette segmentation, l’approche classique consiste Ă  corriger les artefacts dus Ă  la formation de l’image sonar (gĂ©omĂ©trie d’acquisition, gains variables, etc.) en considĂ©rant un fond marin plat et en estimant des lois physiques (Lambert, Jackson, etc.) ou des modĂšles empiriques. L’approche choisie dans ce travail propose de diviser l’image sonar en bandes dans le sens de la portĂ©e ; la largeur de ces bandes Ă©tant suffisamment faible afin que l’analyse statistique de la rĂ©trodiffusion puisse ĂȘtre considĂ©rĂ©e indĂ©pendante de l’angle de rasance. Deux types d’analyse de texture sont utilisĂ©s sur chaque bande de l’image. La premiĂšre technique est basĂ©e sur l’estimation d’une matrice des cooccurrences et de diffĂ©rents attributs d’Haralick. Le deuxiĂšme type d’analyse est l’estimation d’attributs spectraux. La bande centrale localisĂ©e Ă  la moitiĂ© de la portĂ©e du sonar est segmentĂ©e en premier par un rĂ©seau de neurones compĂ©titifs basĂ© sur l’algorithme SOFM (Self-Organizing Feature Maps) de Kohonen. Ensuite, la segmentation est rĂ©alisĂ©e successivement sur les bandes adjacentes, jusqu’aux limites basse et haute de la portĂ©e sonar. A partir des connaissances acquises sur la segmentation de cette premiĂšre bande, le classifieur adapte sa segmentation aux bandes voisines. Cette nouvelle mĂ©thode de segmentation est Ă©valuĂ©e sur des donnĂ©es rĂ©elles acquises par le sonar latĂ©ral Klein 5000. Les performances de segmentation de l’algorithme proposĂ© sont comparĂ©es avec celles obtenues par des techniques classiques

    Contribution à l'analyse de la dynamique des écritures anciennes pour l'aide à l'expertise paléographique

    Get PDF
    Mes travaux de thÚse s inscrivent dans le cadre du projet ANR GRAPHEM1 (Graphemebased Retrieval and Analysis for PaleograpHic Expertise of Middle Age Manuscripts). Ilsprésentent une contribution méthodologique applicable à l'analyse automatique des écrituresanciennes pour assister les experts en paléographie dans le délicat travail d étude et dedéchiffrage des écritures.L objectif principal est de contribuer à une instrumetation du corpus des manuscritsmédiévaux détenus par l Institut de Recherche en Histoire des Textes (IRHT Paris) en aidantles paléographes spécialisés dans ce domaine dans leur travail de compréhension de l évolutiondes formes de l écriture par la mise en place de méthodes efficaces d accÚs au contenu desmanuscrits reposant sur une analyse fine des formes décrites sous la formes de petits fragments(les graphÚmes). Dans mes travaux de doctorats, j ai choisi d étudier la dynamique del élément le plus basique de l écriture appelé le ductus2 et qui d aprÚs les paléographes apportebeaucoup d informations sur le style d écriture et l époque d élaboration du manuscrit.Mes contributions majeures se situent à deux niveaux : une premiÚre étape de prétraitementdes images fortement dégradées assurant une décomposition optimale des formes en graphÚmescontenant l information du ductus. Pour cette étape de décomposition des manuscrits, nousavons procédé à la mise en place d une méthodologie complÚte de suivi de traits à partir del extraction d un squelette obtenu à partir de procédures de rehaussement de contraste et dediffusion de gradients. Le suivi complet du tracé a été obtenu à partir de l application des rÚglesfondamentales d exécution des traits d écriture, enseignées aux copistes du Moyen Age. Il s agitd information de dynamique de formation des traits portant essentiellement sur des indicationsde directions privilégiées.Dans une seconde étape, nous avons cherché à caractériser ces graphÚmes par desdescripteurs de formes visuelles compréhensibles à la fois par les paléographes et lesinformaticiens et garantissant une représentation la plus complÚte possible de l écriture d unpoint de vue géométrique et morphologique. A partir de cette caractérisation, nous avonsproposé une approche de clustering assurant un regroupement des graphÚmes en classeshomogÚnes par l utilisation d un algorithme de classification non-supervisé basée sur lacoloration de graphe. Le résultat du clustering des graphÚmes a conduit à la formation dedictionnaires de formes caractérisant de maniÚre individuelle et discriminante chaque manuscrittraité. Nous avons également étudié la puissance discriminatoire de ces descripteurs afin d obtenir la meilleure représentation d un manuscrit en dictionnaire de formes. Cette étude a étéfaite en exploitant les algorithmes génétiques par leur capacité à produire de bonne sélection decaractéristiques.L ensemble de ces contributions a été testé à partir d une application CBIR sur trois bases demanuscrits dont deux médiévales (manuscrits de la base d Oxford et manuscrits de l IRHT, baseprincipale du projet), et une base comprenant de manuscrits contemporains utilisée lors de lacompétition d identification de scripteurs d ICDAR 2011. L exploitation de notre méthode dedescription et de classification a été faite sur une base contemporaine afin de positionner notrecontribution par rapport aux autres travaux relevant du domaine de l identification d écritures etétudier son pouvoir de généralisation à d autres types de documents. Les résultats trÚsencourageants que nous avons obtenus sur les bases médiévales et la base contemporaine, ontmontré la robustesse de notre approche aux variations de formes et de styles et son caractÚrerésolument généralisable à tout type de documents écrits.My thesis work is part of the ANR GRAPHEM Project (Grapheme based Retrieval andAnalysis for Expertise paleographic Manuscripts of Middle Age). It represents a methodologicalcontribution applicable to the automatic analysis of ancient writings to assist the experts inpaleography in the delicate work of the studying and deciphering the writing.The main objective is to contribute to an instrumentation of the corpus of medievalmanuscripts held by Institut de Recherche en Histoire de Textes (IRHT-Paris), by helping thepaleographers specialized in this field in their work of understanding the evolution of forms inthe writing, with the establishment of effective methods to access the contents of manuscriptsbased on a fine analysis of the forms described in the form of small fragments (graphemes). Inmy PhD work, I chose to study the dynamic of the most basic element of the writing called theductus and which according to the paleographers, brings a lot of information on the style ofwriting and the era of the elaboration of the manuscript.My major contribution is situated at two levels: a first step of preprocessing of severelydegraded images to ensure an optimal decomposition of the forms into graphemes containingthe ductus information. For this decomposition step of manuscripts, we have proceeded to theestablishment of a complete methodology for the tracings of strokes by the extraction of theskeleton obtained from the contrast enhancement and the diffusion of the gradient procedures.The complete tracking of the strokes was obtained from the application of fundamentalexecution rules of the strokes taught to the scribes of the Middle Ages. It is related to thedynamic information of the formation of strokes focusing essentially on indications of theprivileged directions.In a second step, we have tried to characterize the graphemes by visual shape descriptorsunderstandable by both the computer scientists and the paleographers and thus unsuring themost complete possible representation of the wrting from a geometrical and morphological pointof view. From this characterization, we have have proposed a clustering approach insuring agrouping of graphemes into homogeneous classes by using a non-supervised classificationalgorithm based on the graph coloring. The result of the clustering of graphemes led to theformation of a codebook characterizing in an individual and discriminating way each processedmanuscript. We have also studied the discriminating power of the descriptors in order to obtaina better representation of a manuscript into a codebook. This study was done by exploiting thegenetic algorithms by their ability to produce a good feature selection.The set of the contributions was tested from a CBIR application on three databases ofmanuscripts including two medieval databases (manuscripts from the Oxford and IRHTdatabases), and database of containing contemporary manuscripts used in the writersidentification contest of ICDAR 2011. The exploitation of our description and classificationmethod was applied on a cotemporary database in order to position our contribution withrespect to other relevant works in the writrings identification domain and study itsgeneralization power to other types of manuscripts. The very encouraging results that weobtained on the medieval and contemporary databases, showed the robustness of our approachto the variations of the shapes and styles and its resolutely generalized character to all types ofhandwritten documents.PARIS5-Bibliotheque electronique (751069902) / SudocSudocFranceF

    Détection de communautés dans les réseaux d'information utilisant liens et attributs

    Get PDF
    Alors que les rĂ©seaux sociaux s'attachent Ă  reprĂ©senter des entitĂ©s et les relations existant entre elles, les rĂ©seaux d'information intĂšgrent Ă©galement des attributs dĂ©crivant ces entitĂ©s ; ce qui conduit Ă  revisiter les mĂ©thodes d'analyse et de fouille de ces rĂ©seaux. Dans ces travaux, nous proposons des mĂ©thodes de classification des entitĂ©s du rĂ©seau d'information qui exploitent d'une part les relations entre celles-ci et d'autre part les attributs les caractĂ©risant. Nous nous penchons sur le cas des rĂ©seaux Ă  vecteurs d'attributs, oĂč les entitĂ©s du rĂ©seau sont dĂ©crites par des vecteurs numĂ©riques. Ainsi nous proposons des approches basĂ©es sur des techniques reconnues pour chaque type d'information, faisant appel notamment Ă  l'inertie pour la classification automatique et Ă  la modularitĂ© de Newman et Girvan pour la dĂ©tection de communautĂ©s. Nous Ă©valuons nos propositions sur des rĂ©seaux issus de donnĂ©es bibliographiques, faisant usage en particulier d'information textuelle. Nous Ă©valuons Ă©galement nos approches face Ă  diverses Ă©volutions du rĂ©seau, notamment au regard d'une dĂ©tĂ©rioration des informations des liens et des attributs, et nous caractĂ©risons la robustesse de nos mĂ©thodes Ă  celle-ciWhile social networks use to represent entities and relationships between them, information networks also include attributes describing these entities, leading to review the analysis and mining methods for these networks. In this work, we discuss classification of the entities in an information network. Classification operate simultaneously on the relationships and on the attributes characterizing the entities. We look at the case of attributed graphs where entities are described by numerical feature vectors. We propose approaches based on proven classification techniques for each type of information, including the inertia for machine learning and Newman and Girvan's modularity for community detection. We evaluate our proposals on networks from bibliographic data, using textual information. We also evaluate our methods against various changes in the network, such as a deterioration of the relational or vector data, mesuring the robustness of our methods to themST ETIENNE-Bib. Ă©lectronique (422189901) / SudocSudocFranceF

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    No full text
    Ce mĂ©moire d’habilitation Ă  diriger des recherches dresse une synthĂšse des travaux rĂ©alisĂ©s en sciences de l’information et de la communication et portent sur la description et la caractĂ©risation de contenus textuels, sur leur reprĂ©sentation sous la forme de connaissances organisĂ©es et mĂ©diatisĂ©es pour la recherche d’information. L’organisation des connaissances est abordĂ©e comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modĂ©liser le rĂ©el » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour apprĂ©hender cet objet. Dans la premiĂšre partie du mĂ©moire, la recherche d’information est saisie dans le seul rapport Ă  la technique : les connaissances linguistiques sont utilisĂ©es pour organiser les donnĂ©es afin d’amĂ©liorer l’indexation en texte intĂ©gral et la classification de textes. Dans la seconde partie, la recherche d’information est apprĂ©hendĂ©e comme une activitĂ© humaine et sociale : les connaissances linguistiques sont utilisĂ©es pour favoriser l’accĂšs aux documents et permettre diverses activitĂ©s informationnelles (lire, Ă©crire, annoter, partager, etc.). Ce mĂ©moire tĂ©moigne d’un parcours qui traverse les deux grandes conceptions de l’information. La premiĂšre est inspirĂ©e du courant nord-amĂ©ricain de l’information retrieval qui cherche Ă  Ă©tablir des principes gĂ©nĂ©raux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirĂ©e de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels prĂ©cis

    Contraintes et opportunités pour l'automatisation de l'inspection visuelle au regard du processus humain

    Get PDF
    This research has the ambition to contribute to the automation of visual inspection, in the quality control of complex geometry metal parts. Firstly, many optical techniques, scanning, implementation of photorealistic rendering, classification of images or data, and pattern recognition are already highly developed and applied in each particular areas. But they are not, or rarely, in special cases, combined for a complete scanning method of appearance to the recognition, effective and perceptual, of object and aesthetic anomalies.This work benefited from the advancements of previous thesis on the formalization of quality control, as well as an agile system of surface appearance scanning to highlight the diversity of aesthetic anomalies surfaces. Thus, the major contribution lies in the adaptation of image processing methods to the formal structure of quality control, rich appearance data format and classification methods to achieve recognition as the human controller.In this sense, the thesis deciphers the different methodologies related to quality control, the human controller processes, surface appearance defects, the managements and processing of visual information, to the combination of all these constraints for a partial substitution system of the human controller. The aim of the thesis is to identify and reduce sources of variability to obtain better quality control, including through the intelligent and structured automation of visual inspection. From a selected computer vision device, the proposed solution is to analyze visual texture. This is regarded as a global signature of superior visual appearance information to a single image containing images textures. The analysis is performed with pattern recognition and machine learning mechanisms to develop automatic detection and evaluation of appearance defects.Ces travaux de recherche ont pour ambition de contribuer à l'automatisation de l'inspection visuelle, dans le cadre du contrÎle qualité de piÚces métalliques à géométrie complexe. En soi, de nombreuses techniques d'optique, de numérisation, d'implémentation de rendu photo-réaliste, de classification d'images ou de données, et de reconnaissance de formes sont déjà fortement développées et appliquées chacune dans des domaines particuliers. Or, elles ne sont pas, ou rarement pour des cas particuliers, combinées pour obtenir une méthode complÚte de numérisation de l'apparence jusqu'à la reconnaissance, effective et perceptuelle, de l'objet et des anomalies esthétiques.Ces travaux ont profité des avancements des thÚses précédentes sur la formalisation du contrÎle qualité ainsi que sur un systÚme agile de numérisation d'aspect de surface permettant la mise en évidence de toute la diversité d'anomalies esthétiques de surfaces. Ainsi, la contribution majeure réside dans l'adaptation des méthodes de traitement d'images à la structure formalisée du contrÎle qualité, au format riche des données d'apparence et aux méthodes de classification pour réaliser la reconnaissance telle que le contrÎleur humain.En ce sens, la thÚse propose un décryptage des différentes méthodologies liées au contrÎle qualité, au comportement du contrÎleur humain, aux anomalies d'aspect de surface, aux managements et traitements de l'information visuelle, jusqu'à la combinaison de toutes ces contraintes pour obtenir un systÚme de substitution partielle au contrÎleur humain. L'objectif de la thÚse, et du décryptage, est d'identifier et de réduire les sources de variabilité pour obtenir un meilleur contrÎle qualité, notamment par l'automatisation intelligente et structurée de l'inspection visuelle. A partir d'un dispositif de vision par ordinateur choisi, la solution proposée consiste à analyser la texture visuelle. Celle est considérée en tant que signature globale de l'information d'apparence visuelle supérieure à une unique image contenant des textures images. L'analyse est effectuée avec des mécanismes de reconnaissance de formes et d'apprentissage machine pour établir la détection et l'évaluation automatiques d'anomalies d'aspect

    L’organisation des connaissances au prisme du langage, du texte et du discours. Un parcours en recherche d’information.

    Get PDF
    Ce mĂ©moire d’habilitation Ă  diriger des recherches dresse une synthĂšse des travaux rĂ©alisĂ©s en sciences de l’information et de la communication et portent sur la description et la caractĂ©risation de contenus textuels, sur leur reprĂ©sentation sous la forme de connaissances organisĂ©es et mĂ©diatisĂ©es pour la recherche d’information. L’organisation des connaissances est abordĂ©e comme un « objet d’étude des processus cognitifs et des techniques intellectuelles qui permettent de classer, indexer, formaliser et modĂ©liser le rĂ©el » (Polity et al. 2005, p. 13). La recherche d’information est un paradigme structurant pour apprĂ©hender cet objet. Dans la premiĂšre partie du mĂ©moire, la recherche d’information est saisie dans le seul rapport Ă  la technique : les connaissances linguistiques sont utilisĂ©es pour organiser les donnĂ©es afin d’amĂ©liorer l’indexation en texte intĂ©gral et la classification de textes. Dans la seconde partie, la recherche d’information est apprĂ©hendĂ©e comme une activitĂ© humaine et sociale : les connaissances linguistiques sont utilisĂ©es pour favoriser l’accĂšs aux documents et permettre diverses activitĂ©s informationnelles (lire, Ă©crire, annoter, partager, etc.). Ce mĂ©moire tĂ©moigne d’un parcours qui traverse les deux grandes conceptions de l’information. La premiĂšre est inspirĂ©e du courant nord-amĂ©ricain de l’information retrieval qui cherche Ă  Ă©tablir des principes gĂ©nĂ©raux de l’information, les technologies qui permettent de la traiter et de la rendre accessible. La seconde est inspirĂ©e de courants en sciences humaines et sociales (information seeking notamment) et donne la primeur aux usages de l’information et aux pratiques informationnelles dans des contextes socio-professionnels prĂ©cis

    Interprétation littéraire numérique : modélisation algorithmique, cybersémiotique et herméneutique

    Full text link
    Dans ce mĂ©moire, nous explorons les possibilitĂ©s d’une hermĂ©neutique algorithmique littĂ©raire en faisant d’abord des parallĂšles entre la lecture humaine et la modĂ©lisation textuelle numĂ©rique. À partir des caractĂ©ristiques de ces deux formes de rapports au texte littĂ©raire, nous diffĂ©rencions les modĂšles littĂ©raires nĂ©s de la cognition et de la computation, en plus de rester critique des formes reprĂ©sentatives ainsi gĂ©nĂ©rĂ©es. Nous utilisons ensuite les cadres thĂ©oriques de la sĂ©miotique et de la cybersĂ©miotique pour placer l’interprĂ©tation humaine et computationnelle sur un mĂȘme continuum d’évolution biotechnologique. Ainsi, nous envisageons la possibilitĂ© de sens littĂ©raire numĂ©rique Ă  partir de mĂ©thodes d’exploration de donnĂ©es appliquĂ©es aux modĂšles littĂ©raires algorithmiques. Finalement, nous considĂ©rons les potentielles consĂ©quences, limites et avantages d’une pratique de l’hermĂ©neutique algorithmique, et la forme qu’une telle pratique pourrait prendre.In this master thesis, we explore the possibilities of digital criticism, first by creating parallels between human reading and computational text modelling. From the characteristics of both these approaches to literary work, we differentiate literary models born of cognition and computation, and stay critical of these representative forms. We then use literary semiotics and cybersemiotics as theoretical frameworks to set human and computer interpretations as two steps on the same biotechnological evolutionary ladder. Thus, we consider the possibility of digital literary meaning produced with advanced data mining tools applied to algorithmically generated literary models. Finally, we contemplate what consequences, limits and advantages such a digital hermeneutic practice would have and offer, and the shapes it may or may not take

    Reconnaissance de scÚnes multimodale embarquée

    Get PDF
    Context: This PhD takes place in the contexts of Ambient Intelligence and (Mobile) Context/Scene Awareness. Historically, the project comes from the company ST-Ericsson. The project was depicted as a need to develop and embed a “context server” on the smartphone that would get and provide context information to applications that would require it. One use case was given for illustration: when someone is involved in a meeting and receives a call, then thanks to the understanding of the current scene (meet at work), the smartphone is able to automatically act and, in this case, switch to vibrate mode in order not to disturb the meeting. The main problems consist of i) proposing a definition of what is a scene and what examples of scenes would suit the use case, ii) acquiring a corpus of data to be exploited with machine learning based approaches, and iii) propose algorithmic solutions to the problem of scene recognition.Data collection: After a review of existing databases, it appeared that none fitted the criteria I fixed (long continuous records, multi-sources synchronized records necessarily including audio, relevant labels). Hence, I developed an Android application for collecting data. The application is called RecordMe and has been successfully tested on 10+ devices, running Android 2.3 and 4.0 OS versions. It has been used for 3 different campaigns including the one for scenes. This results in 500+ hours recorded, 25+ volunteers were involved, mostly in Grenoble area but abroad also (Dublin, Singapore, Budapest). The application and the collection protocol both include features for protecting volunteers privacy: for instance, raw audio is not saved, instead MFCCs are saved; sensitive strings (GPS coordinates, device ids) are hashed on the phone.Scene definition: The study of existing works related to the task of scene recognition, along with the analysis of the annotations provided by the volunteers during the data collection, allowed me to propose a definition of a scene. It is defined as a generalisation of a situation, composed of a place and an action performed by one person (the smartphone owner). Examples of scenes include taking a transportation, being involved in a work meeting, walking in the street. The composition allows to get different kinds of information to provide on the current scene. However, the definition is still too generic, and I think that it might be completed with additionnal information, integrated as new elements of the composition.Algorithmics: I have performed experiments involving machine learning techniques, both supervised and unsupervised. The supervised one is about classification. The method is quite standard: find relevant descriptors of the data through the use of an attribute selection method. Then train and test several classifiers (in my case, there were J48 and Random Forest trees ; GMM ; HMM ; and DNN). Also, I have tried a 2-stage system composed of a first step of classifiers trained to identify intermediate concepts and whose predictions are merged in order to estimate the most likely scene. The unsupervised part of the work aimed at extracting information from the data, in an unsupervised way. For this purpose, I applied a bottom-up hierarchical clustering, based on the EM algorithm on acceleration and audio data, taken separately and together. One of the results is the distinction of acceleration into groups based on the amount of agitation.Contexte : Cette thĂšse se dĂ©roule dans les contextes de l'intelligence ambiante et de la reconnaissance de scĂšne (sur mobile). Historiquement, le projet vient de l'entreprise ST-Ericsson. Il Ă©mane d'un besoin de dĂ©velopper et intĂ©grer un "serveur de contexte" sur smartphone capable d'estimer et de fournir des informations de contexte pour les applications tierces qui le demandent. Un exemple d'utilisation consiste en une rĂ©union de travail oĂč le tĂ©lĂ©phone sonne~; grĂące Ă  la reconnaissance de la scĂšne, le tĂ©lĂ©phone peut automatiquement rĂ©agir et adapter son comportement, par exemple en activant le mode vibreur pour ne pas dĂ©ranger.Les principaux problĂšmes de la thĂšse sont les suivants : d'abord, proposer une dĂ©finition de ce qu'est une scĂšne et des exemples de scĂšnes pertinents pour l'application industrielle ; ensuite, faire l'acquisition d'un corpus de donnĂ©es Ă  exploiter par des approches d'apprentissage automatique~; enfin, proposer des solutions algorithmiques au problĂšme de la reconnaissance de scĂšne.Collecte de donnĂ©es : Aucune des bases de donnĂ©es existantes ne remplit les critĂšres fixĂ©s (longs enregistrements continus, composĂ©s de plusieurs sources de donnĂ©es synchronisĂ©es dont l'audio, avec des annotations pertinentes).Par consĂ©quent, j'ai dĂ©veloppĂ© une application Android pour la collecte de donnĂ©es. L'application est appelĂ©e RecordMe et a Ă©tĂ© testĂ© avec succĂšs sur plus de 10 appareils. L'application a Ă©tĂ© utilisĂ©e pour 2 campagnes diffĂ©rentes, incluant la collecte de scĂšnes. Cela se traduit par plus de 500 heures enregistrĂ©es par plus de 25 bĂ©nĂ©voles, rĂ©partis principalement dans la rĂ©gion de Grenoble, mais aussi Ă  l'Ă©tranger (Dublin, Singapour, Budapest). Pour faire face au problĂšme de protection de la vie privĂ©e et de sĂ©curitĂ© des donnĂ©es, des mesures ont Ă©tĂ© mises en place dans le protocole et l'application de collecte. Par exemple, le son n'est pas sauvegardĂ©, mes des coefficients MFCCs sont enregistrĂ©s.DĂ©finition de scĂšne : L'Ă©tude des travaux existants liĂ©s Ă  la tĂąche de reconnaissance de scĂšne, et l'analyse des annotations fournies par les bĂ©nĂ©voles lors de la collecte de donnĂ©es, ont permis de proposer une dĂ©finition d'une scĂšne. Elle est dĂ©finie comme la gĂ©nĂ©ralisation d'une situation, composĂ©e d'un lieu et une action effectuĂ©e par une seule personne (le propriĂ©taire du smartphone). Des exemples de scĂšnes incluent les moyens de transport, la rĂ©union de travail, ou le dĂ©placement Ă  pied dans la rue. La notion de composition permet de dĂ©crire la scĂšne avec plusieurs types d'informations. Cependant, la dĂ©finition est encore trop gĂ©nĂ©rique, et elle pourrait ĂȘtre complĂ©tĂ©e par des informations additionnelles, intĂ©grĂ©e Ă  la dĂ©finition comme de nouveaux Ă©lĂ©ments de la composition.Algorithmique : J'ai rĂ©alisĂ© plusieurs expĂ©riences impliquant des techniques d'apprentissage automatique supervisĂ©es et non non-supervisĂ©es. La partie supervisĂ©e consiste en de la classification. La mĂ©thode est commune~: trouver des descripteurs des donnĂ©es pertinents grĂące Ă  l'utilisation d'une mĂ©thode de sĂ©lection d'attribut ; puis, entraĂźner et tester plusieurs classifieurs (arbres de dĂ©cisions et forĂȘt d'arbres dĂ©cisionnels ; GMM ; HMM, et DNN). Également, j'ai proposĂ© un systĂšme Ă  2 Ă©tages composĂ© de classifieurs formĂ©s pour identifier les concepts intermĂ©diaires et dont les prĂ©dictions sont fusionnĂ©es afin d'estimer la scĂšne la plus probable. Les expĂ©rimentations non-supervisĂ©es visent Ă  extraire des informations Ă  partir des donnĂ©es. Ainsi, j'ai appliquĂ© un algorithme de regroupement hiĂ©rarchique ascendant, basĂ© sur l'algorithme EM, sur les donnĂ©es d'accĂ©lĂ©ration et acoustiques considĂ©rĂ©es sĂ©parĂ©ment et ensemble. L'un des rĂ©sultats est la distinction des donnĂ©es d'accĂ©lĂ©ration en groupes basĂ©s sur la quantitĂ© d'agitation

    Étude de l’hĂ©tĂ©rogĂ©nĂ©itĂ© gĂ©nĂ©tique de la leucĂ©mie myĂ©loĂŻde aigue par analyse scRNA-seq.

    Full text link
    Les leucĂ©mies myĂ©loĂŻdes aiguĂ«s (LMA) sont un groupe de cancers rĂ©sultant de la diffĂ©renciation anormale et incomplĂšte des cellules souches et progĂ©nitrices hĂ©matopoĂŻĂ©tiques (HSPC), suite Ă  l'acquisition sĂ©quentielle de diverses anomalies gĂ©nĂ©tiques et cytogĂ©nĂ©tiques. Ce processus se reflĂšte probablement dans l'hĂ©tĂ©rogĂ©nĂ©itĂ© cellulaire de la LMA mais reste mal caractĂ©risĂ©. Les technologies de sĂ©quençage de l'ARN sur cellule unique (scRNA-seq) ont permis d'explorer l'hĂ©tĂ©rogĂ©nĂ©itĂ© phĂ©notypique. Cependant, dĂ©duire l'hĂ©tĂ©rogĂ©nĂ©itĂ© gĂ©notypique telle que les variantes sous-clonales d'un seul nuclĂ©otide (SNV) et les variations du nombre de copies (CNV) est trĂšs difficile en partie Ă  cause de la raretĂ© des donnĂ©es. Pour rĂ©soudre ce problĂšme, nous avons dĂ©veloppĂ© un classificateur de forĂȘt alĂ©atoire pour annoter les cellules LMA. Nous avons dĂ©veloppĂ© un pipeline pour identifier les mutations liĂ©es Ă  la LMA qui peuvent ĂȘtre dĂ©tectĂ©es dans scRNA-seq. Nous avons combinĂ© les donnĂ©es scRNA-seq avec les donnĂ©es de sĂ©quençage en « Bulk » d'exome appariĂ©es tumoraux et sains des mĂȘmes Ă©chantillons pour dĂ©finir la sous-structure clonale dans ces Ă©chantillons. Nous avons appliquĂ© notre classificateur Ă  plus de 130K cellules obtenues Ă  partir de 20 patients LMA en utilisant le systĂšme 10X Genomics Chromium. Nous avons identifiĂ© 35 types cellulaires distincts, y compris un grand nombre de cellules de type HSPC. Dans cette cohorte, nous avons remarquĂ© que des mutations dans les gĂšnes NPM1, U2AF1, SMC3, EZH2, RAD21 et KRAS peuvent ĂȘtre dĂ©tectĂ©es dans les donnĂ©es scRNA-seq Ă  des occurrences allant de 0,02 % Ă  75 % de cellules mutĂ©es par Ă©chantillon. Dans huit Ă©chantillons, nous avons identifiĂ© des sous-populations de cellules tumorales portant de grandes CNV telles que les aneuploĂŻdies des chromosomes 5 et 7. Ces aneuploĂŻdies sont rĂ©currentes et pertinentes sur le plan pronostique dans la LMA. Notre travail fournit un outil de recherche unique pour Ă©tudier la relation entre la diversitĂ© phĂ©notypique et gĂ©notypique ; offrant de nouvelles perspectives sur le dĂ©veloppement de la leucĂ©mie.Acute myeloid leukemias (AML) are a group of cancers resulting from the abnormal and incomplete differentiation of hematopoietic stem and progenitor cells (HSPC), following the sequential acquisition of various genetic and cytogenetic abnormalities. This process is likely reflected in the AML cellular heterogeneity but it remains poorly characterized. Single-cell RNA sequencing (scRNA-seq) technologies enabled the exploration of phenotypic heterogeneity. However, inferring the genotypic heterogeneity such as subclonal single nucleotide variants (SNV) and copy number variations (CNV) is highly challenging partly because of data sparsity. To address this, we developed a random forest classifier to annotate AML cells. We developed a pipeline to identify which of the known AML driver mutations can be detected in scRNA-seq. We combined scRNA-seq data with bulk tumoral and germline exomes data from the same samples to define the clonal substructure in these samples. We applied our classifier to over 130K cells obtained from 20 AML patients using the 10X Genomics Chromium system. We identified 35 distinct cell types including large numbers of HSPClike. In this cohort, we noticed that mutations in NPM1, U2AF1, SMC3, EZH2, RAD21 and KRAS genes can be detected in scRNA-seq data at occurrences ranging from 0.02% to 75% of mutated cells per sample. In eight samples, we identified sub-populations of tumor cells carrying large CNVs such as aneuploidies of chromosomes 5 and 7. These aneuploidies are recurrent and prognostically relevant in AML. Our work provides a unique research tool to investigate the relationship between phenotypic and genotypic diversity; offering novel insights into leukemia development
    • 

    corecore