53 research outputs found

    Approches topologiques pour l'analyse exploratoire de données et l'aide à la décision

    Get PDF
    Depuis au moins les premières pierres taillées de l'ère Paléolithique,les hommes n'ont cessé de créer des artefacts, moyens d'agir sur leur environnementet moyens de l'observer au-delà de leurs capacités propres.Ils ont développé ces outils pour les assister dans leur quête viscérale decompréhension (sciences) et de maîtrise (techniques) de ce monde dont ilsfont partie. Cette compréhension du monde est nécessaire pour en prédireles états, et la maîtrise qui en découle est le moyen de ne plus le subir maisde l'asservir pour réduire les sourances qu'il nous assène par nature. Enplus de transformer le Monde, les hommes ont aussi pu réparer, corriger etaugmenter leur propre corps par des orthèses et des prothèses biologiques,chimiques, mécaniques ou numériques. La multiplication de ces moyensd'agir et d'observer entraîne un accroissement exponentiel des donnéesdésormais capturées dont la masse est supposée assurer les hommes decontenir toute l'information utile à leur quête. Cette massication desdonnées impose de développer des méthodes d'analyse et de traitementtoujours plus ecaces pour que les hommes qui les étudient ou appuientleurs décisions sur elles puissent continuer à le faire et à le faire mieux. J'aiproposé diérentes approches dans les champs de l'analyse descriptive etde la modélisation prédictive an de rendre plus intelligible la chaîne detraitement de l'information du capteur à l'écran. J'ai placé la Topologieau coeur de mes travaux. En eet, je considère qu'elle forme le substratessentiel à l'interprétabilité de l'information, c'est-à-dire à la transmissiondu sens dans cette chaîne, et in ne à la compréhension et à la maîtrisedu Monde par l'Homme.Le développement permanent des artefacts techniques pour tenter demieux comprendre et maîtriser le Monde, entretient la croissance de sacomplexité, à la fois parce que grâce aux artefacts développés pour lascience et la technologie, nous accédons à des mécanismes toujours plusprécis et plus nombreux qui le gouvernent, mais aussi parce que les artefactstechniques engendrés par ces connaissances nouvelles, font partieintégrante du Monde lui-même et en modient le fonctionnement. Auxcauses naturelles s'entremêlent les causes articielles. C'est pour certainsauteurs [Crutzen, Geology of Mankind, Nature 415(6867):23, 2002] une nouvelle ère qui a commencée au 19e siècle, l'ère de l'Anthropocène , dans laquelle l'intelligence des hommes les a dotés de moyenstechniques capable de modier durablement leur écosystème et en particulierles mécanismes de la Sélection Naturelle qui ont engendrée cette intelligence.Il est vraissemblable que ce développement aboutira à l'émergencede machines intelligentes, conscientes et émotionnelles capables d'explorerce monde par elles-mêmes et de communiquer aux hommes leurs conclusionssur les lois qui le gouvernent, comme le font déjà quelques machinesencore rudimentaires mais ecaces [Sparkes et al. An integrated laboratory robotic system for autonomousdiscovery of gene function, JALA 15(1):33-40, 2010]. Ces machines sont la forme ultimede ces orthèses dont les hommes cherchent à se doter depuis le Paléolithique pour tenter de dépasser leur condition. Avant que n'adviennece moment singulier que Kurzweil appelle la Singularité [Kurzweil,The singularity is near : when humans transcendbiology. http ://books.google.fr/books ?id=88U6hdUi6D0C, 2005.], où les machinesautonomes seront en mesure de dépasser l'homme et de développerpour elles-mêmes des connaissances et des techniques, des questionséthiques seront posées qui mèneront soit à l'abandon du développementde telles machines, soit à la nécessité impérieuse de les maîtriser. Il seraalors impératif que les processus internes et les produits de ces machinessoient intelligibles aux hommes an qu'ils en comprennent le sens et enconservent le contrôle. C'est ainsi tout l'enjeu de mes recherches actuelleset futures

    Analyse syntaxique du français : des constituants aux dépendances

    Get PDF
    10 pagesInternational audienceThis paper describes a technique for both constituent and dependency parsing. Parsing proceeds by adding functional labels to the output of a constituent parser trained on the French Treebank in order to further extract typed dependencies. On the one hand we specify on formal and linguistic grounds the nature of the dependencies to output as well as the conversion algorithm from the French Treebank to this dependency representation. On the other hand, we describe a class of algorithms that allows to perform the automatic labeling of the functions from the output of a constituent based parser. We specifically focus on discriminative learning methods for functional labelling

    Calcul de centralité et identification de structures de communautés dans les graphes de documents

    Get PDF
    Dans cette thèse, nous nous intéressons à la caractérisation de grandes collections de documents (en utilisant les liens entre ces derniers) afin de faciliter leur utilisation et leur exploitation par des humains ou par des outils informatiques. Dans un premier temps, nous avons abordé la problématique du calcul de centralité dans les graphes de documents. Nous avons décrit les principaux algorithmes de calcul de centralité existants en mettant l'accent sur le problème TKC (Tightly Knit Community) dont souffre la plupart des mesures de centralité récentes. Ensuite, nous avons proposé trois nouveaux algorithmes de calcul de centralité (MHITS, NHITS et DocRank) permettant d'affronter le phénomène TKC. Les différents algorithmes proposés ont été évalués et comparés aux approches existantes. Des critères d'évaluation ont notamment été proposés pour mesurer l'effet TKC. Dans un deuxième temps, nous nous sommes intéressés au problème de la classification non supervisée de documents. Plus précisément, nous avons envisagé ce regroupement comme une tâche d'identification de structures de communautés (ISC) dans les graphes de documents. Nous avons décrit les principales approches d'ISC existantes en distinguant les approches basées sur un modèle génératif des approches algorithmiques ou classiques. Puis, nous avons proposé un modèle génératif (SPCE) basé sur le lissage et sur une initialisation appropriée pour l'ISC dans des graphes de faible densité. Le modèle SPCE a été évalué et validé en le comparant à d'autres approches d'ISC. Enfin, nous avons montré que le modèle SPCE pouvait être étendu pour prendre en compte simultanément les liens et les contenus des documents.In this thesis, we are interested in characterizing large collections of documents (using the links between them) in order to facilitate their use and exploitation by humans or by software tools. Initially, we addressed the problem of centrality computation in document graphs. We described existing centrality algorithms by focusing on the TKC (Tightly Knit Community) problem which affects most existing centrality measures. Then, we proposed three new centrality algorithms (MHITS, NHITS and DocRank) which tackle the TKC effect. The proposed algorithms were evaluated and compared to existing approaches using several graphs and evaluation measures. In a second step, we investigated the problem of document clustering. Specifically, we considered this clustering as a task of community structure identification (CSI) in document graphs. We described the existing CSI approaches by distinguishing those based on a generative model from the algorithmic or traditional ones. Then, we proposed a generative model (SPCE) based on smoothing and on an appropriate initialization for CSI in sparse graphs. The SPCE model was evaluated and validated by comparing it to other CSI approaches. Finally, we showed that the SPCE model can be extended to take into account simultaneously the links and content of documents

    Amélioration de la robustesse des systèmes de reconnaissance automatique du locuteur dans l'espace des i-vecteurs

    Get PDF
    Les systèmes nec plus ultra de reconnaissance du locuteur adoptent la représentation de la parole dans l’espace des i-vecteurs. Un i-vecteur n’est qu’un simple vecteur de faible dimension (typiquement dans les centaines) représentant une vaste gamme d’information véhiculée par le signal vocal. Bien que les performances de ces systèmes en matière des taux de reconnaissance aient atteint un niveau très avancé, une meilleure exploitation de ces systèmes dans les milieux réels de tous les jours nécessite encore plus d'efforts de la part des chercheurs en la matière. Dans le cadre de cette thèse, notre objectif principal est d'améliorer la robustesse des systèmes de reconnaissance du locuteur opérant dans l’espace des ivecteurs. Dans la première partie de ce travail, nous nous intéressons à la tâche de la vérification du locuteur. Nous nous focalisons plus particulièrement sur la conception d’un système de vérification à la fois indépendant du type du canal de transmission/enregistrement et du genre du locuteur. Dans le contexte des i-vecteurs, les classificateurs génératifs, tels que l’analyse discriminante linéaire probabiliste (PLDA), ont dominé le domaine de la reconnaissance du locuteur. Néanmoins, de simples classificateurs à base de la similarité angulaire du cosinus (SAC) restent concurrentiels. Ainsi, nous avons proposé dans cette partie deux solutions rendant respectivement les systèmes à base des deux classificateurs de l’état de l’art (le PLDA et la SAC) indépendants du type du canal et du genre du locuteur. En effet, nos systèmes conçus de la sorte sont considérés comme les deux premiers systèmes de vérification du locuteur atteignant les résultats de l’état de l’art (environ 2 % d’EER pour la parole téléphonique et 3 % pour la parole microphonique) sans pour autant profiter ni de l’information concernant le type du canal ni de celle concernant le genre du locuteur. Le regroupement en locuteurs est une autre tâche de la reconnaissance du locuteur qui représente notre centre d’intérêt dans la seconde partie de cette thèse. À nouveau, nos recherches seront menées uniquement dans le contexte de la représentation de la parole par des i-vecteurs. À vrai dire, il existe deux types d’applications à base du regroupement en locuteurs, soit, le regroupement en locuteurs des grands corpora des fichiers vocaux (speaker clustering) et la structuration en tours de parole d’un flux audio (speaker diarization). Une nouvelle version de l’algorithme non paramétrique de décalage de la moyenne (Mean Shift, MS) a été proposée afin de faire face au problème du regroupement en locuteurs. Nous avons démontré que les performances de notre nouvelle version de l’algorithme de MS à base de la distance angulaire du cosinus dépassent ceux de la version de base, une fois testés face à la tâche du regroupement en locuteurs. Le même algorithme nous a permis d’obtenir les résultats de l’état de l’art (DER égal à 12,4 %) de la structuration en tours de parole du corpus des données téléphoniques CallHome

    Etude de la variabilité hémodynamique chez l’enfant et l’adulte sains en IRMf

    Get PDF
    In fMRI, the conclusions of experimental paradigms remain unreliable as far as they supposesome a priori knowledge on the neuro-vascular coupling which is characterized by thehemodynamic response function modeling the link between the stimulus input and the fMRIsignal as output. To improve our understanding of the neuronal and vascular changes inducedby the realization of a cognitive task given in fMRI, it seems thus critical to study thecharacteristics of the hemodynamic response in depth.This thesis gives a new perspective on this topic, supported by an original method for intra-subjectanalysis of fMRI data : the Joint Detection-Estimation (or JDE). The JDE approachmodels the hemodynamic response in a not parametric and multivariate manner, while itjointly detects the cerebral areas which are activated in response to stimulations deliveredalong an experimental paradigm.The first contribution of this thesis is centered on the thorough analysis of the interindividualand inter-regiona hemodynamic variability from a population of young healthyadults. This work has allowed to validate the JDE method at the group level and to highlightthe striking hemodynamic variability in some cerebral regions : parietal, temporal, occipitallobes, motor cortex. This variability is much more important as the region is involved in morecomplex cognitive processes.The second research axis has consisted in focusing on the study of the hemodynamic orga-nizationof a particularly important cerebral area in Humans, the language system. Becausethis function embeds the reading learning ability, groups of healthy children of 6 and 9 yearsold respectively, who were in the process of learning or of strenghting reading, were chosen forthis study. Two important methodological contributions have been proposed. First, a multi-sessionsextension of the JDE approach (until now limited to the processing of mono-sessiondata in fMRI) was worked out in order to improve the robustness and the reproducibility ofthe results. Then, a new framework was developed to overcome the main shortcoming of theJDE approach. The latter indeed relies on a prior parcellation of the data in functionally ho-mogeneousregions, the choice of which is critical for the subsequent inference and impacts thehemodynamic results. In order to avoid this a priori choice, the finalized alternative combinesthe results from various random data fragmentations by using “consensus clustering”.Finally, a second extension of the JDE approach was developed in order to robustly estimatethe shape of the hemodynamic response at the group level. So far, this model was validatedon simulations, and we plan to apply it on children data to improve the study of the BOLDresponse temporal characteristics in the language areas. Thus, this PhD work proposes onone hand new methodological contributions to characterize the hemodynamic response infMRI, and on the other hand a validation and a neuroscientific application of the proposedapproaches.En IRMf, les conclusions de paradigmes expérimentaux restent encore sujettes à caution dans la mesure où elles supposent une connaissance a priori du couplage neuro-vasculaire, c’est-à- dire de la fonction de réponse hémodynamique qui modélise le lien entre la stimulation et le signal mesuré. Afin de mieux appréhender les changements neuronaux et vasculaires induits par la réalisation d’une tâche cognitive en IRMf, il apparaît donc indispensable d’étudier de manière approfondie les caractéristiques de la réponse hémodynamique. Cette thèse apporte un nouvel éclairage sur cette étude, en s’appuyant sur une méthode originale d’analyse intra-sujet des données d’IRMf : la Détection-Estimation Conjointe (« Joint Detection-Estimation » en anglais, ou JDE). L’approche JDE modélise de façon non paramétrique et multivariée la réponse hémodynamique, tout en détectant conjointement les aires cérébrales activées en réponse aux stimulations d’un paradigme expérimental. La première contribution de cette thèse a été centrée sur l’analyse approfondie de la variabilité hémodynamique, tant inter-individuelle qu’inter-régionale, au niveau d’un groupe de jeunes adultes sains. Ce travail a permis de valider la méthode JDE au niveau d’une population et de mettre en évidence la variabilité hémodynamique importante apparaissant dans certaines régions cérébrales : lobes pariétal, temporal, occipital, cortex moteur. Cette variabilité est d’autant plus importante que la région est impliquée dans des processus cognitifs plus complexes.Un deuxième axe de recherche a consisté à se focaliser sur l’étude de l’organisation hémodynamique d’une aire cérébrale particulièrement importante chez les êtres humains, la région du langage. Cette fonction étant liée à la capacité d’apprentissage de la lecture, deux groupes d’enfants sains, âgés respectivement de 6 et 9 ans, en cours d’apprentissage ou de consolidation de la lecture, ont été choisis pour mener cette étude. Deux apports méthodologiques importants ont été proposés. Tout d’abord, une extension multi-sessions de l’approche JDE (jusqu’alors limitée au traitement de données mono-session en IRMf) a été mise au point afin d’améliorer la robustesse et la reproductibilité des résultats. Cette extension a permis de mettre en évidence, au sein de la population d’enfants, l’évolution de la réponse hémodynamique avec l’âge, au sein de la région du sillon temporal supérieur. Ensuite, un nouveau cadre a été développé pour contourner l’une des limitations de l’approche JDE « standard », à savoir la parcellisation a priori des données en régions fonctionnellement homogènes. Cette parcellisation est déterminante pour la suite de l’analyse et a un impact sur les résultats hémodynamiques. Afin de s’affranchir d’un tel choix, l’alternative mise au point combine les résultats issus de différentes parcellisations aléatoires des données en utilisant des techniques de «consensus clustering». Enfin, une deuxième extension de l’approche JDE a été mise en place pour estimer la forme de la réponse hémodynamique au niveau d’un groupe de sujets. Ce modèle a pour l’instant été validé sur simulations, et nous prévoyons de l’appliquer sur les données d’enfant pour améliorer l’étude des caractéristiques temporelles de la réponse BOLD dans les réseaux du langage.Ce travail de thèse propose ainsi d’une part des contributions méthodologiques nouvelles pour caractériser la réponse hémodynamique en IRMf, et d’autre part une validation et une application des approches développées sous un éclairage neuroscientifique

    Représentations robustes de documents bruités dans des espaces homogènes

    Get PDF
    In the Information Retrieval field, documents are usually considered as a "bagof-words". This model does not take into account the temporal structure of thedocument and is sensitive to noises which can alter its lexical form. These noisescan be produced by different sources : uncontrolled form of documents in microbloggingplatforms, automatic transcription of speech documents which are errorprone,lexical and grammatical variabilities in Web forums. . . The work presented inthis thesis addresses issues related to document representations from noisy sources.The thesis consists of three parts in which different representations of content areavailable. The first one compares a classical representation based on a term-frequencyrepresentation to a higher level representation based on a topic space. The abstractionof the document content allows us to limit the alteration of the noisy document byrepresenting its content with a set of high-level features. Our experiments confirm thatmapping a noisy document into a topic space allows us to improve the results obtainedduring different information retrieval tasks compared to a classical approach based onterm frequency. The major problem with such a high-level representation is that it isbased on a space theme whose parameters are chosen empirically.The second part presents a novel representation based on multiple topic spaces thatallow us to solve three main problems : the closeness of the subjects discussed in thedocument, the tricky choice of the "right" values of the topic space parameters and therobustness of the topic-based representation. Based on the idea that a single representationof the contents cannot capture all the relevant information, we propose to increasethe number of views on a single document. This multiplication of views generates "artificial"observations that contain fragments of useful information. The first experimentvalidated the multi-view approach to represent noisy texts. However, it has the disadvantageof being very large and redundant and of containing additional variability associatedwith the diversity of views. In the second step, we propose a method based onfactor analysis to compact the different views and to obtain a new robust representationof low dimension which contains only the informative part of the document whilethe noisy variabilities are compensated. During a dialogue classification task, the compressionprocess confirmed that this compact representation allows us to improve therobustness of noisy document representation.Nonetheless, during the learning process of topic spaces, the document is consideredas a "bag-of-words" while many studies have showed that the word position in a7document is useful. A representation which takes into account the temporal structureof the document based on hyper-complex numbers is proposed in the third part. Thisrepresentation is based on the hyper-complex numbers of dimension four named quaternions.Our experiments on a classification task have showed the effectiveness of theproposed approach compared to a conventional "bag-of-words" representation.En recherche d’information, les documents sont le plus souvent considérés comme des "sacs-de-mots". Ce modèle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altérer la forme lexicale. Ces bruits peuvent être produits par différentes sources : forme peu contrôlée des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilités lexicales et grammaticales dans les forums du Web. . . Le travail présenté dans cette thèse s’intéresse au problème de la représentation de documents issus de sources bruitées.La thèse comporte trois parties dans lesquelles différentes représentations des contenus sont proposées. La première partie compare une représentation classique utilisant la fréquence des mots à une représentation de haut-niveau s’appuyant sur un espace de thèmes. Cette abstraction du contenu permet de limiter l’altération de la forme de surface du document bruité en le représentant par un ensemble de caractéristiques de haut-niveau. Nos expériences confirment que cette projection dans un espace de thèmes permet d’améliorer les résultats obtenus sur diverses tâches de recherche d’information en comparaison d’une représentation plus classique utilisant la fréquence des mots.Le problème majeur d’une telle représentation est qu’elle est fondée sur un espace de thèmes dont les paramètres sont choisis empiriquement.La deuxième partie décrit une nouvelle représentation s’appuyant sur des espaces multiples et permettant de résoudre trois problèmes majeurs : la proximité des sujets traités dans le document, le choix difficile des paramètres du modèle de thèmes ainsi que la robustesse de la représentation. Partant de l’idée qu’une seule représentation des contenus ne peut pas capturer l’ensemble des informations utiles, nous proposons d’augmenter le nombre de vues sur un même document. Cette multiplication des vues permet de générer des observations "artificielles" qui contiennent des fragments de l’information utile. Une première expérience a validé cette approche multi-vues de la représentation de textes bruités. Elle a cependant l’inconvénient d’être très volumineuse,redondante, et de contenir une variabilité additionnelle liée à la diversité des vues. Dans un deuxième temps, nous proposons une méthode s’appuyant sur l’analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle représentation robuste,de dimension réduite, ne contenant que la partie "utile" du document tout en réduisant les variabilités "parasites". Lors d’une tâche de catégorisation de conversations,ce processus de compression a confirmé qu’il permettait d’augmenter la robustesse de la représentation du document bruité.Cependant, lors de l’élaboration des espaces de thèmes, le document reste considéré comme un "sac-de-mots" alors que plusieurs études montrent que la position d’un terme au sein du document est importante. Une représentation tenant compte de cette structure temporelle du document est proposée dans la troisième partie. Cette représentation s’appuie sur les nombres hyper-complexes de dimension appelés quaternions. Nos expériences menées sur une tâche de catégorisation ont montré l’efficacité de cette méthode comparativement aux représentations classiques en "sacs-de-mots"

    Modélisation de la structure du silicium amorphe à l’aide d’algorithmes d’apprentissage profond

    Get PDF
    Le silicium amorphe est le système canonique pour l’étude des matériaux désordonnés de par son importance technologique et son intérêt théorique fondamental. En effet les détails de sa structure atomique sont encore aujourd’hui mal connus, et son étude théorique se base essentiellement sur des simulations numériques. Mais les méthodes Monte Carlo pour la génération des réseaux aléatoires continus voient leur réalisme dépendre fortement de la description du paysage énergétique considérée. Alors que les approches ab initio fournissent une description fidèle, leur application se limite à des systèmes de quelques centaines d’atomes au maximum. Les potentiels empiriques constituent en revanche une alternative efficace permettant la simulation de systèmes allant jusqu’à un million d’atomes au prix d’une fiabilité réduite. Cependant les avancées récentes en apprentissage automatique ont permis l’émergence de modèles génératifs profonds capables d’approximer des fonctions complexes en haute dimension à partir d’observations, qui ont démontré un grand succès dans des tâches de synthèse d’images et sonore. De par leur efficacité, ces derniers ouvrent alors la voie à un meilleur compromis entre performance et réalisme pour la modélisation des systèmes désordonnés. Dans le but d’étudier cette alternative, un réseau de neurones convolutif a été entraîné avec succès pour approximer la surface d’énergie potentielle de Stillinger-Weber du silicium amorphe avec une erreur quadratique moyenne 5.095 meV par atome, correspondant à 0,16% de l’énergie atomique. Ensuite, un modèle génératif profond, l’Auto- Encodeur de Wasserstein, a été entraîné pour l’apprentissage de la distribution atomique du silicium amorphe. Celui-ci génère des configurations qualitativement réalistes présentant un désordre structurel trop prononcé, ce qui confirme la viabilité de la méthode.Amorphous silicon is a canonical system for the study of disordered materials because of both its technological importance and fundamental interest. The details of its atomic structure are not yet well-known, and its theoretical study relies mainly on numerical simulations. But Monte Carlo approaches for generating continuous random networks show a realism that depend heavily on the considered description of the energy landscape. Ab initio methods provide a faithful description but are limited to small systems, typically of a few hundreds of atoms. On the other hand, empirical potentials are efficient alternatives as they enable the modeling of large-scale systems up to a million atoms, at the price of a reduced reliability. Recent advances in machine learning have led to the emergence of powerful deep generative models that are able to approximate complex high-dimensional functions from a dataset, which have shown great success in difficult generation tasks such as image and audio synthesis. Their efficiency lead the way to a better compromise between performance and realism for the modelization of disordered systems. In order to explore this alternative, a convolutional neural network is trained to approximate the potential energy surface of amorphous silicon as given by the Stillinger- Weber potential, which resulted in a root mean square error of 5.05 meV per atom, corresponding to 0,16% of the atomic energy. Then a deep generative model, the Wasserstein Auto-Encoder, is trained to generate amorphous configurations. The resulting model generates qualitatively realistic configurations, although with a strong structural disorder, thus confirming viability of the method
    • …
    corecore