Search CORE

97 research outputs found

Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole

Author: Brodeur Simon
Publication venue: 'Universite de Sherbrooke'
Publication date: 01/01/2013
Field of study

Les systèmes de reconnaissance de la parole sont fondamentalement dérivés des domaines du traitement et de la modélisation statistique des signaux. Depuis quelques années, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois à améliorer la performance des systèmes actuels de reconnaissance de parole. La revue de la littérature a suggéré qu'un système de reconnaissance vocale intégrant les aspects de hiérarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif général est de comprendre comment l'intégration de tous ces aspects permettrait d'améliorer la robustesse aux bruits additifs d'un système de reconnaissance de la parole. La base de données TI46 (mots isolés, faible-vocabulaire) est utilisée pour effectuer l'apprentissage non-supervisé et les tests de classification. Les différents bruits additifs proviennent de la base de données NOISEX-92, et permettent d'évaluer la robustesse en conditions de bruit réalistes. L'extraction de caractéristiques dans le système proposé est effectuée par des projections linéaires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses méthodes de seuillage permettent de produire une représentation multi-échelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisé permet sous certaines conditions l'obtention de bases qui reflètent des caractéristiques phonétiques et syllabiques de la parole, donc visant une représentation par objets d'un signal. L'algorithme d'analyse en composantes indépendantes (ICA) s'est démontré mieux adapté à extraire de telles bases, principalement à cause du critère de réduction de redondance. Les analyses théoriques et expérimentales ont montré comment la parcimonie peut contourner les problèmes de discrimination des distances et d'estimation des densités de probabilité dans des espaces à grandes dimensions. Il est observé qu'un espace de caractéristiques parcimonieux à grandes dimensions peut définir un espace de paramètres (p.ex. modèle statistique) de mêmes propriétés. Ceci réduit la disparité entre les représentations de l'étage d'extraction des caractéristiques et celles de l'étage de classification. De plus, l'étage d'extraction des caractéristiques peut favoriser une réduction de la complexité de l'étage de classification. Un simple classificateur linéaire peut venir compléter un modèle de Markov caché (HMM), joignant une capacité de discrimination accrue à la polyvalence d'une segmentation en états d'un signal. Les résultats montrent que l'architecture développée offr de meilleurs taux de reconnaissance en conditions propres et bruités comparativement à une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine à vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole où la transformation doit être inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifié la possibilité de réduire considérablement la complexité des espaces de caractéristiques et de paramètres, sans toutefois diminuer le pouvoir de discrimination et la robustesse

Savoirs UdeS

Mesure de l'épaisseur corticale en IRM : application au diagnostic précoce individuel de la maladie d'Alzheimer et à la notion de réserve cognitive

Author: Querbes Olivier
Publication venue
Publication date: 17/09/2009
Field of study

L'étude de l'atrophie cérébrale par IRM suscite un intérêt croissant, notamment pour le diagnostic précoce de la maladie d'Alzheimer (MA). En effet, l'atrophie caractéristique de la MA est mesurable sur une image IRM et semble apparaître avant même les signes cliniques (hypothèse de la réserve cognitive). Malheureusement, les méthodes existantes de mesure de l'atrophie, souvent basées sur des mesures de volume, sont encore largement inadaptées à la pratique clinique. Pour pallier ce problème, nous avons développé une méthode automatique et rapide de mesure de l'épaisseur corticale sur IRM, basée sur la résolution de l'équation de Laplace (Jones et al., Journal/Hum Brain Mapp 2000). A partir de ces mesures, nous avons dérivé un index individuel d'atrophie pouvant s'adapter à n'importe quelle maladie neurodégénérative / développementale, appelé Normalized Thickness Index (NTI) (Querbes et al., Journal/Brain 2009). Cet index a été validé sur le modèle pathologique de la MA à partir d'une large population de 440 sujets. Nous avons montré qu'il permettait de séparer à 85% les sujets sains des patients MA. Nous avons aussi mis en évidence plusieurs résultats étayant l'hypothèse de la réserve cognitive, montrant ainsi que le NTI permettait de révéler des signes anatomiques caractéristiques de la MA bien avant que les sujets n'expriment cliniquement la maladie, et ce d'autant plus que le niveau d'éducation du sujet est élevé. Le NTI permet ainsi, dans 76% des cas, d'anticiper la MA à l'échelon individuel deux ans avant l'apparition des signes cliniques ; il est donc un candidat sérieux pour l'aide au diagnostic précoce de la MA, mais doit encore être validé dans le cadre d'une vaste étude populationnelle. Nous avons enfin obtenu des résultats préliminaires sur d'autres pathologies (dyslexie, maladie de Parkinson), mettant en évidence des atrophies significatives caractéristiques de ces maladies. Un NTI pourrait ainsi être défini pour chacune de ces pathologies, et ceci fera l'objet d'études futures.Brain atrophy measured by magnetic resonance structural imaging has been proposed as a surrogate marker for the early diagnosis of Alzheimer's disease. Studies on large samples are still required to determine its practical interest at the individual level, especially with regards to the capacity of anatomical magnetic resonance imaging to disentangle the confounding role of the cognitive reserve in the early diagnosis of Alzheimer's disease. One hundred and thirty healthy controls, 122 subjects with mild cognitive impairment of the amnestic type and 130 Alzheimer's disease patients were included from the ADNI database and followed up for 24 months. After 24 months, 72 amnestic mild cognitive impairment had converted to Alzheimer's disease (referred to as progressive mild cognitive impairment, as opposed to stable mild cognitive impairment). For each subject, cortical thickness was measured on the baseline magnetic resonance imaging volume. The resulting cortical thickness map was parcellated into 22 regions and a normalized thickness index was computed using the subset of regions (right medial temporal, left lateral temporal, right posterior cingulate) that optimally distinguished stable mild cognitive impairment from progressive mild cognitive impairment. We tested the ability of baseline normalized thickness index to predict evolution from amnestic mild cognitive impairment to Alzheimer's disease and compared it to the predictive values of the main cognitive scores at baseline. In addition, we studied the relationship between the normalized thickness index, the education level and the timeline of conversion to Alzheimer's disease. Normalized thickness index at baseline differed significantly among all the four diagnosis groups (P_0.001) and correctly distinguished Alzheimer's disease patients from healthy controls with an 85% cross-validated accuracy. Normalized thickness index also correctly predicted evolution to Alzheimer's disease for 76% of amnestic mild cognitive impairment subjects after cross-validation, thus showing an advantage over cognitive scores (range 63-72%). Moreover, progressive mild cognitive impairment subjects, who converted later than 1 year after baseline, showed a significantly higher education level than those who converted earlier than 1 year after baseline. Using a normalized thickness index-based criterion may help with early diagnosis of Alzheimer's disease at the individual level, especially for highly educated subjects, up to 24 months before clinical criteria for Alzheimer's disease diagnosis are met

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Contribution à la conception préliminaire robuste en ingéniérie de produit.

Author: BIGEON Jean
PICHERAL Laura
Publication venue
Publication date: 01/01/2013
Field of study

Les travaux présentés dans cette thèse portent sur la conception robuste de produit et plus particulièrement sur la phase de pré-dimensionnement dans le cas où un modèle de dimensionnement et un cahier des charges sont déjà définis. Une approche pour réaliser de l optimisation robuste est proposée pour réduire la dispersion de la fonction objectif du cahier des charges du produit lorsque les paramètres de conception sont sujets aux incertitudes, conserver une bonne performance du produit et assurer une faisabilité des contraintes. Nous proposons ainsi la formulation d un cahier des charges dit robuste transformant la fonction objectif et les contraintes du cahier des charges initial afin d intégrer une notion de robustesse préalablement définie. La seconde contribution est une analyse des méthodes trouvées dans la littérature pour la propagation d incertitudes à travers des modèles de dimensionnement. Les variations des paramètres sont alors modélisées par des dispersions probabilistes. L analyse théorique du fonctionnement de chaque méthode est complétée par des tests permettant d étudier la précision des résultats obtenus et de sélectionner la méthode utilisée par la suite. L approche pour l optimisation robuste de produit proposée dans ce travail est finalement mise en œuvre et testée sur deux études de cas. Elle intègre la méthode de propagation d incertitudes dans une boucle de l algorithme d optimisation de manière à automatiser la recherche d une solution optimale robuste pour le dimensionnement du produit.The work presented in this thesis deals with the robust design of products. Particularly, it focuses on the design process preliminary phase where design models and specifications are already defined. A robust optimization approach is proposed. It aims to: reduce the scattering of the objective function included in the product specifications when the uncertainties reach the design parameters, maintain good performance of the product and ensure the constraints feasibility. We propose a new robust product specification that changes the objective function and the constraints of the initial specification in order to integrate the concept of robustness previously defined. The second contribution is an analysis of methods found in literature to propagate uncertainties across design models. Design parameter variations are modeled by probability distributions. The theoretical analysis of these methods is completed by numerous tests to investigate the accuracy of the results and to select the method used thereafter. The robust product optimization approach proposed in this work is finally implemented and tested on two case studies. It incorporates the propagation of uncertainties within the optimization loop to automate the search of a robust optimal solution for the design product.SAVOIE-SCD - Bib.électronique (730659901) / SudocGRENOBLE1/INP-Bib.électronique (384210012) / SudocGRENOBLE2/3-Bib.électronique (384219901) / SudocSudocFranceF

OpenGrey Repository

Apprentissage de la structure de réseaux bayésiens : application aux données de génétique-génomique

Author: Vandel Jimmy
Publication venue
Publication date: 01/01/2012
Field of study

Apprendre la structure d'un réseau de régulation de gènes est une tâche complexe due à la fois au nombre élevé de variables le composant (plusieurs milliers) et à la faible quantité d'échantillons disponibles (quelques centaines). Parmi les approches proposées, nous utilisons le formalisme des réseaux bayésiens, ainsi apprendre la structure d'un réseau de régulation consiste à apprendre la structure d'un réseau bayésien où chaque variable représente un gène et chaque arc un phénomène de régulation. Dans la première partie de ce manuscrit nous nous intéressons à l'apprentissage de la structure de réseaux bayésiens génériques au travers de recherches locales. Nous explorons plus efficacement l'espace des réseaux possibles grâce à un nouvel algorithme de recherche stochastique (SGS), un nouvel opérateur local (SWAP), ainsi qu'une extension des opérateurs classiques qui permet d'assouplir temporairement la contrainte d'acyclicité des réseaux bayésiens. La deuxième partie se focalise sur l'apprentissage de réseaux de régulation de gènes. Nous proposons une modélisation du problème dans le cadre des réseaux bayésiens prenant en compte deux types d'information. Le premier, classiquement utilisé, est le niveau d'expression des gènes. Le second, plus original, est la présence de mutations sur la séquence d'ADN pouvant expliquer des variations d'expression. L'utilisation de ces données combinées dites de génétique-génomique, vise à améliorer la reconstruction. Nos différentes propositions se sont montrées performantes sur des données de génétique-génomique simulées et ont permis de reconstruire un réseau de régulation pour des données observées sur le plante Arabidopsis thaliana.Structure learning of gene regulatory networks is a complex process, due to the high number of variables (several thousands) and the small number of available samples (few hundred). Among the proposed approaches to learn these networks, we use the Bayesian network framework. In this way to learn a regulatory network corresponds to learn the structure of a Bayesian network where each variable is a gene and each edge represents a regulation between genes. In the first part of this thesis, we are interested in learning the structure of generic Bayesian networks using local search. We explore more efficiently the search space thanks to a new stochastic search algorithm (SGS), a new local operator (SWAP) and an extension for classical operators to briefly overcome the acyclic constraint imposed by Bayesian networks. The second part focuses on learning gene regulatory networks. We proposed a model in the Bayesian networks framework taking into account two kinds of information. The first one, commonly used, is gene expression levels. The second one, more original, is the mutations on the DNA sequence which can explain gene expression variations. The use of these combined data, called genetical genomics, aims to improve the structural learning quality. Our different proposals appeared to be efficient on simulated genetical genomics data and allowed to learn a regulatory network for observed data from Arabidopsis thaliana

Thèses en Ligne

ProdInra

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

MASCODE : un système multi-agent adaptatif pour concevoir des produits complexes. Application à la conception préliminaire avion

Author: Welcomme Jean-Baptiste
Publication venue
Publication date: 31/03/2008
Field of study

La conception préliminaire avion est un problème d'optimisation multi-disciplinaire et multi-objectif qui consiste à trouver les valeurs des paramètres de description d'un avion et de ses performances en fonction de contraintes. Ces valeurs sont calculées grâce à des connaissances disciplinaires. Les interdépendances entre les paramètres et les non linéarités complexifient les calculs pour lesquels les méthodes classiques se montrent insuffisantes. Pour pallier ce problème, nous proposons une solution basée sur les systèmes multi-agents adaptatifs dans lesquels les agents représentent les disciplines, les paramètres de conception et les performances de l'avion. Les agents en utilisant des connaissances disciplinaires et par un comportement coopératif trouvent collectivement les valeurs des paramètres de conception qui satisfont les contraintes et les performances. Nous montrons que cette approche permet aussi d'intégrer plusieurs questions telles l'étude de sensibilité des paramètres, les fronts de Pareto ou la co-conception en temps réel.The preliminary design aircraft can be viewed as a multi-disciplinary, multi-objective optimisation problem which consists in finding the values of the aircraft description parameters and of its performances. These values are calculated with disciplinary knowledge. The interdependencies between the parameters and non linearities lead to complex calculus which cannot be realized efficiently by classicmethods. We propose an approach based on adaptive multiagent systems in which agents represent the disciplines, the design parameters and the aircraft performances. In using disciplinary knowledge and a cooperative behaviour, the agents collectively reach the parameters values satisfying constraints and performances. We show this approach affords interesting capabilities such as sensibilities analysis, Pareto front or dynamic interactions

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Estimation automatique des impressions véhiculées par une photographie de visage

Author: Lienhard Arnaud
Publication venue: HAL CCSD
Publication date: 26/11/2015
Field of study

Picture selection is a time-consuming task for humans and a real challenge for machines, which have to retrieve complex and subjective information from image pixels. An automated system that infers human feelings from digital portraits would be of great help for profile picture selection, photo album creation or photo editing. In this work, several models of facial pictures evaluation are defined. The first one predicts the overall aesthetic quality of a facial image by computing 15 features that encode low-level statistics in different image regions (face, eyes and mouth). Relevant features are automatically selected by a feature ranking technique, and the outputs of 4 learning algorithms are fused in order to make a robust and accurate prediction of the image quality. Results are compared with recent works and the proposed algorithm obtains the best performance. The same pipeline is then considered to evaluate the likability and competence induced by a facial picture, with the difference that the estimation is based on high-level attributes such as gender, age and smile. Performance of these attributes is compared with previous techniques that mostly rely on facial keypoints positions, and it is shown that it is possible to obtain predictions that are close to human perception. Finally, a combination of both models that selects a likable facial image of good aesthetic quality for a given person is described.Avec le développement des appareils photos numériques et des sites de partage de photos, nous passons une part croissante de notre temps à observer, sélectionner et partager des images, parmi lesquelles figurent un grand nombre de photos de visage. Dans cette thèse, nous nous proposons de créer un premier système entièrement automatique renvoyant une estimation de la pertinence d'une photo de visage pour son utilisation dans la création d'un album de photos, la sélection de photos pour un réseau social ou professionnel, etc. Pour cela, nous créons plusieurs modèles d'estimation de la pertinence d'une photo de visage en fonction de son utilisation. Dans un premier temps, nous adaptons les modèles d'estimation de la qualité esthétique d'une photo au cas particulier des photos de visage. Nous montrons que le fait de calculer 15 caractéristiques décrivant différents aspects de l'image (texture, illumination, couleurs) dans des régions spécifiques de l'image (le visage, les yeux, la bouche) améliore significativement la précision des estimations par rapport aux modèles de l'état de l'art. La précision de ce modèle est renforcée par la sélection de caractéristiques adaptées à notre problème, ainsi que par la fusion des prédictions de 4 algorithmes d'apprentissage. Dans un second temps, nous proposons d'enrichir l'évaluation automatique d'une photo de visage en définissant des modèles d'estimation associés à des critères tels que le degré de sympathie ou de compétence dégagé par une photo de visage. Ces modèles reposent sur l'utilisation d'attributs de haut niveau (présence de sourire, ouverture des yeux, expressions faciales), qui se montrent plus efficaces que les caractéristiques de bas niveau utilisées dans l'état de l'art (filtres de Gabor, position des points de repère du visage). Enfin, nous fusionnons ces modèles afin de sélectionner automatiquement des photos de bonne qualité esthétique et appropriées à une utilisation donnée : photos inspirant de la sympathie à partager en famille, photos dégageant une impression de compétence sur un réseau professionnel

Thèses en Ligne

Hal - Université Grenoble Alpes

Systèmes interactifs auto-adaptatifs par systèmes multi-agents auto-organisateurs : application à la personnalisation de l'accès à l'information

Author: Lemouzy Sylvain
Publication venue
Publication date: 13/07/2011
Field of study

Les réseaux de systèmes d'information tendent à devenir de plus en plus complexes en raison de leur hétérogénéité, de leur dynamique et de leur croissance permanente. Afin de gérer cette complexité et ces problèmes de surcharge informationnelle, les moteurs de recherche actuels s'appuient sur la notion de profil usager qui représente les centres d'intérêts, les préférences et les besoins d'un individu. Or, ces techniques dérivées de la recherche d'information et de l'apprentissage artificiel ne proposent pas de solution réellement adaptative pour la prise en compte de l'aspect évolutif du profil et le respect de la vie privée de l'utilisateur. Nous proposons d'exploiter le paradigme des systèmes multi-agents, et plus spécifiquement l'approche par AMAS (Adaptive Multi-Agent System), pour apporter une solution distribuée à la personnalisation et à l'adaptation des services offerts aux utilisateurs. Nos contributions portent tout d'abord sur l'évaluation adaptative et personnalisée du feedback implicite de l'utilisateur, puis sur la construction adaptative de son profil à partir de documents textuels représentant ses intérêts. Elles proposent également une plateforme nommée SWAPP dédiée à la recherche d'information personnalisée sur le Web. Ce cadre applicatif a permis d'expérimenter nos deux premières contributions individuellement, puis conjointement. Cette évaluation simultanée a mis en évidence un nouveau problème théorique : le couplage de deux AMAS conçus de manière totalement indépendante. Ce travail propose ainsi une première approche pour la conception de systèmes de systèmes auto-adaptatifs.Networks of information systems are becoming more and more complex due to their heterogeneity, their dynamics and their continuous growing. In order to cope with this information overload and this complexity, nowadays search engines make use of the notion of user profile that aim to model main interests, preferences and user's needs. Nevertheless, these techniques, derived from information retrieval and artificial learning research field, does not represent truly adaptive solutions able to cope with user profiles evolutions and to ensure user's privacy. Faced to these challenges, we propose to use the multi-agent system paradigm, and more specifically the AMAS approach (Adaptive Multi-Agent System), in order to provide a distributed solution for the personalisation and the adaptation of services and information access. Our first contribution consists in the adaptive and personalised evaluation of user implicit feedback. The second contribution studies the adaptive modelling of user profile from textual documents that represents its interests. We also propose the SWAPP platform which is dedicated to the evaluation of our approach to the web personalised information retrieval. After the individual experimentation and validation of these two first contributions within this applicative framework, they have been evaluated together. This last evaluation underlined a new theoretical problem : the coupling of two AMAS that were independently designed. Thus, this study proposes a first approach for the design of systems of self-adaptive systems

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Caractérisation et Reconnaissance de Gestes dans des vidéos à l'aide de Modèles Markoviens

Author: Belgacem Selma
Publication venue: HAL CCSD
Publication date: 25/06/2014
Field of study

This PHD thesis concerns the analysis of gestures, especially the characteri-zation and the recognition of gestures. The analysis of gestural data is a research field which involves Human-Machine communication, video management and signal processing fields. The main contribution of this PHD thesis is the design and implementation of a hybrid Markov system for sequential data recognition. The recognition task typically combines two tasks : segmentation and classification. Therefore, the proposed hybrid model combines the ability of modeling and segmentation of HiddenMarkov Models and the ability of local discrimination of Conditional Random Fields. We applied this hybrid system to the recognition of gesture sequences in videos in the context of one-shot-learning. The interesting recognition performance achieved in the context of the competition of ChaLearn show the advantage of the proposed approach for the context of learning with few examples. The recognition task requires a step of data characterization. In the context of gesture characterization, we propose two contributions. The first contribution is an improvement of local tracking of the dominant hand in a gesture with particle filters. This improvement is mainly based on a penalisation, computed with optical flow method, of the estimator and an automatic vocabulary reference generation. The second contribution is a method of global characterization of a gesture that we call the "gesture signature". The gesture signature describes the location, velocity and orientation of the global movement in a gesture combining velocity information calculated with optical flow method.Cette thèse concerne l’analyse de gestes, et plus particulièrement la caractérisation et la reconnaissance de gestes. L’analyse des données gestuelles est un axe de recherche impliquant les domaines de la communication Homme-Machine, de gestion des documents vidéo et du traitement du signal.La contribution principale de notre travail de thèse est l’étude, la conception et la mise en œuvre d’un système markovien hybride pour la reconnaissance de données séquentielles. La tâche de reconnaissance combine classiquement deuxtâches : la segmentation et la classification. Le modèle hybride proposé combine ainsi la capacité de modélisation et de segmentation des Modèles de Markov Cachés et la capacité de discrimination locale des Champs Aléatoires onditionnels.Nous avons appliqué ce système hybride à la reconnaissance des séquences de gestes dans des vidéos, dans le cadre applicatif de l’apprentissage avec un seul exemple. Les bonnes performances de reconnaissance obtenues dans le contexte de la compétition ChaLearn montrent l’intérêt de l’approche proposée pour l’apprentissage avec peu de données.La tâche de reconnaissance nécessite une étape de caractérisation des données. Dans le cadre de la caractérisation des gestes, nous proposons deux contributions. La première contribution est une amélioration du suivi local de la main domi-nante dans un geste avec les filtres particulaires. Cette amélioration est basée principalement sur une pénalisation issue des flots optiques de l’estimateur, et une génération automatique d’un vocabulaire de référence. La deuxième contribution est la proposition d’une méthode de caractérisation globale du geste que nous appelons une « signature du geste ». La signature du geste décrit la localisation, la vélocité et l’orientation du mouvement global dans un geste en combinantdes informations de vitesse calculée avec les flots optiques

HAL - Normandie Université

Thèses en Ligne

Optimisation des Systèmes Multimodaux pour l’Identification dans l’Imagerie

Author: Elaggoune Hocine
Publication venue
Publication date: 01/01/2022
Field of study

Parmi les médias les plus populaires qui ont pris une place incontournable pour le développement des systèmes de reconnaissances biométriques en général et les systèmes de la reconnaissance de visage en particulier on trouve l’Image. L’une des utilisations les plus courantes des images est l’identification/vérification en biométrie qui connaît un intérêt grandissant depuis quelques années. L’efficacité des techniques d’identification en imagerie est aujourd’hui très fortement liée à des contraintes fortes imposées à l’utilisateur. Une voie de recherche actuelle se tourne donc vers la gestion de situations où l’acquisition des données est moins contrainte. Finalement, l’usage d’une seule modalité est souvent limité en termes de performance ou de difficultés d’usage, c’est pourquoi il apparaît intéressant d’évaluer l’apport de la multi-modalité dans ce contexte. L’objectif de la thèse est de mener un travail pour poursuivre une recherche tournée à la fois vers les techniques d’optimisation basées d’une part sur les descripteurs hybrides et les patchs ainsi que leurs techniques de fusions, et d’autre part sur le Deep Learning (Transfer Learning). Nous nous intéressons plus particulièrement à l’image du visage et nos approches sont validées sur plusieurs bases de données universelles pour défier tous les aléas d’acquisition et d’environnements non contrôlés

University of Biskra Theses Repository

Représentations robustes de documents bruités dans des espaces homogènes

Author: Morchid Mohamed
Publication venue: HAL CCSD
Publication date: 25/11/2014
Field of study

In the Information Retrieval field, documents are usually considered as a "bagof-words". This model does not take into account the temporal structure of thedocument and is sensitive to noises which can alter its lexical form. These noisescan be produced by different sources : uncontrolled form of documents in microbloggingplatforms, automatic transcription of speech documents which are errorprone,lexical and grammatical variabilities in Web forums. . . The work presented inthis thesis addresses issues related to document representations from noisy sources.The thesis consists of three parts in which different representations of content areavailable. The first one compares a classical representation based on a term-frequencyrepresentation to a higher level representation based on a topic space. The abstractionof the document content allows us to limit the alteration of the noisy document byrepresenting its content with a set of high-level features. Our experiments confirm thatmapping a noisy document into a topic space allows us to improve the results obtainedduring different information retrieval tasks compared to a classical approach based onterm frequency. The major problem with such a high-level representation is that it isbased on a space theme whose parameters are chosen empirically.The second part presents a novel representation based on multiple topic spaces thatallow us to solve three main problems : the closeness of the subjects discussed in thedocument, the tricky choice of the "right" values of the topic space parameters and therobustness of the topic-based representation. Based on the idea that a single representationof the contents cannot capture all the relevant information, we propose to increasethe number of views on a single document. This multiplication of views generates "artificial"observations that contain fragments of useful information. The first experimentvalidated the multi-view approach to represent noisy texts. However, it has the disadvantageof being very large and redundant and of containing additional variability associatedwith the diversity of views. In the second step, we propose a method based onfactor analysis to compact the different views and to obtain a new robust representationof low dimension which contains only the informative part of the document whilethe noisy variabilities are compensated. During a dialogue classification task, the compressionprocess confirmed that this compact representation allows us to improve therobustness of noisy document representation.Nonetheless, during the learning process of topic spaces, the document is consideredas a "bag-of-words" while many studies have showed that the word position in a7document is useful. A representation which takes into account the temporal structureof the document based on hyper-complex numbers is proposed in the third part. Thisrepresentation is based on the hyper-complex numbers of dimension four named quaternions.Our experiments on a classification task have showed the effectiveness of theproposed approach compared to a conventional "bag-of-words" representation.En recherche d’information, les documents sont le plus souvent considérés comme des "sacs-de-mots". Ce modèle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altérer la forme lexicale. Ces bruits peuvent être produits par différentes sources : forme peu contrôlée des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilités lexicales et grammaticales dans les forums du Web. . . Le travail présenté dans cette thèse s’intéresse au problème de la représentation de documents issus de sources bruitées.La thèse comporte trois parties dans lesquelles différentes représentations des contenus sont proposées. La première partie compare une représentation classique utilisant la fréquence des mots à une représentation de haut-niveau s’appuyant sur un espace de thèmes. Cette abstraction du contenu permet de limiter l’altération de la forme de surface du document bruité en le représentant par un ensemble de caractéristiques de haut-niveau. Nos expériences confirment que cette projection dans un espace de thèmes permet d’améliorer les résultats obtenus sur diverses tâches de recherche d’information en comparaison d’une représentation plus classique utilisant la fréquence des mots.Le problème majeur d’une telle représentation est qu’elle est fondée sur un espace de thèmes dont les paramètres sont choisis empiriquement.La deuxième partie décrit une nouvelle représentation s’appuyant sur des espaces multiples et permettant de résoudre trois problèmes majeurs : la proximité des sujets traités dans le document, le choix difficile des paramètres du modèle de thèmes ainsi que la robustesse de la représentation. Partant de l’idée qu’une seule représentation des contenus ne peut pas capturer l’ensemble des informations utiles, nous proposons d’augmenter le nombre de vues sur un même document. Cette multiplication des vues permet de générer des observations "artificielles" qui contiennent des fragments de l’information utile. Une première expérience a validé cette approche multi-vues de la représentation de textes bruités. Elle a cependant l’inconvénient d’être très volumineuse,redondante, et de contenir une variabilité additionnelle liée à la diversité des vues. Dans un deuxième temps, nous proposons une méthode s’appuyant sur l’analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle représentation robuste,de dimension réduite, ne contenant que la partie "utile" du document tout en réduisant les variabilités "parasites". Lors d’une tâche de catégorisation de conversations,ce processus de compression a confirmé qu’il permettait d’augmenter la robustesse de la représentation du document bruité.Cependant, lors de l’élaboration des espaces de thèmes, le document reste considéré comme un "sac-de-mots" alors que plusieurs études montrent que la position d’un terme au sein du document est importante. Une représentation tenant compte de cette structure temporelle du document est proposée dans la troisième partie. Cette représentation s’appuie sur les nombres hyper-complexes de dimension appelés quaternions. Nos expériences menées sur une tâche de catégorisation ont montré l’efficacité de cette méthode comparativement aux représentations classiques en "sacs-de-mots"

Thèses en Ligne

Hal-Diderot