6 research outputs found

    Modèles de langage ad hoc pour la reconnaissance automatique de la parole

    Get PDF
    Les trois piliers d un système de reconnaissance automatique de la parole sont le lexique,le modèle de langage et le modèle acoustique. Le lexique fournit l ensemble des mots qu il est possible de transcrire, associés à leur prononciation. Le modèle acoustique donne une indication sur la manière dont sont réalisés les unités acoustiques et le modèle de langage apporte la connaissance de la manière dont les mots s enchaînent.Dans les systèmes de reconnaissance automatique de la parole markoviens, les modèles acoustiques et linguistiques sont de nature statistique. Leur estimation nécessite de gros volumes de données sélectionnées, normalisées et annotées.A l heure actuelle, les données disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces données peuvent potentiellement servir à la construction du lexique et à l estimation et l adaptation du modèle de langage. Le travail présenté ici consiste à proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisé en deux parties. La première traite de l utilisation des données présentes sur le Web pour mettre à jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L approche proposée consiste à augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grâce à la formulation automatique de requêtes soumises à un moteur de recherche. La phonétisation de ces mots est obtenue grâce à un phonétiseur automatique.La seconde partie présente une nouvelle manière de considérer l information que représente le Web et des éléments de la théorie des possibilités sont utilisés pour la modéliser. Un modèle de langage possibiliste est alors proposé. Il fournit une estimation de la possibilité d une séquence de mots à partir de connaissances relatives à existence de séquences de mots sur le Web. Un modèle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est également présenté. Plusieurs approches permettant de combiner ces modèles avec des modèles probabilistes classiques estimés sur corpus sont proposées. Les résultats montrent que combiner les modèles probabilistes et possibilistes donne de meilleurs résultats que es modèles probabilistes classiques. De plus, les modèles estimés à partir des données Web donnent de meilleurs résultats que ceux estimés sur corpus.The three pillars of an automatic speech recognition system are the lexicon, the languagemodel and the acoustic model. The lexicon provides all the words that can betranscribed, associated with their pronunciation. The acoustic model provides an indicationof how the phone units are pronounced, and the language model brings theknowledge of how words are linked. In modern automatic speech recognition systems,the acoustic and language models are statistical. Their estimation requires large volumesof data selected, standardized and annotated.At present, the Web is by far the largest textual corpus available for English andFrench languages. The data it holds can potentially be used to build the vocabularyand the estimation and adaptation of language model. The work presented here is topropose new approaches to take advantage of this resource in the context of languagemodeling.The document is organized into two parts. The first deals with the use of the Webdata to dynamically update the lexicon of the automatic speech recognition system.The proposed approach consists on increasing dynamically and locally the lexicon onlywhen unknown words appear in the speech. New words are extracted from the Webthrough the formulation of queries submitted toWeb search engines. The phonetizationof the words is obtained by an automatic grapheme-to-phoneme transcriber.The second part of the document presents a new way of handling the informationcontained on the Web by relying on possibility theory concepts. A Web-based possibilisticlanguage model is proposed. It provides an estition of the possibility of a wordsequence from knowledge of the existence of its sub-sequences on the Web. A probabilisticWeb-based language model is also proposed. It relies on Web document countsto estimate n-gram probabilities. Several approaches for combining these models withclassical models are proposed. The results show that combining probabilistic and possibilisticmodels gives better results than classical probabilistic models alone. In addition,the models estimated from Web data perform better than those estimated on corpus.AVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Ajout de données textuelles au modèle de Cox dans un contexte longitudinal

    Get PDF
    Afin d'éviter le départ de ses clients, une compagnie d'assurance souhaite prédire la probabilité d'annulation de polices d'assurance automobile dans un intervalle de temps à partir de données sur les voitures et les clients. Les clients étant suivis dans le temps, le modèle doit incorporer des variables explicatives qui dépendent du temps. Nous utilisons le modèle de survie de Cox pour prédire les probabilités d'événement dans un intervalle de temps variable. Des notes prises par des agents lors de conversations téléphoniques avec les clients et des courriels sont également disponibles. Il est pertinent d'inclure ces textes dans le modèle statistique, car ils contiennent de l'information utile pour prédire l'annulation du contrat. Plusieurs méthodes de traitement automatique du langage naturel sont utilisées pour représenter les textes en vecteurs qui peuvent être utilisés par le modèle de Cox. Puis, une sélection de variables est effectuée. Le modèle est ensuite utilisé pour prédire les probabilités d'événements. Les notes d'agents contiennent des fautes d'orthographe, des abréviations, etc. Ainsi, nous étudions dans un premier temps l'effet d'utiliser des textes dont la qualité est graduellement détériorée sur les performances prédictives du modèle de Cox. Nous trouvons que toutes les méthodes d'encodage du texte utilisées, sans faire de raffinement sur les textes, ont un certain niveau de robustesse face aux textes de moins bonne qualité. Ensuite, nous étudions l'effet de différentes approches d'inclusion des textes dans le modèle de Cox dans un contexte longitudinal. Les effets de la sélection de variables, des méthodes d'encodage du texte et de la concaténation temporelle des textes sont analysés. L'approche proposée pour inclure les textes a permis d'améliorer les performances comparativement à un modèle qui n'inclut aucun texte. Toutefois, les performances sont similaires d'une méthode d'encodage du texte à l'autre.In order to avoid customer attrition, an insurance company wants to predict the probability of cancellation of car insurance policies in a time interval based on car and customer covariates. Since customers are tracked over time, the model must incorporate time-dependent covariates. We use a Cox survival model to predict event probabilities in a variable time interval. Notes taken by agents during telephone conversations with customers and emails are also available. It is relevant to include these texts in the statistical model, as they contain information useful for predicting policy cancellation. Several natural language processing methods are used to represent the documents with vectors that can be used by the Cox model. Then, variable selection is performed. The model is then used to predict event probabilities. Notes taken by the agents contain spelling mistakes, abbreviations, etc. Thus, we first study the effect of using texts of gradually worse quality on the predictive performance of the Cox model. We find that all the text encoding methods used, without fine-tuning the embedding models, have a certain level of robustness against texts of lower quality. Next, we investigate the effect of different approaches to including texts in the Cox model in a longitudinal context. The effects of variable selection, text encoding methods and temporal concatenation of texts are analyzed. The proposed approach to include text resulted in improved performance compared to a model that does not include any text. However, the performance is similar across text encoding methods

    Une nouvelle approche de détection de communautés dans les réseaux multidimensionnels

    Get PDF
    L'analyse des graphes complexes, aussi appelés réseaux multidimensionnels ou réseaux multiplex, est l'un des nouveaux défis apparus en forage de données. Contrairement à la représentation classique de graphes où deux nœuds sont reliés par le biais d'une simple liaison, deux nœuds dans un réseau multidimensionnel se connectent par un ou plusieurs liens décrivant chacun une interaction spécifique dans une dimension particulière. Une des problématiques fondamentales étudiées dans ce domaine est la détection de communautés. Le but est de découvrir les sous-ensembles de nœuds densément connectés ou fortement interactifs, souvent, associés à des caractéristiques organisationnelles et fonctionnelles non connues à priori. Bien qu'elle ait fait l'objet de nombreuses études dans le contexte unidimensionnel, la détection de communautés dans les réseaux multidimensionnels demeure une question de recherche ouverte. C'est d'une part en raison des complexités inhérentes à ce type de réseaux et d'autre part, la conséquence de l'absence d'une définition universellement reconnue pour le concept de communauté multidimensionnelle. En dépit du nombre croissant de travaux abordant cette problématique, certains aspects demeurent peu ou pas abordés dans la littérature. En effet, les approches existantes souffrent d'au moins un des problèmes suivants : (1) La difficulté de fixer des valeurs propres aux paramètres d'entrée, (2) la sensibilité aux dimensions non pertinentes, et (3) l'incapacité de découvrir les sous-espaces de dimensions pertinentes associés aux communautés détectées. Afin de pallier les limites des approches existantes, nous présentons dans le cadre de ce mémoire une nouvelle approche de détection de communautés dans les réseaux multidimensionnels. Axée sur le principe de propagation d'étiquettes, l'approche développée vise l'identification automatique des structures denses dans les différents sous-espaces de dimensions, de même que leurs dimensions pertinentes via la maximisation d'une nouvelle fonction objective. L'efficacité de l'approche proposée est comparée à d'autres méthodes récentes par le biais d'une étude empirique détaillée sur différents réseaux synthétiques et réels. Les résultats obtenus démontrent la capacité de notre approche à identifier les communautés qui existent même dans des sous-espaces de faibles dimensions.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Détection de communautés, Réseaux multidimensionnels, Clustering

    Apprentissage de la structure de réseaux bayésiens : application aux données de génétique-génomique

    Get PDF
    Apprendre la structure d'un réseau de régulation de gènes est une tâche complexe due à la fois au nombre élevé de variables le composant (plusieurs milliers) et à la faible quantité d'échantillons disponibles (quelques centaines). Parmi les approches proposées, nous utilisons le formalisme des réseaux bayésiens, ainsi apprendre la structure d'un réseau de régulation consiste à apprendre la structure d'un réseau bayésien où chaque variable représente un gène et chaque arc un phénomène de régulation. Dans la première partie de ce manuscrit nous nous intéressons à l'apprentissage de la structure de réseaux bayésiens génériques au travers de recherches locales. Nous explorons plus efficacement l'espace des réseaux possibles grâce à un nouvel algorithme de recherche stochastique (SGS), un nouvel opérateur local (SWAP), ainsi qu'une extension des opérateurs classiques qui permet d'assouplir temporairement la contrainte d'acyclicité des réseaux bayésiens. La deuxième partie se focalise sur l'apprentissage de réseaux de régulation de gènes. Nous proposons une modélisation du problème dans le cadre des réseaux bayésiens prenant en compte deux types d'information. Le premier, classiquement utilisé, est le niveau d'expression des gènes. Le second, plus original, est la présence de mutations sur la séquence d'ADN pouvant expliquer des variations d'expression. L'utilisation de ces données combinées dites de génétique-génomique, vise à améliorer la reconstruction. Nos différentes propositions se sont montrées performantes sur des données de génétique-génomique simulées et ont permis de reconstruire un réseau de régulation pour des données observées sur le plante Arabidopsis thaliana.Structure learning of gene regulatory networks is a complex process, due to the high number of variables (several thousands) and the small number of available samples (few hundred). Among the proposed approaches to learn these networks, we use the Bayesian network framework. In this way to learn a regulatory network corresponds to learn the structure of a Bayesian network where each variable is a gene and each edge represents a regulation between genes. In the first part of this thesis, we are interested in learning the structure of generic Bayesian networks using local search. We explore more efficiently the search space thanks to a new stochastic search algorithm (SGS), a new local operator (SWAP) and an extension for classical operators to briefly overcome the acyclic constraint imposed by Bayesian networks. The second part focuses on learning gene regulatory networks. We proposed a model in the Bayesian networks framework taking into account two kinds of information. The first one, commonly used, is gene expression levels. The second one, more original, is the mutations on the DNA sequence which can explain gene expression variations. The use of these combined data, called genetical genomics, aims to improve the structural learning quality. Our different proposals appeared to be efficient on simulated genetical genomics data and allowed to learn a regulatory network for observed data from Arabidopsis thaliana

    Apprentissage automatique pour l'assistance au suivi d'étudiants en ligne : approches classique et bio-inspirée

    Get PDF
    Cette thèse a pris la forme d’un partenariat entre l’équipe VORTEX du laboratoire de recherche en informatique IRIT et l’entreprise Andil, spécialisée dans l'informatique pour l'e-learning. Ce partenariat est conclu autour d’une thèse CIFRE, dispositif soutenu par l’État via l’ANRT. La doctorante, Angela Bovo, a travaillé au sein de l'Université Toulouse 1 Capitole. Un partenariat a également été noué avec l'institut de formation Juriscampus, qui nous a fourni des données issues de formations réelles pour nos expérimentations. Notre objectif principal avec ce projet était d'améliorer les possibilités de suivi des étudiants en cours de formation en ligne pour éviter leur décrochage ou leur échec. Nous avons proposé des possibilités de suivi par apprentissage automatique classique en utilisant comme données les traces d'activité des élèves. Nous avons également proposé, à partir de nos données, des indicateurs de comportement des apprenants. Avec Andil, nous avons conçu et réalisé une application web du nom de GIGA, déjà commercialisée et appréciée par les responsables de formation, qui implémente ces propositions et qui a servi de base à de premières expériences de partitionnement de données qui semblent permettre d'identifier les étudiants en difficulté ou en voie d'abandon. Ce projet a également été lancé avec l'objectif d'étudier les possibilités de l'algorithme d'apprentissage automatique inspiré du cerveau humain Hierarchical Temporal Memory (HTM), dans sa version Cortical Learning Algorithm (CLA), dont les hypothèses fondatrices sont bien adaptées à notre problème. Nous avons proposé des façons d'adapter HTM-CLA à des fonctionnalités d'apprentissage automatique classique (partitionnement, classification, régression, prédiction), afin de comparer ses résultats à ceux fournis par les autres algorithmes plus classiques ; mais aussi de l'utiliser comme base d'un moteur de génération de comportement, qui pourrait être utilisé pour créer un tuteur virtuel intelligent chargé de conseiller les apprenants en temps réel. Les implémentations ne sont toutefois pas encore parvenues à produire des résultats probants.This Ph.D. took the shape of a partnership between the VORTEX team in the computer science research laboratory IRIT and the company Andil, which specializes in software for e-learning. This partnership was concluded around a CIFRE Ph.D. This plan is subsidized by the French state through the ANRT. The Ph.D. student, Angela Bovo, worked in Université Toulouse 1 Capitole. Another partnership was built with the training institute Juriscampus, which gave us access to data from real trainings for our experiments. Our main goal for this project was to improve the possibilities for monitoring students in an e-learning training to keep them from falling behind or giving up. We proposed ways to do such monitoring with classical machine learning methods, with the logs from students' activity as data. We also proposed, using the same data, indicators of students' behaviour. With Andil, we designed and produced a web application called GIGA, already marketed and sold, and well appreciated by training managers, which implements our proposals and served as a basis for first clustering experiments which seem to identify well students who are failing or about to give up. Another goal of this project was to study the capacities of the human brain inspired machine learning algorithm Hierarchical Temporal Memory (HTM), in its Cortical Learning Algorithm (CLA) version, because its base hypotheses are well adapted to our problem. We proposed ways to adapt HTM-CLA to classical machine learning functionalities (clustering, classification, regression, prediction), in order to compare its results to those of more classical algorithms; but also to use it as a basis for a behaviour generation engine, which could be used to create an intelligent tutoring system tasked with advising students in real time. However, our implementations did not get to the point of conclusive results

    Apprentissage automatique pour l'assistance au suivi d'étudiants en ligne : approches classique et bio-inspirée

    Get PDF
    Cette thèse a pris la forme d’un partenariat entre l’équipe VORTEX du laboratoire de recherche en informatique IRIT et l’entreprise Andil, spécialisée dans l'informatique pour l'e-learning. Ce partenariat est conclu autour d’une thèse CIFRE, dispositif soutenu par l’État via l’ANRT. La doctorante, Angela Bovo, a travaillé au sein de l'Université Toulouse 1 Capitole. Un partenariat a également été noué avec l'institut de formation Juriscampus, qui nous a fourni des données issues de formations réelles pour nos expérimentations. Notre objectif principal avec ce projet était d'améliorer les possibilités de suivi des étudiants en cours de formation en ligne pour éviter leur décrochage ou leur échec. Nous avons proposé des possibilités de suivi par apprentissage automatique classique en utilisant comme données les traces d'activité des élèves. Nous avons également proposé, à partir de nos données, des indicateurs de comportement des apprenants. Avec Andil, nous avons conçu et réalisé une application web du nom de GIGA, déjà commercialisée et appréciée par les responsables de formation, qui implémente ces propositions et qui a servi de base à de premières expériences de partitionnement de données qui semblent permettre d'identifier les étudiants en difficulté ou en voie d'abandon. Ce projet a également été lancé avec l'objectif d'étudier les possibilités de l'algorithme d'apprentissage automatique inspiré du cerveau humain Hierarchical Temporal Memory (HTM), dans sa version Cortical Learning Algorithm (CLA), dont les hypothèses fondatrices sont bien adaptées à notre problème. Nous avons proposé des façons d'adapter HTM-CLA à des fonctionnalités d'apprentissage automatique classique (partitionnement, classification, régression, prédiction), afin de comparer ses résultats à ceux fournis par les autres algorithmes plus classiques ; mais aussi de l'utiliser comme base d'un moteur de génération de comportement, qui pourrait être utilisé pour créer un tuteur virtuel intelligent chargé de conseiller les apprenants en temps réel. Les implémentations ne sont toutefois pas encore parvenues à produire des résultats probants.This Ph.D. took the shape of a partnership between the VORTEX team in the computer science research laboratory IRIT and the company Andil, which specializes in software for e-learning. This partnership was concluded around a CIFRE Ph.D. This plan is subsidized by the French state through the ANRT. The Ph.D. student, Angela Bovo, worked in Université Toulouse 1 Capitole. Another partnership was built with the training institute Juriscampus, which gave us access to data from real trainings for our experiments. Our main goal for this project was to improve the possibilities for monitoring students in an e-learning training to keep them from falling behind or giving up. We proposed ways to do such monitoring with classical machine learning methods, with the logs from students' activity as data. We also proposed, using the same data, indicators of students' behaviour. With Andil, we designed and produced a web application called GIGA, already marketed and sold, and well appreciated by training managers, which implements our proposals and served as a basis for first clustering experiments which seem to identify well students who are failing or about to give up. Another goal of this project was to study the capacities of the human brain inspired machine learning algorithm Hierarchical Temporal Memory (HTM), in its Cortical Learning Algorithm (CLA) version, because its base hypotheses are well adapted to our problem. We proposed ways to adapt HTM-CLA to classical machine learning functionalities (clustering, classification, regression, prediction), in order to compare its results to those of more classical algorithms; but also to use it as a basis for a behaviour generation engine, which could be used to create an intelligent tutoring system tasked with advising students in real time. However, our implementations did not get to the point of conclusive results
    corecore