20 research outputs found

    Apprentissage par renforcement pour la généralisation des approches automatiques dans la conception des systÚmes de dialogue oral

    Get PDF
    Les systĂšmes de dialogue homme machine actuellement utilisĂ©s dans l industrie sont fortement limitĂ©s par une forme de communication trĂšs rigide imposant Ă  l utilisateur de suivre la logique du concepteur du systĂšme. Cette limitation est en partie due Ă  leur reprĂ©sentation de l Ă©tat de dialogue sous la forme de formulaires prĂ©Ă©tablis.Pour rĂ©pondre Ă  cette difficultĂ©, nous proposons d utiliser une reprĂ©sentation sĂ©mantique Ă  structure plus riche et flexible visant Ă  permettre Ă  l utilisateur de formuler librement sa demande.Une deuxiĂšme difficultĂ© qui handicape grandement les systĂšmes de dialogue est le fort taux d erreur du systĂšme de reconnaissance vocale. Afin de traiter ces erreurs de maniĂšre quantitative, la volontĂ© de rĂ©aliser une planification de stratĂ©gie de dialogue en milieu incertain a conduit Ă  utiliser des mĂ©thodes d apprentissage par renforcement telles que les processus de dĂ©cision de Markov partiellement observables (POMDP). Mais un inconvĂ©nient du paradigme POMDP est sa trop grande complexitĂ© algorithmique. Certaines propositions rĂ©centes permettent de rĂ©duire la complexitĂ© du modĂšle. Mais elles utilisent une reprĂ©sentation en formulaire et ne peuvent ĂȘtre appliquĂ©s directement Ă  la reprĂ©sentation sĂ©mantique riche que nous proposons d utiliser.Afin d appliquer le modĂšle POMDP dans un systĂšme dont le modĂšle sĂ©mantique est complexe, nous proposons une nouvelle façon de contrĂŽler sa complexitĂ© en introduisant un nouveau paradigme : le POMDP rĂ©sumĂ© Ă  double suivi de la croyance. Dans notre proposition, le POMDP maitre, complexe, est transformĂ© en un POMDP rĂ©sumĂ©, plus simple. Un premier suivi de croyance (belief update) est rĂ©alisĂ© dans l espace maitre (en intĂ©grant des observations probabilistes sous forme de listes nbest). Et un second suivi de croyance est rĂ©alisĂ© dans l espace rĂ©sumĂ©, les stratĂ©gies obtenues sont ainsi optimisĂ©es sur un vĂ©ritable POMDP.Nous proposons deux mĂ©thodes pour dĂ©finir la projection du POMDP maitre en un POMDP rĂ©sumĂ© : par des rĂšgles manuelles et par regroupement automatique par k plus proches voisins. Pour cette derniĂšre, nous proposons d utiliser la distance d Ă©dition entre graphes, que nous gĂ©nĂ©ralisons pour obtenir une distance entre listes nbest.En outre, le couplage entre un systĂšme rĂ©sumĂ©, reposant sur un modĂšle statistique par POMDP, et un systĂšme expert, reposant sur des rĂšgles ad hoc, fournit un meilleur contrĂŽle sur la stratĂ©gie finale. Ce manque de contrĂŽle est en effet une des faiblesses empĂȘchant l adoption des POMDP pour le dialogue dans l industrie.Dans le domaine du renseignement d informations touristiques et de la rĂ©servation de chambres d hĂŽtel, les rĂ©sultats sur des dialogues simulĂ©s montrent l efficacitĂ© de l approche par renforcement associĂ©e Ă  un systĂšme de rĂšgles pour s adapter Ă  un environnement bruitĂ©. Les tests rĂ©els sur des utilisateurs humains montrent qu un systĂšme optimisĂ© par renforcement obtient cependant de meilleures performances sur le critĂšre pour lequel il a Ă©tĂ© optimisĂ©.Dialog managers (DM) in spoken dialogue systems make decisions in highly uncertain conditions, due to errors from the speech recognition and spoken language understanding (SLU) modules. In this work a framework to interface efficient probabilistic modeling for both the SLU and the DM modules is described and investigated. Thorough representation of the user semantics is inferred by the SLU in the form of a graph of frames and, complemented with some contextual information, is mapped to a summary space in which a stochastic POMDP dialogue manager can perform planning of actions taking into account the uncertainty on the current dialogue state. Tractability is ensured by the use of an intermediate summary space. Also to reduce the development cost of SDS an approach based on clustering is proposed to automatically derive the master-summary mapping function. A implementation is presented in the Media corpus domain (touristic information and hotel booking) and tested with a simulated user.AVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF

    Représentations robustes de documents bruités dans des espaces homogÚnes

    Get PDF
    In the Information Retrieval field, documents are usually considered as a "bagof-words". This model does not take into account the temporal structure of thedocument and is sensitive to noises which can alter its lexical form. These noisescan be produced by different sources : uncontrolled form of documents in microbloggingplatforms, automatic transcription of speech documents which are errorprone,lexical and grammatical variabilities in Web forums. . . The work presented inthis thesis addresses issues related to document representations from noisy sources.The thesis consists of three parts in which different representations of content areavailable. The first one compares a classical representation based on a term-frequencyrepresentation to a higher level representation based on a topic space. The abstractionof the document content allows us to limit the alteration of the noisy document byrepresenting its content with a set of high-level features. Our experiments confirm thatmapping a noisy document into a topic space allows us to improve the results obtainedduring different information retrieval tasks compared to a classical approach based onterm frequency. The major problem with such a high-level representation is that it isbased on a space theme whose parameters are chosen empirically.The second part presents a novel representation based on multiple topic spaces thatallow us to solve three main problems : the closeness of the subjects discussed in thedocument, the tricky choice of the "right" values of the topic space parameters and therobustness of the topic-based representation. Based on the idea that a single representationof the contents cannot capture all the relevant information, we propose to increasethe number of views on a single document. This multiplication of views generates "artificial"observations that contain fragments of useful information. The first experimentvalidated the multi-view approach to represent noisy texts. However, it has the disadvantageof being very large and redundant and of containing additional variability associatedwith the diversity of views. In the second step, we propose a method based onfactor analysis to compact the different views and to obtain a new robust representationof low dimension which contains only the informative part of the document whilethe noisy variabilities are compensated. During a dialogue classification task, the compressionprocess confirmed that this compact representation allows us to improve therobustness of noisy document representation.Nonetheless, during the learning process of topic spaces, the document is consideredas a "bag-of-words" while many studies have showed that the word position in a7document is useful. A representation which takes into account the temporal structureof the document based on hyper-complex numbers is proposed in the third part. Thisrepresentation is based on the hyper-complex numbers of dimension four named quaternions.Our experiments on a classification task have showed the effectiveness of theproposed approach compared to a conventional "bag-of-words" representation.En recherche d’information, les documents sont le plus souvent considĂ©rĂ©s comme des "sacs-de-mots". Ce modĂšle ne tient pas compte de la structure temporelle du document et est sensible aux bruits qui peuvent altĂ©rer la forme lexicale. Ces bruits peuvent ĂȘtre produits par diffĂ©rentes sources : forme peu contrĂŽlĂ©e des messages des sites de micro-blogging, messages vocaux dont la transcription automatique contient des erreurs, variabilitĂ©s lexicales et grammaticales dans les forums du Web. . . Le travail prĂ©sentĂ© dans cette thĂšse s’intĂ©resse au problĂšme de la reprĂ©sentation de documents issus de sources bruitĂ©es.La thĂšse comporte trois parties dans lesquelles diffĂ©rentes reprĂ©sentations des contenus sont proposĂ©es. La premiĂšre partie compare une reprĂ©sentation classique utilisant la frĂ©quence des mots Ă  une reprĂ©sentation de haut-niveau s’appuyant sur un espace de thĂšmes. Cette abstraction du contenu permet de limiter l’altĂ©ration de la forme de surface du document bruitĂ© en le reprĂ©sentant par un ensemble de caractĂ©ristiques de haut-niveau. Nos expĂ©riences confirment que cette projection dans un espace de thĂšmes permet d’amĂ©liorer les rĂ©sultats obtenus sur diverses tĂąches de recherche d’information en comparaison d’une reprĂ©sentation plus classique utilisant la frĂ©quence des mots.Le problĂšme majeur d’une telle reprĂ©sentation est qu’elle est fondĂ©e sur un espace de thĂšmes dont les paramĂštres sont choisis empiriquement.La deuxiĂšme partie dĂ©crit une nouvelle reprĂ©sentation s’appuyant sur des espaces multiples et permettant de rĂ©soudre trois problĂšmes majeurs : la proximitĂ© des sujets traitĂ©s dans le document, le choix difficile des paramĂštres du modĂšle de thĂšmes ainsi que la robustesse de la reprĂ©sentation. Partant de l’idĂ©e qu’une seule reprĂ©sentation des contenus ne peut pas capturer l’ensemble des informations utiles, nous proposons d’augmenter le nombre de vues sur un mĂȘme document. Cette multiplication des vues permet de gĂ©nĂ©rer des observations "artificielles" qui contiennent des fragments de l’information utile. Une premiĂšre expĂ©rience a validĂ© cette approche multi-vues de la reprĂ©sentation de textes bruitĂ©s. Elle a cependant l’inconvĂ©nient d’ĂȘtre trĂšs volumineuse,redondante, et de contenir une variabilitĂ© additionnelle liĂ©e Ă  la diversitĂ© des vues. Dans un deuxiĂšme temps, nous proposons une mĂ©thode s’appuyant sur l’analyse factorielle pour fusionner les vues multiples et obtenir une nouvelle reprĂ©sentation robuste,de dimension rĂ©duite, ne contenant que la partie "utile" du document tout en rĂ©duisant les variabilitĂ©s "parasites". Lors d’une tĂąche de catĂ©gorisation de conversations,ce processus de compression a confirmĂ© qu’il permettait d’augmenter la robustesse de la reprĂ©sentation du document bruitĂ©.Cependant, lors de l’élaboration des espaces de thĂšmes, le document reste considĂ©rĂ© comme un "sac-de-mots" alors que plusieurs Ă©tudes montrent que la position d’un terme au sein du document est importante. Une reprĂ©sentation tenant compte de cette structure temporelle du document est proposĂ©e dans la troisiĂšme partie. Cette reprĂ©sentation s’appuie sur les nombres hyper-complexes de dimension appelĂ©s quaternions. Nos expĂ©riences menĂ©es sur une tĂąche de catĂ©gorisation ont montrĂ© l’efficacitĂ© de cette mĂ©thode comparativement aux reprĂ©sentations classiques en "sacs-de-mots"

    Attelage de systĂšmes de transcription automatique de la parole

    Get PDF
    Nous abordons, dans cette thÚse, les méthodes de combinaison de systÚmesde transcription de la parole à Large Vocabulaire. Notre étude se concentre surl attelage de systÚmes de transcription hétérogÚnes dans l objectif d améliorerla qualité de la transcription à latence contrainte. Les systÚmes statistiquessont affectés par les nombreuses variabilités qui caractérisent le signal dela parole. Un seul systÚme n est généralement pas capable de modéliserl ensemble de ces variabilités. La combinaison de différents systÚmes detranscription repose sur l idée d exploiter les points forts de chacun pourobtenir une transcription finale améliorée. Les méthodes de combinaisonproposées dans la littérature sont majoritairement appliquées a posteriori,dans une architecture de transcription multi-passes. Cela nécessite un tempsde latence considérable induit par le temps d attente requis avant l applicationde la combinaison.Récemment, une méthode de combinaison intégrée a été proposée. Cetteméthode est basée sur le paradigme de décodage guidé (DDA :Driven DecodingAlgorithm) qui permet de combiner différents systÚmes durant le décodage. Laméthode consiste à intégrer des informations en provenance de plusieurs systÚmes dits auxiliaires dans le processus de décodage d un systÚme dit primaire.Notre contribution dans le cadre de cette thÚse porte sur un double aspect : d une part, nous proposons une étude sur la robustesse de la combinaison par décodage guidé. Nous proposons ensuite, une amélioration efficacement généralisable basée sur le décodage guidé par sac de n-grammes,appelé BONG. D autre part, nous proposons un cadre permettant l attelagede plusieurs systÚmes mono-passe pour la construction collaborative, à latenceréduite, de la sortie de l hypothÚse de reconnaissance finale. Nous présentonsdifférents modÚles théoriques de l architecture d attelage et nous exposons unexemple d implémentation en utilisant une architecture client/serveur distribuée. AprÚs la définition de l architecture de collaboration, nous nous focalisons sur les méthodes de combinaison adaptées à la transcription automatiqueà latence réduite. Nous proposons une adaptation de la combinaison BONGpermettant la collaboration, à latence réduite, de plusieurs systÚmes mono-passe fonctionnant en parallÚle. Nous présentons également, une adaptationde la combinaison ROVER applicable durant le processus de décodage via unprocessus d alignement local suivi par un processus de vote basé sur la fréquence d apparition des mots. Les deux méthodes de combinaison proposéespermettent la réduction de la latence de la combinaison de plusieurs systÚmesmono-passe avec un gain significatif du WER.This thesis presents work in the area of Large Vocabulary ContinuousSpeech Recognition (LVCSR) system combination. The thesis focuses onmethods for harnessing heterogeneous systems in order to increase theefficiency of speech recognizer with reduced latency.Automatic Speech Recognition (ASR) is affected by many variabilitiespresent in the speech signal, therefore single ASR systems are usually unableto deal with all these variabilities. Considering these limitations, combinationmethods are proposed as alternative strategies to improve recognitionaccuracy using multiple recognizers developed at different research siteswith different recognition strategies. System combination techniques areusually used within multi-passes ASR architecture. Outputs of two or moreASR systems are combined to estimate the most likely hypothesis amongconflicting word pairs or differing hypotheses for the same part of utterance.The contribution of this thesis is twofold. First, we study and analyze theintegrated driven decoding combination method which consists in guidingthe search algorithm of a primary ASR system by the one-best hypothesesof auxiliary systems. Thus we propose some improvements in order to makethe driven decoding more efficient and generalizable. The proposed methodis called BONG and consists in using Bag Of N-Gram auxiliary hypothesisfor the driven decoding.Second, we propose a new framework for low latency paralyzed single-passspeech recognizer harnessing. We study various theoretical harnessingmodels and we present an example of harnessing implementation basedon client/server distributed architecture. Afterwards, we suggest differentcombination methods adapted to the presented harnessing architecture:first we extend the BONG combination method for low latency paralyzedsingle-pass speech recognizer systems collaboration. Then we propose, anadaptation of the ROVER combination method to be performed during thedecoding process using a local vote procedure followed by voting based onword frequencies.LE MANS-BU Sciences (721812109) / SudocSudocFranceF

    ModĂšles de langage ad hoc pour la reconnaissance automatique de la parole

    Get PDF
    Les trois piliers d un systĂšme de reconnaissance automatique de la parole sont le lexique,le modĂšle de langage et le modĂšle acoustique. Le lexique fournit l ensemble des mots qu il est possible de transcrire, associĂ©s Ă  leur prononciation. Le modĂšle acoustique donne une indication sur la maniĂšre dont sont rĂ©alisĂ©s les unitĂ©s acoustiques et le modĂšle de langage apporte la connaissance de la maniĂšre dont les mots s enchaĂźnent.Dans les systĂšmes de reconnaissance automatique de la parole markoviens, les modĂšles acoustiques et linguistiques sont de nature statistique. Leur estimation nĂ©cessite de gros volumes de donnĂ©es sĂ©lectionnĂ©es, normalisĂ©es et annotĂ©es.A l heure actuelle, les donnĂ©es disponibles sur le Web constituent de loin le plus gros corpus textuel disponible pour les langues française et anglaise. Ces donnĂ©es peuvent potentiellement servir Ă  la construction du lexique et Ă  l estimation et l adaptation du modĂšle de langage. Le travail prĂ©sentĂ© ici consiste Ă  proposer de nouvelles approches permettant de tirer parti de cette ressource.Ce document est organisĂ© en deux parties. La premiĂšre traite de l utilisation des donnĂ©es prĂ©sentes sur le Web pour mettre Ă  jour dynamiquement le lexique du moteur de reconnaissance automatique de la parole. L approche proposĂ©e consiste Ă  augmenter dynamiquement et localement le lexique du moteur de reconnaissance automatique de la parole lorsque des mots inconnus apparaissent dans le flux de parole. Les nouveaux mots sont extraits du Web grĂące Ă  la formulation automatique de requĂȘtes soumises Ă  un moteur de recherche. La phonĂ©tisation de ces mots est obtenue grĂące Ă  un phonĂ©tiseur automatique.La seconde partie prĂ©sente une nouvelle maniĂšre de considĂ©rer l information que reprĂ©sente le Web et des Ă©lĂ©ments de la thĂ©orie des possibilitĂ©s sont utilisĂ©s pour la modĂ©liser. Un modĂšle de langage possibiliste est alors proposĂ©. Il fournit une estimation de la possibilitĂ© d une sĂ©quence de mots Ă  partir de connaissances relatives Ă  existence de sĂ©quences de mots sur le Web. Un modĂšle probabiliste Web reposant sur le compte de documents fourni par un moteur de recherche Web est Ă©galement prĂ©sentĂ©. Plusieurs approches permettant de combiner ces modĂšles avec des modĂšles probabilistes classiques estimĂ©s sur corpus sont proposĂ©es. Les rĂ©sultats montrent que combiner les modĂšles probabilistes et possibilistes donne de meilleurs rĂ©sultats que es modĂšles probabilistes classiques. De plus, les modĂšles estimĂ©s Ă  partir des donnĂ©es Web donnent de meilleurs rĂ©sultats que ceux estimĂ©s sur corpus.The three pillars of an automatic speech recognition system are the lexicon, the languagemodel and the acoustic model. The lexicon provides all the words that can betranscribed, associated with their pronunciation. The acoustic model provides an indicationof how the phone units are pronounced, and the language model brings theknowledge of how words are linked. In modern automatic speech recognition systems,the acoustic and language models are statistical. Their estimation requires large volumesof data selected, standardized and annotated.At present, the Web is by far the largest textual corpus available for English andFrench languages. The data it holds can potentially be used to build the vocabularyand the estimation and adaptation of language model. The work presented here is topropose new approaches to take advantage of this resource in the context of languagemodeling.The document is organized into two parts. The first deals with the use of the Webdata to dynamically update the lexicon of the automatic speech recognition system.The proposed approach consists on increasing dynamically and locally the lexicon onlywhen unknown words appear in the speech. New words are extracted from the Webthrough the formulation of queries submitted toWeb search engines. The phonetizationof the words is obtained by an automatic grapheme-to-phoneme transcriber.The second part of the document presents a new way of handling the informationcontained on the Web by relying on possibility theory concepts. A Web-based possibilisticlanguage model is proposed. It provides an estition of the possibility of a wordsequence from knowledge of the existence of its sub-sequences on the Web. A probabilisticWeb-based language model is also proposed. It relies on Web document countsto estimate n-gram probabilities. Several approaches for combining these models withclassical models are proposed. The results show that combining probabilistic and possibilisticmodels gives better results than classical probabilistic models alone. In addition,the models estimated from Web data perform better than those estimated on corpus.AVIGNON-Bib. numĂ©rique (840079901) / SudocSudocFranceF

    Reconnaissance automatique de la parole guidée par des transcriptions a priori

    Get PDF
    Robustness in speech recognition refers to the need to maintain high recognition accuracies even when the quality of the input speech is degraded. In the last decade, some papers proposed to use relevant meta-data in order to enhance the recognition process. Nevertheless, in many cases, an imperfect a priori transcript can be associated to the speech signal : movie subtitles, scenarios and theatrical plays, summariesand radio broadcast. This thesis addresses the issue of using such imperfect transcripts for improving the performance figures of automatic speech recognition (ASR) systems.Unfortunately, these a priori transcripts seldom correspond to the exact word utterances and suffer from a lack of temporal information. In spite of their varying quality, we will show how to use them to improve ASR systems. In the first part of the document we propose to integrate the imperfect transcripts inside the ASR search algorithm. We propose a method that allows us to drive an automatic speech recognition system by using prompts or subtitles. This driven decoding algorithm relies on an on-demand synchronization and on the linguistic rescoring of ASR hypotheses. In order to handle transcript excerpts, we suggest a method for extracting segments in large corpora. The second part presents the Driven Decoding Algorithm(DDA) approach in combining several speech recognition (ASR) systems : it consists in guiding the search algorithm of a primary ASR system by the one-best hypotheses of auxiliary systems.Our work suggests using auxiliary information directly inside an ASR system. The driven decoding algorithm enhances the baseline system and improves the a priori transcription. Moreover, the new combination schemes based on generalized-DDA significantly outperform state of the art combinations.L’utilisation des systĂšmes de reconnaissance automatique de la parole nĂ©cessite des conditions d’utilisation contraintes pour que ces derniers obtiennent des rĂ©sultats convenables. Dans de nombreuses situations, des informations auxiliaires aux flux audio sont disponibles. Le travail de cette thĂšse s’articule autour des approches permettant d’exploiter ces transcriptions a priori disponibles. Ces informations se retrouvent dans de nombreuses situations : les piĂšces de thĂ©Ăątre avec les scripts des acteurs, les films accompagnĂ©s de sous-titres ou de leur scĂ©nario, les flashes d’information associĂ©s aux prompts des journalistes, les rĂ©sumĂ©s d’émissions radio... Ces informations annexes sont de qualitĂ© variable, mais nous montrerons comment ces derniĂšres peuvent ĂȘtre utilisĂ©es afin d’amĂ©liorer le dĂ©codage d’un SRAP.Ce document est divisĂ© en deux axes liĂ©s par l’utilisation de transcriptions a priori au sein d’un SRAP : la premiĂšre partie prĂ©sente une mĂ©thode originale permettant d’exploiter des transcriptions a priori manuelles, et de les intĂ©grer directement au cƓur d’un SRAP. Nous proposons une mĂ©thode permettant de guider efficacement le systĂšme de reconnaissance Ă  l’aide d’informations auxiliaires. Nous Ă©tendons notre stratĂ©gie Ă  delarges corpus dĂ©nuĂ©s d’informations temporelles. La seconde partie de nos travaux est axĂ©e sur la combinaison de SRAP. Nous proposons une combinaison de SRAP basĂ©e sur le dĂ©codage guidĂ© : les transcriptions a priori guidant un SRAP principal sont fournies par des systĂšmes auxiliaires.Les travaux prĂ©sentĂ©s proposent d’utiliser efficacement une information auxiliaire au sein d’un SRAP. Le dĂ©codage guidĂ© par des transcriptions manuelles permet d’amĂ©liorer sensiblement la qualitĂ© du dĂ©codage ainsi que la qualitĂ© de la transcription a priori . Par ailleurs, les stratĂ©gies de combinaison proposĂ©es sont originales et obtiennent d’excellents rĂ©sultats par rapport aux mĂ©thodes existantes Ă  l’état de l’art

    Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle

    Get PDF
    M. Paul DELÉGLISE – Professeur Ă  l'UniversitĂ© du Maine – Rapporteur M. Patrick GROS – ChargĂ© de Recherche Ă  l'IRISA Rennes – Rapporteur M. Daniel DOURS – Professeur Ă  l'UniversitĂ© Toulouse III – PrĂ©sident du jury M. Jean CARRIVE – IngĂ©nieur de Recherche Ă  l'Institut National de l'Audiovisuel – Membre M. Dominique FOHR – ChargĂ© de Recherche au LORIA Nancy – MembreTo process the quantity of audiovisual information available in a smart and rapid way, it is necessary to have robust and automatic tools. This work addresses the soundtrack indexing and structuring of multimedia documents. Their goals are to detect the primary components: speech, music and key sounds. For speech/music classification, three unusual parameters are extracted: entropy modulation, stationary segment duration (with a Forward-Backward Divergence algorithm) and the number of segments. These three parameters are merged with the classical 4 Hertz modulation energy. Experiments on radio corpora show the robustness of these parameters. The system is compared and merged with a classical system. Another partitioning consists in detecting pertinent key sounds. For jingles, the selection of candidates is done by comparing the “signature” of each jingle with the data flow. This system is simple, fast and efficient. Applause and laughter are based on GMM with spectral analysis. A TV corpus validates this study by encouraging results. The detection of key words is carried out in a traditional way: the problem here is not to improve the existing systems but to be in a structuring task: these key words inform about the program type (news, weather, documentary...). Through two studies, a reflection is done for the component uses in order to find a temporal structure of the audiovisual documents. The first study is a detection of a recurring production invariant in program collections. The second permits to structure TV news into topics. Some examples of video analysis contribution are developed.Le dĂ©veloppement croissant des donnĂ©es numĂ©riques et l'explosion des accĂšs multimĂ©dia Ă  l'information, sont confrontĂ©s au manque d'outils automatiques efficaces. Dans ce cadre, plusieurs approches relatives Ă  l'indexation et la structuration de la bande sonore de documents audiovisuels sont proposĂ©es. Leurs buts sont de dĂ©tecter les composantes primaires telles que la parole, la musique et les sons clĂ©s (jingles, sons caractĂ©ristiques, mots clĂ©s...). Pour la classification parole/musique, trois paramĂštres inhabituels sont extraits : la modulation de l'entropie, la durĂ©e des segments (issue d'une segmentation automatique) et le nombre de ces segments par seconde. Les informations issues de ces trois paramĂštres sont ensuite fusionnĂ©es avec celle issue de la modulation de l'Ă©nergie Ă  quatre hertz. Des expĂ©riences sur un corpus radiophonique montrent la robustesse de ces paramĂštres : notre systĂšme possĂšde un taux de classification correcte supĂ©rieur Ă  90%. Le systĂšme est ensuite comparĂ©, puis fusionnĂ© Ă  un systĂšme classique basĂ© sur des ModĂšles de MĂ©langes de lois Gaussiennes (MMG) et une analyse cepstrale. Un autre partitionnement consiste Ă  dĂ©tecter des sons clĂ©s. La sĂ©lection de candidats potentiels est effectuĂ©e en comparant la « signature » de chacun des jingles au flux de donnĂ©es. Ce systĂšme est simple par sa mise en Ɠuvre mais rapide et trĂšs efficace : sur un corpus audiovisuel d'une dizaine d'heures (environ 200 jingles) aucune fausse alarme n'est prĂ©sente. Il y a seulement deux omissions dans des conditions extrĂȘmes. Les sons caractĂ©ristiques (applaudissements et rires) sont modĂ©lisĂ©s Ă  l'aide de MMG dans le domaine spectral. Un corpus tĂ©lĂ©visuel permet de valider cette premiĂšre Ă©tude par des rĂ©sultats encourageants. La dĂ©tection de mots clĂ©s est effectuĂ©e de maniĂšre classique : il ne s'agit pas ici d'amĂ©liorer les systĂšmes existants mais de se placer toujours dans un besoin de structuration. Ainsi, ces mots clĂ©s renseignent sur le type des Ă©missions (journal, mĂ©tĂ©o, documentaire...). GrĂące Ă  l'extraction de ces composantes primaires, les Ă©missions audiovisuelles peuvent ĂȘtre annotĂ©es de maniĂšre automatique. Au travers de deux Ă©tudes, une rĂ©flexion est conduite quant Ă  l'utilisation de ces composantes afin de trouver une structure temporelle aux documents. La premiĂšre Ă©tude permet une dĂ©tection d'un motif rĂ©current dans une collection d'Ă©missions, dites de plateau, alors que la seconde rĂ©alise la structuration en thĂšmes d'un journal tĂ©lĂ©visĂ©. Quelques pistes de rĂ©flexions sur l'apport de l'analyse vidĂ©o sont dĂ©veloppĂ©es et les besoins futurs sont explorĂ©s

    Complexification des données et des techniques en linguistique : contributions du TAL aux solutions et aux problÚmes

    Get PDF
    Ce mémoire d'habilitation est l'occasion de faire le bilan de mon activité d'enseignant-chercheur en traitement automatique des langues (TAL) dans un laboratoire de linguistique (CLLE-ERSS) et des principales évolutions de l'outillage informatique de la linguistique au cours des 15 derniÚres années. Mes recherches portent notamment sur le repérage de structures morphosyntaxiques dans les textes, l'analyse des structures du discours et l'acquisition de ressources lexicales à partir de corpus. Certaines se positionnent dans des cadres applicatifs comme la recherche d'information et la classification de textes, mais aussi dans des contextes plus spécifiques en lien avec d'autres disciplines (médecine, psychologie, sociologie...). En m'appuyant sur la diversité de ces travaux et de mes collaborations, j'identifie quatre dimensions d'évolution principales : - l'augmentation de la masse de données langagiÚres disponibles et notamment la part croissante de l'utilisation du Web comme corpus ; - la complexification de l'outillage informatique disponible pour gérer la masse et la variété des données accessibles (outils de constitution et d'interrogation de corpus) ; - la complexification de l'annotation des données langagiÚres, qu'elle soit manuelle, assistée ou automatique ; - la montée en puissance, en TAL mais aussi en linguistique descriptive, des méthodes quantitatives (depuis l'analyse statistique jusqu'aux techniques de fouille de données et d'apprentissage). Si les avancées techniques du TAL ont permis d'accroßtre de façon conséquente les potentialités d'investigation du matériau langagier, et dans certains cas de dégager de nouveaux questionnements, elles ont aussi contribué à creuser un fossé entre les deux composantes (informatique et linguistique) de la discipline. A travers ma propre expérience d'acteur ou d'accompagnateur de ces changements et avec une vocation de "passeur" interdisciplinaire, je cherche à dégager les principaux enjeux actuels pour la linguistique outillée : - doter la linguistique descriptive d'outils de visualisation de données pour aborder la complexité, en exploitant les avancées théoriques et techniques de ce nouveau champ disciplinaire et en les adaptant aux spécificités du matériau langagier ; - rendre abordables aux linguistes les techniques fondamentales de l'analyse statistique, mais aussi les méthodes d'apprentissage artificiel seules capables d'assister l'investigation et l'exploitation de données massives et complexes ; - replacer la linguistique au sein des développements actuels du TAL, notamment par le biais de l'utilisation de descripteurs linguistiques riches dans les outils de traitement par apprentissage, pour un bénéfice mutuel
    corecore