125 research outputs found

    DĂ©tecter le potentiel d'ambiguĂŻtĂ© d'une requĂȘte - le cas des recherches portant sur l'actualitĂ©

    Get PDF
    International audienceL'objectif du travail que nous prĂ©sentons ici est d'examiner la notion d'ambigĂŒitĂ© Ă  travers l'Ă©tude des requĂȘtes produites dans un systĂšme de RI, le site 2424actu.fr d'Orange, opĂ©rationnel du 1/10/2009 au 1/09/2011. Celui-ci vise le traitement d'une base de documents relatifs Ă  l'actualitĂ© française, domaine particuliĂšrement mouvant et par consĂ©quent propice Ă  l'examen de la question de l'ambiguĂŻtĂ©. Nous cherchons Ă  dĂ©terminer la nature de l'ambiguĂŻtĂ© des requĂȘtes en examinant les logs de requĂȘtes disponibles et en les confrontant Ă  diffĂ©rents indices contextuels qui enrichissent la perception de la variabilitĂ© sĂ©mantique des termes de la requĂȘte

    Normalisation orthographique de corpus bruités

    Get PDF
    The information contained in messages posted on the Internet (forums, social networks, review sites...) is of strategic importance for many companies. However, few tools have been designed for analysing such messages, the spelling, typography and syntax of which are often noisy. This industrial PhD thesis has been carried out within the viavoo company with the aim of improving the results of a lemma-based information retrieval tool. We have developed a processing pipeline for the normalisation of noisy texts. Its aim is to ensure that each word is assigned the standard spelling corresponding to one of its lemma’s inflected forms. First, among all tokens of the corpus that are unknown to a reference lexicon, we automatically determine which ones result from alterations — and therefore should be normalised — as opposed to those that do not (neologisms, loanwords...). Normalisation candidates are then generated for these tokens using weighted rules obtained by analogy-based machine learning techniques. Next we identify tokens that are known to the reference lexicon but are nevertheless the result of an alteration (grammatical errors), and generate normalisation candidates for each of them. Finally, language models allow us to perform a context-sensitive disambiguation of the normalisation candidates generated for all types of alterations. Numerous experiments and evaluations are carried out on French data for each module and for the overall pipeline. Special attention has been paid to keep all modules as language-independent as possible, which paves the way for future adaptations of our pipeline to other European languages.Les messages publiĂ©s par les internautes comportent un intĂ©rĂȘt stratĂ©gique pour les entreprises. NĂ©anmoins, peu d’outils ont Ă©tĂ© conçus pour faciliter l'analyse de ces messages souvent bruitĂ©s. Cette thĂšse, rĂ©alisĂ©e au sein de l'entreprise viavoo, veut amĂ©liorer les rĂ©sultats d’un outil d'extraction d'information qui fait abstraction de la variabilitĂ© flexionnelle. Nous avons ainsi dĂ©veloppĂ© une chaĂźne de traitements pour la normalisation orthographique de textes bruitĂ©s. Notre approche consiste tout d'abord Ă  dĂ©terminer automatiquement, parmi les tokens du corpus traitĂ© qui sont inconnus d'un lexique, ceux qui rĂ©sultent d’altĂ©rations et qu'il conviendrait de normaliser, par opposition aux autres (nĂ©ologismes, emprunts...). Des candidats de normalisation sont alors proposĂ©s pour ces tokens Ă  l'aide de rĂšgles pondĂ©rĂ©es obtenues par des techniques d'apprentissage par analogie. Nous identifions ensuite des tokens connus du lexique qui rĂ©sultent nĂ©anmoins d’une altĂ©ration (fautes grammaticales), et proposons des candidats de normalisation pour ces tokens. Enfin, des modĂšles de langue permettent de prendre en compte le contexte dans lequel apparaissent les diffĂ©rents types d'altĂ©rations pour lesquels des candidats de normalisation ont Ă©tĂ© proposĂ©s afin de choisir les plus probables. DiffĂ©rentes expĂ©riences et Ă©valuations sont rĂ©alisĂ©es sur le français Ă  chaque Ă©tape et sur la chaĂźne complĂšte. Une attention particuliĂšre a Ă©tĂ© portĂ©e au caractĂšre faiblement dĂ©pendant de la langue des modules dĂ©veloppĂ©s, ce qui permet d'envisager son adaptation Ă  d'autres langues europĂ©ennes

    Multilinguisation d'ontologies dans le cadre de la recherche d'information translingue dans des collections d'images accompagnées de textes spontanés

    Get PDF
    Le Web est une source prolifĂ©rante d'objets multimĂ©dia, dĂ©crits dans diffĂ©rentes langues natu- relles. Afin d'utiliser les techniques du Web sĂ©mantique pour la recherche de tels objets (images, vidĂ©os, etc.), nous proposons une mĂ©thode d'extraction de contenu dans des collections de textes multilingues, paramĂ©trĂ©e par une ou plusieurs ontologies. Le processus d'extraction est utilisĂ© pour indexer les objets multimĂ©dia Ă  partir de leur contenu textuel, ainsi que pour construire des requĂȘtes formelles Ă  partir d'Ă©noncĂ©s spontanĂ©s. Il est basĂ© sur une annotation interlingue des textes, conservant les ambiguĂŻtĂ©s de segmentation et la polysĂ©mie dans des graphes. Cette premiĂšre Ă©tape permet l'utilisation de processus de dĂ©sambiguĂŻsation factorisĂ©s au niveau d'un lexique pivot (de lexĂšmes interlingues). Le passage d'une ontologie en paramĂštre du systĂšme se fait en l'alignant de façon automatique avec le lexique interlingue. Il est ainsi possible d'utiliser des ontologies qui n'ont pas Ă©tĂ© conçues pour une utilisation multilingue, et aussi d'ajouter ou d'Ă©tendre l'ensemble des langues et leurs couvertures lexicales sans modifier les ontologies. Un dĂ©monstrateur pour la recherche multilingue d'images, dĂ©veloppĂ© pour le projet ANR OMNIA, a permis de concrĂ©tiser les approches proposĂ©es. Le passage Ă  l'Ă©chelle et la qualitĂ© des annotations produites ont ainsi pu ĂȘtre Ă©valuĂ©s.The World Wide Web is a proliferating source of multimedia objects described using various natural languages. In order to use semantic Web techniques for retrieval of such objects (images, videos, etc.), we propose a content extraction method in multilingual text collections, using one or several ontologies as parameters. The content extraction process is used on the one hand to index multimedia objects using their textual content, and on the other to build formal requests from spontaneous user requests. The process is based on an interlingual annotation of texts, keeping ambiguities (polysemy and segmentation) in graphs. This first step allows using common desambiguation processes at th elevel of a pivot langage (interlingual lexemes). Passing an ontology as a parameter of the system is done by aligning automatically its elements with the interlingual lexemes of the pivot language. It is thus possible to use ontologies that have not been built for a specific use in a multilingual context, and to extend the set of languages and their lexical coverages without modifying the ontologies. A demonstration software for multilingual image retrieval has been built with the proposed approach in the framework of the OMNIA ANR project, allowing to implement the proposed approaches. It has thus been possible to evaluate the scalability and quality of annotations produiced during the retrieval process.SAVOIE-SCD - Bib.Ă©lectronique (730659901) / SudocGRENOBLE1/INP-Bib.Ă©lectronique (384210012) / SudocGRENOBLE2/3-Bib.Ă©lectronique (384219901) / SudocSudocFranceF

    Annotation en rÎles sémantiques du français en domaine spécifique

    Get PDF
    In this Natural Language Processing Ph. D. Thesis, we aim to perform semantic role labeling on French domain-specific texts. This task first disambiguates the sense of predicates in a given text and annotates its child chunks with semantic roles such as Agent, Patient or Destination. The task helps many applications in domains where annotated corpora exist, but is difficult to use otherwise. We first evaluate on the FrameNet corpus an existing method based on VerbNet, which explains why the method is domain-independant. We show that substantial improvements can be obtained. We first use syntactic information by handling the passive voice. Next, we use semantic informations by taking advantage of the selectional restrictions present in VerbNet. To apply this method to French, we first translate lexical resources. We first translate the WordNet lexical database. Next, we translate the VerbNet lexicon which is organized semantically using syntactic information. We obtain its translation, VerbeNet, by reusing two French verb lexicons (the Lexique-Grammaire and Les Verbes Français) and by manually modifying and reorganizing the resulting lexicon. Finally, once those building blocks are in place, we evaluate the feasibility of semantic role labeling of French and English in three specific domains. We study the pros and cons of using VerbNet and VerbeNet to annotate those domains before explaining our future work.Cette thĂšse de Traitement Automatique des Langues a pour objectif l'annotation automatique en rĂŽles sĂ©mantiques du français en domaine spĂ©cifique. Cette tĂąche dĂ©sambiguĂŻse le sens des prĂ©dicats d'un texte et annote les syntagmes liĂ©s avec des rĂŽles sĂ©mantiques tels qu'Agent, Patient ou Destination. Elle aide de nombreuses applications dans les domaines oĂč des corpus annotĂ©s existent, mais est difficile Ă  utiliser quand ce n'est pas le cas. Nous avons d'abord Ă©valuĂ© sur le corpus FrameNet une mĂ©thode existante d'annotation basĂ©e uniquement sur VerbNet et donc indĂ©pendante du domaine considĂ©rĂ©. Nous montrons que des amĂ©liorations consĂ©quentes peuvent ĂȘtre obtenues Ă  la fois d'un point de vue syntaxique avec la prise en compte de la voix passive et d'un point de vue sĂ©mantique en utilisant les restrictions de sĂ©lection indiquĂ©es dans VerbNet. Pour utiliser cette mĂ©thode en français, nous traduisons deux ressources lexicales anglaises. Nous commençons par la base de donnĂ©es lexicales WordNet. Nous traduisons ensuite le lexique VerbNet dans lequel les verbes sont regroupĂ©s sĂ©mantiquement grĂące Ă  leurs traits syntaxiques. La traduction, VerbeNet, a Ă©tĂ© obtenue en rĂ©utilisant deux lexiques verbaux du français (le Lexique-Grammaire et Les Verbes Français) puis en modifiant manuellement l'ensemble des informations obtenues. Enfin, une fois ces briques en place, nous Ă©valuons la faisabilitĂ© de l'annotation en rĂŽles sĂ©mantiques en anglais et en français dans trois domaines spĂ©cifiques. Nous Ă©valuons quels sont les avantages et inconvĂ©nients de se baser sur VerbNet et VerbeNet pour annoter ces domaines, avant d'indiquer nos perspectives pour poursuivre ces travaux

    Contribution Ă  la construction d’ontologies et Ă  la recherche d’information : application au domaine mĂ©dical

    Get PDF
    This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimer’s disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimer’s disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighbors’ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise Ă  permettre un accĂšs efficace Ă  des informations pertinentes malgrĂ© le volume croissant des donnĂ©es disponibles au format Ă©lectronique. Pour cela, nous avons Ă©tudiĂ© l’apport d’une ontologie au sein d’un systĂšme de recherche d'information (RI).Nous avons tout d’abord dĂ©crit une mĂ©thodologie de construction d’ontologies. Ainsi, nous avons proposĂ© une mĂ©thode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances Ă  partir de textes et la rĂ©utilisation de ressources sĂ©mantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs dĂ©veloppĂ© une mĂ©thode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre mĂ©thodologie a permis de crĂ©er une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons Ă©laborĂ© des algorithmes pour supporter la RI sĂ©mantique guidĂ©e par une ontologie. Les concepts issus d’une ontologie ont Ă©tĂ© utilisĂ©s pour dĂ©crire automatiquement les documents mais aussi pour reformuler les requĂȘtes. Nous nous sommes intĂ©ressĂ©s Ă  : 1) l’identification de concepts reprĂ©sentatifs dans des corpus, 2) leur dĂ©sambiguĂŻsation, 3), leur pondĂ©ration selon le modĂšle vectoriel, adaptĂ© aux concepts et 4) l’expansion de requĂȘtes. Ces propositions ont permis de mettre en Ɠuvre un portail de RI sĂ©mantique dĂ©diĂ© Ă  la maladie d’Alzheimer. Par ailleurs, le contenu des documents Ă  indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploitĂ© des informations incomplĂštes pour dĂ©terminer les concepts pertinents permettant malgrĂ© tout de dĂ©crire les documents. Pour cela, nous avons proposĂ© deux mĂ©thodes de classification de documents issus d’un large corpus, l’une basĂ©e sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sĂ©mantique explicite. Ces mĂ©thodes ont Ă©tĂ© Ă©valuĂ©es sur de larges collections de documents biomĂ©dicaux fournies lors d’un challenge international

    Esquisse d’un modĂšle linguistique pour l’étude des nominations Ă©mergentes

    Get PDF
     The article presents the outline of a linguistic model that is part of a methodology for identifying and analyzing emerging or referentially unstable namings, such as cultural appropriation, street harassment, climate refugee or ecocide. The model and the method are intended to guide the interpretation – manual or semi-automatic – of the referential expressions, according to the semantic-cognitive type of the designated entity (human entity, social process, event, etc.), but also taking into account interdiscursive negotiations that affect the choice of terms and their uses. The proposed approach is original and is based on several guiding ideas: (1) take into account the complexity of the naming and the entanglement of his different facets which are categorization, meaning, performativity and valuation (desirability, preferences, social norms), (2) target the development phase of the naming (observe how speakers deal with the unstable): for this purpose, we will use the notion of identification between weak or identified entities and strong or reference entities, (3) report in an integrated way the referential elaboration of knowledge, the lexical and semantic elaboration of expressions, and the expression of intersubjective attitudes. The scientific framework combines three main disciplinary areas: automatic language processing (construction and representation of knowledge, reference), semantics (elaboration of meanings) and discourse analysis (interdiscursive elaboration of concepts and terms).L’article prĂ©sente l’esquisse d’un modĂšle linguistique s’inscrivant dans une mĂ©thodologie de repĂ©rage et d’analyse des nominations Ă©mergentes ou rĂ©fĂ©rentiellement instables, telles que appropriation culturelle, harcĂšlement de rue, rĂ©fugiĂ© climatique ou Ă©cocide. Le modĂšle et la mĂ©thode sont destinĂ©s Ă  guider l’interprĂ©tation – manuelle ou semi-automatique – des expressions rĂ©fĂ©rentielles, suivant le type sĂ©mantico-cognitif de l’entitĂ© dĂ©signĂ©e (entitĂ© humaine, processus social, Ă©vĂ©nement), mais Ă©galement en tenant compte des nĂ©gociations interdiscursives qui touchent aux choix des termes et Ă  leurs usages. L’approche proposĂ©e est originale et repose sur plusieurs idĂ©es directrices : (1) tenir compte de la complexitĂ© des nominations et de l’intrication de leurs diffĂ©rentes facettes que sont catĂ©gorisation, signification, performativitĂ© et valorisation (dĂ©sidĂ©rabilitĂ©, prĂ©fĂ©rences, normes sociales), (2) cibler la phase d’élaboration des nominations (observer comment les locuteurs composent avec l’instable) : on mobilisera, Ă  cet effet, la notion de repĂ©rage entre entitĂ©s faibles ou repĂ©rĂ©es et entitĂ©s fortes ou repĂšres, (3) rendre compte de maniĂšre intĂ©grĂ©e de l’élaboration rĂ©fĂ©rentielle des connaissances, de l’élaboration lexicale et sĂ©mantique des expressions, et de l’expression des attitudes intersubjectives. Le cadre scientifique conjugue trois domaines disciplinaires principaux : le traitement automatique des langues (construction et reprĂ©sentation des connaissances, rĂ©fĂ©rence), la sĂ©mantique (Ă©laboration des significations) et l’analyse de discours (Ă©laboration interdiscursive des concepts et des termes)

    Évaluer et amĂ©liorer une ressource distributionnelle : protocole d'annotation de liens sĂ©mantiques en contexte

    Get PDF
    National audienceL’application de mĂ©thodes d’analyse distributionnelle pour calculer des liens de proximitĂ© sĂ©mantique entre les mots est devenue courante en TAL. Toutefois, il reste encore beaucoup Ă  faire pour mieux comprendre la nature de la proximitĂ© sĂ©mantique qui est calculĂ©e par ces mĂ©thodes. Cet article est consacrĂ© Ă  la question de l’évaluation d’une ressource distributionnelle, et de son amĂ©lioration ; en effet, nous envisageons la mise en place d’une procĂ©dure d’évaluation comme une premiĂšre Ă©tape vers la caractĂ©risation de la ressource et vers son ajustement, c’est-Ă -dire la rĂ©duction du bruit en faveur de paires de voisins distributionnels exhibant une relation sĂ©mantique pertinente. Nous proposons un protocole d’annotation en contexte des voisins distributionnels, qui nous permet de constituer un ensemble ïŹable de donnĂ©es de rĂ©fĂ©rence (couples de voisins jugĂ©s pertinents ou non par les annotateurs). Les donnĂ©es produites sont analysĂ©es, puis exploitĂ©es pour entraĂźner un systĂšme de catĂ©gorisation automatique des liens de voisinage distributionnel, qui prend en compte une large gamme d’indices et permet un ïŹltrage efïŹcace de la ressource considĂ©rĂ©e

    Contribution Ă  l’amĂ©lioration de la recherche d’information par utilisation des mĂ©thodes sĂ©mantiques: application Ă  la langue arabe

    Get PDF
    Un systĂšme de recherche d’information est un ensemble de programmes et de modules qui sert Ă  interfacer avec l’utilisateur, pour prendre et interprĂ©ter une requĂȘte, faire la recherche dans l’index et retourner un classement des documents sĂ©lectionnĂ©s Ă  cet utilisateur. Cependant le plus grand challenge de ce systĂšme est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons prĂ©sentĂ© deux contributions. Dans la premiĂšre nous avons proposĂ© une nouvelle approche pour la reformulation des requĂȘtes dans le contexte de la recherche d’information en arabe. Le principe est donc de reprĂ©senter la requĂȘte par un arbre sĂ©mantique pondĂ©rĂ© pour mieux identifier le besoin d'information de l'utilisateur, dont les nƓuds reprĂ©sentent les concepts (synsets) reliĂ©s par des relations sĂ©mantiques. La construction de cet arbre est rĂ©alisĂ©e par la mĂ©thode de la Pseudo-RĂ©injection de la Pertinence combinĂ©e Ă  la ressource sĂ©mantique du WordNet Arabe. Les rĂ©sultats expĂ©rimentaux montrent une bonne amĂ©lioration dans les performances du systĂšme de recherche d’information. Dans la deuxiĂšme contribution, nous avons aussi proposĂ© une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la mĂ©thode de la stratĂ©gie de Pooling utilisant les moteurs de recherches et l’algorithme NaĂŻve-Bayes de classification par l’apprentissage automatique. Pour l’expĂ©rimentation nous avons crĂ©Ă© une nouvelle collection de test composĂ©e d’une base documentaire de 632 documents et de 165 requĂȘtes avec leurs jugements de pertinence sous plusieurs topics. L’expĂ©rimentation a Ă©galement montrĂ© l’efficacitĂ© du classificateur BayĂ©sien pour la rĂ©cupĂ©ration de pertinences des documents, encore plus, il a rĂ©alisĂ© des bonnes performances aprĂšs l’enrichissement sĂ©mantique de la base documentaire par le modĂšle word2vec

    Etude de l'ambiguĂŻtĂ© des requĂȘtes dans un moteur de recherche spĂ©cialisĂ© dans l'actualitĂ© : exploitation d'indices contextuels

    Get PDF
    In this thesis, we consider the question of the ambiguity of queries submitted to a search engine in a particular area that is news.We build on recent work in the field of information retrieval (IR) that showed the addition of contextual information to better identify and address more adequately the information need. On this basis, we make the hypothesis that the elements of information available in an application of IR (contexts in the collection of documents, repetitions and reformulations of queries, diachronic dimension of the search) can help us to examine this problem of ambiguity. We also postulate that ambiguity will manifest in the results returned by a search engine. In this purpose to evaluate these hypotheses, we set up a device to study the ambiguity of queries based on a method of thematic categorization of queries, which relies on an expert categorization. We then show that this ambiguity is different which is indicated by an encyclopedic resources such as Wikipedia.We evaluate this categorization device by setting up two user tests. Finally, we carry out a study based on a set of contextual clues in order to understand the global behavior of a query.Dans cette thĂšse, nous envisageons la question de l’ambiguĂŻtĂ© des requĂȘtes soumises Ă  un moteur de recherche dans un domaine particulier qui est l’actualitĂ©. Nous nous appuyons sur les travaux rĂ©cents dans le domaine de la recherche d’information (RI) qui ont montrĂ© l’apport d’informations contextuelles pour mieux cerner et traiter plus adĂ©quatement le besoin informationnel. Nous faisons ainsi l’hypothĂšse que les Ă©lĂ©ments d’information disponibles dans une application de RI (contextes prĂ©sents dans la base documentaire, rĂ©pĂ©titions et reformulations de requĂȘtes, dimension diachronique de la recherche) peuvent nous aider Ă  Ă©tudier ce problĂšme d’ambiguĂŻtĂ©. Nous faisons Ă©galement l’hypothĂšse que l’ambiguĂŻtĂ© va se manifester dans les rĂ©sultats ramenĂ©s par un moteur de recherche. Dans ce but, nous avons mis en place un dispositif pour Ă©tudier l’ambiguĂŻtĂ© des requĂȘtes reposant sur une mĂ©thode de catĂ©gorisation thĂ©matique des requĂȘtes, qui s’appuie sur unecatĂ©gorisation experte. Nous avons ensuite montrĂ© que cette ambiguĂŻtĂ© est diffĂ©rente de celle repĂ©rĂ©e par une ressource encyclopĂ©dique telle que WikipĂ©dia. Nous avons Ă©valuĂ© ce dispositif de catĂ©gorisation en mettant en place deux tests utilisateurs. Enfin, nous fournissons une Ă©tude basĂ©e sur un faisceau d’indices contextuels afin de saisir le comportement global d’une requĂȘte

    Dictée automatique de textes à haute voix : analyse de corpus et modélisation des stratégies d'énonciation

    Get PDF
    The work presented in this paper is in the context of Text-To-Speech synthesis (TTS). This work aims to develop an automatic dictation system that converts written text into spoken words, for use by CM1 and CM2 students (4th and 5th grade in French primary school). This system includes four modules : 1) a morpho-syntactic analysis module which extracts tree data structure from orthographic strings; 2) a prosodic segmentation module which divides the utterances into prosodic groups and relates them to their propositional content; 3) a prosody generation module which calculates prosody automatically (fundamental frequency contour and speech rhythm), to be applied to those groups based on phonotactic features; 4) a synthesis module which converts this segmental and supra-segmental data into an acoustic signal. The syntactic parsing is first performed. The syntactic tree is then further projected onto the syntagmatic axis : sentence-internal prosodic markers are supposed to cue the dependency relations between adjacent constituents. Prosody generation is then performed by associating these markers with multiparametric contours via so-called contour generators. These contour generators are implemented as feed-forward neural networks and trained thanks to an iterative analysis-by-synthesis process (see description of the SFC "Superposition of Functional Contours" model in Bailly and Holm (2003) using a corpus of dictations. We finally assessed the quality of the modeling with a synthesis system available at GIPSA-Lab. We showed that strategy-specific contour generators are able to capture the slow rate of speech flow, the increased rate of word and phrase segmentation as well as changes in the melodic contours of the four versions for each phrase.Les travaux présentés dans ce mémoire se situent dans le cadre de la synthÚse de la parole à partir du texte. Notre travail vise à concevoir un systÚme permettant de dicter automatiquement à voix haute un texte orthographié à des élÚves de niveau CM1-CM2. Ce systÚme comporte quatre modules : 1) un module d'analyse morphosyntaxique qui lÚve une structure arborescente à partir de la chaßne orthographique ; 2) un module de marquage prosodique qui découpe cet énoncé en groupes prosodiques et les articule entre eux ; 3) un module de génération de prosodie qui calcule automatiquement la prosodie (contour de fréquence fondamentale et contour rythmique) à appliquer sur ces groupes en fonction des diverses marques ; 4) un module de synthÚse qui convertit l'ensemble de ces données segmentales et suprasegmentales en signal acoustique. Partant de la sortie d'un analyseur syntaxique à l'état de l'art, notre travail a consisté tout d'abord à projeter toute ou partie de la structure syntaxique de chaque texte afin de marquer le texte et les reprises de ses groupes de mots par un ensemble restreint de marqueurs. Nous avons ensuite paramétré un modÚle de génération de la prosodie SFC "Superposition of Functional Contours" développé par Bailly et Holm (2003) à l'aide du corpus de dictées. Nous avons finalement évalué la qualité de la synthÚse produite par un systÚme de synthÚse disponible au GIPSA-Lab. Nous montrons que les générateurs de contours indexés par la version d'énonciation arrivent à capturer le ralentissement du débit, l'accentuation du découpage des mots et des syntagmes ainsi que les modifications des contours mélodiques des quatre versions de chaque groupe de mots
    • 

    corecore