Search CORE

410 research outputs found

Annotation en relations anaphoriques d'un corpus de discours oral spontané en français

Author: Antoine Jean-Yves
Boyer-Pelletier Aurore
Eshkol Iris
Maurel Denis
Muzerelle Judith
Nouvel Damien
Schang Emmanuel
Publication venue: HAL CCSD
Publication date: 04/07/2013
Field of study

International audienceCet article présente une analyse des relations anaphoriques d'un corpus de dialogue oral spontané en français. Il exposera plus particulièrement l'étude pilote CO2, qui a conduit à une procédure d'annotation de corpus, puis deux expériences issues du corpus (accord en genre et en nombre, descriptions des définis en première mention), et enfin les travaux à venir du projet ANCOR. L'objectif de celui-ci est d'évaluer la pertinence et de modéliser les processus de résolution de ces anaphores complexes en discours spontan

HAL Université de Tours

Un grand corpus oral « disponible » : le corpus d'Orléans 1 1968-2012

Author: Baude Olivier
Dugua Céline
Eshkol-Taravella Iris
Hriba Linda
Maurel Denis
Tellier Isabelle
Publication venue: ATALA (Association pour le Traitement Automatique des Langues)
Publication date: 01/01/2011
Field of study

International audienceCet article présente la constitution et la mise à disposition du corpus oral ESLO. Notre objectif est de montrer qu'il ne s'agit pas seulement de recueillir et rendre disponible des données langagières mais aussi de rendre explicite l'ensemble de la chaîne de traitement qui permet d'élaborer un tel corpus. Après avoir présenté le projet et le corpus nous préciserons les problèmes juridiques et méthodologiques qui ont conditionné les opérations de traitement du corpus et notamment les procédures d'anonymisation indispensables à la libre diffusion de cette ressource. Dans une seconde partie, nous présenterons les différentes annotations effectuées sur les données brutes avec quelques exemples de leurs exploitations. Nous expliquerons la méthodologie suivie qui est toujours guidée par la nature des données et l'objectif final visé : constituer un grand corpus oral variationniste du français. Nous aborderons enfin les questions de mise à disposition du corpus en ligne

HAL Université de Tours

HAL-Paris 13

Hal-Diderot

Résolution de la référence dans des dialogues homme-machine : évaluation sur corpus de deux approches symbolique et probabiliste

Author: Béchet Frédéric
Denis Alexandre,
Quignard Matthieu,
Publication venue: HAL CCSD
Publication date: 05/06/2007
Field of study

National audienceCet article décrit deux approches, l'une numérique, l'autre symbolique, traitant le problème de la résolution de la référence dans un cadre de dialogue homme-machine. L'analyse des résultats obtenus sur le corpus MEDIA montre la complémentarité des deux systèmes développés : robustesse aux erreurs et hypothèses multiples pour l'approche numérique ; modélisation de phénomènes complexes et interprétation complète pour l'approche symbolique

INRIA a CCSD electronic archive server

HAL Descartes

Hal-Diderot

Détection et résolution d'entités nommées dans des dépêches d'agence

Author: Sagot Benoît
Stern Rosa
Publication venue: HAL CCSD
Publication date: 19/07/2010
Field of study

International audienceNous présentons NP, un système de reconnaissance d'entités nommées. Comprenant un module de résolution, il permet d'associer à chaque occurrence d'entité le référent qu'elle désigne parmi les entrées d'un référentiel dédié. NP apporte ainsi des informations pertinentes pour l'exploitation de l'extraction d'entités nommées en contexte applicatif. Ce système fait l'objet d'une évaluation grâce au développement d'un corpus annoté manuellement et adapté aux tâches de détection et de résolution

INRIA a CCSD electronic archive server

Hal-Diderot

Reconnaissance des entités nommées dans des documents multimodaux

Author: Hatmi Mohamed
Publication venue: HAL CCSD
Publication date: 20/01/2014
Field of study

Named entity recognition is a subtask of information extraction. It consists of identifying some textual objects such as person, location and organization names. The work of this thesis focuses on the named entity recognition task for the oral modality. Some difficulties may arise for this task due to the intrinsic characteristics of speech processing (lack of capitalisation marks, lack of punctuation marks, presence of disfluences and of recognition errors...). In the first part, we study the characteristics of the named entity recognition downstream of the automatic speech recognition system. We present a methodology which allows named entity recognition following a hierarchical and compositional taxonomy. We measure the impact of the different phenomena specific to speech on the quality of named entity recognition. In the second part, we propose to study the tight pairing between the speech recognition task and the named entity recognition task. For that purpose, we take away the basic functionnalities of a speech recognition system to turn it into a named entity recognition system. Therefore, by mobilising the inherent knowledge of the speech processing to the named entity recognition task, we ensure a better synergy between the two tasks. We carry out different types of experiments to optimize and evaluate our approach.La Reconnaissance des entités nommées est une sous-tâche de l’activité d’extraction d’information. Elle consiste à identifier certains objetstextuels tels que les noms de personne, d’organisation et de lieu. Le travail de cette thèse se concentre sur la tâche de reconnaissance des entitésnommées pour la modalité orale. Cette tâche pose un certain nombre de difficultés qui sont inhérentes aux caractéristiques intrinsèques du traitementde l’oral (absence de capitalisation, manque de ponctuation, presence de disfluences et d’erreurs de reconnaissance...). Dans un premiertemps, nous étudions les spécificités de la reconnaissance des entités nommées en aval du système de reconnaissance automatique de la parole.Nous présentons une méthode pour la reconnaissance des entités nommées dans les transcription de la parole en adoptant une taxonomie hiérarchique et compositionnelle. Nous mesurons l’impact des différents phénomènes spécifiques à la parole sur la qualité de reconnaissance des entités nommées. Dans un second temps, nous proposons d’étudier le couplage étroit entre la tâche de transcription de la parole et la tâche de reconnaissance des entités nommées. Dans ce but, nous détournons les fonctionnalités de base d’un système de transcription de la parole pour le transformer en un système de reconnaissance des entités nommées. Ainsi, en mobilisant les connaissances propres au traitement de la parole dans le cadre de la tâche liée à la reconnaissance des entités nommées, nous assurons une plus grande synergie entre ces deux tâches. Nous menons différents types d’expérimentations afin d’optimiser et d’évaluer notre approche

Thèses en Ligne

Curriculum d'apprentissage : reconnaissance d'entités nommées pour l'extraction de concepts sémantiques

Author: Caubrière Antoine
Estève Yannick
Laurent Antoine
Morin Emmanuel
Tomashenko Natalia
Publication venue: HAL CCSD
Publication date: 01/07/2019
Field of study

International audienceDans cet article, nous présentons une approche de bout en bout d'extraction de concepts sémantiques de la parole. En particulier, nous mettons en avant l'apport d'une chaîne d'apprentissage successif pilotée par une stratégie de curriculum d'apprentissage. Dans la chaîne d'apprentissage mise en place, nous exploitons des données françaises annotées en entités nommées que nous supposons être des concepts plus génériques que les concepts sémantiques liés à une application informatique spécifique. Dans cette étude, il s'agit d'extraire des concepts sémantiques dans le cadre de la tâche MEDIA. Pour renforcer le système proposé, nous exploitons aussi des stratégies d'augmentation de données, un modèle de langage 5-gramme, ainsi qu'un mode étoile aidant le système à se concentrer sur les concepts et leurs valeurs lors de l'apprentissage. Les résultats montrent un intérêt à l'utilisation des données d'entités nommées, permettant un gain relatif allant jusqu'à 6,5 %. ABSTRACT Curriculum learning : named entity recognition for semantic concept extraction In this paper, we present an end-to-end approach for semantic concept extraction from speech. In particular, we highlight the contribution of a successive learning chain driven by a curriculum learning strategy. In the learning chain, we use French data with named entity annotations that we assume are more generic concepts than semantic concept related to a specific computer application. In this study, the aim is to extract semantic concept as part of the MEDIA task. To improve the proposed system, we also use data augmentation, 5-gram langage model and a star mode to help the system focus on concepts and their values during the training. Results show an interest in using named entity data, allowing a relative gain up to 6.5%. MOTS-CLÉS : Curriculum d'apprentissage, transfert d'apprentissage, bout en bout, extraction de concepts sémantiques, entités nommées

ANTELOPE - Une plateforme industrielle de traitement linguistique

Author: Chaumartin Francois-Regis
Publication venue: 'Associacio catalana de Salut Laboral'
Publication date: 01/01/2008
Field of study

International audienceThe Antelope linguistic platform, inspired by Meaning-Text Theory, targets the syntactic and semantic analysis of texts, and can handle large corpora. Antelope integrates several pre-existing (parsing) components as well as broad-coverage linguistic data originating from various sources. Efforts towards integration of all components nonetheless make for a homogeneous platform. Our direct contribution deals with components for semantic analysis, and the formalization of a unified text analysis model. This paper introduces the platform and compares it with state-of-the-art projects. It offers to the NLP community a feedback from a software company, by underlining the architectural measures that should be taken to ensure that such complex software remains maintainable.La plate-forme de traitement linguistique Antelope, en partie basée sur la Théorie Sens-Texte (TST), permet l'analyse syntaxique et sémantique de textes sur des corpus de volume important. Antelope intègre plusieurs composants préexistants (pour l'analyse syntaxique) ainsi que des données linguistiques à large couverture provenant de différentes sources. Un effort d'intégration permet néanmoins d'offrir une plate-forme homogène. Notre contribution directe concerne l'ajout de composants d'analyse sémantique et la formalisation d'un modèle linguistique unifié. Cet article présente la plate-forme et la compare à d'autres projets de référence. Il propose un retour d'expérience d'un éditeur de logiciel vers la communauté du TAL, en soulignant les précautions architecturales à prendre pour qu'un tel ensemble complexe reste maintenable

INRIA a CCSD electronic archive server

Hal-Diderot

SMILK, trait d'union entre langue naturelle et données sur le web

Author: Cabrio Elena
Dhouib Molka,
Faron Zucker Catherine
Gandon Fabien
Lopez Cédric
Segond Frédérique
Publication venue: 'Lavoisier'
Publication date: 03/10/2018
Field of study

National audienceAs part of the SMILK Joint Lab, we studied the use of Natural Language Processing to: (1) enrich knowledge bases and link data on the web, and conversely (2) use this linked data to contribute to the improvement of text analysis and the annotation of textual content, and to support knowledge extraction. The evaluation focused on brand-related information retrieval in the field of cosmetics. This article describes each step of our approach: the creation of ProVoc, an ontology to describe products and brands; the automatic population of a knowledge base mainly based on ProVoc from heterogeneous textual resources; and the evaluation of an application which that takes the form of a browser plugin providing additional knowledge to users browsing the web.Le laboratoire commun SMILK avait pour double sujet d'étude l'utilisation du traitement automatique du langage naturel pour aider à la construction et au liage de données sur le web et, à l'inverse, l'utilisation de ces données liées du web sémantique pour aider à l'analyse des textes et venir en appui de l'extraction de connaissances et l'annotation de contenus textuels. L'évaluation de nos travaux s'est focalisée sur la recherche d'informations portant sur des marques, plus particulièrement dans le domaine de la cosmétique. Cet article décrit chaque étape de notre approche : la conception de ProVoc, une ontologie pour décrire les produits et marques ; le peuplement automatique d'une base de connaissances reposant notamment sur ProVoc à partir de ressources textuelles hétérogènes; et l'évaluation d'une application prenant la forme d'un plugin de navigateur proposant des connaissances supplémentaires aux utilisateurs naviguant sur le web

arXiv.org e-Print Archive

INRIA a CCSD electronic archive server

HAL-Rennes 1

Analyse discursive pour le repérage automatique de segments obsolescents dans des documents encyclopédiques.

Author: Laignelet Marion
Publication venue: HAL CCSD
Publication date: 25/09/2009
Field of study

The question of document updating arises in many areas. It is central to the field of encyclopedia publishing : encyclopedias must be constantly checked in order not to put forward wrong or time-altered information. In this study, we describe the implementation of a prototype of an aid to updating. Its aims is to automatically locate zones of text in which information might be obsolescent. The method we propose takes into account various linguistic and discursive cues calling on different levels of analysis. As obsolescence is a non-linguistic phenomenon for which no specific rhetorical tool exists, our hypothesis is that linguistic and discursive cues must be considered in terms of complementarity and combinations. Our corpus is first manually annotated by experts for zones of obsolescence. We then apply automatic tagging of a large number of linguistic, discursive and structural cues onto the annotated corpus. A machine learning system is then implemented to bring out relevant cue configurations in the obsolescent segments characterized by the experts. Both our objectives have been achieved : we propose a detailed description of obsolescence in our corpus of encyclopaedic texts as well as a prototype aid to updating. A double evaluation was carried out : by cross validation on the corpus used for machine learning and by experts on a test corpus. Results are encouraging. They lead us to an evolution of the definition of obsolescent segments, first, on the basis of the “discoveries” emerging from our corpora and also through interaction with the needs of the experts with respect to an aid to updating. The results also show limits in the automatic tagging of the linguistic and discursive cues. Finally, the reproducibility of our system must be evaluated as well as the rel- evance and reusability of the model of data representation.La question de la mise à jour des documents se pose dans de nombreux do- maines. Elle est centrale dans le domaine de l'édition encyclopédique : les ouvrages publiés doivent être continuellement vérifiés afin de ne pas mettre en avant des informations fausses ou altérées par le temps. Dans ce travail, nous proposons la mise en œuvre d'un prototype d'aide à la mise à jour : l'objectif visé est le repérage automatique de zones textuelles dans lesquelles l'information est potentiellement obsolescente. Pour y répondre, nous proposons la prise en compte d'indices linguistiques et discursifs variés et faisant appel à des niveaux d'analyses différents. L'obsolescence étant un phénomène non linguistique pour lequel il n'existe pas d'outil rhétorique dédié, notre hypothèse est qu'il faut considérer les indices linguistiques et discursifs en termes de complémentarité, de combinaisons. Sur un corpus annoté manuellement par des experts, nous projetons un repérage automatique d'un grand nombre d'indices linguistiques, discursifs et structurels. Un système d'apprentissage automatique est ensuite mis en place afin de faire émerger les configurations d'indices pertinentes dans les segments obsolescents caractérisés par les experts. Notre double finalité est remplie : nous proposons une description fine de l'ob- solescence dans notre corpus de textes encyclopédiques ainsi qu'un prototype logi- ciel d'aide à la mise à jour des textes. Une double évaluation a été menée : par validation croisée sur le corpus d'apprentissage et par les experts sur un corpus de test. Les résultats sont encourageants. Ils nous amènent à faire évoluer la définition du segment d'obsolescence, sur la base des « découvertes » émergeant des corpus et dans l'interaction avec les besoins des experts concernant l'aide à la mise à jour. Ils montrent également les limites des annotations automatiques des indices linguistiques et discursifs. Enfin, la reproductibilité de notre système doit être évaluée ainsi que la pertinence et la réutilisabilité du modèle de représentation des données présenté

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes