99 research outputs found

    Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systÚmes de TA. Application à la TA français-chinois.

    Get PDF
    The thesis, conducted as part of a CIFRE grant, and extending one of the aspects of the ANR project Traouiero, first addresses the production, extension and improvement of multilingual corpora by machine translation (MT) and contributory post-editing (PE). Functional and technical improvements have been made to the SECTra and iMAG software produced in previous PhD theses (P.C. Huynh, H.T. Nguyen), and progress has ben made toward a generic definition of the structure of a multilingual, annotated and multi-media corpus that may contain usual documents as well as pseudo-documents (such as Web pages) and meta-segments. This part has been validated by the creation of good French-Chinese bilingual corpora, one of them resulting from the first application to literary translation (a Jules Verne novel).A second part, initially motivated by an industrial need, has consisted in building MT systems of Moses type, specialized to sub-languages, for french↔chinese, and to study how to improve them in the context of a continuous use with the possibility of PE. As part of an internal project on the LIG website and of a project (TABE-FC) in cooperation with Xiamen University, it has been possible to demonstrate the value of incremental learning in statistical MT, under certain conditions, through an experiment that spread over the whole thesis.The third part of the thesis is devoted to contributing and making available computer tools and resources. The main ones are related to the COST project MUMIA of the EU and result from the exploitation of the CLEF-2011 collection of 1.5 million partially multilingual patents. Large translation memories have been extracted from it (17.5 million segments), 3 MT systems have been produced (de-fr, en-fr, fr-de), and a website of support for multilingual IR on patents has been constructed. One also describes the on-going implementation of JianDan-eval, a platform for building, deploying and evaluating MT systems.La thĂšse, effectuĂ©e dans le cadre d'une bourse CIFRE, et prolongeant un des aspects du projet ANR Traouiero, aborde d'abord la production, l'extension et l'amĂ©lioration de corpus multilingues par traduction automatique (TA) et post-Ă©dition contributive (PE). Des amĂ©liorations fonctionnelles et techniques ont Ă©tĂ© apportĂ©es aux logiciels SECTra et iMAG, et on a progressĂ© vers une dĂ©finition gĂ©nĂ©rique de la structure d'un corpus multilingue, multi-annotĂ© et multimĂ©dia, pouvant contenir des documents classiques aussi bien que des pseudo-documents et des mĂ©ta-segments. Cette partie a Ă©tĂ© validĂ©e par la crĂ©ation de bons corpus bilingues français-chinois, l'un d'eux rĂ©sultant de la toute premiĂšre application Ă  la traduction littĂ©raire.Une seconde partie, initialement motivĂ©e par un besoin industriel, a consistĂ© Ă  construire des systĂšmes de TA de type Moses, spĂ©cialisĂ©s Ă  des sous-langages, en français↔chinois, et Ă  Ă©tudier la façon de les amĂ©liorer dans le cadre d'un usage en continu avec possibilitĂ© de PE. Dans le cadre d'un projet interne sur le site du LIG et d'un projet (TABE-FC) en coopĂ©ration avec l'universitĂ© de Xiamen, on a pu dĂ©montrer l'intĂ©rĂȘt de l'apprentissage incrĂ©mental en TA statistique, sous certaines conditions, grĂące Ă  une expĂ©rience qui s'est Ă©talĂ©e sur toute la thĂšse.La troisiĂšme partie est consacrĂ©e Ă  des contributions et mises Ă  disposition de supports informatiques et de ressources. Les principales se placent dans le cadre du projet COST MUMIA de l'EU et rĂ©sultent de l'exploitation de la collection CLEF-2011 de 1,5 M de brevets partiellement multilingues. De grosses mĂ©moires de traductions en ont Ă©tĂ© extraites (17,5 M segments), 3 systĂšmes de TA en ont Ă©tĂ© tirĂ©s, et un site Web de support Ă  la RI multilingue sur les brevets a Ă©tĂ© construit. On dĂ©crit aussi la rĂ©alisation en cours de JianDan-eval, une plate-forme de construction, dĂ©ploiement et Ă©valuation de systĂšmes de TA

    Une Ă©tude de cas pour l'Ă©tiquetage morpho-syntaxique de textes vietnamiens

    Get PDF
    Colloque avec actes sans comité de lecture. nationale.National audienceDans cet article, nous discutons de la construction des jeux d'étiquettes pour l'analyse morpho-syntaxique du vietnamien, en prenant en compte les spécificités linguistiques de cette langue. Cette construction est inspirée du modÚle MULTEXT(*) dans le but de s'orienter vers les applications multilingues ainsi que la réutilisabilité des jeux d'étiquettes. Nous allons finalement décrire une expérimentation sur l'étiquetage lexical des textes vietnamiens en utilisant QTAG (Mason et Tufis, 1998), un étiqueteur probabiliste indépendant des langues. || This paper discusses part of speech (POS) tagset construction for Vietnamese by considering linguistic specificities of this language. We take into account the schema as defined in the MULTEXT(*) model, so as to account for possible multilingual applicat

    Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

    Get PDF
    National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

    Contribution Ă  la construction d’ontologies et Ă  la recherche d’information : application au domaine mĂ©dical

    Get PDF
    This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimer’s disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimer’s disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighbors’ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise Ă  permettre un accĂšs efficace Ă  des informations pertinentes malgrĂ© le volume croissant des donnĂ©es disponibles au format Ă©lectronique. Pour cela, nous avons Ă©tudiĂ© l’apport d’une ontologie au sein d’un systĂšme de recherche d'information (RI).Nous avons tout d’abord dĂ©crit une mĂ©thodologie de construction d’ontologies. Ainsi, nous avons proposĂ© une mĂ©thode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances Ă  partir de textes et la rĂ©utilisation de ressources sĂ©mantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs dĂ©veloppĂ© une mĂ©thode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre mĂ©thodologie a permis de crĂ©er une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons Ă©laborĂ© des algorithmes pour supporter la RI sĂ©mantique guidĂ©e par une ontologie. Les concepts issus d’une ontologie ont Ă©tĂ© utilisĂ©s pour dĂ©crire automatiquement les documents mais aussi pour reformuler les requĂȘtes. Nous nous sommes intĂ©ressĂ©s Ă  : 1) l’identification de concepts reprĂ©sentatifs dans des corpus, 2) leur dĂ©sambiguĂŻsation, 3), leur pondĂ©ration selon le modĂšle vectoriel, adaptĂ© aux concepts et 4) l’expansion de requĂȘtes. Ces propositions ont permis de mettre en Ɠuvre un portail de RI sĂ©mantique dĂ©diĂ© Ă  la maladie d’Alzheimer. Par ailleurs, le contenu des documents Ă  indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploitĂ© des informations incomplĂštes pour dĂ©terminer les concepts pertinents permettant malgrĂ© tout de dĂ©crire les documents. Pour cela, nous avons proposĂ© deux mĂ©thodes de classification de documents issus d’un large corpus, l’une basĂ©e sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sĂ©mantique explicite. Ces mĂ©thodes ont Ă©tĂ© Ă©valuĂ©es sur de larges collections de documents biomĂ©dicaux fournies lors d’un challenge international

    L'alternance entre créole afro-portugais de Casamance, français et wolof au Sénégal : une contribution trilingue à l'étude du contact de langues

    Get PDF
    Casamancese Afro-Portuguese Creole is still largely unknown. The present study is the first description of the language practices of Casamance Creole speakers. The study is based on a first-hand corpus collected during spontaneous discussions among Creole speakers in multilingual cities: Dakar, Thies and Ziguinchor. In this corpus, the main languages in contact are the Casamancese Creole, French and Wolof.This dissertation describes the changes induced by this contact in the corpus, especially the temporal deixis and phenomena specifically affecting noun groups (such as determiners and genitives). The study of these domains has led me to realize that all three languages involved both grammatical and lexical elements are provided by all these languages.Such a scenario is generally not taken into consideration in the theoretical approaches to language contact, which often posit a functional separation of the languages involved based on a dichotomy between matrix language and embedded language, and tend to ignore contact situations involving more than two languages.This dissertation is therefore a contribution to the study of language contact; more specifically, it allows for the possibility to take a fresh look at a trilingual contact situation involving a Creole language and two other languages typologically distant from the former. The inclusion of such a configuration is particularly innovative in the domain of Creole studies, where researchers interested in contact languages focus mainly on situations of contact between Creoles and their respective lexifier languagesLe crĂ©ole afro-portugais de Casamance reste encore mĂ©connu. La prĂ©sente Ă©tude constitue la premiĂšre description des pratiques langagiĂšres des crĂ©olophones casamançais. Elle est fondĂ©e sur un corpus de premiĂšre main recueilli lors de discussions spontanĂ©es entre des locuteurs crĂ©olophones dans des villes multilingues : Dakar, ThiĂšs et Ziguinchor. Dans ce corpus, les principales langues en contact sont essentiellement le crĂ©ole casamançais, le français et le wolof. Cette thĂšse dĂ©crit les changements induits par ce contact dans le corpus, notamment le repĂ©rage temporel et les phĂ©nomĂšnes touchant spĂ©cifiquement les groupes nominaux (dĂ©terminants et gĂ©nitifs). L’étude de ces champs m’a permis de constater que des Ă©lĂ©ments grammaticaux et lexicaux sont fournis Ă  la fois par l’ensemble de ces langues. Ce cas de figure n'est pas souvent pris en compte dans les approches thĂ©oriques du contact de langues, lesquelles proposent souvent une sĂ©paration fonctionnelle des langues fondĂ©e sur une dichotomie entre langue matrice et langue insĂ©rĂ©e, et tendent Ă  ignorer les situations de contact impliquant plus de deux langues. Cette thĂšse constitue une contribution Ă  l’étude du contact de langues et permet en particulier de porter un regard neuf sur une situation de contact trilingue, impliquant une langue crĂ©ole et deux autres langues qui en sont typologiquement Ă©loignĂ©es. La prise en compte d’une telle configuration revĂȘt un caractĂšre particuliĂšrement novateur dans le domaine des Ă©tudes crĂ©oles, oĂč les chercheurs intĂ©ressĂ©s par le contact de langues se concentrent surtout sur des situations de contact entre les crĂ©oles et leurs langues lexificatrices respectives

    Multilinguisation d'ontologies dans le cadre de la recherche d'information translingue dans des collections d'images accompagnées de textes spontanés

    Get PDF
    Le Web est une source prolifĂ©rante d'objets multimĂ©dia, dĂ©crits dans diffĂ©rentes langues natu- relles. Afin d'utiliser les techniques du Web sĂ©mantique pour la recherche de tels objets (images, vidĂ©os, etc.), nous proposons une mĂ©thode d'extraction de contenu dans des collections de textes multilingues, paramĂ©trĂ©e par une ou plusieurs ontologies. Le processus d'extraction est utilisĂ© pour indexer les objets multimĂ©dia Ă  partir de leur contenu textuel, ainsi que pour construire des requĂȘtes formelles Ă  partir d'Ă©noncĂ©s spontanĂ©s. Il est basĂ© sur une annotation interlingue des textes, conservant les ambiguĂŻtĂ©s de segmentation et la polysĂ©mie dans des graphes. Cette premiĂšre Ă©tape permet l'utilisation de processus de dĂ©sambiguĂŻsation factorisĂ©s au niveau d'un lexique pivot (de lexĂšmes interlingues). Le passage d'une ontologie en paramĂštre du systĂšme se fait en l'alignant de façon automatique avec le lexique interlingue. Il est ainsi possible d'utiliser des ontologies qui n'ont pas Ă©tĂ© conçues pour une utilisation multilingue, et aussi d'ajouter ou d'Ă©tendre l'ensemble des langues et leurs couvertures lexicales sans modifier les ontologies. Un dĂ©monstrateur pour la recherche multilingue d'images, dĂ©veloppĂ© pour le projet ANR OMNIA, a permis de concrĂ©tiser les approches proposĂ©es. Le passage Ă  l'Ă©chelle et la qualitĂ© des annotations produites ont ainsi pu ĂȘtre Ă©valuĂ©s.The World Wide Web is a proliferating source of multimedia objects described using various natural languages. In order to use semantic Web techniques for retrieval of such objects (images, videos, etc.), we propose a content extraction method in multilingual text collections, using one or several ontologies as parameters. The content extraction process is used on the one hand to index multimedia objects using their textual content, and on the other to build formal requests from spontaneous user requests. The process is based on an interlingual annotation of texts, keeping ambiguities (polysemy and segmentation) in graphs. This first step allows using common desambiguation processes at th elevel of a pivot langage (interlingual lexemes). Passing an ontology as a parameter of the system is done by aligning automatically its elements with the interlingual lexemes of the pivot language. It is thus possible to use ontologies that have not been built for a specific use in a multilingual context, and to extend the set of languages and their lexical coverages without modifying the ontologies. A demonstration software for multilingual image retrieval has been built with the proposed approach in the framework of the OMNIA ANR project, allowing to implement the proposed approaches. It has thus been possible to evaluate the scalability and quality of annotations produiced during the retrieval process.SAVOIE-SCD - Bib.Ă©lectronique (730659901) / SudocGRENOBLE1/INP-Bib.Ă©lectronique (384210012) / SudocGRENOBLE2/3-Bib.Ă©lectronique (384219901) / SudocSudocFranceF

    Reconnaissance automatique des entités nommées arabes et leur traduction vers le français

    Get PDF
    The translation of named entities (NEs) is a current research topic with regard to the proliferation of electronic documents exchanged through the Internet. So, the need to process these documents with NLP tools becomes necessary and interesting. Formal or semi-formal modeling of these NEs may intervene in both processes of recognition and translation. Indeed, it makes the accumulation of linguistic resources more reliable, limits the impact of linguistic specificities and facilitates the transformation from one representation to another. In this context, we propose a tool for the recognition and translation of Arabic NEs into French, based primarily on formal .representation and a set of transducers. This tool takes into account the integration of a module of transliteration. Its implementation was performed using the NooJ platform and the results obtained proved to be satisfactoryLa traduction des Entités Nommées (EN) est un axe de recherche d'actualité vu la multitude des documents électroniques échangés à travers Internet. Ainsi, le besoin de traiter ces documents par des outils de TALN est devenu nécessaire et intéressant. La modélisation formelle ou semi formelle de ces EN peut intervenir dans les processus de reconnaissance et de traduction. En effet, elle permet de rendre plus fiable la constitution des ressources linquistiques, de limiter l'impact des spécificités linguistiques ct de faciliter les transformations d'une représentation à une autre. Dans ce contexte, nous proposons un outil de reconnaissance ct de traduction vers le français des EN arabes basé essentiellement sur une représentation formelle et sur un ensemble de transducteurs. L'outil prend en compte l'intégration d'un module de translittération. L'implémentation de cet outil a été effectuée en utilisant la plateforme NooJ. Les résultats obtenus sont satisfaisant

    Élaboration d'un corpus Ă©talon pour l'Ă©valuation d'extracteurs de termes

    Full text link
    Ce travail porte sur la construction d’un corpus Ă©talon pour l’évaluation automatisĂ©e des extracteurs de termes. Ces programmes informatiques, conçus pour extraire automatiquement les termes contenus dans un corpus, sont utilisĂ©s dans diffĂ©rentes applications, telles que la terminographie, la traduction, la recherche d’information, l’indexation, etc. Ainsi, leur Ă©valuation doit ĂȘtre faite en fonction d’une application prĂ©cise. Une façon d’évaluer les extracteurs consiste Ă  annoter toutes les occurrences des termes dans un corpus, ce qui nĂ©cessite un protocole de repĂ©rage et de dĂ©coupage des unitĂ©s terminologiques. À notre connaissance, il n’existe pas de corpus annotĂ© bien documentĂ© pour l’évaluation des extracteurs. Ce travail vise Ă  construire un tel corpus et Ă  dĂ©crire les problĂšmes qui doivent ĂȘtre abordĂ©s pour y parvenir. Le corpus Ă©talon que nous proposons est un corpus entiĂšrement annotĂ©, construit en fonction d’une application prĂ©cise, Ă  savoir la compilation d’un dictionnaire spĂ©cialisĂ© de la mĂ©canique automobile. Ce corpus rend compte de la variĂ©tĂ© des rĂ©alisations des termes en contexte. Les termes sont sĂ©lectionnĂ©s en fonction de critĂšres prĂ©cis liĂ©s Ă  l’application, ainsi qu’à certaines propriĂ©tĂ©s formelles, linguistiques et conceptuelles des termes et des variantes terminologiques. Pour Ă©valuer un extracteur au moyen de ce corpus, il suffit d’extraire toutes les unitĂ©s terminologiques du corpus et de comparer, au moyen de mĂ©triques, cette liste Ă  la sortie de l’extracteur. On peut aussi crĂ©er une liste de rĂ©fĂ©rence sur mesure en extrayant des sous-ensembles de termes en fonction de diffĂ©rents critĂšres. Ce travail permet une Ă©valuation automatique des extracteurs qui tient compte du rĂŽle de l’application. Cette Ă©valuation Ă©tant reproductible, elle peut servir non seulement Ă  mesurer la qualitĂ© d’un extracteur, mais Ă  comparer diffĂ©rents extracteurs et Ă  amĂ©liorer les techniques d’extraction.We describe a methodology for constructing a gold standard for the automatic evaluation of term extractors. These programs, designed to automatically extract specialized terms from a corpus, are used in various settings, including terminology work, translation, information retrieval, indexing, etc. Thus, the evaluation of term extractors must be carried out in accordance with a specific application. One way of evaluating term extractors is to construct a corpus in which all term occurrences have been annotated. This involves establishing a protocol for term selection and term boundary identification. To our knowledge, no well-documented annotated corpus is available for the evaluation of term extractors. This contribution aims to build such a corpus and describe what issues must be dealt with in the process. The gold standard we propose is a fully annotated corpus, constructed in accordance with a specific terminological setting, namely the compilation of a specialized dictionary of automotive mechanics. This annotated corpus accounts for the wide variety of realizations of terms in context. Terms are selected in accordance with specific criteria pertaining to the terminological setting as well as formal, linguistic and conceptual properties of terms and term variations. To evaluate a term extractor, a list of all the terminological units in the corpus is extracted and compared to the output of the term extractor, using a set of metrics to assess its performance. Subsets of terminological units may also be extracted, providing a level of customization. This allows an automatic and application-driven evaluation of term extractors. Due to its reusability, it can serve not only to assess the performance of a particular extractor, but also to compare different extractors and fine-tune extraction techniques

    Désignations nominales des événements (étude et extraction automatique dans les textes)

    Get PDF
    Ma thĂšse a pour but l'Ă©tude des dĂ©signations nominales des Ă©vĂ©nements pour l'extraction automatique. Mes travaux s'inscrivent en traitement automatique des langues, soit dans une dĂ©marche pluridisciplinaire qui fait intervenir linguistique et informatique. L'extraction d'information a pour but d'analyser des documents en langage naturel et d'en extraire les informations utiles Ă  une application particuliĂšre. Dans ce but gĂ©nĂ©ral, de nombreuses campagnes d'extraction d'information ont Ă©tĂ© menĂ©es~: pour chaque Ă©vĂ©nement considĂ©rĂ©, il s'agit d'extraire certaines informations relatives (participants, dates, nombres, etc.). DĂšs le dĂ©part, ces challenges touchent de prĂšs aux entitĂ©s nommĂ©es (Ă©lĂ©ments notables des textes, comme les noms de personnes ou de lieu). Toutes ces informations forment un ensemble autour de l'Ă©vĂ©nement. Pourtant, ces travaux ne s'intĂ©ressent que peu aux mots utilisĂ©s pour dĂ©crire l'Ă©vĂ©nement (particuliĂšrement lorsqu'il s'agit d'un nom). L'Ă©vĂ©nement est vu comme un tout englobant, comme la quantitĂ© et la qualitĂ© des informations qui le composent. Contrairement aux travaux en extraction d'informations gĂ©nĂ©rale, notre intĂ©rĂȘt principal est portĂ© uniquement sur la maniĂšre dont sont nommĂ©s les Ă©vĂ©nements qui se produisent et particuliĂšrement Ă  la dĂ©signation nominale utilisĂ©e. Pour nous, l'Ă©vĂ©nement est ce qui arrive, ce qui vaut la peine qu'on en parle. Les Ă©vĂ©nements plus importants font l'objet d'articles de presse ou apparaissent dans les manuels d'Histoire. Un Ă©vĂ©nement peut ĂȘtre Ă©voquĂ© par une description verbale ou nominale. Dans cette thĂšse, nous avons rĂ©flĂ©chi Ă  la notion d'Ă©vĂ©nement. Nous avons observĂ© et comparĂ© les diffĂ©rents aspects prĂ©sentĂ©s dans l'Ă©tat de l'art jusqu'Ă  construire une dĂ©finition de l'Ă©vĂ©nement et une typologie des Ă©vĂ©nements en gĂ©nĂ©ral, et qui conviennent dans le cadre de nos travaux et pour les dĂ©signations nominales des Ă©vĂ©nements. Nous avons aussi dĂ©gagĂ© de nos Ă©tudes sur corpus diffĂ©rents types de formation de ces noms d'Ă©vĂ©nements, dont nous montrons que chacun peut ĂȘtre ambigu Ă  des titres divers. Pour toutes ces Ă©tudes, la composition d'un corpus annotĂ© est une Ă©tape indispensable, nous en avons donc profitĂ© pour Ă©laborer un guide d'annotation dĂ©diĂ© aux dĂ©signations nominales d'Ă©vĂ©nements. Nous avons Ă©tudiĂ© l'importance et la qualitĂ© des lexiques existants pour une application dans notre tĂąche d'extraction automatique. Nous avons aussi, par des rĂšgles d'extraction, portĂ© intĂ©rĂȘt au cotexte d'apparition des noms pour en dĂ©terminer l'Ă©vĂ©nementialitĂ©. À la suite de ces Ă©tudes, nous avons extrait un lexique pondĂ©rĂ© en Ă©vĂ©nementialitĂ© (dont la particularitĂ© est d'ĂȘtre dĂ©diĂ© Ă  l'extraction des Ă©vĂ©nements nominaux), qui rend compte du fait que certains noms sont plus susceptibles que d'autres de reprĂ©senter des Ă©vĂ©nements. UtilisĂ©e comme indice pour l'extraction des noms d'Ă©vĂ©nements, cette pondĂ©ration permet d'extraire des noms qui ne sont pas prĂ©sents dans les lexiques standards existants. Enfin, au moyen de l'apprentissage automatique, nous avons travaillĂ© sur des traits d'apprentissage contextuels en partie fondĂ©s sur la syntaxe pour extraire de noms d'Ă©vĂ©nements.The aim of my PhD thesis is the study of nominal designations of events for automatic extraction. My work is part of natural language processing, or in a multidisciplinary approach that involves Linguistics and Computer Science. The aim of information extraction is to analyze natural language documents and extract information relevant to a particular application. In this general goal, many information extraction campaigns were conducted: for each event considered, the task of the campaign is to extract some information (participants, dates, numbers, etc..). From the outset these challenges relate closely to named entities (elements "significant" texts, such as names of people or places). All these information are set around the event and the work does not care about the words used to describe the event (especially when it comes to a name). The event is seen as an all-encompassing as the quantity and quality of information that compose it. Unlike work in general information retrieval, our main interest is focused only on the way are named events that occur particularly in the nominal designation used. For us, this is the event that happens that is worth talking about. The most important events are the subject of newspaper articles or appear in the history books. An event can be evoked by a verbal or nominal description. In this thesis, we reflected on the notion of event. We observed and compared the different aspects presented in the state of the art to construct a definition of the event and a typology of events generally agree that in the context of our work and designations nominal events. We also released our studies of different types of training corpus of the names of events, we show that each can be ambiguous in various ways. For these studies, the composition of an annotated corpus is an essential step, so we have the opportunity to develop an annotation guide dedicated to nominal designations events. We studied the importance and quality of existing lexicons for application in our extraction task automatically. We also focused on the context of appearance of names to determine the eventness, for this purpose, we used extraction rules. Following these studies, we extracted an eventive relative weighted lexicon (whose peculiarity is to be dedicated to the extraction of nominal events), which reflects the fact that some names are more likely than others to represent events. Used as a tip for the extraction of event names, this weight can extract names that are not present in the lexicons existing standards. Finally, using machine learning, we worked on learning contextual features based in part on the syntax to extract event names.PARIS11-SCD-Bib. Ă©lectronique (914719901) / SudocSudocFranceF
    • 

    corecore