85 research outputs found
Genre et classification automatique en TALÂ : le cas de genres journalistiques
La classification automatique par genre est une tâche difficile, pour les systèmes de Traitement automatique des langues, due à la diversité des définitions du genre et à l’absence d’une définition adaptée pour une approche automatique. Le genre discursif détermine les procédés d’écriture et de réception du texte (Rastier, 1989, Bouquet, 2004). En effet, par son caractère normatif, le genre influence les choix de vocabulaire, de syntaxe, de style (Biber et Conrad, 2009), y compris les procédés de création lexicale. Nous exploitons ces propriétés linguistiques pour la classification automatique des genres discursifs, appartenant aux champs génériques de l’opinion et de l’information dans le domaine du journalisme. Les propriétés choisies pour la classification automatique sont établies après une analyse de corpus de genres discursifs et champs génériques journalistiques.The automatic genre classification represents a difficult task for NLP systems, due to the absence of a unique definition of genre, useful for automatic classification. The discursive genre is determinant for text production and interpretation (Rastier, 1989, Bouquet, 2004). The genre influences the choice of lexical words, syntactic structures or styles (Biber et Conrad, 2009) or the process of neologism creation. We exploit the linguistic properties induced by the genre to automatically classify newspapers discourse genre or more generic categories (information vs opinion). The properties are established on the basis of a linguistic analysis of the newspapers genres and categories
Experiments on Building Language Resources for Multi-Modal Dialogue Systems
Colloque avec actes et comité de lecture. internationale.International audienceThe paper presents the experiments made to adapt and to synchronise the linguistic resources of the French language processing modules integrated in the MIAMM prototype, designed to handle multi-modal human-machine interactions. These experiments allowed us to identify a methodology for adapting multilingual resources for a dialogue system. In the paper, we describe the iterative joint process used to build linguistic resources for the two cooperative modules: speech recognition for speech modality and syntactic/semantic parsing
Towards Reusable NLP Components
Colloque avec actes et comité de lecture. internationale.International audienceWe propose a methodology for transforming NLP modules into reusable components that can be integrated it into a distributed and open architecture. We illustrate the methodology by showing the adaptations needed to transform an LTAG parser into a bundle of parsing and lexical service
Extraction d'information Ă base d'ontologies dans une application de veille
Colloque avec actes et comité de lecture. nationale.National audienceLe papier présente un système d'extraction d'information, qui s'appuie sur des techniques robustes d'analyse du langage naturel et sur l'existence d'une ontologie d'un domaine. Nous présentons en particuliér l'interface syntaxe-sémantique mise en oeuvre pour un corpus des messages électroniques (en anglais) sur la sécurité des systèmes informatiques. || This paper presents an information extraction system dedicated to message filtering for a specific domain. We focus on a method for identifying domain-specific entities, using syntactic information and an existing domain ontology. The application domain
Gestion électronique des textes de lois consolidés :
L’accès à de grandes bases de données juridiques provoque des besoins particuliers : les requêtes donnent des résultats en trop grand nombre. Le système DARES que nous avons développé propose à l’utilisateur une aide pour réorganiser ces réponses : les documents sont découpés en fragments, les fragments sont ensuite sélectionnés selon certains critères et utilisés pour produire un document de synthèse hyper textuel. Nous décrivons ici une application de ce système relativement générique au traitement de la législation consolidée.The access to large document bases of legislative texts induces new user needs: answers to user queries are too numerous. The system DARES that was developed by the authors helps the user to re-edit information contained in the returned documents. They are cut into fragments and these fragments are then selected and sorted according to several criteria. The result is a new synthetic hyper-textual document. The example presented here concerns the European Community consolidated laws
Combining Syntax and Ontologies for Information Extraction
Colloque avec actes et comité de lecture. internationale.International audienceThis paper presents an information extraction system, dedicated to message filtering for a specific domain (security systems). The paper focuses on a method for identifying domain-specific ontology elements (terms and concepts), using syntactic information and an existing domain ontology. The domain ontology is represented using description logics. The system uses description logics inference mechanisms to validate the candidate concepts
Comment caractériser les genres journalistiques pour la classification automatique?
International audienc
Aligning Verb+Noun Collocation to Improve a French-Romanian Statistical MT System
International audienc
Using Cognates to Improve Lexical Alignment Systems
International audienc
- …