Search CORE

1,287 research outputs found

Analyse syntaxique et granularité variable

Author: Vanrullen Tristan
Publication venue: 'Stellenbosch University'
Publication date: 01/01/2004
Field of study

National audienceIt is beneficial for a syntactic analysis - in Natural Language Processing- to be carried out with more or less accuracy depending on the context, i.e. its granularity should be adjustable. In order to reach this objective, we present here preliminary studies allowing, first of all, to understand the technical and scientific contexts which raise this problem. We establish a framework within which developments can be carried out. Several kinds of variable granularity are defined.We then describe a technic developed within this framework using satisfaction density, on algorithms based on a constraints satisfaction formalism (Property Grammars) and allowing the use of the same linguistic resources with an adjustable degree of accuracy. Lastly, we further consider developments towards a syntactic analysis with variable granularity.Il est souhaitable qu'une analyse syntaxique en traitement automatique des langues naturelles soit réalisée avec plus ou moins de précision en fonction du contexte, c'est-à-dire que sa granularité soit réglable. Afin d'atteindre cet objectif, nous présentons ici des études préliminaires permettant d'appréhender les contextes technique et scientifique qui soulèvent ce problème.Nous établissons un cadre pour les développements à réaliser. Plusieurs types de granularité sont définis. Puis nous décrivons une technique basée sur la densité de satisfaction, développéedans ce cadre avec des algorithmes basés sur un formalisme de satisfaction de contraintes (celui des Grammaires de Propriétés) ayant l'avantage de permettre l'utilisation des mêmes ressources linguistiques avec un degré de précision réglable. Enfin, nous envisageons les développements ultérieurs pour une analyse syntaxique à granularité variable

HAL AMU

Analyse syntaxique du français : des constituants aux dépendances

Author: Candito Marie
Crabbé Benoît
Denis Pascal
Guérin François
Publication venue: HAL CCSD
Publication date: 24/06/2009
Field of study

10 pagesInternational audienceThis paper describes a technique for both constituent and dependency parsing. Parsing proceeds by adding functional labels to the output of a constituent parser trained on the French Treebank in order to further extract typed dependencies. On the one hand we specify on formal and linguistic grounds the nature of the dependencies to output as well as the conversion algorithm from the French Treebank to this dependency representation. On the other hand, we describe a class of algorithms that allows to perform the automatic labeling of the functions from the output of a constituent based parser. We specifically focus on discriminative learning methods for functional labelling

INRIA a CCSD electronic archive server

Hal-Diderot

Une approche formelle pour la génération d'analyseurs de langages naturels

Author: Alonso Miguel A
Graña Gil Jorge
Valderruten Vidal Alberto
Vilares Ferro Manuel
Publication venue
Publication date: 01/01/2005
Field of study

[Abstract] Un processus d'analyse syntaxique et d'annotation efficace est déterminante dans l'élaboration de structures d'analyse de langages naturels. Ce papier introduit un environnement de programmation permettant l'implémentation du support formel des langages naturels depuis deux points de vue, analyse syntaxique et annotation. Le problème de l'analyse syntaxique se pose dans le domaine de l'analyse de grammaires algébriques sans restrictions, et celui de l'annotation dans le contexte des automates finis non déterministes. L'analyseur syntaxique prends en entrée un texte arbitraire, suivant la structure désignée par une grammaire algébrique. La structure de la forêt partagée résultante est étudiée par rapport à l'optimisation du partage syntaxique, de façon à favoriser l'élimination des ambigüités pendant le processus sémantique. Les automates à états finis sont utilisés comme formalisme opérationnel pour annoter les corpora de façon efficace, spécialement pour les langages autres que l'Anglais, pour lesquels l'analyse morphologique a une relevance accrue. Les deux activités, analyse syntaxique et annotation, sont intégrées dans un même outil, qui a pour nom Galena (pour Generador de Analizadores para Lenguages Naturales), fournissant l'incrémentalité comme fonctionnalité favorisant la réutilisabilité des composantes d'un point de vue génie logiciel.Xunta de Galcia; XUGA10501A9

Repositorio da Universidade da Coruña

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

ANTELOPE - Une plateforme industrielle de traitement linguistique

Author: Chaumartin Francois-Regis
Publication venue: 'Associacio catalana de Salut Laboral'
Publication date: 01/01/2008
Field of study

International audienceThe Antelope linguistic platform, inspired by Meaning-Text Theory, targets the syntactic and semantic analysis of texts, and can handle large corpora. Antelope integrates several pre-existing (parsing) components as well as broad-coverage linguistic data originating from various sources. Efforts towards integration of all components nonetheless make for a homogeneous platform. Our direct contribution deals with components for semantic analysis, and the formalization of a unified text analysis model. This paper introduces the platform and compares it with state-of-the-art projects. It offers to the NLP community a feedback from a software company, by underlining the architectural measures that should be taken to ensure that such complex software remains maintainable.La plate-forme de traitement linguistique Antelope, en partie basée sur la Théorie Sens-Texte (TST), permet l'analyse syntaxique et sémantique de textes sur des corpus de volume important. Antelope intègre plusieurs composants préexistants (pour l'analyse syntaxique) ainsi que des données linguistiques à large couverture provenant de différentes sources. Un effort d'intégration permet néanmoins d'offrir une plate-forme homogène. Notre contribution directe concerne l'ajout de composants d'analyse sémantique et la formalisation d'un modèle linguistique unifié. Cet article présente la plate-forme et la compare à d'autres projets de référence. Il propose un retour d'expérience d'un éditeur de logiciel vers la communauté du TAL, en soulignant les précautions architecturales à prendre pour qu'un tel ensemble complexe reste maintenable

INRIA a CCSD electronic archive server

Hal-Diderot

Extraction de paraphrases désambiguïsées à partir d'un corpus d'articles encyclopédiques alignés automatiquement

Author: Chaumartin François-Régis
Publication venue: HAL CCSD
Publication date: 01/01/2007
Field of study

International audienceWe describe here how to automatically import encyclopedic articles into WordNet. This process makes it possible to create new entries, attached to their appropriate hypernym. In addition, the preexisting entries of WordNet can get enriched with complementary descriptions. Reiterating this process on several encyclopedias makes it possible to constitute a corpus of comparable articles; we can then automatically extract paraphrases from the couples of articles that have been created. The paraphrases components can finally be disambiguated, by means of a similarity measure (using the verbs WordNet hierarchy).Nous décrivons ici comment enrichir automatiquement WordNet en y important des articles encyclopédiques. Ce processus permet de créer des nouvelles entrées, en les rattachant au bon hyperonyme. Par ailleurs, les entrées préexistantes de WordNet peuvent être enrichies de descriptions complémentaires. La répétition de ce processus sur plusieurs encyclopédies permet de constituer un corpus d'articles comparables. On peut ensuite extraire automatiquement des paraphrases à partir des couples d'articles ainsi créés. Grâce à l'application d'une mesure de similarité, utilisant la hiérarchie de verbes de WordNet, les constituants de ces paraphrases peuvent être désambiguïsés

Hal-Diderot

Syntex, analyseur syntaxique de corpus

Author: Bourigault Didier
Fabre Cécile
Frérot Cécile
Jacques Marie-Paule
Ozdowska Sylwia
Publication venue: HAL CCSD
Publication date: 01/01/2005
Field of study

Cet article est un document de présentation de l'analyseur syntaxique de corpus Syntex, dans lequel nous décrivons les principes à la base du développement de l'analyseur et son architecture informatique. Une bibliographie du projet SYNTEX est donnée à la fin du document

Scientific Publications of the University of Toulouse II Le Mirail

Modèles génératif et discriminant en analyse syntaxique : expériences sur le corpus arboré de Paris 7

Author: Favre Benoit
Le Roux Joseph
Mirroshandel Seyed Abolghasem
Nasr Alexis
Publication venue: HAL CCSD
Publication date: 01/01/2011
Field of study

International audienceNous présentons une architecture pour l'analyse syntaxique en deux étapes. Dans un premier temps un analyseur syntagmatique construit, pour chaque phrase, une liste d'analyses qui sont converties en arbres de dépendances. Ces arbres sont ensuite réévalués par un réordonnanceur discriminant. Cette méthode permet de prendre en compte des informations auxquelles l'analyseur n'a pas accès, en particulier des annotations fonction- nelles. Nous validons notre approche par une évaluation sur le corpus arboré de Paris 7. La seconde étape permet d'améliorer significativement la qualité des analyses retournées, quelle que soit la métrique utilisée

HAL AMU

Influence de la qualité de l'étiquetage sur le chunking: une corrélation dépendant de la taille des chunks

Author: Blache Philippe
Rauzy Stéphane
Publication venue: HAL CCSD
Publication date: 01/06/2008
Field of study

International audienceWe show in this paper that a strong correlation exists between the performance of chunk parsers and the quality of the tagging task in input. This dependency becomes linear when the size of the chunks is small. Our demonstration is based on an experiment conducted at the end of the Passage 2007 shared task evaluation initiative (De la Clergerie et al. 2008). The performance of two parsers which took part in this evaluation has been investigated. The results indicate that the chunking task, for sufficiently short chunks, is similar to a super-tagging task.Nous montrons dans cet article qu'il existe une corrélationétroite existant entre la qualité de l'étiquetagemorpho-syntaxique et les performances des chunkers. Cettecorrélation devient linéaire lorsque la taille des chunks estlimitée. Nous appuyons notre démonstration sur la base d'uneexpérimentation conduite suite à la campagne d'évaluationPassage 2007 (De la Clergerie et al. 2008). Nous analysons pourcela les comportements de deux analyseurs ayant participé à cettecampagne. L'interprétation des résultats montre que la tâche dechunking, lorsqu'elle vise des chunks courts, peut être assimiléeà une tâche de ``super-étiquetage'

HAL AMU

Direkt Profil : un système d’évaluation de textes d’élèves de français langue étrangère fondé sur les itinéraires d'acquisition

Author: Granfeldt Jonas
Nugues Pierre
Persson Emil
Publication venue: Association pour le traitement automatique des langues
Publication date: 01/01/2005
Field of study

Abstract in FrenchRésumé : Direkt Profil est un analyseur automatique de textes écrits en français comme langue étrangère. Son but est de produire une évaluation du stade de langue des élèves sous la forme d’un profil d’apprenant. Direkt Profil réalise une analyse des phrases fondée sur desitinéraires d’acquisition, i.e. des phénomènes syntaxiques locaux liés à un développement dans l’apprentissage du français. L’article présente les corpus que noustraitons et d’une façon sommaire les itinéraires d’acquisition. Il décrit ensuite l’annotationque nous avons définie, le moteur d’analyse syntaxique et l’interface utilisateur. Nous concluons par les résultats obtenus jusqu’ici : sur le corpus de test, le système obtient un rappel de 83% et une précision de 83%Abstract: Direkt Profil is an automatic analyzer of texts written in French as a second language. The objective is to produce an evaluation of the development stage of the students under the form of a learner profile. Direkt Profil carries out a sentence analysis based ondevelopmental sequences, i.e. local morphosyntactic phenomena linked to a development in the learning of French. The paper presents the corpus that we use and briefly, the developmental sequences. Furthermore, it describes the annotation that we have defined, theparser, and the user interface. We conclude by the results obtained so far: on the test corpus the systems obtains a recall of 83% and a precision of 83%

Lund University Publications