Search CORE

30 research outputs found

Coupling an Annotated Corpus and a Morphosyntactic Lexicon for State-of-the-Art POS Tagging with Less Human Effort

Author: Denis Pascal
Sagot Benoit
Publication venue: City University of Hong Kong
Publication date: 01/01/2009
Field of study

PACLIC 23 / City University of Hong Kong / 3-5 December 200

Waseda University Repository

Étiquetage multilingue en parties du discours avec MElt

Author: Sagot Benoît
Publication venue: HAL CCSD
Publication date: 04/07/2016
Field of study

International audienceWe describe recent evolutions of MElt, a discriminative part-of-speech tagging system. MElt is targeted at the optimal exploitation of information provided by external lexicons for improving its performance over models trained solely on annotated corpora. We have trained MElt on more than 40 datasets covering over 30 languages. Compared with the state-of-the-art system MarMoT, MElt's results are slightly worse on average when no external lexicon is used, but slightly better when such resources are available, resulting in state-of-the-art taggers for a number of languages.Nous présentons des travaux récents réalisés autour de MElt, système discriminant d'étiquetage en parties du discours. MElt met l'accent sur l'exploitation optimale d'informations lexicales externes pour améliorer les performances des étiqueteurs par rapport aux modèles entraînés seulement sur des corpus annotés. Nous avons entraîné MElt sur plus d'une quarantaine de jeux de données couvrant plus d'une trentaine de langues. Comparé au système état-de-l'art MarMoT, MElt obtient en moyenne des résultats légèrement moins bons en l'absence de lexique externe, mais meilleurs lorsque de telles ressources sont disponibles, produisant ainsi des étiqueteurs état-de-l'art pour plusieurs langues

INRIA a CCSD electronic archive server

Hal-Diderot

Ponctuations fortes abusives

Author: Danlos Laurence
Sagot Benoît
Publication venue: HAL CCSD
Publication date: 19/07/2010
Field of study

International audienceCertaines ponctuations fortes sont « abusivement » utilisées à la place de ponctuations faibles, débouchant sur des phrases graphiques qui ne sont pas des phrases grammaticales. Cet article présente une étude sur corpus de ce phénomène et une ébauche d'outil pour repérer automatiquement les ponctuations fortes abusives

INRIA a CCSD electronic archive server

Hal-Diderot

Cleaning noisy wordnets

Author: Fišer Darja
Sagot Benoît
Publication venue: HAL CCSD
Publication date: 23/05/2012
Field of study

International audienceAutomatic approaches to creating and extending wordnets, which have become very popular in the past decade, inadvertently result in noisy synsets. This is why we propose an approach to detect synset outliers in order to eliminate the noise and improve accuracy of the developed wordnets, so that they become more useful lexico-semantic resources for natural language applications. The approach compares the words that appear in the synset and its surroundings with the contexts of the literals in question they are used in based on large monolingual corpora. By fine-tuning the outlier threshold we can influence how many outlier candidates will be eliminated. Although the proposed approach is language-independent we test it on Slovene and French that were created automatically from bilingual resources and contain plenty of disambiguation errors. Manual evaluation of the results shows that by applying a threshold similar to the estimated error rate in the respective wordnets, 67% of the proposed outlier candidates are indeed incorrect for French and a 64% for Slovene. This is a big improvement compared to the estimated overall error rates in the resources, which are 12% for French and 15% for Slovene

CiteSeerX

INRIA a CCSD electronic archive server

Hal-Diderot

L'apport du faisceau dans l'analyse syntaxique en dépendances par transitions : études de cas avec l'analyseur Talismane

Author: Tanguy Ludovic
Urieli Assaf
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceTransition-based dependency parsing often uses deterministic techniques, where each parse step provides a single solution as the input to the next step. The same is true for the entire analysis chain which transforms raw text into a dependency graph, generally composed of four modules (sentence detection, tokenising, pos-tagging and parsing): each module provides only a single solution to the following module. However, some ambiguities cannot be resolved without taking the next level into consideration. In this article, we present Talismane, an open-source suite of tools providing a complete statistical parser of French. More specifically, we study the contribution of a beam search to syntax parsing. Our analysis allows us to conclude on the most appropriate beam width (enabling us to attain an accuracy of 88.5%, slightly higher than comparable tools), and on the best strategies concerning beam propagation from one level of analysis to the next.L'analyse syntaxique (ou parsing) en dépendances par transitions se fait souvent de façon déterministe, où chaque étape du parsing propose une seule solution comme entrée de l'étape suivante. Il en va de même pour la chaîne complète d'analyse qui transforme un texte brut en graphe de dépendances, généralement décomposé en quatre modules (segmentation en phrases, en mots, étiquetage et parsing) : chaque module ne fournit qu'une seule solution au module suivant. On sait cependant que certaines ambiguïtés ne peuvent pas être levées sans prendre en considération le niveau supérieur. Dans cet article, nous présentons l'analyseur Talismane, outil libre et complet d'analyse syntaxique probabiliste du français, et nous étudions plus précisément l'apport d'une recherche par faisceau (beam search) à l'analyse syntaxique. Les résultats nous permettent à la fois de dégager la taille de faisceau la plus adaptée (qui permet d'atteindre un score de 88,5 % d'exactitude, légèrement supérieur aux outils comparables), ainsi que les meilleures stratégies concernant sa propagation

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Utilisation de la relation " Verbe - Préposition - Toponyme" pour un inventaire lexical automatique

Author: Gaio Mauro
Nguyen Van Tien
Publication venue: HAL CCSD
Publication date: 05/10/2011
Field of study

8 pagesInternational audienceNous proposons une approche, permettant à partir d'un modèle, d'extraire et d'interpréter des informations à connotation géographique à partir d'une analyse automatique d'un corpus de textes littéraires (récits de voyages dans les Pyrénées au XIXe siècle). Il s'agit de la combinaison d'une approche lexico-syntaxique permettant le marquage et l'interprétation d'expressions contenant au moins une entité nommée géographique avec une analyse grammaticale ciblée impliquant des verbes de déplacement (ou de perception) permettant le marquage d'expressions de mouvement et d'expressions spatiales. L'inventaire lexical obtenu à l'aide de cette démarche est ensuite exploité à des ﬁns d'enrichissement d'une ontologie géographique construite par l'IGN

INRIA a CCSD electronic archive server

Quantitative study of linguistic phenomenas as indices of Thought and Language Disorders

Author: Amblard Maxime
Publication venue: HAL CCSD
Publication date: 08/12/2014
Field of study

International audienceThis work is concerned with cognitive dysfunction manifestation occurring in language. It was shown that schizophrenics show a difficulty in planning dialogic interaction. We are interested by these results in what we can learn at discourse level, we want to have a look at other linguistic levels. We come back here on the appearance of a specific distributions of disfluencies for these patients, and show that they have an equivalent morphosyntactic ability with respect to witnesses or psychologist.Ces travaux s'intéressent à la manifestation de dysfonctionnement cognitifs apparaissant dans le langage. Il a été montré que les schizophrènes manifestent une difficulté dans la planification de l'interaction dialogique. Si ces résultats nous intéresse en ce qu'il nous renseignent sur le niveau discursif, nous nous intéressons à d'autres niveaux linguistiques. Nous revenons ici sur l'apparition d'une distributions spécifiques des disfluences chez ces patients, et montrons que ces derniers ont une capacité morpho-syntaxique équivalente aux témoins ou au psychologue

INRIA a CCSD electronic archive server

Exploitation d'une ressource lexicale pour la construction d'un étiqueteur morphosyntaxique état-de-l'art du français

Author: Denis Pascal
Sagot Benoît
Publication venue: HAL CCSD
Publication date: 19/07/2010
Field of study

International audienceCet article présente MElt_fr , un étiqueteur morpho-syntaxique automatique du français. Il repose sur un modèle probabiliste séquentiel qui bénéﬁcie d'informations issues d'un lexique exogène, à savoir le Lefff . Evalué sur le FTB, MElt_fr atteint un taux de précision de 97.75% (91.36% sur les mots inconnus) sur un jeu de 29 étiquettes. Ceci correspond à une diminution du taux d'erreur de 18% (36.1% sur les mots inconnus) par rapport au même modèle sans couplage avec le Lefff . Nous étudions plus en détail la contribution de cette ressource, au travers de deux séries d'expériences. Celles-ci font apparaître en particulier que la contribution des traits issus du Lefff est de permettre une meilleure couverture, ainsi qu'une modélisation plus ﬁne du contexte droit des mots

INRIA a CCSD electronic archive server

TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

Author: Balvet Antonio
Miletic Aleksandra
Stosic Dejan
Publication venue: 'EDP Sciences'
Publication date: 01/01/2014
Field of study

International audienceLe corpus TALC-sef (TAgged Literary Corpus in Serbian, English, French) est un corpus parallèle d'ouvrages littéraires en serbe, anglais et français, étiquetés en parties du discours et librement consultables via une interface en ligne. Il a été constitué par l'Université d'Arras, en collaboration avec l'Université Lille 3 et l'Université de Belgrade, dans une perspective d'études comparées en stylistique et linguistique. Le corpus TALC-sef représente au total plus de 2 millions de mots, il intègre notamment un corpus étiqueté, corrigé manuellement pour la langue serbe, de 150 000 mots. Dans cet article, nous présentons le mode de constitution du corpus parallèle dans son ensemble, puis nous nous attachons plus spécifiquement à l'élaboration du sous-corpus serbe étiqueté. Nous détaillons les choix linguistiques et techniques sous-jacents à la constitution de ce sous-corpus, qui vient compléter l'offre existante pour la linguistique sur corpus en serbe: à ce jour, le seul corpus librement disponible consiste en une traduction du roman 1984 de G. Orwell (100 000 mots), alors que nous proposons un corpus d'œuvres écrites à l'origine en Serbe, de 150 000 mots. La constitution de ce sous-corpus a permis l'élaboration de modèles d'étiquetage automatique pour trois étiqueteurs syntaxiques, dont Treetagger, TnT et BTagger, le plus efficace d'entre eux. Enfin, nous présentons les perspectives d'évolution du corpus existant, en termes d'enrichissement des annotations syntaxiques (analyses en dépendance en parallèle sur les trois langues), ainsi que les apports d'un tel corpus parallèle étiqueté pour la linguistique du français

Crossref

Scientific Publications of the University of Toulouse II Le Mirail

EDP Sciences OAI-PMH repository (1.2.0)

Directory of Open Access Journals

HAL Descartes