26 research outputs found

    Apprentissage supervisé sur ressources encyclopédiques pour l'enrichissement d'un lexique de noms propres destiné à la reconnaissance des entités nommées

    Get PDF
    National audienceCet article présente une méthode hybride d'enrichissement d'un lexique de noms propres à partir de la base encyclopédique en ligne Wikipedia. Une des particularités de cette recherche est de viser l'enrichissement d'une ressource existante (Prolexbase) très contrôlée décrivant finement les noms propres. A la différence d'autres travaux destinés à la reconnaissance des entités nommées, notre objectif est donc de réaliser un enrichissement automatique de qualité. Notre approche repose sur l'utilisation en pipe-line de règles déterministes basées sur certaines informations DBpedia et d'une catégorisation supervisée à base de classifieur SVM. Nos résultats montrent qu'il est ainsi possible d'enrichir un lexique de noms propres avec une très bonne précision

    Une ontologie multilingue des noms propres

    Get PDF
    Cet article décrit une ontologie multilingue de noms propres divisée en deux parties, une partie supérieure partagée par toutes les langues traitées et une partie inférieure particulière à chacune d’elles. Elle comprend, d’une part, trois relations sémantiques (Synonymie, Méronymie et Prédication) et, d’autre part, des informations morphosyntaxiques.This paper describes a multilingual ontology of proper names divided into two parts, a first part shared by all the treated languages and a second part specific to each language. It includes, on the one hand, three semantic relations (Synonymy, Meronymy and Predication) and, on the other hand, some morphosyntactical information

    Les tribulations d'un nom propre en traduction (étude contrastive du nom propre et de sa traduction à partir d'un corpus aligné de dix langues européennes)

    Get PDF
    Les noms propres sont omniprésents et intéressent, depuis des siècles, philosophes et linguistes. Le travail réalisé ici est une étude contrastive des noms propres en traduction, divisée en quatre parties. Les deux premières parties sont théoriques. La première partie traite de la notion de nom propre en linguistique anglaise et en linguistique française. La deuxième partie présente les différents procédés de traduction, illustrés par des exemples sur les noms propres. Les deux parties suivantes sont expérimentales. La troisième partie détaille les différentes étapes de la constitution de notre corpus multilingue parallèle aligné et annoté, composé de onze versions du roman de Jules Verne, Le Tour du Monde en quatre-vingts jours, en dix langues européennes. La quatrième partie expose les résultats obtenus suite à l observation du comportement des noms propres en traduction.Cette étude contredit souvent l hypothèse largement répandue de leur intraduisibilité.Proper names are omnipresent and have long held the interest of both philosophers and linguists.Our work, divided into four parts, presents, from a contrastive perspective, the behaviour of proper names in translation.The first two parts are theoretical. Firstly, we give a general presentation of what is a proper name from the point of view of both English and French linguistics. Secondly, we introduce the different translation processes proper nouns can undergo.The last two parts are experimental. We begin by explaining the different phases in the process of constitution of our aligned and annotated multilingual parallel corpus, composed of eleven versions of Jules Verne s novel, Le Tour du monde en quatre-vingts jours, in ten European languages. We then present the results obtained from the observation of proper names behaviour in translation.These results often contradict the widespread idea regarding proper names untranslatability.TOURS-Bibl.électronique (372610011) / SudocSudocFranceF

    Vers une méthodologie d'annotation des entités nommées en corpus ?

    No full text
    National audienceToday, the named entity recognition task is considered as fundamental, but it involves some specific difficulties in terms of annotation. We list them here, with illustrations taken from manual annotation experiments in microbiology. Those issues lead us to ask the fun- damental question of what the annotators should annotate and, even more important, for which purpose. We thus identify the applications using named entity recognition and, according to the real needs of those applications, we propose to semantically define the elements to annotate. Finally, we put forward a number of methodological recommendations to ensure a coherent and reliable annotation scheme

    La traduction des noms propres : une étude en corpus

    Get PDF
    Dans cet article, nous abordons le problème de la traduction des noms propres. Nous présentons notre hypothèse, selon laquelle la thèse très répandue de la non-traductibilité des noms propres peut être contredite. Puis, nous décrivons la construction du corpus multilingue aligné que nous utilisons pour illustrer notre propos. Nous évaluons enfin les apports et les limites de ce corpus dans le cadre de notre étude.The translation of proper names : a corpus study In this paper, we tackle the problem of the translation of proper names. We introduce our hypothesis according to which proper names can be translated more often than most people seem to think. Then, we describe the construction of a parallel multilingual corpus used to illustrate our point. We eventually evaluate both the advantages and limits of this corpus in our study

    Entrer dans l'anonymat. Etude des "entités dénommantes" dans un corpus oral

    Get PDF
    International audienceL'enquête Sociolinguistique à Orléans (désormais ESLO1), menée entre 1968 et 1971, a permis la constitution d'un grand corpus de français oral connu sous le nom de Corpus d'Orléans. Les objectifs de ce projet étaient de mettre à disposition un grand corpus de français oral spontané pour des études en linguistique et en didactique. Diffuser le Corpus d'Orléans selon les techniques actuelles, implique une démarche fondée sur de "bonnes pratiques" juridiques et éthiques. si pour des analyses scientifiques précises, le corpus brut reste le seul objet d'analyse possible, la diffusion par internet requiert un corpus anonymisé. Dans cet article, nous nous sommes interrogés sur le rôle des noms propres dans le processus d'identification, les différents processus d'identification que permet le langage, la diversité lexicale de ces éléments, les différentes informations selon lesquelles on peut identifier une personne et enfin sur la possibilité du traitement automatique de ces éléments dans le cadre de l'anonymisation des corpus oraux

    Fréquence, longueur et préférences lexicales dans le choix de la position de l'adjectif épithète en français

    Get PDF
    International audienceL'article présente une étude de syntaxe quantitative sur l'alternance de position de l'adjectif dans le groupe nominal en français. Partant de l'hypothèse que les contraintes de placement de l'adjectif sont essentiellement des contraintes préférentielles, nous déployons une méthode de travail empirique reposant d'une part sur des données annotées en syntaxe et d'autre part une méthode d'inférence statistique pour caractériser formellement l'importance relative de contraintes qui interviennent dans ce phénomène. En nous intéressant aux principaux facteurs connus qui concernent l'item adjectival (classes lexicales auxquelles appartiennent les adjectifs, propriétés morphologiques, longueur, fréquence), nous montrons que le phénomène d'ordre entre l'adjectif et le nom repose en grande partie sur ces propriétés, et donc sur les caractéristiques de chaque item adjectival. Nous mettons aussi en avant l'importance des facteurs d'usage que sont la longueur et la fréquence. Enfin, notre travail apporte des éléments de méthode qui montrent qu'il est possible de modéliser le choix effectif de la place de l'adjectif, grâce à une approche probabiliste et des données annotées en syntaxe. Nous prenons également soin, dans une certaine mesure, d'identifier les limites pratiques que l'on rencontre pour mener à bien ce type d'étude sur le français à l'heure actuelle

    Predicting the Position of Attributive Adjectives in the French NP

    Get PDF
    Cet article est une version révisée de l'article paru dans Student session of the European Summer School for Logic, Language and Information, Copenhague : Danemark (2010)International audienceThis article proposes a quantitative study of the placement alternation for the adjective within the noun phrase in French. Taking the hypothesis that position constraints are mostly preferential as a starting point, we develop a methodology based on statistical inference in order to provide a formal account of the relative importance of different groups of constraints. Results show the relative importance of lexical constraints and that frequency-based and length constraints are the best predictors. This suggests that the placement of adjectives not only depends on our knowledge of lexical items but also on the knowledge of the way in which we use them in discourse, i.e. on usage
    corecore