95 research outputs found

    Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l’évaluation en traduction automatique

    No full text
    International audienceThis paper presents an approach combining lexical-semantic resources and distributed representations of words applied to the evaluation in machine translation (MT). This study is made through the enrichment of a well-known MT evaluation metric : METEOR. METEOR enables an approximate match (synonymy or morphological similarity) between an automatic and a reference translation. Our experiments are made in the framework of the Metrics task of WMT 2014. We show that distributed representations are less efficient than lexical-semantic resources for MT evaluation but they can nonetheless bring interesting additional information

    Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo

    Get PDF
    International audienceThis talk sets out the scientific goals and achievements of two collections hosted by the Cocoon Open Archive of oral resources: the Pangloss Collection, which mainly focuses on unwritten languages from all areas in the world ; and the AuCo Collection, which is dedicated to languages of Vietnam and neighbouring countries. The aim is to contribute to joint progress in language documentation and in research. Emphasis is placed on the perspectives for phonetic/phonological research that are opened by some recent achievements in the framework of these two Collections.La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L'objectif est un progrès solidaire des recherches et de la documentation linguistique. L'accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections

    Establishing a New State-of-the-Art for French Named Entity Recognition

    Get PDF
    The French TreeBank developed at the University Paris 7 is the main source of morphosyntactic and syntactic annotations for French. However, it does not include explicit information related to named entities, which are among the most useful information for several natural language processing tasks and applications. Moreover, no large-scale French corpus with named entity annotations contain referential information, which complement the type and the span of each mention with an indication of the entity it refers to. We have manually annotated the French TreeBank with such information, after an automatic pre-annotation step. We sketch the underlying annotation guidelines and we provide a few figures about the resulting annotations

    JEP-TALN-RECITAL 2012, Atelier ILADI 2012: Interactions Langagières pour personnes Agées Dans les habitats Intelligents

    No full text
    National audiencePour résoudre le problème du maintien à domicile de la population vieillissante, les solutions retenues par les pays industrialisés s'appuient sur un développement massif des Technologies de l'Information et de la Communication (TIC) au travers de l'Assistance à la Vie Autonome (AVA) ou Ambient Assisted Living (AAL). Un des plus grands défis est de concevoir des habitats intelligents pour la santé qui anticipent les besoins de leurs habitants tout en maintenant leur sécurité et leur confort. Les Technologies du Traitement Automatique du Langage Naturel (TALN) et de la Parole ont un rôle significatif à jouer pour assister quotidiennement les personnes âgées et rendre possible leur participation à la " société de l'information " car elles se trouvent au cœur de la communication humaine. En effet, les technologies de la langue peuvent permettre une interaction naturelle (reconnaissance automatique de la parole, synthèse vocale, dialogue) avec les objets communicants et les maisons intelligentes. Cette interaction ouvre un grand nombre de perspectives notamment dans le domaine de la communication sociale et empathique (perception et génération d'émotions, agents conversationnels), de l'analyse de capacités langagières (accès lexical, paroles pathologiques), de la modélisation et de l'analyse de la production langagière de la personne âgée (modèle acoustique, modèle de langage), de la stimulation cognitive, de la détection de situations de détresse, de l'accès aux documents numériques, etc. Ces dernières années, un nombre croissant d'événements scientifiques ont eu lieu afin de réunir la communauté internationale autour de ces problématiques, nous pouvons citer notamment l'atelier ACL " Speech and Language Processing for Assistive Technologies (SLPAT 2011) " ou l'atelier de PERVASIVE 2012 " Language Technology in Pervasive Computing (LTPC 2012) " qui témoignent de la vitalité de ce domaine pour les technologies de la langue. C'est afin de réunir les chercheurs francophones s'intéressant à l'application des technologies de la langue dans le domaine de l'assistance à la vie autonome et désireux de les promouvoir que l'atelier " Interactions Langagières pour personnes Âgées Dans les habitats Intelligents (ILADI2012) " a été créé pour présenter et discuter des idées, projets et travaux en cours. Cet atelier se situe à l'intersection des thématiques des conférences spécialisées dans les domaines de la gérontechnologie, de l'intelligence artificielle, du traitement automatique de la parole et du langage naturel. Il est ouvert à la présentation de travaux de chercheurs et doctorants portant sur l'un ou plusieurs des thèmes suivants : reconnaissance de la parole en conditions distantes (rehaussement de la parole dans le bruit, séparation de sources, environnement multicapteur) ; compréhension, modélisation ou reconnaissance de la voix âgée ; applications de la parole pour le maintien à domicile (identification du locuteur, reconnaissance de mots-clés / ordre domotiques, synthèse, dialogue) ; reconnaissance des signes avant-coureurs d'une perte de capacité langagière, etc. La première édition de cet atelier s'est tenue en juin 2012 à Grenoble durant la conférence JEP-TALN-RECITAL 2012, avec le soutien des projets ANR Sweet-Home (ANR-2009-VERS- 011) et Cirdo (ANR-2010-TECS-012), ainsi que le support du pôle de compétitivité international MINALOGIC. Cinq soumissions présentant des travaux dans les différents champs cités ont été retenues. Les présentations correspondantes ont été précédées d'une conférence d'Alain Franco, Professeur Universitaire et Praticien Hospitalier au CHU de Nice et Président du CNR-Santé sur les nouveaux paradigmes et technologies pour la santé et l'autonomie. L'atelier c'est terminé par une discussion ouverte sur le rôle des technologies de la langue dans le cadre du maintien à domicile des personnes âgées avec la participation de plusieurs acteurs locaux. Nous remercions chaleureusement les participants à l'atelier et les membres du comité de programme, ainsi que l'ensemble du comité d'organisation de la conférence JEP-TALN- RECITAL 2012, sans lesquels cet évènement n'aurait pu se tenir. Michel Vacher & François Portet, équipe GETALP du LI

    Extraction de relations d'hyperonymie à partir de Wikipédia

    Get PDF
    Ce travail contribue à montrer l'intérêt d'exploiter la structure des documents accessibles sur le Web pour enrichir des bases de connaissances sémantiques. En effet, ces bases de connaissances jouent un rôle clé dans de nombreuses applications du TAL, Web sémantique, recherche d'information, aide au diagnostic, etc. Dans ce contexte, nous nous sommes intéressés ici à l'identification des relations d'hyperonymie présentes dans les pages de désambiguïsation de Wikipédia. Un extracteur de relations d'hyperonymie dédié à ce type de page et basé sur des patrons lexico-syntaxiques a été conçu, développé et évalué. Les résultats obtenus indiquent une précision de 0.68 et un rappel de 0.75 pour les patrons que nous avons définis, et un taux d'enrichissement de 33% pour les deux ressources sémantiques BabelNet et DBPédia

    Label Pre-annotation for Building Non-projective Dependency Treebanks for French

    Get PDF
    posterInternational audienceThe current interest in accurate dependency parsing make it necessary to build dependency treebanks for French containing both projective and non-projective dependencies. In order to alleviate the work of the annotator, we propose to automatically pre-annotate the sentences with the labels of the dependencies ending on the words. The selection of the dependency labels reduces the ambiguity of the parsing. We show that a maximum entropy Markov model method reaches the label accuracy score of a standard dependency parser (MaltParser). Moreover, this method allows to find more than one label per word, i.e. the more probable ones, in order to improve the recall score. It improves the quality of the parsing step of the annotation process. Therefore, the inclusion of the method in the process of annotation makes the work quicker and more natural to annotators

    Influence des domaines de spécialité dans l'extraction de termes-clés

    Get PDF
    National audienceLes termes-clés sont les mots ou les expressions polylexicales qui représentent le contenu principal d'un document. Ils sont utiles pour diverses applications, telles que l'indexation automatique ou le résumé automatique, mais ne sont pas toujours disponibles. De ce fait, nous nous intéressons à l'extraction automatique de termes-clés et, plus particulièrement, à la difficulté de cette tâche lors du traitement de documents appartenant à certaines disciplines scientifiques. Au moyen de cinq corpus représentant cinq disciplines différentes (archéologie, linguistique, sciences de l'information, psychologie et chimie), nous déduisons une échelle de difficulté disciplinaire et analysons les facteurs qui influent sur cette difficulté

    Construction automatique d'un large corpus libre annoté morpho-syntaxiquement en français

    Get PDF
    National audienceCet article étudie la possibilité de créer un nouveau corpus écrit en français annoté morpho-syntaxiquement à partir d'un corpus annoté existant. Nos objectifs sont de se libérer de la licence d'exploitation contraignante du corpus d'origine et d'obtenir une modernisation perpétuelle des textes. Nous montrons qu'un corpus pré-annoté automatiquement peut permettre d'entraîner un étiqueteur produisant des performances état-de-l'art, si ce corpus est suffisamment grand

    Transitions thématiques : Annotation d'un corpus journalistique et premières analyses

    No full text
    National audienceLe travail présenté dans cet article est centré sur la constitution d'un corpus de textes journalistiques annotés au niveau discursif d'un point de vue thématique. Le modèle d'annotation est une segmentation classique, à laquelle nous ajoutons un repérage de zones de transition entre unités thématiques. Nous faisons l'hypothèse que dans un texte bien construit, le scripteur fournit des indications aidant le lecteur à passer d'un sujet à un autre, l'identification de ces indices étant susceptible d'améliorer les procédures de segmentation automatique. Les annotations produites ont fait l'objet d'analyses quantitatives mettant en évidence un ensemble de propriétés des transitions entre thèmes. ------------------ The work presented in this paper focuses on the creation of a corpus of journalistic texts annotated at dicourse level, more precisely on a topic level. The annotation model is a classic segmentation one, to which we add transition zones between topical units. We assume that in a well-structured text, the author provides information helping the reader to move from one topic to another, where an identification of these clues is likely to improve automatic segmentation. The produced annotations have been subject of several quantitative analyses showing a set of linguistic properties of topical transitions
    corecore