7,862 research outputs found

    La constitution du TAL: Étude historique des dénominations et des concepts

    Get PDF
    Several terms have been in competition as names for the theoretical and applieddiscipline that lies in the intersection of linguistics, mathematics, computer sciences andcognitive sciences and which developed out of early experiments in Machine Translation.They include Computational Linguistics and Natural Language Processing in English, andTraitement automatique des langues, Informatique linguistique and Linguistique informatiquein French. This paper traces the history of these terms and considers whether theterminological variation may be a symptom of the conflicts at work in the field, concerningthe institutional, economical, theoretical and conceptual issues.Pour désigner le champ d'investigations et d'applications à l'intersection de lalinguistique, des mathématiques, de l'informatique et des sciences cognitives hérité desexpériences pionnières en traduction automatique, plusieurs termes sont ou ont été enconcurrence, Computational Linguistics ou Natural Language Processing dans le domaineanglo-américain, Traitement automatique des langues, Informatique linguistique ouLinguistique informatique en France. Cet article se propose, en retraçant le parcourshistorique de ces dénominations, de montrer que le flottement sur les termes estsymptomatique des tensions à l'oeuvre dans le domaine, sur le plan des enjeux institutionnels,économiques, théoriques et conceptuels

    Actes de la conférence conjointe JEP-TALN-RECITAL 2016, volume 09 : ELTAL

    Get PDF
    National audienceELTAL is a workshop organized within the JEP-TALN-RECITAL 2016 conference. This workshop brings together papers investigating metdods and applications in NLP applied to language teaching.ELTAL est un atelier organisé au sein de la conférence JEP-TALN-RECITAL 2016 et regroupe des contributions qui étudient les méthodes et les applications en TAL dans le domaine de l'enseignement des langues

    Acquisition de connaissances lexicales à partir de corpus : la sous-catégorisation verbale en français

    Get PDF
    National audienceCet article traite de l'acquisition automatique de schémas de sous-catégorisation de verbes en français et de classification automatique de verbes

    TALN et IHM : une approche transdisciplinaire pour la saisie de textes de personnes en situation de handicaps

    Get PDF
    International audienceCe papier vise d'une part, à présenter une synthèse des méthodes d'optimisation pluridisciplinaires alliant le traitement automatique de la langue naturelle et celui l'interaction homme-machine et d'autre part à soulever les nouveaux verrous scientifiques posés par l'arrivée des nouvelles technologies et des nouveaux modes d'écriture pour la saisie de textes. Cette synthèse abordera les principes d'optimisation des agencements spatiaux des claviers virtuels et ceux de la prédiction de caractères et/ou des mots à afficher en tenant compte des nouveaux supports d'interaction et des nouvelles technologie

    Le Petit Larousse Illustré de 1905 pris dans la Toile

    Get PDF
    Cet article replace le projet d'informatisation du Petit Larousse Illustré 1905 dans le contexte plus général des dictionnaires en ligne disponibles librement

    Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l’évaluation en traduction automatique

    No full text
    International audienceThis paper presents an approach combining lexical-semantic resources and distributed representations of words applied to the evaluation in machine translation (MT). This study is made through the enrichment of a well-known MT evaluation metric : METEOR. METEOR enables an approximate match (synonymy or morphological similarity) between an automatic and a reference translation. Our experiments are made in the framework of the Metrics task of WMT 2014. We show that distributed representations are less efficient than lexical-semantic resources for MT evaluation but they can nonetheless bring interesting additional information

    Génération automatique de rapports boursiers français et anglais

    Get PDF
    Depuis peu de temps, il est possible, dans un sous-langage technique bien délimité, de créer des systèmes automatiques capables de générer, à partir d’une représentation sémantique, des textes linguistiquement bien formés. Un tel système existe pour le sous-langage boursier. En effet, à partir des données de la Bourse de New York, ce logiciel produit de façon automatique des résumés boursiers en anglais et en français. Le présent article présente le système anglais et français de génération automatique de texte et décrit brièvement les particularités du sous-langage boursier.It has become possible over the last few years to create automatic systems that generate, from a semantic representation, linguistically well-formed texts in a well-defined technical sublanguage. Such a system exists for the sublanguage of stock market reports. The system produces English and French stock market reports from the same data coming from the New York Stock Exchange. This article presents this English and French automatic text generation system and briefly describes the particularities of the stock market sublanguage

    TALC-sef, Un corpus étiqueté de traductions littéraires en serbe, anglais et français

    Get PDF
    International audienceLe corpus TALC-sef (TAgged Literary Corpus in Serbian, English, French) est un corpus parallèle d'ouvrages littéraires en serbe, anglais et français, étiquetés en parties du discours et librement consultables via une interface en ligne. Il a été constitué par l'Université d'Arras, en collaboration avec l'Université Lille 3 et l'Université de Belgrade, dans une perspective d'études comparées en stylistique et linguistique. Le corpus TALC-sef représente au total plus de 2 millions de mots, il intègre notamment un corpus étiqueté, corrigé manuellement pour la langue serbe, de 150 000 mots. Dans cet article, nous présentons le mode de constitution du corpus parallèle dans son ensemble, puis nous nous attachons plus spécifiquement à l'élaboration du sous-corpus serbe étiqueté. Nous détaillons les choix linguistiques et techniques sous-jacents à la constitution de ce sous-corpus, qui vient compléter l'offre existante pour la linguistique sur corpus en serbe: à ce jour, le seul corpus librement disponible consiste en une traduction du roman 1984 de G. Orwell (100 000 mots), alors que nous proposons un corpus d'œuvres écrites à l'origine en Serbe, de 150 000 mots. La constitution de ce sous-corpus a permis l'élaboration de modèles d'étiquetage automatique pour trois étiqueteurs syntaxiques, dont Treetagger, TnT et BTagger, le plus efficace d'entre eux. Enfin, nous présentons les perspectives d'évolution du corpus existant, en termes d'enrichissement des annotations syntaxiques (analyses en dépendance en parallèle sur les trois langues), ainsi que les apports d'un tel corpus parallèle étiqueté pour la linguistique du français

    Analyse morphologique non supervisée en domaine biomédical. Application à la recherche d'information

    Get PDF
    International audienceDans le domaine biomédical, utiliser des termes spécialisés est essentiel pour accéder à l'information. Cependant, dans beaucoup de langues, ces termes sont des constructions morphologiques complexes qui compliquent cet accès à l'information. Dans cet article, nous nous intéressons à l'identification des composants morphologiques de ces termes et à leur utilisation pour une tâche de recherche d'information (RI). Nous proposons différentes approches reposant sur un alignement automatique avec une langue pivot particulière, le japonais, et sur un apprentissage par analogie permettant de produire des analyses morphologiques fines des termes d'une langue donnée. Ces analyses morphologiques sont ensuite utilisées pour améliorer l'indexation de documents biomédicaux. Les expériences rapportées montrent la validité de cette approche avec des gains en MAP de plus de 10 % par rapport à un système de RI standard

    Evaluation des outils terminologiques : enjeux, difficultés et propositions

    No full text
    International audienceCas particulier parmi les tâches de traitement automatique des langues, l'acquisition terminologique n'a guère fait l'objet d'évaluation systématique jusqu'à présent. Les campagnes qui ont eu lieu sont récentes et limitées. Il est cependant nécessaire de conduire des évaluations pour faire le bilan des recherches passées, mesurer les progrès accomplis et les angles morts. Cet article défend l'idée qu'on peut définir des protocoles d'évaluation comparative même pour des tâches complexes comme la terminologie computationnelle. La méthode proposée s'appuie sur une décomposition des outils d'analyse terminologique en fonctionnalités élémentaires ainsi que sur la définition de mesures de précision et de rappel adaptées aux problèmes terminologiques, à savoir la complexité des produits terminologiques, la dépendance aux applications, le rôle de l'interaction avec l'utilisateur et la variabilité des terminologies de référence
    corecore