78 research outputs found

    Classification automatique des procédés de traduction

    Get PDF
    International audienceIn order to distinguish literal translation from other translation processes, translators and linguists have proposed several typologies to characterize different translation processes, such as idiomatic equivalence, generalization, particularization, semantic modulation, etc. However, the techniques to extract paraphrases from bilingual parallel corpora have not exploited this information. In this work, we propose an automatic classification of translation processes, based on manually annotated examples in an English-French parallel corpus of TED Talks. Even with a small dataset, the experimental results are encouraging and our experiments show the direction to follow in future work.En vue de distinguer la traduction littĂ©rale des autres procĂ©dĂ©s de traduction, des traducteurs et linguistes ont proposĂ© plusieurs typologies pour caractĂ©riser les diffĂ©rents procĂ©dĂ©s de traduction, tels que l'Ă©quivalence idiomatique, la gĂ©nĂ©ralisation, la particularisation, la modulation sĂ©mantique, etc. En revanche, les techniques d'extraction de paraphrases Ă  partir de corpus parallĂšles bilingues n'ont pas exploitĂ© ces informations. Dans ce travail, nous proposons une classification automatique des procĂ©dĂ©s de traduction en nous basant sur des exemples annotĂ©s manuellement dans un corpus parallĂšle (anglais-français) de TED Talks. MĂȘme si le jeu de donnĂ©es est petit, les rĂ©sultats expĂ©rimentaux sont encourageants, et les expĂ©riences montrent la direction Ă  suivre dans les futurs travaux

    Maßtriser les déluges de données hétérogÚnes

    Get PDF
    Le traitement automatique des langues fait de plus en plus appel Ă  de volumineux corpus textuels pour l'acquisition des connaissances. L'obstacle actuel n'est plus la disponibilitĂ© de corpus, ni mĂȘme leur taille, mais l'hĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es qui sont rassemblĂ©es sous ce nom. Dans cet article, nous examinons l'hĂ©tĂ©rogĂ©nĂ©itĂ© que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rĂ©daction du journal. Les consĂ©quences d'une telle hĂ©tĂ©rogĂ©nĂ©itĂ© pour l'Ă©tiquetage et le parsage sont soulignĂ©es. Partant de ce constat, nous dĂ©finissons la notion de "profilage de corpus" par le biais d'outils permettant d'Ă©valuer l'homogĂ©nĂ©itĂ© d'un corpus (sur-emploi du vocabulaire, de catĂ©gories morpho-syntaxiques, ou de patrons) et l'utilisation qui peut en ĂȘtre faite

    Profilage de textes : un cadre de travail et une expérience

    Get PDF
    International audienceLe recours croissant aux « trÚs grands corpus » en Traitement Automatique des Langues (TAL) comme en analysetextuelle suppose de maßtriser l'homogénéité lexicale, morpho-syntaxique et syntaxique des données utilisées.Cela implique en amont le développement d'outils de calibrage de textes. Nous mettons en place de tels outilset la méthodologie associée dans le cadre de l'appel d'offres ELRA Contribution à la réalisation de corpus dufrançais contemporain. Nous montrons sur les discours radio-télévisés de De Gaulle et de Mitterrand les premiersrésultats de cette approche. Nous tirons les conséquences de cette expérience pour les traits que nous employonspour profiler les texte

    Selecting answers with structured lexical expansion and discourse relations: LIMSI's participation at QA4MRE 2013

    Get PDF
    International audiencen this paper, we present the LIMSI’s participation to QA4MRE2013. We decided to test two kinds of methods. The first one focuses on complex questions, such as causal questions, and exploits discourse relations. Relation recognition shows promising results, however it has to be improved to have an impact on answer selection. The second method is based on semantic variations. We explored the English Wiktionary to find reformulations of words in the definitions, and used these reformulations to index the documents and select passages in the Entrance exams task

    Multiple Choice Question Corpus Analysis for Distractor Characterization

    Get PDF
    International audienceIn this paper, we present a study of MCQ aiming to define criteria in order to automatically select distractors. We are aiming to show that distractor editing follows rules like syntactic and semantic homogeneity according to associated answer, and the possibility to automatically identify this homogeneity. Manual analysis shows that homogeneity rule is respected to edit distractors and automatic analysis shows the possibility to reproduce these criteria. These ones can be used in future works to automatically select distractors, with the combination of other criteria

    How NLP Can Improve Question Answering

    Get PDF
    Answering open-domain factual questions requires Natural Language processing for refining document selection and answer identification. With our system QALC, we have participated to the Question Answering track of the TREC8, TREC9, and TREC10 evaluations. QALC performs an analysis of documents relying on multi-word term search and their linguistic variation both to minimize the number of documents selected and to provide additional clues when comparing question and sentence representations. This comparison process also makes use of the results of a syntactic parsing of the questions and Named Entity recognition functionalities. Answer extraction relies on the application of syntactic patterns chosen according to the kind of information that is sought for, and categorized depending on the syntactic form of the question. These patterns allow QALC to handle nicely linguistic variations at the answer leve

    FRASQUES, le systĂšme du groupe LIR

    Get PDF
    National audienceno abstrac

    " # $ % & % ' (

    Get PDF
    International audienceNotre systĂšme de question-rĂ©ponse MUSCLEF, qui a participĂ© Ă  l’évaluation CLEF en 2004, a Ă©tĂ© conçu pour fournir des rĂ©ponses en anglais Ă  des questions posĂ©es en français. Il est fondĂ© sur notre systĂšme pour l’anglais, QALC, qui a participĂ© Ă  TREC, et y a obtenu de bons rĂ©sultats quand nous avons combinĂ© plusieurs stratĂ©gies. QALC recherchait des rĂ©ponses dans la collection donnĂ©e et sur le WEB. Nous avons gardĂ© ces deux stratĂ©gies pour CLEF, Ă  partir des questions traduites. Nous avons aussi gĂ©rĂ© le multilinguisme en traduisant les termes significatifs tirĂ©s des questions et en adaptant QALC pour construire le systĂšme MUSQAT. Nous avons combinĂ© les rĂ©sultats de ces trois recherches pour produire le rĂ©sultat final et nous montrons l’apport de cette combinaison par rapport aux rĂ©sultats de chacune des stratĂ©gies seules
    • 

    corecore