16 research outputs found

    Traduction automatique statistique et adaptation à un domaine spécialisé

    Get PDF
    Nous avons observé depuis plusieurs années l émergence des approches statistiques pour la traduction automatique. Cependant, l efficacité des modèles construits est soumise aux variabilités inhérentes au langage naturel. Des études ont montré la présence de vocabulaires spécifique et général composant les corpus de textes de domaines spécialisés. Cette particularité peut être prise en charge par des ressources terminologiques comme les lexiques bilingues.Toutefois, nous pensons que si le vocabulaire est différent entre des textes spécialisés ou génériques, le contenu sémantique et la structure syntaxique peuvent aussi varier. Dans nos travaux,nous considérons la tâche d adaptation aux domaines spécialisés pour la traduction automatique statistique selon deux axes majeurs : l acquisition de lexiques bilingues et l édition a posteriori de traductions issues de systèmes automatiques. Nous évaluons l efficacité des approches proposées dans un contexte spécialisé : le domaine médical. Nos résultats sont comparés aux travaux précédents concernant cette tâche. De manière générale, la qualité des traductions issues de systèmes automatiques pour le domaine médical est améliorée par nos propositions. Des évaluations en oracle tendent à montrer qu il existe une marge de progression importanteThese last years have seen the development of statistical approaches for machine translation. Nevertheless, the intrinsic variations of the natural language act upon the quality of statistical models. Studies have shown that in-domain corpora containwords that can occur in out-of-domain corpora (common words), but also contain domain specific words. This particularity can be handled by terminological resources like bilingual lexicons. However, if the vocabulary differs between out and in-domain data, the syntactic and semantic content may also vary. In our work, we consider the task of domain adaptation for statistical machine translation through two majoraxes : bilingual lexicon acquisition and post-edition of machine translation outputs.We evaluate our approaches on the medical domain. The quality of automatic translations in the medical domain are improved and the results are compared to other works in this field. Oracle evaluations tend to show that further gains are still possibleAVIGNON-Bib. numérique (840079901) / SudocSudocFranceF

    Adquisición automática de recursos para traducción automática en el proyecto Abu-MaTran

    Get PDF
    This paper provides an overview of the research and development activities carried out to alleviate the language resources' bottleneck in machine translation within the Abu-MaTran project. We have developed a range of tools for the acquisition of the main resources required by the two most popular approaches to machine translation, i.e. statistical (corpora) and rule-based models (dictionaries and rules). All these tools have been released under open-source licenses and have been developed with the aim of being useful for industrial exploitation.Este artículo presenta una panorámica de las actividades de investigación y desarrollo destinadas a aliviar el cuello de botella que supone la falta de recursos lingüísticos en el campo de la traducción automática que se han llevado a cabo en el ámbito del proyecto Abu-MaTran. Hemos desarrollado un conjunto de herramientas para la adquisición de los principales recursos requeridos por las dos aproximaciones m as comunes a la traducción automática, modelos estadísticos (corpus) y basados en reglas (diccionarios y reglas). Todas estas herramientas han sido publicadas con licencias libres y han sido desarrolladas con el objetivo de ser útiles para ser explotadas en el ámbito comercial.The research leading to these results has received funding from the European Union Seventh Framework Programme FP7/2007-2013 under grant agreement PIAP-GA-2012-324414 (Abu-MaTran)

    Ancient Plasmodium genomes shed light on the history of human malaria

    Get PDF
    Malaria-causing protozoa of the genus Plasmodium have exerted one of the strongest selective pressures on the human genome, and resistance alleles provide biomolecular footprints that outline the historical reach of these species1. Nevertheless, debate persists over when and how malaria parasites emerged as human pathogens and spread around the globe1,2. To address these questions, we generated high-coverage ancient mitochondrial and nuclear genome-wide data from P. falciparum, P. vivax and P. malariae from 16 countries spanning around 5,500 years of human history. We identified P. vivax and P. falciparum across geographically disparate regions of Eurasia from as early as the fourth and first millennia bce, respectively; for P. vivax, this evidence pre-dates textual references by several millennia3. Genomic analysis supports distinct disease histories for P. falciparum and P. vivax in the Americas: similarities between now-eliminated European and peri-contact South American strains indicate that European colonizers were the source of American P. vivax, whereas the trans-Atlantic slave trade probably introduced P. falciparum into the Americas. Our data underscore the role of cross-cultural contacts in the dissemination of malaria, laying the biomolecular foundation for future palaeo-epidemiological research into the impact of Plasmodium parasites on human history. Finally, our unexpected discovery of P. falciparum in the high-altitude Himalayas provides a rare case study in which individual mobility can be inferred from infection status, adding to our knowledge of cross-cultural connectivity in the region nearly three millennia ago.This project was funded by the National Science Foundation, grants BCS-2141896 and BCS-1528698; the European Research Council (ERC) under the European Union’s Horizon 2020 programme, grants 851511-MICROSCOPE (to S. Schiffels), 771234-PALEoRIDER (to W.H.) and starting grant 805268-CoDisEASe (to K.I.B.); and the ERC starting grant Waves ERC758967 (supporting K. Nägele and S.C.). We thank the Max Planck-Harvard Research Center for the Archaeoscience of the Ancient Mediterranean for supporting M. Michel, E. Skourtanioti, A.M., R.A.B., L.C.B., G.U.N., N.S., V.V.-M., M. McCormick, P.W.S., C.W. and J.K.; the Kone Foundation for supporting E.K.G. and A.S.; and the Faculty of Medicine and the Faculty of Biological and Environmental Sciences at the University of Helsinki for grants to E.K.G. A.S. thanks the Magnus Ehrnrooth Foundation, the Sigrid Jusélius Foundation, the Finnish Cultural Foundation, the Academy of Finland, the Life and Health Medical Foundation and the Finnish Society of Sciences and Letters. M.C.B. acknowledges funding from: research project PID2020-116196GB-I00 funded by MCIN/AEI/10.13039/501100011033; the Spanish Ministry of Culture; the Chiang Ching Kuo Foundation; Fundación Palarq; the EU FP7 Marie Curie Zukunftskolleg Incoming Fellowship Programme, University of Konstanz (grant 291784); STAR2-Santander Universidades and Ministry of Education, Culture and Sports; and CEI 2015 project Cantabria Campus Internacional. M.E. received support from the Czech Academy of Sciences award Praemium Academiae and project RVO 67985912 of the Institute of Archaeology of the Czech Academy of Sciences, Prague. This work has been funded within project PID2020-115956GB-I00 ‘Origen y conformación del Bronce Valenciano’, granted by the Ministry of Science and Innovation of the Government of Spain, and grants from the Canadian Institutes for Health Research (MZI187236), Research Nova Scotia (RNS 2023-2565) and The Center for Health Research in Developing Countries. D.K. is the Canada research chair in translational vaccinology and inflammation. R.L.K. acknowledges support from a 2019 University of Otago research grant (Human health and adaptation along Silk Roads, a bioarchaeological investigation of a medieval Uzbek cemetery). P.O. thanks the Jane and Aatos Erkko Foundation, the Finnish Cultural Foundation and the Academy of Finland. S. Peltola received support from the Emil Aaltonen Foundation and the Ella and Georg Ehrnrooth Foundation. D.C.S.-G. thanks the Generalitat Valenciana (CIDEGENT/2019/061). E.W.K. acknowledges support from the DEEPDEAD project, HERA-UP, CRP (15.055) and the Horizon 2020 programme (grant 649307). M. Spyrou thanks the Elite program for postdocs of the Baden-Württemberg Stiftung. Open access funding provided by Max Planck Society

    Traduction automatique statistique et adaptation à un domaine spécialisé

    No full text
    These last years have seen the development of statistical approaches for machine translation. Nevertheless, the intrinsic variations of the natural language act upon the quality of statistical models. Studies have shown that in-domain corpora containwords that can occur in out-of-domain corpora (common words), but also contain domain specific words. This particularity can be handled by terminological resources like bilingual lexicons. However, if the vocabulary differs between out and in-domain data, the syntactic and semantic content may also vary. In our work, we consider the task of domain adaptation for statistical machine translation through two majoraxes : bilingual lexicon acquisition and post-edition of machine translation outputs.We evaluate our approaches on the medical domain. The quality of automatic translations in the medical domain are improved and the results are compared to other works in this field. Oracle evaluations tend to show that further gains are still possibleNous avons observé depuis plusieurs années l’émergence des approches statistiques pour la traduction automatique. Cependant, l’efficacité des modèles construits est soumise aux variabilités inhérentes au langage naturel. Des études ont montré la présence de vocabulaires spécifique et général composant les corpus de textes de domaines spécialisés. Cette particularité peut être prise en charge par des ressources terminologiques comme les lexiques bilingues.Toutefois, nous pensons que si le vocabulaire est différent entre des textes spécialisés ou génériques, le contenu sémantique et la structure syntaxique peuvent aussi varier. Dans nos travaux,nous considérons la tâche d’adaptation aux domaines spécialisés pour la traduction automatique statistique selon deux axes majeurs : l’acquisition de lexiques bilingues et l’édition a posteriori de traductions issues de systèmes automatiques. Nous évaluons l’efficacité des approches proposées dans un contexte spécialisé : le domaine médical. Nos résultats sont comparés aux travaux précédents concernant cette tâche. De manière générale, la qualité des traductions issues de systèmes automatiques pour le domaine médical est améliorée par nos propositions. Des évaluations en oracle tendent à montrer qu’il existe une marge de progression important

    Domain Adaptation for Statistical Machine Translation

    No full text
    Nous avons observé depuis plusieurs années l’émergence des approches statistiques pour la traduction automatique. Cependant, l’efficacité des modèles construits est soumise aux variabilités inhérentes au langage naturel. Des études ont montré la présence de vocabulaires spécifique et général composant les corpus de textes de domaines spécialisés. Cette particularité peut être prise en charge par des ressources terminologiques comme les lexiques bilingues.Toutefois, nous pensons que si le vocabulaire est différent entre des textes spécialisés ou génériques, le contenu sémantique et la structure syntaxique peuvent aussi varier. Dans nos travaux,nous considérons la tâche d’adaptation aux domaines spécialisés pour la traduction automatique statistique selon deux axes majeurs : l’acquisition de lexiques bilingues et l’édition a posteriori de traductions issues de systèmes automatiques. Nous évaluons l’efficacité des approches proposées dans un contexte spécialisé : le domaine médical. Nos résultats sont comparés aux travaux précédents concernant cette tâche. De manière générale, la qualité des traductions issues de systèmes automatiques pour le domaine médical est améliorée par nos propositions. Des évaluations en oracle tendent à montrer qu’il existe une marge de progression importanteThese last years have seen the development of statistical approaches for machine translation. Nevertheless, the intrinsic variations of the natural language act upon the quality of statistical models. Studies have shown that in-domain corpora containwords that can occur in out-of-domain corpora (common words), but also contain domain specific words. This particularity can be handled by terminological resources like bilingual lexicons. However, if the vocabulary differs between out and in-domain data, the syntactic and semantic content may also vary. In our work, we consider the task of domain adaptation for statistical machine translation through two majoraxes : bilingual lexicon acquisition and post-edition of machine translation outputs.We evaluate our approaches on the medical domain. The quality of automatic translations in the medical domain are improved and the results are compared to other works in this field. Oracle evaluations tend to show that further gains are still possibl

    Exploring Context Variation and Lexicon Coverage in Projection-based Approach for Term Translation

    No full text
    International audienc

    Amélioration des modèles de repli par des sacs de mots et des n-grammes à variables

    No full text
    Les modèles classiques de n-grammes manquent de robustesse sur évènements non observés. La littérature suggère des méthodes de lissage, la plus utilisée d'entre elles étant le Kneyser-Ney modifié. Nous proposons d'améliorer ce modèle en réordonnant les possibilités de replis par rapport à l'information mutuelle portée par les mots ; ainsi que par l'utilisation de n-grammes à variables. Nos résultats montrent un gain significatif par rapport un modèle Kneyser-Ney modifié : 0.6% de gain absolu sans adaptation des modèles acoustiques et 0.4% après adaptation. ABSTRACT Improving back-off models with bag of words and hollow-grams Classical n-grams models lack robustness on unseen events. The literature suggests several smoothing methods : empirically, the most effective of these is the modified Kneser-Ney approach. We propose to improve this back-off model : our method boils down to back-off value reordering, according to the mutual information of the words, and to a new hollow-gram model. Results show that our back-off model yields significant improvements to the baseline, based on the modified Kneser-Ney back-off. We obtain a 0.6% absolute word error rate improvement without acoustic adaptation, and 0.4% after adaptation. MOTS-CLÉS : modèles de langage, modèles de replis
    corecore