63 research outputs found

    METEOR For Multiple Target Languages Using DBnary

    No full text
    International audienceThis paper proposes an extension of METEOR, a well-known MT evaluation metric, for multiple target languages using an in-house lexical resource called DBnary (an extraction from Wiktionary provided to the community as a Multilingual Lexical Linked Open Data). Today, the use of the synonymy module of METEOR is only exploited when English is the target language (use of WordNet). A synonymy module using DBnary would allow its use for the 21 languages (covered up to now) as target languages. The code of this new instance of METEOR, adapted to several target languages, is provided to the community via a github repository. We also show that our DBnary augmented METEOR increases the correlation with human judgements on the WMT 2013 and 2014 metrics dataset for English-to-(French, Russian, German, Spanish) language pairs

    Word2Vec vs DBnary: Augmenting METEOR using Vector Representations or Lexical Resources?

    Get PDF
    International audienceThis paper presents an approach combining lexico-semantic resources and distributed representations of words applied to the evaluation in machine translation (MT). This study is made through the enrichment of a well-known MT evaluation metric: METEOR. This metric enables an approximate match (synonymy or morphological similarity) between an automatic and a reference translation. Our experiments are made in the framework of the Metrics task of WMT 2014. We show that distributed representations are a good alternative to lexico-semantic resources for MT evaluation and they can even bring interesting additional information. The augmented versions of METEOR, using vector representations, are made available on our Github page

    Induction de sens pour enrichir des ressources lexicales

    No full text
    International audienceEn traitement automatique des langues, les ressources lexico-sémantiques ont été incluses dans un grand nombre d'applications. La création manuelle de telles ressources est consommatrice de temps humain et leur couverture limitée ne permet pas toujours de couvrir les besoins des applications. Ce problème est encore plus important pour les langues moins dotées que le français ou l'anglais. L'induction de sens présente dans ce cadre une piste intéressante. À partir d'un corpus de texte, il s'agit d'inférer les sens possibles pour chacun des mots qui le composent. Nous étudions dans cet article une approche basée sur une représentation vectorielle pour chaque occurrence d'un mot correspondant à ses voisins. À partir de cette représentation, construite sur un corpus en bengali, nous comparons plusieurs approches de clustering (k-moyennes, clustering hiérarchique et espérance-maximisation) des occurrences d'un mot pour déterminer les différents sens qu'il peut prendre. Nous comparons nos résultats au Bangla WordNet ainsi qu'à une référence établie pour l'occasion. Nous montrons que cette méthode permet de trouver des sens qui ne se trouvent pas dans le Bangla WordNet

    Literary Machine Translation: Adapting machines to individual human translators

    Full text link
    peer reviewedLa traduction automatique neuronale et son adaptation à des domaines spécifiques par le biais de corpus spécialisés ont permis à cette technologie d’intégrer bien plus largement qu’auparavant le métier et la formation des traducteur·trice·s. Si le paradigme neuronal (et le deep learning de manière générale) a ainsi pu investir des domaines parfois insoupçonnés, y compris certains où la créativité est de mise, celui-ci est moins marqué par un gain phénoménal de performance que par une utilisation massive auprès du public et les débats qu’il génère, nombre d’entre eux invoquant couramment le cas littéraire pour (in)valider telle ou telle observation. Pour apprécier la pertinence de cette technologie, et ce faisant surmonter les discours souvent passionnés des opposants et partisans de la traduction automatique, il est toutefois nécessaire de mettre l’outil à l’épreuve, afin de fournir un exemple concret de ce que pourrait produire un système entraîné spécifiquement pour la traduction d’œuvres littéraires. Inscrit dans un projet de recherche plus vaste visant à évaluer l’aide que peuvent fournir les outils informatiques aux traducteurs et traductrices littéraires, cet article propose par conséquent une expérience de traduction automatique de la prose qui n’a plus été tentée pour le français depuis les systèmes probabilistes et qui rejoint un nombre croissant d’études sur le sujet pour d’autres paires de langues. Nous verrons que si les résultats sont encourageants, ceux-ci laissent présager une tout autre manière d’envisager la traduction automatique, plus proche de la traduction humaine assistée par ordinateur que de la post-édition pure, et que l’exemple des œuvres de littérature soulève en outre des réflexions utiles pour la traduction dans son ensemble

    MT on and for the Web

    Get PDF
    Abstract A Systran MT server became available on the minitel network in 1984, and on Internet in 1994. Since then we have come to a better understanding of the nature of MT systems by separately analyzing their linguistic, computational, and operational architectures. Also, thanks to the CxAxQ metatheorem, the systems' inherent limits have been clarified, and design choices can now be made in an informed manner according to the translation situations. MT evaluation has also matured: tools based on reference translations are useful for measuring progress; those based on subjective judgments for estimating future usage quality; and task-related objective measures (such as post-editing distances) for measuring operational quality. Moreover, the same technological advances that have led to "Web 2.0" have brought several futuristic predictions to fruition. Free Web MT services have democratized assimilation MT beyond belief. Speech translation research has given rise to usable systems for restricted tasks running on PDAs or on mobile phones connected to servers. New man-machine interface techniques have made interactive disambiguation usable in large-coverage multimodal MT. Increases in computing power have made statistical methods workable, and have led to the possibility of building low-linguisticquality but still useful MT systems by machine learning from aligned bilingual corpora (SMT, EBMT). In parallel, progress has been made in developing interlingua-based MT systems, using hybrid methods. Unfortunately, many misconceptions about MT have spread among the public, and even among MT researchers, because of ignorance of the past and present of MT R&D. A compensating factor is the willingness of end users to freely contribute to building essential parts of the linguistic knowledge needed to construct MT systems, whether corpus-related or lexical. Finally, some developments we anticipated fifteen years ago have not yet materialized, such as online writing tools equipped with interactive disambiguation, and as a corollary the possibility of transforming source documents into self-explaining documents (SEDs) and of producing corresponding SEDs fully automatically in several target languages. These visions should now be realized, thanks to the evolution of Web programming and multilingual NLP techniques, leading towards a true Semantic Web, "Web 3.0", which will support ubilingual (ubiquitous multilingual) computing

    "Promesses et problèmes de la « TAO pour tous ». Après LIDIA-1, une première maquette"

    No full text
    Christian Boitet et Hervé Blanchon : « Promesses et problèmes de la "TAO pour tous" après Lidia-1, une première maquette » Dialogue-Based Machine Translation, or DBMT, will be the only way to achieve « MT for all ». Thanks to a normalization and clarification man-machine dialogue, an author could be translated quite accurately into several languages, without knowing them, and without investing more time than to translate into a single language s/he would know quite well. The idea of interactive MT is not new, but has failed until now for ergonomical and technological reasons. A first mockup, LIDIA-1.0, has been implemented to illustrate some of the solutions we propose in order for this approach to lead to systems really usable by the general public. The result is encouraging, even if the sheer size of the efforts and investments necessary to build and maintain the appropriate linguistic knowledge bases appears as a crucial problem. Another problem, more theoretical, is to find simple and efficient ways to define « utterance styles », allowing to decrease the « perplexity » of analyzers, and hence the number of questions to be asked in order to clarify an utterance, and to guide the author in a natural way towards the most appropriate « text genre », and then utterance style.Seule la technique de « Traduction Automatique Fondée sur le Dialogue », ou TAFD, permettra d'aboutir à des systèmes de « TA pour tous » . Grâce à un dialogue homme-machine de normalisation et de clarification, un auteur pourrait être traduit de façon très correcte dans plusieurs langues, sans les connaître, et sans investir plus de son temps que pour traduire dans une seule langue qu'il connaît très bien. L'idée de la TA interactive n'est pas neuve, mais a échoué jusqu'ici pour des raisons ergonomiques et technologiques. Une première maquette, LIDIA-1.0, a été implémentée pour illustrer une partie des solutions que nous proposons pour que cette approche permette d'arriver à des systèmes grand public réellement utilisables. Le résultat est encourageant, même si l'ampleur des efforts et investissements à consentir pour construire et maintenir les bases de connaissances linguistiques nécessaires apparaît de plus en plus comme un problème crucial. Un autre problème, plus théorique, est de trouver des moyens simples et efficaces pour définir des « styles d'énoncés » permettant de réduire la « perplexité » des analyseurs, et donc le nombre de questions à poser pour clarifier un énoncé, et de guider l'auteur de façon naturelle vers le genre de texte, puis vers le style d'énoncé le plus approprié.Boitet Christian, Blanchon Hervé. "Promesses et problèmes de la « TAO pour tous ». Après LIDIA-1, une première maquette". In: Langages, 28ᵉ année, n°116, 1994. Le traducteur et l'ordinateur, sous la direction de Jean-René Ladmiral. pp. 20-47
    • …
    corecore