936 research outputs found
Example-based machine translation of the Basque language
Basque is both a minority and a highly inflected language with free order of sentence constituents. Machine Translation of Basque is thus both a real need and a test bed for MT techniques. In this paper, we present a modular Data-Driven MT system which includes different chunkers as well as chunk aligners which can deal with the free order of sentence constituents of Basque. We conducted Basque to English translation experiments, evaluated on a large corpus
(270, 000 sentence pairs). The experimental results show that our system significantly outperforms state-of-the-art
approaches according to several common automatic evaluation metrics
Basque-to-Spanish and Spanish-to-Basque machine translation for the health domain
[EU]Master Amaierako Lan honek medikuntza domeinuko euskara eta gaztelera arteko itzulpen automatiko sistema bat garatzeko helburuarekin emandako lehenengo urratsak aurkezten ditu. Corpus elebidun nahikoaren faltan, hainbat esperimentu burutu dira Itzulpen Automatiko Neuronalean erabiltzen diren parametroak domeinuz kanpoko corpusean aztertzeko; medikuntza domeinuan izandako jokaera ebaluatzeko ordea, eskuz itzulitako corpusa erabili da medikuntza domeinuko corpusen presentzia handituz entrenatutako sistema desberdinak probatzeko. Lortutako emaitzek deskribatutako helbururako bidean lehenengo aurrerapausoa suposatzen dute.[EN]This project presents the initial steps towards the objective of
developing a Machine Translation system for the health domain between
Basque and Spanish. In the absence of a big enough bilingual corpus,
several experiments have been carried out to test different Neural
Machine Translation parameters on an out-of-domain corpus; while
performance on the health domain has been evaluated with a manually
translated corpus in different systems trained with increasing presence
of health domain corpora. The results obtained represent a first step
forward to the described objective
Hybrid machine translation guided by a rule-based system
This paper presents a machine translation architecture which hybridizes Matxin, a rulebased system, with regular phrase-based Statistical Machine Translation. In short, the hybrid translation process is guided by the rulebased engine and, before transference, a set of partial candidate translations provided by SMT subsystems is used to enrich the treebased representation. The final hybrid translation is created by choosing the most probable combination among the available fragments with a statistical decoder in a monotonic way.
We have applied the hybrid model to a pair
of distant languages, Spanish and Basque, and
according to our evaluation (both automatic
and manual) the hybrid approach significantly
outperforms the best SMT system on out-of-domain data.Peer ReviewedPostprint (author’s final draft
EUSMT: incorporating linguistic information to SMT for a morphologically rich language. Its use in SMT-RBMT-EBMT hybridation
148 p.: graf.This thesis is defined in the framework of machine translation for Basque. Having developed a Rule-Based Machine Translation (RBMT) system for Basque in the IXA group (Mayor, 2007), we decided to tackle the Statistical Machine Translation (SMT) approach and experiment on how we could adapt it to the peculiarities of the Basque language.
First, we analyzed the impact of the agglutinative nature of Basque and the best way to deal with it. In order to deal with the problems presented above, we have split up Basque words into the lemma and some tags which represent the morphological information expressed by the inflection. By dividing each Basque word in this way, we aim to reduce the sparseness produced by the agglutinative nature of Basque and the small amount of training data.
Similarly, we also studied the differences in word order between Spanish and Basque, examining different techniques for dealing with them. we confirm the weakness of the basic SMT in dealing with great word order differences in the source and target languages. Distance-based reordering, which is the technique used by the baseline system, does not have enough information to properly handle great word order differences, so any of the techniques tested in this work (based on both statistics and manually generated rules) outperforms the baseline.
Once we had obtained a more accurate SMT system, we started the first attempts to combine different MT systems into a hybrid one that would allow us to get the best of the different paradigms. The hybridization attempts carried out in this PhD dissertation are preliminaries, but, even so, this work can help us to determine the ongoing steps.
This thesis is defined in the framework of machine translation for Basque. Having developed a Rule-Based Machine Translation (RBMT) system for Basque in the IXA group (Mayor, 2007), we decided to tackle the Statistical Machine Translation (SMT) approach and experiment on how we could adapt it to the peculiarities of the Basque language.
First, we analyzed the impact of the agglutinative nature of Basque and the best way to deal with it. In order to deal with the problems presented above, we have split up Basque words into the lemma and some tags which represent the morphological information expressed by the inflection. By dividing each Basque word in this way, we aim to reduce the sparseness produced by the agglutinative nature of Basque and the small amount of training data.
Similarly, we also studied the differences in word order between Spanish and Basque, examining different techniques for dealing with them. we confirm the weakness of the basic SMT in dealing with great word order differences in the source and target languages. Distance-based reordering, which is the technique used by the baseline system, does not have enough information to properly handle great word order differences, so any of the techniques tested in this work (based on both statistics and manually generated rules) outperforms the baseline.
Once we had obtained a more accurate SMT system, we started the first attempts to combine different MT systems into a hybrid one that would allow us to get the best of the different paradigms. The hybridization attempts carried out in this PhD dissertation are preliminaries, but, even so, this work can help us to determine the ongoing steps.Eusko Jaurlaritzaren ikertzaileak prestatzeko beka batekin (BFI05.326)eginda
Basque-to-Spanish and Spanish-to-Basque machine translation for the health domain
[EU]Master Amaierako Lan honek medikuntza domeinuko euskara eta gaztelera arteko itzulpen automatiko sistema bat garatzeko helburuarekin emandako lehenengo urratsak aurkezten ditu. Corpus elebidun nahikoaren faltan, hainbat esperimentu burutu dira Itzulpen Automatiko Neuronalean erabiltzen diren parametroak domeinuz kanpoko corpusean aztertzeko; medikuntza domeinuan izandako jokaera ebaluatzeko ordea, eskuz itzulitako corpusa erabili da medikuntza domeinuko corpusen presentzia handituz entrenatutako sistema desberdinak probatzeko. Lortutako emaitzek deskribatutako helbururako bidean lehenengo aurrerapausoa suposatzen dute.[EN]This project presents the initial steps towards the objective of
developing a Machine Translation system for the health domain between
Basque and Spanish. In the absence of a big enough bilingual corpus,
several experiments have been carried out to test different Neural
Machine Translation parameters on an out-of-domain corpus; while
performance on the health domain has been evaluated with a manually
translated corpus in different systems trained with increasing presence
of health domain corpora. The results obtained represent a first step
forward to the described objective
Depth of Encoding Through Observed Gestures in Foreign Language Word Learning
Word learning is basic to foreign language acquisition, however time consuming and not always successful. Empirical studies have shown that traditional (visual) word learning can be enhanced by gestures. The gesture benefit has been attributed to depth of encoding. Gestures can lead to depth of encoding because they trigger semantic processing and sensorimotor enrichment of the novel word. However, the neural underpinning of depth of encoding is still unclear. Here, we combined an fMRI and a behavioral study to investigate word encoding online. In the scanner, participants encoded 30 novel words of an artificial language created for experimental purposes and their translation into the subjects\u2019 native language. Participants encoded the words three times: visually, audiovisually, and by additionally observing semantically related gestures performed by an actress. Hemodynamic activity during word encoding revealed the recruitment of cortical areas involved in stimulus processing. In this study, depth of encoding can be spelt out in terms of sensorimotor brain networks that grow larger the more sensory modalities are linked to the novel word. Word retention outside the scanner documented a positive effect of gestures in a free recall test in the short term
Ontology Localization
Nuestra meta principal en esta tesis es proponer una solución para construir una ontología multilingüe, a través de la localización automática de una ontología. La noción de localización viene del área de Desarrollo de Software que hace referencia a la adaptación de un producto de software a un ambiente no nativo. En la Ingeniería Ontológica, la localización de ontologías podría ser considerada como un subtipo de la localización de software en el cual el producto es un modelo compartido de un dominio particular, por ejemplo, una ontología, a ser usada por una cierta aplicación. En concreto, nuestro trabajo introduce una nueva propuesta para el problema de multilingüismo, describiendo los métodos, técnicas y herramientas para la localización de recursos ontológicos y cómo el multilingüismo puede ser representado en las ontologías. No es la meta de este trabajo apoyar una única propuesta para la localización de ontologías, sino más bien mostrar la variedad de métodos y técnicas que pueden ser readaptadas de otras áreas de conocimiento para reducir el costo y esfuerzo que significa enriquecer una ontología con información multilingüe. Estamos convencidos de que no hay un único método para la localización de ontologías. Sin embargo, nos concentramos en soluciones automáticas para la localización de estos recursos. La propuesta presentada en esta tesis provee una cobertura global de la actividad de localización para los profesionales ontológicos. En particular, este trabajo ofrece una explicación formal de nuestro proceso general de localización, definiendo las entradas, salidas, y los principales pasos identificados. Además, en la propuesta consideramos algunas dimensiones para localizar una ontología. Estas dimensiones nos permiten establecer una clasificación de técnicas de traducción basadas en métodos tomados de la disciplina de traducción por máquina. Para facilitar el análisis de estas técnicas de traducción, introducimos una estructura de evaluación que cubre sus aspectos principales. Finalmente, ofrecemos una vista intuitiva de todo el ciclo de vida de la localización de ontologías y esbozamos nuestro acercamiento para la definición de una arquitectura de sistema que soporte esta actividad. El modelo propuesto comprende los componentes del sistema, las propiedades visibles de esos componentes, las relaciones entre ellos, y provee además, una base desde la cual sistemas de localización de ontologías pueden ser desarrollados. Las principales contribuciones de este trabajo se resumen como sigue: - Una caracterización y definición de los problemas de localización de ontologías, basado en problemas encontrados en áreas relacionadas. La caracterización propuesta tiene en cuenta tres problemas diferentes de la localización: traducción, gestión de la información, y representación de la información multilingüe. - Una metodología prescriptiva para soportar la actividad de localización de ontologías, basada en las metodologías de localización usadas en Ingeniería del Software e Ingeniería del Conocimiento, tan general como es posible, tal que ésta pueda cubrir un amplio rango de escenarios. - Una clasificación de las técnicas de localización de ontologías, que puede servir para comparar (analíticamente) diferentes sistemas de localización de ontologías, así como también para diseñar nuevos sistemas, tomando ventaja de las soluciones del estado del arte. - Un método integrado para construir sistemas de localización de ontologías en un entorno distribuido y colaborativo, que tenga en cuenta los métodos y técnicas más apropiadas, dependiendo de: i) el dominio de la ontología a ser localizada, y ii) la cantidad de información lingüística requerida para la ontología final. - Un componente modular para soportar el almacenamiento de la información multilingüe asociada a cada término de la ontología. Nuestra propuesta sigue la tendencia actual en la integración de la información multilingüe en las ontologías que sugiere que el conocimiento de la ontología y la información lingüística (multilingüe) estén separados y sean independientes. - Un modelo basado en flujos de trabajo colaborativos para la representación del proceso normalmente seguido en diferentes organizaciones, para coordinar la actividad de localización en diferentes lenguajes naturales. - Una infraestructura integrada implementada dentro del NeOn Toolkit por medio de un conjunto de plug-ins y extensiones que soporten el proceso colaborativo de localización de ontologías
Automatic medical term generation for a low-resource language: translation of SNOMED CT into Basque
211 p. (eusk.)
148 p. (eng.)Tesi-lan honetan, terminoak automatikoki euskaratzeko sistemak garatu eta ebaluatu ditugu. Horretarako,SNOMED CT, terminologia kliniko zabala barnebiltzen duen ontologia hartu dugu abiapuntutzat, etaEuSnomed deritzon sistema garatu dugu horren euskaratzea kudeatzeko. EuSnomedek lau urratsekoalgoritmoa inplementatzen du terminoen euskarazko ordainak lortzeko: Lehenengo urratsak baliabidelexikalak erabiltzen ditu SNOMED CTren terminoei euskarazko ordainak zuzenean esleitzeko. Besteakbeste, Euskalterm banku terminologikoa, Zientzia eta Teknologiaren Hiztegi Entziklopedikoa, eta GizaAnatomiako Atlasa erabili ditugu. Bigarren urratserako, ingelesezko termino neoklasikoak euskaratzekoNeoTerm sistema garatu dugu. Sistema horrek, afixu neoklasikoen baliokidetzak eta transliterazio erregelakerabiltzen ditu euskarazko ordainak sortzeko. Hirugarrenerako, ingelesezko termino konplexuak euskaratzendituen KabiTerm sistema garatu dugu. KabiTermek termino konplexuetan agertzen diren habiaratutakoterminoen egiturak erabiltzen ditu euskarazko egiturak sortzeko, eta horrela termino konplexuakosatzeko. Azken urratsean, erregeletan oinarritzen den Matxin itzultzaile automatikoa osasun-zientziendomeinura egokitu dugu, MatxinMed sortuz. Horretarako Matxin domeinura egokitzeko prestatu dugu,eta besteak beste, hiztegia zabaldu diogu osasun-zientzietako testuak itzuli ahal izateko. Garatutako lauurratsak ebaluatuak izan dira metodo ezberdinak erabiliz. Alde batetik, aditu talde txiki batekin egin dugulehenengo bi urratsen ebaluazioa, eta bestetik, osasun-zientzietako euskal komunitateari esker egin dugunMedbaluatoia kanpainaren baitan azkeneko bi urratsetako sistemen ebaluazioa egin da
Analysis on the impact of the source text quality: Building a data-driven typology
In this study we propose a typology which concerns source errors and linguistic
structures that might have an impact on Machine Translation (MT). Although most typologies
are built on a bilingual level, the source text (ST) also presents issues that cannot be expected
to be resolved by MT. In this study, we were able to test whether or not the quality of the ST
has an impact on the target text (TT) quality.
For that purpose, source data was annotated. The data analyzed was both inbound
(user-generated content) and outbound (agent) in the context of chat. Through this analysis, it
was possible to build a data driven typology. To aid the construction of a new typology, there
was also a comparison between multiple typologies, whether they have a bilingual or a
monolingual focus. This allowed us to see what could be applied to a monolingual typology
and what was missing. With the annotation results, it was possible to build a new typology —
Source Typology.
To assist future annotators, we provided annotation guidelines with a listing of all the
issue types, an explanation of the different span types, the severities to be used and the tricky
cases that might occur during the annotation process.
In order to test the reliability of the typology, three different case studies of an internal
pilot were conducted. Each case study had a different goal and took into account different
language pairs. By testing the Source Typology, we could see its effectiveness and reliability
and what should be improved.
In the end, we demonstrated that the quality of the ST can actually have an impact on
the TT quality, where, at times, minor errors on the source would become or originate critical
errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source
Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm
impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo
em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser
previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não
impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo
impacto.
Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de
erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF
Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas
na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e
também quais as classes de erros previamente utilizadas.
De forma a ter mais informações sobre este tema, foi realizada uma análise de dados
do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por
utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este
processo permite a identificação e categorização de erros e difere conforme as diretrizes
apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma
Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi
construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP.
Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no
TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante
específica, trazendo consigo simultaneamente as características da escrita e do diálogo.
Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes
tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo
sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar
com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é
requerida no apoio ao cliente, e de ter condições de vida precárias.
Esta análise foi efetuada através de uma das métricas manuais de qualidade mais
amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta
no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP.
Através desta análise, foi possível criar uma tipologia baseada em dados.
Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source
Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o
processo de anotação com a listagem de todas as classes de erros (incluindo as novas
adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as
severidades utilizadas e os casos complicados que podem surgir durante o processo de
anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de
decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a
assistir na escolha da severidade adequada.
De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três
estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas
(representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências,
emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos
realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas.
Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP
tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a
severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA.
O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos
produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da
Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua
de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais
frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com
o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos,
algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise
mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido
transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9
estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se
que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em
erros críticos no TC.
O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos
por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos
agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em
particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como
LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor
resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros
encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no
TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra
no TP ter tido impacto no TC.
O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir
várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do
agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais
alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu,
português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua
diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta
análise, que o número de erros foi superior ao número de segmentos, o que significa que, por
média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras
com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros.
Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo
processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também
se verificou que algumas classes de erros não foram anotadas de forma correta ou que não
foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência
da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas
situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa,
também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas
neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC.
Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o
que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator
Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que
resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não
concordância entre os anotadores, como também a concordância que os anotadores tiveram
consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas
línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este
processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção
nas diretrizes.
Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto,
impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam
ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros
cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar
a tipologia, que está em produção na Unbabel
- …