58 research outputs found
Searching to Translate and Translating to Search: When Information Retrieval Meets Machine Translation
With the adoption of web services in daily life, people have access to tremendous amounts of information, beyond any human's reading and comprehension capabilities. As a result, search technologies have become a fundamental tool for accessing information. Furthermore, the web contains information in multiple languages, introducing another barrier between people and information.
Therefore, search technologies need to handle content written in
multiple languages, which requires techniques to account for the linguistic differences. Information Retrieval (IR) is the study of search techniques, in which the task is to find material relevant to a given information need. Cross-Language Information Retrieval (CLIR) is a special case of IR when the search takes place in a multi-lingual collection.
Of course, it is not helpful to retrieve content in languages the user cannot understand. Machine Translation (MT) studies the translation of text from one language into another efficiently (within a reasonable amount of time) and effectively (fluent and retaining the original meaning), which helps people understand what is being written, regardless of the source language.
Putting these together, we observe that search and translation technologies are part of an important user application, calling for a better integration of search (IR) and translation (MT), since these two technologies need to work together to produce high-quality output.
In this dissertation, the main goal is to build better connections between IR and MT, for which we present solutions to two problems: Searching to translate explores approximate search techniques for extracting bilingual data from multilingual Wikipedia collections to train better translation models. Translating to search explores the integration of a modern statistical MT system into the cross-language search processes. In both cases, our best-performing approach yielded improvements over strong baselines for a variety of language pairs.
Finally, we propose a general architecture, in which various components of IR and MT systems can be connected together into a feedback loop, with potential improvements to both search and translation tasks. We hope that the ideas presented in this dissertation will spur more interest in the integration of search and
translation technologies
A novel dependency-based evaluation metric for machine translation
Automatic evaluation measures such as BLEU (Papineni et al. (2002)) and NIST (Doddington (2002)) are indispensable in the development of Machine Translation (MT) systems, because they allow MT developers to conduct frequent, fast, and cost-effective evaluations of their evolving translation models. However, most of the automatic evaluation metrics rely on a comparison of word strings, measuring only the surface similarity of the candidate and reference translations, and will penalize any divergence. In effect,a candidate translation expressing the source meaning accurately and fluently will be given a low score if the lexical and syntactic choices it contains, even though perfectly legitimate, are not present in at least one of the references. Necessarily, this score would differ from a much more favourable human judgment that such a translation would receive.
This thesis presents a method that automatically evaluates the quality of translation based on the labelled dependency structure of the sentence, rather than on its surface form. Dependencies abstract away from the some of the particulars of the surface string realization and provide a more "normalized" representation of (some) syntactic variants
of a given sentence. The translation and reference files are analyzed by a treebank-based, probabilistic Lexical-Functional Grammar (LFG) parser (Cahill et al. (2004)) for English, which produces a set of dependency triples for each input. The translation set is compared to the reference set, and the number of matches is calculated, giving the precision, recall, and f-score for that particular translation. The use of WordNet synonyms and partial matching during the evaluation process allows for adequate treatment of lexical variation, while employing a number of best parses helps neutralize the noise
introduced during the parsing stage.
The dependency-based method is compared against a number of other popular MT evaluation metrics, including BLEU, NIST, GTM (Turian et al. (2003)), TER (Snover et al. (2006)), and METEOR (Banerjee and Lavie (2005)), in terms of segment- and
system-level correlations with human judgments of fluency and adequacy. We also examine whether it shows bias towards statistical MT models. The comparison of the dependency-based method with other evaluation metrics is
then extended to languages other than English: French, German, Spanish, and Japanese, where we apply our method to dependencies generated by Microsoft's NLPWin analyzer (Corston-Oliver and Dolan (1999); Heidorn (2000)) as well as, in the case of the Spanish data, those produced by the treebank-based, probabilistic LFG parser of Chrupa la and
van Genabith (2006a,b)
Analysis on the impact of the source text quality: Building a data-driven typology
In this study we propose a typology which concerns source errors and linguistic
structures that might have an impact on Machine Translation (MT). Although most typologies
are built on a bilingual level, the source text (ST) also presents issues that cannot be expected
to be resolved by MT. In this study, we were able to test whether or not the quality of the ST
has an impact on the target text (TT) quality.
For that purpose, source data was annotated. The data analyzed was both inbound
(user-generated content) and outbound (agent) in the context of chat. Through this analysis, it
was possible to build a data driven typology. To aid the construction of a new typology, there
was also a comparison between multiple typologies, whether they have a bilingual or a
monolingual focus. This allowed us to see what could be applied to a monolingual typology
and what was missing. With the annotation results, it was possible to build a new typology —
Source Typology.
To assist future annotators, we provided annotation guidelines with a listing of all the
issue types, an explanation of the different span types, the severities to be used and the tricky
cases that might occur during the annotation process.
In order to test the reliability of the typology, three different case studies of an internal
pilot were conducted. Each case study had a different goal and took into account different
language pairs. By testing the Source Typology, we could see its effectiveness and reliability
and what should be improved.
In the end, we demonstrated that the quality of the ST can actually have an impact on
the TT quality, where, at times, minor errors on the source would become or originate critical
errors on the target. The typology is now being applied at Unbabel.Neste trabalho propõe-se uma tipologia do texto de partida (do inglês, Source
Typology) que considera erros no texto de partida (TP) e estruturas linguísticas que têm
impacto na tradução automática (TA). Embora a maioria das tipologias seja construída tendo
em conta um nível bilíngue, o TP também apresenta problemas que não conseguem ser
previstos pela TA. Neste trabalho, foi possível testar se a qualidade do TP tem ou não
impacto na qualidade do texto de chegada (TC) e como aferir objetivamente esse mesmo
impacto.
Inicialmente, foi efetuada uma comparação com diferentes tipologias de anotação de
erros, quer estas considerassem um nível bilíngue ou monolíngue (e.g., TAUS MQM-DQF
Typology, MQM Top-Level e SCATE MT error taxonomy, tipologias que serão apresentadas
na Secção 2.4). Esta comparação possibilitou verificar as semelhanças e diferenças entre si e
também quais as classes de erros previamente utilizadas.
De forma a ter mais informações sobre este tema, foi realizada uma análise de dados
do TP. Os dados foram analisados em contexto do conteúdo de chat e produzidos por
utilizadores e agentes. Esta análise foi realizada através do processo de anotação. Este
processo permite a identificação e categorização de erros e difere conforme as diretrizes
apresentadas. Nesta primeira fase, o processo de anotação foi efetuado na plataforma
Annotation Tool com a Tipologia de Erros da Unbabel. Uma vez que esta tipologia foi
construída num contexto bilíngue, verificaram-se quais os erros que também sucediam no TP.
Além disso, foi possível averiguar, nesta análise, quais eram os erros mais comuns no
TP e examinar as diferenças entre um utilizador e um agente. A linguagem de chat é bastante
específica, trazendo consigo simultaneamente as características da escrita e do diálogo.
Enquanto o utilizador tem uma linguagem menos cuidada, algo que dá origem a diferentes
tipos de erros, o agente tem de seguir um guião com soluções pré-definidas, atendendo
sempre a restrições de tempo. Para além destes restringimentos, os agentes ainda têm de lidar
com o facto de, na sua maioria, não serem nativos da língua inglesa, aquela que lhes é
requerida no apoio ao cliente, e de ter condições de vida precárias.
Esta análise foi efetuada através de uma das métricas manuais de qualidade mais
amplamente utilizada na área da TA — Multidimensional Quality Metric (MQM) — proposta
no projeto QTLaunchPad (2014), financiado pela União Europeia. Assim, os resultados do processo de anotação foram convertidos de modo quantificável, para aferir a qualidade do TP.
Através desta análise, foi possível criar uma tipologia baseada em dados.
Com os resultados desta análise, foi possível produzir uma nova tipologia — a Source
Typology. Para auxiliar futuros anotadores desta tipologia, foram fornecidas diretrizes para o
processo de anotação com a listagem de todas as classes de erros (incluindo as novas
adições), esclarecimentos quanto aos tipos de segmentos conforme a anotação pretendida, as
severidades utilizadas e os casos complicados que podem surgir durante o processo de
anotação. De forma a clarificar esta última secção, também foram fornecidas duas árvores de
decisão, uma delas a assistir na classificação de erros ou de estruturas linguísticas e outra a
assistir na escolha da severidade adequada.
De modo a comprovar a fiabilidade da tipologia, foi realizado um piloto com três
estudos distintos, com um total de 26855 palavras, 2802 erros e 239 estruturas linguísticas
(representadas na severidade ‘Neutra’ — associadas a marcadores discursivos, disfluências,
emojis, etc., mecanismos característicos do discurso oral) anotados. Cada um dos estudos
realizados no piloto abrangeu diferentes objetivos e teve em conta distintos pares de línguas.
Em todos os estudos realizou-se uma análise para verificar se os erros encontrados no TP
tinham sido originados ou transferidos para o TC e se as estruturas linguísticas com a
severidade ‘Neutra’ tiveram ou não algum impacto nos sistemas de TA.
O primeiro estudo, PT-BR_EN inbounds, focou-se em PT-BR_EN e considerou textos
produzidos por utilizadores. Este estudo foi realizado tendo em conta diferentes clientes da
Unbabel. Neste estudo a língua de partida (LP) utilizada foi o português do Brasil e a língua
de chegada (LC) foi o inglês. O valor de MQM no TP foi elevado (72.26), pois os erros mais
frequentes eram erros de tipografia, ou seja, de baixa severidade. Contudo, ao comparar com
o valor de MQM no TC, houve uma grande disparidade. No TC houve muitos erros críticos,
algo que não seria de esperar, dada a qualidade do TP. Esta discrepância implicou uma análise
mais aprofundada. Desta análise, verificou-se que 34 erros presentes no TP tinham sido
transferidos para o TC, 29 erros no TP deram origem a outros erros no TC e houve 9
estruturas neutras que tiveram impacto no TC. Ao examinar diferentes exemplos, observou-se
que grande parte dos erros de baixa severidade e as 9 estruturas neutras no TP resultaram em
erros críticos no TC.
O segundo estudo, Agent Annotation, concentrou-se em textos em inglês produzidos
por agentes da área de apoio ao cliente. É importante referir que o inglês não é “nativo”. Ao contrário do primeiro estudo, este derivou apenas de um cliente, uma vez que os dados dos
agentes são dependentes dos clientes específicos e de guiões fornecidos por cada cliente em
particular. Neste estudo foram utilizadas duas línguas, o inglês como LP e o francês como
LC. Ao contrário do primeiro estudo, o valor de MQM do TC foi mais elevado do que o valor
resultante do TP. Porém, também foi realizada a mesma análise neste estudo. 59 erros
encontrados no TP foram transferidos para o TC e 40 erros no TP originaram novos erros no
TC. Uma grande diferença entre o primeiro e segundo estudo foi de nenhuma estrutura neutra
no TP ter tido impacto no TC.
O último estudo, Multilingual internal pilot, foi o mais extenso de todos por incluir
várias línguas e vários anotadores, tendo em conta tanto o lado do utilizador como o do
agente. Relativamente aos estudos prévios, este estudo foi realizado numa escala bem mais
alargada. As línguas anotadas neste estudo foram: holandês, italiano, espanhol europeu,
português do Brasil, romeno, polaco, alemão e inglês. Os valores de MQM em cada língua
diferem de acordo com as diferenças entre línguas e os erros encontrados. Observou-se, nesta
análise, que o número de erros foi superior ao número de segmentos, o que significa que, por
média, cada segmento apresentava mais do que um erro. Neste estudo, as estruturas neutras
com impacto no TC foram divididas por classes e não por línguas devido à extensão de erros.
Conjuntamente, também foram apresentadas as suas formas corretas nas LC. O mesmo
processo foi realizado para os erros críticos encontrados no TP. Ao longo da análise, também
se verificou que algumas classes de erros não foram anotadas de forma correta ou que não
foram anotadas quando eram necessárias. Este fenómeno permitiu logo verificar a eficiência
da tipologia e das suas diretrizes. Desse modo, são apresentados os casos em que essas
situações surgiram e as razões por detrás do sucedido. Para uma análise mais completa,
também foi investigado se estes casos tiveram algum impacto no TC. Das 44 estruturas
neutras que não foram anotadas no TP, 10 delas tiveram, de facto, impacto no TC.
Ao testar a Source Typology, foi permitido ratificar a sua eficiência e a fiabilidade e o
que deve ser melhorado. A eficácia da tipologia foi avaliada através do Inter-annotator
Agreement (IAA), uma metodologia que permite identificar ambiguidades e falhas que
resultaram do processo de anotação. O IAA possibilita averiguar se houve ou não
concordância entre os anotadores, como também a concordância que os anotadores tiveram
consigo mesmos. Outra particularidade do IAA é verificar se os anotadores das mesmas
línguas têm a mesma noção de extensão de um erro ou estrutura linguística. Instruções quanto a este tópico foram explicitadas nas diretrizes, mas ainda pode haver dúvidas sobre este
processo de segmentação de erros. Assim, surge uma oportunidade para melhorar essa secção
nas diretrizes.
Por fim, através destes estudos foi demonstrado que a qualidade do TP tem, de facto,
impacto na qualidade do TC, em que, por vezes, erros mínimos encontrados no TP se tornam
ou originam erros críticos no TC. Estes estudos também permitiram perceber quais os erros
cometidos pelos utilizadores e os agentes e a diferença entre eles e, ao mesmo tempo, validar
a tipologia, que está em produção na Unbabel
All Purpose Textual Data Information Extraction, Visualization and Querying
abstract: Since the advent of the internet and even more after social media platforms, the explosive growth of textual data and its availability has made analysis a tedious task. Information extraction systems are available but are generally too specific and often only extract certain kinds of information they deem necessary and extraction worthy. Using data visualization theory and fast, interactive querying methods, leaving out information might not really be necessary. This thesis explores textual data visualization techniques, intuitive querying, and a novel approach to all-purpose textual information extraction to encode large text corpus to improve human understanding of the information present in textual data.
This thesis presents a modified traversal algorithm on dependency parse output of text to extract all subject predicate object pairs from text while ensuring that no information is missed out. To support full scale, all-purpose information extraction from large text corpuses, a data preprocessing pipeline is recommended to be used before the extraction is run. The output format is designed specifically to fit on a node-edge-node model and form the building blocks of a network which makes understanding of the text and querying of information from corpus quick and intuitive. It attempts to reduce reading time and enhancing understanding of the text using interactive graph and timeline.Dissertation/ThesisMasters Thesis Software Engineering 201
Reversible stochastic attribute-value grammars
Een bekende vraag in de taalkunde is de vraag of de mens twee onafhankelijke modules heeft voor taalbegrip en taalproductie. In de computertaalkunde zijn taalbegrip (ontleding) en taalproductie (generatie) in de recente geschiedenis eigenlijk altijd als twee afzonderlijke taken en dus modules behandeld. De hoofdstelling van dit proefschrift is dat ontleding en generatie op een computer door één component uitgevoerd kan worden, zonder slechter te presteren dan afzonderlijke componenten voor ontleding en generatie. De onderliggende redenering is dat veel voorkeuren gedeeld moeten zijn tussen productie en begrip, omdat het anders niet mogelijk zou zijn om een geproduceerde zin te begrijpen. Om deze stelling te onderbouwen is er eerst een generator voor het Nederlands ontwikkeld. Deze generator is vervolgens geïntegreerd met een bestaande ontleder voor het Nederlands. Het proefschrift toont aan dat er inderdaad geen significant verschil is tussen de prestaties van de geïntegreerde module en afzonderlijke begrips- en productiecomponenten. Om een beter begrip te krijgen hoe het gecombineerde model werkt, wordt er zogenaamde `feature selectie’ toegepast. Dit is een techniek om de belangrijkste eigenschappen die een begrijpelijke en vloeiende zin karakteriseren op te sporen. Het proefschrift toont aan dat dit met een klein aantal, voornamelijk taalkundig geïnformeerde eigenschappen bepaald kan worden
A Survey of Paraphrasing and Textual Entailment Methods
Paraphrasing methods recognize, generate, or extract phrases, sentences, or
longer natural language expressions that convey almost the same information.
Textual entailment methods, on the other hand, recognize, generate, or extract
pairs of natural language expressions, such that a human who reads (and trusts)
the first element of a pair would most likely infer that the other element is
also true. Paraphrasing can be seen as bidirectional textual entailment and
methods from the two areas are often similar. Both kinds of methods are useful,
at least in principle, in a wide range of natural language processing
applications, including question answering, summarization, text generation, and
machine translation. We summarize key ideas from the two areas by considering
in turn recognition, generation, and extraction methods, also pointing to
prominent articles and resources.Comment: Technical Report, Natural Language Processing Group, Department of
Informatics, Athens University of Economics and Business, Greece, 201
Crowdsourcing High-Quality Parallel Data Extraction from Twitter *
Abstract High-quality parallel data is crucial for a range of multilingual applications, from tuning and evaluating machine translation systems to cross-lingual annotation projection. Unfortunately, automatically obtained parallel data (which is available in relative abundance) tends to be quite noisy. To obtain high-quality parallel data, we introduce a crowdsourcing paradigm in which workers with only basic bilingual proficiency identify translations from an automatically extracted corpus of parallel microblog messages. For less than $350, we obtained over 5000 parallel segments in five language pairs. Evaluated against expert annotations, the quality of the crowdsourced corpus is significantly better than existing automatic methods: it obtains an performance comparable to expert annotations when used in MERT tuning of a microblog MT system; and training a parallel sentence classifier with it leads also to improved results. The crowdsourced corpora will be made available i
- …