6,643 research outputs found
Experiments on domain adaptation for English-Hindi SMT
Statistical Machine Translation (SMT) systems are usually trained on large amounts of bilingual text and monolingual target language text. If a significant amount of out-of-domain data is added to the training data, the quality of translation can drop. On the other hand, training an SMT system on a small amount of training material for given indomain data leads to narrow lexical coverage which again results in a low translation quality. In this paper, (i) we explore domain-adaptation techniques to combine large out-of-domain training data with small-scale in-domain training data for English—Hindi statistical machine translation and (ii) we cluster large out-of-domain training data to extract sentences similar to in-domain sentences and apply adaptation techniques to combine clustered sub-corpora
with in-domain training data into a unified framework, achieving a 0.44 absolute corresponding to a 4.03% relative improvement in terms of BLEU over the baseline
A question-answering machine learning system for FAQs
With the increase in usage and dependence on the internet for gathering
information, it’s now essential to efficiently retrieve information according
to users’ needs. Question Answering (QA) systems aim to fulfill this need
by trying to provide the most relevant answer for a user’s query expressed
in natural language text or speech. Virtual assistants like Apple Siri and
automated FAQ systems have become very popular and with this the constant
rush of developing an efficient, advanced and expedient QA system is
reaching new limits.
In the field of QA systems, this thesis addresses the problem of finding the
FAQ question that is most similar to a user’s query. Finding semantic similarities
between database question banks and natural language text is its
foremost step. The work aims at exploring unsupervised approaches for
measuring semantic similarities for developing a closed domain QA system.
To meet this objective modern sentence representation techniques, such as
BERT and FLAIR GloVe, are coupled with various similarity measures (cosine,
Euclidean and Manhattan) to identify the best model. The developed
models were tested with three FAQs and SemEval 2015 datasets for English
language; the best results were obtained from the coupling of BERT embedding
with Euclidean distance similarity measure with a performance of
85.956% on a FAQ dataset. The model is also tested for Portuguese language
with Portuguese Health support phone line SNS24 dataset; Sumário:
Um sistema de pergunta-resposta de aprendizagem
automatica para FAQs
Com o aumento da utilização e da dependência da internet para a recolha
de informação, tornou-se essencial recuperar a informação de forma eficiente
de acordo com as necessidades dos utilizadores. Os Sistemas de Pergunta-
Resposta (PR) visam responder a essa necessidade, tentando fornecer a resposta
mais relevante para a consulta de um utilizador expressa em texto em
linguagem natural escrita ou falada. Os assistentes virtuais como o Apple
Siri e sistemas automatizados de perguntas frequentes tornaram-se muito
populares aumentando a necessidade de desenvolver um sistema de controle
de qualidade eficiente, avançado e conveniente.
No campo dos sistemas de PR, esta dissertação aborda o problema de encontrar
a pergunta que mais se assemelha à consulta de um utilizador. Encontrar
semelhanças semânticas entre a base de dados de perguntas e o texto em
linguagem natural é a sua etapa mais importante. Neste sentido, esta dissertação
tem como objetivo explorar abordagens não supervisionadas para
medir similaridades semânticas para o desenvolvimento de um sistema de
pergunta-resposta de domínio fechado. Neste sentido, técnicas modernas
de representação de frases como o BERT e FLAIR GloVe são utilizadas em
conjunto com várias medidas de similaridade (cosseno, Euclidiana e Manhattan)
para identificar os melhores modelos. Os modelos desenvolvidos foram
testados com conjuntos de dados de três FAQ e o SemEval 2015; os melhores
resultados foram obtidos da combinação entre modelos de embedding
BERT e a distância euclidiana, tendo-se obtido um desempenho máximo de
85,956% num conjunto de dados FAQ. O modelo também é testado para a
língua portuguesa com o conjunto de dados SNS24 da linha telefónica de
suporte de saúde em português
- …