123 research outputs found
UWSpeech: Speech to Speech Translation for Unwritten Languages
Existing speech to speech translation systems heavily rely on the text of
target language: they usually translate source language either to target text
and then synthesize target speech from text, or directly to target speech with
target text for auxiliary training. However, those methods cannot be applied to
unwritten target languages, which have no written text or phoneme available. In
this paper, we develop a translation system for unwritten languages, named as
UWSpeech, which converts target unwritten speech into discrete tokens with a
converter, and then translates source-language speech into target discrete
tokens with a translator, and finally synthesizes target speech from target
discrete tokens with an inverter. We propose a method called XL-VAE, which
enhances vector quantized variational autoencoder (VQ-VAE) with cross-lingual
(XL) speech recognition, to train the converter and inverter of UWSpeech
jointly. Experiments on Fisher Spanish-English conversation translation dataset
show that UWSpeech outperforms direct translation and VQ-VAE baseline by about
16 and 10 BLEU points respectively, which demonstrate the advantages and
potentials of UWSpeech
Chinese–Spanish neural machine translation enhanced with character and word bitmap fonts
Recently, machine translation systems based on neural networks have reached state-of-the-art results for some pairs of languages (e.g., German–English). In this paper, we are investigating the performance of neural machine translation in Chinese–Spanish, which is a challenging language pair. Given that the meaning of a Chinese word can be related to its graphical representation, this work aims to enhance neural machine translation by using as input a combination of: words or characters and their corresponding bitmap fonts. The fact of performing the interpretation of every word or character as a bitmap font generates more informed vectorial representations. Best results are obtained when using words plus their bitmap fonts obtaining an improvement (over a competitive neural MT baseline system) of almost six BLEU, five METEOR points and ranked coherently better in the human evaluation.Peer ReviewedPostprint (published version
Machine Translation with Image Context from Mandarin Chinese to English
Despite ongoing improvements in machine translation, machine translators still lack the capability of incorporating context from which source text may have been derived. Machine translators use text from a source language to translate it into a target language without observing any visual context. This work aims to produce a neural machine translation model that is capable of accepting both text and image context as a multimodal translator from Mandarin Chinese to English. The model was trained on a small multimodal dataset of 700 images and sentences, and compared to a translator trained only on the text associated with those images. The model was also trained on a larger text only corpus of 21,000 sentences with and without the addition of the small multimodal dataset. Notable differences were produced between the text only and the multimodal translators when trained on the small 700 sentence and image dataset, however no observable discrepancies were found between the translators trained on the larger text corpus. Further research with a larger multimodal dataset could provide more results clarifying the utility of multimodal machine translation
Exploring Automatic Speech Recognition with TensorFlow
Speech Recognition (reconocimiento de voz) es la tarea que pretende indentificar palabras habladas y convertirlas a texto. Este trabajo de fin de grado se centra en utilizar técnicas de deep learning para construir un sistema de Speech Recognition entrenándolo end-to-end. Como paso preliminar, hacemos un resumen de los métodos más relevantes llevados a cabo los últimos años. A continuación estudiamos uno de los trabajos más recientes en este área que propone un modelo sequence to sequence con atención entrenado end-to-end. Después, reproducimos satisfactoriamente el modelo y lo avaluamos con la base de datos TIMIT. Analizamos los parecidos y diferencias entre la implementación propuesta y el trabajo teórico original. Y finalmente, experimentamos y contrastamos el modelo utilizando diferentes parámetros (e.g. numero de neuronas por capa, la tasa de aprendizaje -learning rate y los batch sizes) y reducimos el Phoneme Error Rate cerca del 12% relativo.Speech recognition is the task aiming to identify words in spoken language and convert them into text. This bachelor's thesis focuses on using deep learning techniques to build an end-to-end Speech Recognition system. As a preliminary step, we overview the most relevant methods carried out over the last several years. Then, we study one of the latest proposals for this end-to-end approach that uses a sequence to sequence model with attention-based mechanisms. Next, we successfully reproduce the model and test it over the TIMIT database. We analyze the similarities and differences between the current implementation proposal and the original theoretical work. And finally, we experiment and contrast using different parameters (e.g. number of layer units, learning rates and batch sizes) and reduce the Phoneme Error Rate in almost 12% relative.Speech Recognition (reconeixement de veu) és la tasca que pretén indentificar paraules del llenguatge parlat i convertir-les a text. Aquest treball de fi de grau es centra en utilitzar tècniques de deep learning per construir un sistema d'Speech Recognition entrenant-lo end-to-end. Com a pas preliminar, fem un resum dels mètodes més rellevants duts a terme els últims anys. A continuació, estudiem un dels treballs més recents en aquesta àrea que proposa un model sequence to sequence amb l?atenció entrenat end-to-end. Després, reproduim satisfactòiament el model i l'avaluem amb la base de dades TIMIT. Analitzem les semblances i diferències entre l'implementació proposada i el treball teòric original. I finalment, experimentem i contrastem el model utilitzant diferents paràmetres (e.g. nombre de neurones per capa, la taxa d'aprenentatge -learning rate- i els batch sizes) i reduim el Phoneme Error Rate gairebé un 12% relatiu
The Multilingual TEDx Corpus for Speech Recognition and Translation
We present the Multilingual TEDx corpus, built to support speech recognition (ASR) and speech translation (ST) research across many non-English source languages. The corpus is a collection of audio recordings from TEDx talks in 8 source languages. We segment transcripts into sentences and align them to the source-language audio and target-language translations. The corpus is released along with open-sourced code enabling extension to new talks and languages as they become available. Our corpus creation methodology can be applied to more languages than previous work, and creates multi-way parallel evaluation sets. We provide baselines in multiple ASR and ST settings, including multilingual models to improve translation performance for low-resource language pairs
Online Learning in Neural Machine Translation
[EN] High quality translations are in high demand these days. Although machine
translation offers acceptable performance, it is not sufficient in some cases and
human supervision is required. In order to ease the translation task of the human,
machine translation systems take part in this process. When a sentence in the
source language needs to be translated, it is fed to the system which outputs a
hypothesis translation. The human then, corrects this hypothesis (also known as
post-editing) in order to obtain a high quality translation. Being able to transfer
the knowledge that a human translator exhibit when post-editing a translation to
the machine translation system is a desirable feature, as it has been proven that a
more accurate machine translation system helps to increase the efficiency of the
post-editing process.
Because the post-editing scenario requires an already trained system, online
learning techniques are suited for this task. In this work, three online learning
algorithms have been proposed and applied to a neural machine translation sys-
tem in a post-editing scenario. They rely on the Passive-Aggressive online learn-
ing approach in which the model is updated after every sample in order to fulfil
a correctness criterion while remembering previously learned information. The
goal is to adapt and refine an already trained system with new samples on-the-
fly as the post-editing process takes place (hence, the update time must be kept
under control).
Moreover, these new algorithms are compared with well-stablished online
learning variants of the stochastic gradient descent algorithm. Results show im-
provements on the translation quality of the system after applying these algo-
rithms, reducing human effort in the post-editing process.[ES] La traducción de gran calidad está muy demandada en la actualidad. A pesar
de que la traducción automática ofrece unas prestaciones aceptables, en algunos
casos no es suficiente y es necesaria la supervisión humana. Para facilitar la tarea
de traducción del humano, los sistemas de traducción automática toman parte en
este proceso. Cuando una nueva oración en el idioma origen necesita ser tradu-
cida, esta se introduce en el sistema, el cual obtiene como salida una hipótesis de
traducción. El humano entonces, corrige esta hipótesis (también conocido como
post-editar) para obtener una traducción de mayor calidad. Ser capaz de transfe-
rir el conocimiento que el humano exhibe cuando realiza la tarea de post-edición
al sistema de traducción automática es una característica deseable puesto que se
ha demostrado que un sistema de traducción mas preciso ayuda a aumentar la
eficiencia del proceso de post-edición.
Debido a que el proceso de post-edición requiere un sistema ya entrenado, las
técnicas de aprendizaje en línea son las adecuadas para esta tarea. En este traba-
jo, se proponen tres algoritmos de aprendizaje en línea aplicados a un traductor
automático neuronal en un escenario de post-edición. Estos algoritmos se basan
en la aproximación en línea Passive-Aggressive en la cual el modelo se actualiza
después de cada muestra con el objetivo de cumplir un criterio de corrección a
la vez que manteniendo información previa aprendida. El objetivo es adaptar y
refinar un sistema ya entrenado con nuevas muestras al vuelo mientras el pro-
ceso de post-edición se lleva a cabo (por tanto, el tiempo de actualización debe
mantenerse bajo control).
Además, estos algoritmos se comparan con otras bien conocidas variantes en
línea del algoritmo de descenso por gradiente estocástico. Los resultados mues-
tran una mejora en la calidad de las traducciones después de aplicar estos algo-
ritmos, reduciendo así el esfuerzo humano en el proceso de post-edición.[CA] La traducció de gran qualitat es troba molt demanada en l’actualitat. Tot i
que la traducció automàtica oferix unes prestacions acceptables, en alguns casos
no és suficient i és necessària la supervisió humana. Per a facilitar la tasca de
traducció de l’humà, els sistemes de traducció automàtica prenen part en aquest
procés. Quan una nova oració en el llenguatge origen necessita ser traduïda,
esta s’introduïx en el sistema, el qual obté com a eixida una hipòtesi de traducció.
Llavors, l’humà corregix aquesta hipòtesi (també conegut com a post-editar) per a
obtindre una traducció de major qualitat. Ser capaços de transferir el coneixement
que l’ humà exhibix quan realitza la tasca de post-edició al sistema de traducció
automàtica és una característica desitjable ja que s’ha demostrat que un sistema
de traducció mes precís ajuda a augmentar l‘eficiència del procés de post-edició.
Pel fet que el procés de post-edició requerix un sistema ja entrenat, les tècniques
d’aprenentatge en línia són les adequades per aquesta tasca. En este treball,
es proposen tres algoritmes d’aprenentatge en línia aplicats a un traductor automàtic
neuronal en un escenari de post-edició. Estos algoritmes es basen en
l’aproximació en línia Passive-Aggressive en la qual el model s’actualitza després
de cada mostra amb l’objectiu de complir un criteri de correcció al mateix temps
que manté informació prèvia apresa. L’objectiu és adaptar i refinar un sistema ja
entrenat amb noves mostres al vol mentre el procés de post-edició es du a terme
(per tant, el temps d’actualització ha de mantenir-se controlat).
A més, estos algoritmes es comparen amb altres ben conegudes variants en
línia de l’algoritme de descens per gradient estocàstic. Els resultats mostren una
millora en la qualitat de les traduccions després d’aplicar estos algoritmes, reduint
així l’esforç humà en el procés de post-edició.Cebrián Chuliá, L. (2017). Aprendizaje en línea en traducción automática basada en redes neuronales. http://hdl.handle.net/10251/86299TFG
- …