123 research outputs found

    UWSpeech: Speech to Speech Translation for Unwritten Languages

    Full text link
    Existing speech to speech translation systems heavily rely on the text of target language: they usually translate source language either to target text and then synthesize target speech from text, or directly to target speech with target text for auxiliary training. However, those methods cannot be applied to unwritten target languages, which have no written text or phoneme available. In this paper, we develop a translation system for unwritten languages, named as UWSpeech, which converts target unwritten speech into discrete tokens with a converter, and then translates source-language speech into target discrete tokens with a translator, and finally synthesizes target speech from target discrete tokens with an inverter. We propose a method called XL-VAE, which enhances vector quantized variational autoencoder (VQ-VAE) with cross-lingual (XL) speech recognition, to train the converter and inverter of UWSpeech jointly. Experiments on Fisher Spanish-English conversation translation dataset show that UWSpeech outperforms direct translation and VQ-VAE baseline by about 16 and 10 BLEU points respectively, which demonstrate the advantages and potentials of UWSpeech

    Chinese–Spanish neural machine translation enhanced with character and word bitmap fonts

    Get PDF
    Recently, machine translation systems based on neural networks have reached state-of-the-art results for some pairs of languages (e.g., German–English). In this paper, we are investigating the performance of neural machine translation in Chinese–Spanish, which is a challenging language pair. Given that the meaning of a Chinese word can be related to its graphical representation, this work aims to enhance neural machine translation by using as input a combination of: words or characters and their corresponding bitmap fonts. The fact of performing the interpretation of every word or character as a bitmap font generates more informed vectorial representations. Best results are obtained when using words plus their bitmap fonts obtaining an improvement (over a competitive neural MT baseline system) of almost six BLEU, five METEOR points and ranked coherently better in the human evaluation.Peer ReviewedPostprint (published version

    Machine Translation with Image Context from Mandarin Chinese to English

    Get PDF
    Despite ongoing improvements in machine translation, machine translators still lack the capability of incorporating context from which source text may have been derived. Machine translators use text from a source language to translate it into a target language without observing any visual context. This work aims to produce a neural machine translation model that is capable of accepting both text and image context as a multimodal translator from Mandarin Chinese to English. The model was trained on a small multimodal dataset of 700 images and sentences, and compared to a translator trained only on the text associated with those images. The model was also trained on a larger text only corpus of 21,000 sentences with and without the addition of the small multimodal dataset. Notable differences were produced between the text only and the multimodal translators when trained on the small 700 sentence and image dataset, however no observable discrepancies were found between the translators trained on the larger text corpus. Further research with a larger multimodal dataset could provide more results clarifying the utility of multimodal machine translation

    Exploring Automatic Speech Recognition with TensorFlow

    Get PDF
    Speech Recognition (reconocimiento de voz) es la tarea que pretende indentificar palabras habladas y convertirlas a texto. Este trabajo de fin de grado se centra en utilizar técnicas de deep learning para construir un sistema de Speech Recognition entrenándolo end-to-end. Como paso preliminar, hacemos un resumen de los métodos más relevantes llevados a cabo los últimos años. A continuación estudiamos uno de los trabajos más recientes en este área que propone un modelo sequence to sequence con atención entrenado end-to-end. Después, reproducimos satisfactoriamente el modelo y lo avaluamos con la base de datos TIMIT. Analizamos los parecidos y diferencias entre la implementación propuesta y el trabajo teórico original. Y finalmente, experimentamos y contrastamos el modelo utilizando diferentes parámetros (e.g. numero de neuronas por capa, la tasa de aprendizaje -learning rate y los batch sizes) y reducimos el Phoneme Error Rate cerca del 12% relativo.Speech recognition is the task aiming to identify words in spoken language and convert them into text. This bachelor's thesis focuses on using deep learning techniques to build an end-to-end Speech Recognition system. As a preliminary step, we overview the most relevant methods carried out over the last several years. Then, we study one of the latest proposals for this end-to-end approach that uses a sequence to sequence model with attention-based mechanisms. Next, we successfully reproduce the model and test it over the TIMIT database. We analyze the similarities and differences between the current implementation proposal and the original theoretical work. And finally, we experiment and contrast using different parameters (e.g. number of layer units, learning rates and batch sizes) and reduce the Phoneme Error Rate in almost 12% relative.Speech Recognition (reconeixement de veu) és la tasca que pretén indentificar paraules del llenguatge parlat i convertir-les a text. Aquest treball de fi de grau es centra en utilitzar tècniques de deep learning per construir un sistema d'Speech Recognition entrenant-lo end-to-end. Com a pas preliminar, fem un resum dels mètodes més rellevants duts a terme els últims anys. A continuació, estudiem un dels treballs més recents en aquesta àrea que proposa un model sequence to sequence amb l?atenció entrenat end-to-end. Després, reproduim satisfactòiament el model i l'avaluem amb la base de dades TIMIT. Analitzem les semblances i diferències entre l'implementació proposada i el treball teòric original. I finalment, experimentem i contrastem el model utilitzant diferents paràmetres (e.g. nombre de neurones per capa, la taxa d'aprenentatge -learning rate- i els batch sizes) i reduim el Phoneme Error Rate gairebé un 12% relatiu

    The Multilingual TEDx Corpus for Speech Recognition and Translation

    Get PDF
    We present the Multilingual TEDx corpus, built to support speech recognition (ASR) and speech translation (ST) research across many non-English source languages. The corpus is a collection of audio recordings from TEDx talks in 8 source languages. We segment transcripts into sentences and align them to the source-language audio and target-language translations. The corpus is released along with open-sourced code enabling extension to new talks and languages as they become available. Our corpus creation methodology can be applied to more languages than previous work, and creates multi-way parallel evaluation sets. We provide baselines in multiple ASR and ST settings, including multilingual models to improve translation performance for low-resource language pairs

    Online Learning in Neural Machine Translation

    Full text link
    [EN] High quality translations are in high demand these days. Although machine translation offers acceptable performance, it is not sufficient in some cases and human supervision is required. In order to ease the translation task of the human, machine translation systems take part in this process. When a sentence in the source language needs to be translated, it is fed to the system which outputs a hypothesis translation. The human then, corrects this hypothesis (also known as post-editing) in order to obtain a high quality translation. Being able to transfer the knowledge that a human translator exhibit when post-editing a translation to the machine translation system is a desirable feature, as it has been proven that a more accurate machine translation system helps to increase the efficiency of the post-editing process. Because the post-editing scenario requires an already trained system, online learning techniques are suited for this task. In this work, three online learning algorithms have been proposed and applied to a neural machine translation sys- tem in a post-editing scenario. They rely on the Passive-Aggressive online learn- ing approach in which the model is updated after every sample in order to fulfil a correctness criterion while remembering previously learned information. The goal is to adapt and refine an already trained system with new samples on-the- fly as the post-editing process takes place (hence, the update time must be kept under control). Moreover, these new algorithms are compared with well-stablished online learning variants of the stochastic gradient descent algorithm. Results show im- provements on the translation quality of the system after applying these algo- rithms, reducing human effort in the post-editing process.[ES] La traducción de gran calidad está muy demandada en la actualidad. A pesar de que la traducción automática ofrece unas prestaciones aceptables, en algunos casos no es suficiente y es necesaria la supervisión humana. Para facilitar la tarea de traducción del humano, los sistemas de traducción automática toman parte en este proceso. Cuando una nueva oración en el idioma origen necesita ser tradu- cida, esta se introduce en el sistema, el cual obtiene como salida una hipótesis de traducción. El humano entonces, corrige esta hipótesis (también conocido como post-editar) para obtener una traducción de mayor calidad. Ser capaz de transfe- rir el conocimiento que el humano exhibe cuando realiza la tarea de post-edición al sistema de traducción automática es una característica deseable puesto que se ha demostrado que un sistema de traducción mas preciso ayuda a aumentar la eficiencia del proceso de post-edición. Debido a que el proceso de post-edición requiere un sistema ya entrenado, las técnicas de aprendizaje en línea son las adecuadas para esta tarea. En este traba- jo, se proponen tres algoritmos de aprendizaje en línea aplicados a un traductor automático neuronal en un escenario de post-edición. Estos algoritmos se basan en la aproximación en línea Passive-Aggressive en la cual el modelo se actualiza después de cada muestra con el objetivo de cumplir un criterio de corrección a la vez que manteniendo información previa aprendida. El objetivo es adaptar y refinar un sistema ya entrenado con nuevas muestras al vuelo mientras el pro- ceso de post-edición se lleva a cabo (por tanto, el tiempo de actualización debe mantenerse bajo control). Además, estos algoritmos se comparan con otras bien conocidas variantes en línea del algoritmo de descenso por gradiente estocástico. Los resultados mues- tran una mejora en la calidad de las traducciones después de aplicar estos algo- ritmos, reduciendo así el esfuerzo humano en el proceso de post-edición.[CA] La traducció de gran qualitat es troba molt demanada en l’actualitat. Tot i que la traducció automàtica oferix unes prestacions acceptables, en alguns casos no és suficient i és necessària la supervisió humana. Per a facilitar la tasca de traducció de l’humà, els sistemes de traducció automàtica prenen part en aquest procés. Quan una nova oració en el llenguatge origen necessita ser traduïda, esta s’introduïx en el sistema, el qual obté com a eixida una hipòtesi de traducció. Llavors, l’humà corregix aquesta hipòtesi (també conegut com a post-editar) per a obtindre una traducció de major qualitat. Ser capaços de transferir el coneixement que l’ humà exhibix quan realitza la tasca de post-edició al sistema de traducció automàtica és una característica desitjable ja que s’ha demostrat que un sistema de traducció mes precís ajuda a augmentar l‘eficiència del procés de post-edició. Pel fet que el procés de post-edició requerix un sistema ja entrenat, les tècniques d’aprenentatge en línia són les adequades per aquesta tasca. En este treball, es proposen tres algoritmes d’aprenentatge en línia aplicats a un traductor automàtic neuronal en un escenari de post-edició. Estos algoritmes es basen en l’aproximació en línia Passive-Aggressive en la qual el model s’actualitza després de cada mostra amb l’objectiu de complir un criteri de correcció al mateix temps que manté informació prèvia apresa. L’objectiu és adaptar i refinar un sistema ja entrenat amb noves mostres al vol mentre el procés de post-edició es du a terme (per tant, el temps d’actualització ha de mantenir-se controlat). A més, estos algoritmes es comparen amb altres ben conegudes variants en línia de l’algoritme de descens per gradient estocàstic. Els resultats mostren una millora en la qualitat de les traduccions després d’aplicar estos algoritmes, reduint així l’esforç humà en el procés de post-edició.Cebrián Chuliá, L. (2017). Aprendizaje en línea en traducción automática basada en redes neuronales. http://hdl.handle.net/10251/86299TFG
    corecore