2 research outputs found

    Interactivity, Adaptation and Multimodality in Neural Sequence-to-sequence Learning

    Full text link
    [ES] El problema conocido como de secuencia a secuencia consiste en transformar una secuencia de entrada en una secuencia de salida. Bajo esta perspectiva se puede atacar una amplia cantidad de problemas, entre los cuales destacan la traducci贸n autom谩tica o la descripci贸n autom谩tica de objetos multimedia. La aplicaci贸n de redes neuronales profundas ha revolucionado esta disciplina, y se han logrado avances notables. Pero los sistemas autom谩ticos todav铆a producen predicciones que distan mucho de ser perfectas. Para obtener predicciones de gran calidad, los sistemas autom谩ticos se utilizan bajo la supervisi贸n de un humano, quien corrige los errores. Esta tesis se centra principalmente en el problema de la traducci贸n del lenguaje natural, usando modelos enteramente neuronales. Nuestro objetivo es desarrollar sistemas de traducci贸n neuronal m谩s eficientes. asent谩ndonos sobre dos pilares fundamentales: c贸mo utilizar el sistema de una forma m谩s eficiente y c贸mo aprovechar datos generados durante la fase de explotaci贸n del mismo. En el primer caso, aplicamos el marco te贸rico conocido como predicci贸n interactiva a la traducci贸n autom谩tica neuronal. Este proceso consiste en integrar usuario y sistema en un proceso de correcci贸n cooperativo, con el objetivo de reducir el esfuerzo humano empleado en obtener traducciones de alta calidad. Desarrollamos distintos protocolos de interacci贸n para dicha tecnolog铆a, aplicando interacci贸n basada en prefijos y en segmentos, implementados modificando el proceso de b煤squeda del sistema. Adem谩s, ideamos mecanismos para obtener una interacci贸n con el sistema m谩s precisa, manteniendo la velocidad de generaci贸n del mismo. Llevamos a cabo una extensa experimentaci贸n, que muestra el potencial de estas t茅cnicas: superamos el estado del arte anterior por un gran margen y observamos que nuestros sistemas reaccionan mejor a las interacciones humanas. A continuaci贸n, estudiamos c贸mo mejorar un sistema neuronal mediante los datos generados como subproducto de este proceso de correcci贸n. Para ello, nos basamos en dos paradigmas del aprendizaje autom谩tico: el aprendizaje muestra a muestra y el aprendizaje activo. En el primer caso, el sistema se actualiza inmediatamente despu茅s de que el usuario corrige una frase, aprendiendo de una manera continua a partir de correcciones, evitando cometer errores previos y especializ谩ndose en un usuario o dominio concretos. Evaluamos estos sistemas en una gran cantidad de situaciones y dominios diferentes, que demuestran el potencial que tienen los sistemas adaptativos. Tambi茅n llevamos a cabo una evaluaci贸n humana, con traductores profesionales. 脡stos quedaron muy satisfechos con el sistema adaptativo. Adem谩s, fueron m谩s eficientes cuando lo usaron, comparados con un sistema est谩tico. El segundo paradigma lo aplicamos en un escenario en el que se deban traducir grandes cantidades de frases, siendo inviable la supervisi贸n de todas. El sistema selecciona aquellas muestras que vale la pena supervisar, traduciendo el resto autom谩ticamente. Aplicando este protocolo, redujimos de aproximadamente un cuarto el esfuerzo humano necesario para llegar a cierta calidad de traducci贸n. Finalmente, atacamos el complejo problema de la descripci贸n de objetos multimedia. Este problema consiste en describir en lenguaje natural un objeto visual, una imagen o un v铆deo. Comenzamos con la tarea de descripci贸n de v铆deos pertenecientes a un dominio general. A continuaci贸n, nos movemos a un caso m谩s espec铆fico: la descripci贸n de eventos a partir de im谩genes egoc茅ntricas, capturadas a lo largo de un d铆a. Buscamos extraer relaciones entre eventos para generar descripciones m谩s informadas, desarrollando un sistema capaz de analizar un mayor contexto. El modelo con contexto extendido genera descripciones de mayor calidad que un modelo b谩sico. Por 煤ltimo, aplicamos la predicci贸n interactiva a estas tareas multimedia, disminuyendo el esfuerzo necesa[CA] El problema conegut com a de seq眉猫ncia a seq眉猫ncia consisteix en transformar una seq眉猫ncia d'entrada en una seq眉猫ncia d'eixida. Seguint aquesta perspectiva, es pot atacar una 脿mplia quantitat de problemes, entre els quals destaquen la traducci贸 autom脿tica, el reconeixement autom脿tic de la parla o la descripci贸 autom脿tica d'objectes multim猫dia. L'aplicaci贸 de xarxes neuronals profundes ha revolucionat aquesta disciplina, i s'han aconseguit progressos notables. Per貌 els sistemes autom脿tics encara produeixen prediccions que disten molt de ser perfectes. Per a obtindre prediccions de gran qualitat, els sistemes autom脿tics s贸n utilitzats amb la supervisi贸 d'un hum脿, qui corregeix els errors. Aquesta tesi se centra principalment en el problema de la traducci贸 de llenguatge natural, el qual s'ataca emprant models enterament neuronals. El nostre objectiu principal 茅s desenvolupar sistemes m茅s eficients. Per a aquesta tasca, les nostres contribucions s'assenten sobre dos pilars fonamentals: com utilitzar el sistema d'una manera m茅s eficient i com aprofitar dades generades durant la fase d'explotaci贸 d'aquest. En el primer cas, apliquem el marc te貌ric conegut com a predicci贸 interactiva a la traducci贸 autom脿tica neuronal. Aquest proc茅s consisteix en integrar usuari i sistema en un proc茅s de correcci贸 cooperatiu, amb l'objectiu de reduir l'esfor莽 hum脿 emprat per obtindre traduccions d'alta qualitat. Desenvolupem diferents protocols d'interacci贸 per a aquesta tecnologia, aplicant interacci贸 basada en prefixos i en segments, implementats modificant el proc茅s de cerca del sistema. A m茅s a m茅s, busquem mecanismes per a obtindre una interacci贸 amb el sistema m茅s precisa, mantenint la velocitat de generaci贸. Duem a terme una extensa experimentaci贸, que mostra el potencial d'aquestes t猫cniques: superem l'estat de l'art anterior per un gran marge i observem que els nostres sistemes reaccionen millor a les interacciones humanes. A continuaci贸, estudiem com millorar un sistema neuronal mitjan莽ant les dades generades com a subproducte d'aquest proc茅s de correcci贸. Per a aix貌, ens basem en dos paradigmes de l'aprenentatge autom脿tic: l'aprenentatge mostra a mostra i l'aprenentatge actiu. En el primer cas, el sistema s'actualitza immediatament despr茅s que l'usuari corregeix una frase. Per tant, el sistema apr茅n d'una manera cont铆nua a partir de correccions, evitant cometre errors previs i especialitzant-se en un usuari o domini concrets. Avaluem aquests sistemes en una gran quantitat de situacions i per a dominis diferents, que demostren el potencial que tenen els sistemes adaptatius. Tamb茅 duem a terme una avaluaci贸 amb traductors professionals, qui varen quedar molt satisfets amb el sistema adaptatiu. A m茅s, van ser m茅s eficients quan ho van usar, si ho comparem amb el sistema est脿tic. Pel que fa al segon paradigma, l'apliquem per a l'escenari en el qual han de traduir-se grans quantitats de frases, i la supervisi贸 de totes elles 茅s inviable. En aquest cas, el sistema selecciona les mostres que paga la pena supervisar, traduint la resta autom脿ticament. Aplicant aquest protocol, redu铆rem en aproximadament un quart l'esfor莽 necessari per a arribar a certa qualitat de traducci贸. Finalment, ataquem el complex problema de la descripci贸 d'objectes multim猫dia. Aquest problema consisteix en descriure, en llenguatge natural, un objecte visual, una imatge o un v铆deo. Comencem amb la tasca de descripci贸 de v铆deos d'un domini general. A continuaci贸, ens movem a un cas m茅s espec铆fic: la descripci贸 d''esdeveniments a partir d'imatges egoc猫ntriques, capturades al llarg d'un dia. Busquem extraure relacions entre ells per a generar descripcions m茅s informades, desenvolupant un sistema capa莽 d'analitzar un major context. El model amb context est茅s genera descripcions de major qualitat que el model b脿sic. Finalment, apliquem la predicci贸 interactiva a aquestes tasques multim猫dia, di[EN] The sequence-to-sequence problem consists in transforming an input sequence into an output sequence. A variety of problems can be posed in these terms, including machine translation, speech recognition or multimedia captioning. In the last years, the application of deep neural networks has revolutionized these fields, achieving impressive advances. However and despite the improvements, the output of the automatic systems is still far to be perfect. For achieving high-quality predictions, fully-automatic systems require to be supervised by a human agent, who corrects the errors. This is a common procedure in the translation industry. This thesis is mainly framed into the machine translation problem, tackled using fully neural systems. Our main objective is to develop more efficient neural machine translation systems, that allow for a more productive usage and deployment of the technology. To this end, we base our contributions on two main cornerstones: how to better use of the system and how to better leverage the data generated along its usage. First, we apply the so-called interactive-predictive framework to neural machine translation. This embeds the human agent and the system into a cooperative correction process, that seeks to reduce the human effort spent for obtaining high-quality translations. We develop different interactive protocols for the neural machine translation technology, namely, a prefix-based and a segment-based protocols. They are implemented by modifying the search space of the model. Moreover, we introduce mechanisms for achieving a fine-grained interaction while maintaining the decoding speed of the system. We carried out a wide experimentation that shows the potential of our contributions. The previous state of the art is overcame by a large margin and the current systems are able to react better to the human interactions. Next, we study how to improve a neural system using the data generated as a byproduct of this correction process. To this end, we rely on two main learning paradigms: online and active learning. Under the first one, the system is updated on the fly, as soon as a sentence is corrected. Hence, the system is continuously learning from the corrections, avoiding previous errors and specializing towards a given user or domain. A large experimentation stressed the adaptive systems under different conditions and domains, demonstrating the capabilities of adaptive systems. Moreover, we also carried out a human evaluation of the system, involving professional users. They were very pleased with the adaptive system, and worked more efficiently using it. The second paradigm, active learning, is devised for the translation of huge amounts of data, that are infeasible to being completely supervised. In this scenario, the system selects samples that are worth to be supervised, and leaves the rest automatically translated. Applying this framework, we obtained reductions of approximately a quarter of the effort required for reaching a desired translation quality. The neural approach also obtained large improvements compared with previous translation technologies. Finally, we address another challenging problem: visual captioning. It consists in generating a description in natural language from a visual object, namely an image or a video. We follow the sequence-to-sequence framework, under a a multimodal perspective. We start by tackling the task of generating captions of videos from a general domain. Next, we move on to a more specific case: describing events from egocentric images, acquired along the day. Since these events are consecutive, we aim to extract inter-eventual relationships, for generating more informed captions. The context-aware model improved the generation quality with respect to a regular one. As final point, we apply the intractive-predictive protocol to these multimodal captioning systems, reducing the effort required for correcting the outputs.Section 5.4 describes an user evaluation of an adaptive translation system. This was done in collaboration with Miguel Domingo and the company Pangeanic, with funding from the Spanish Center for Technological and Industrial Development (Centro para el Desarrollo Tecnol贸gico Industrial). [...] Most of Chapter 6 is the result of a collaboration with Marc Bola帽os, supervised by Prof. Petia Radeva, from Universitat de Barcelona/CVC. This collaboration was supported by the R-MIPRCV network, under grant TIN2014-54728-REDC.Peris Abril, 脕. (2019). Interactivity, Adaptation and Multimodality in Neural Sequence-to-sequence Learning [Tesis doctoral]. Universitat Polit猫cnica de Val猫ncia. https://doi.org/10.4995/Thesis/10251/134058TESI

    Human Feedback in Statistical Machine Translation

    Get PDF
    The thesis addresses the challenge of improving Statistical Machine Translation (SMT) systems via feedback given by humans on translation quality. The amount of human feedback available to systems is inherently low due to cost and time limitations. One of our goals is to simulate such information by automatically generating pseudo-human feedback. This is performed using Quality Estimation (QE) models. QE is a technique for predicting the quality of automatic translations without comparing them to oracle (human) translations, traditionally at the sentence or word levels. QE models are trained on a small collection of automatic translations manually labelled for quality, and then can predict the quality of any number of unseen translations. We propose a number of improvements for QE models in order to increase the reliability of pseudo-human feedback. These include strategies to artificially generate instances for settings where QE training data is scarce. We also introduce a new level of granularity for QE: the level of phrases. This level aims to improve the quality of QE predictions by better modelling inter-dependencies among errors at word level, and in ways that are tailored to phrase-based SMT, where the basic unit of translation is a phrase. This can thus facilitate work on incorporating human feedback during the translation process. Finally, we introduce approaches to incorporate pseudo-human feedback in the form of QE predictions in SMT systems. More specifically, we use quality predictions to select the best translation from a number of alternative suggestions produced by SMT systems, and integrate QE predictions into an SMT system decoder in order to guide the translation generation process
    corecore