Search CORE

2 research outputs found

End-to-End Neural Speech Translation

Author: Sperber Matthias
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2019
Field of study

Diese Arbeit beschäftigt sich mit Methoden zur Verbesserung der automatischen Übersetzung gesprochener Sprache (kurz: Speech Translation). Die Eingabe ist hierbei ein akustisches Signal, die Ausgabe ist der zugehörige Text in einer anderen Sprache. Die Anwendungen sind vielfältig und reichen u.a. von dialogbasierten Übersetzungssystemen in begrenzten Domänen bis hin zu vollautomatischen Vorlesungsübersetzungssystemen. Speech Translation ist ein komplexer Vorgang der in der Praxis noch viele Fehler produziert. Ein Grund hierfür ist die Zweiteilung in Spracherkennungskomponente und Übersetzungskomponente: beide Komponenten produzieren für sich genommen eine gewisse Menge an Fehlern, zusätzlich werden die Fehler der ersten Komponente an die zweite Komponente weitergereicht (sog. Error Propagation) was zusätzliche Fehler in der Ausgabe verursacht. Die Vermeidung des Error Propagation Problems ist daher grundlegender Forschungsgegenstand im Speech Translation Bereich. In der Vergangenheit wurden bereits Methoden entwickelt, welche die Schnittstelle zwischen Spracherkenner und Übersetzer verbessern sollen, etwa durch Weiterreichen mehrerer Erkennungshypothesen oder durch Kombination beider Modelle mittels Finite State Transducers. Diese basieren jedoch weitgehend auf veralteten, statistischen Übersetzungsverfahren, die mittlerweile fast vollständig durch komplett neuronale Sequence-to-Sequence Modelle ersetzt wurden. Die vorliegende Dissertation betrachtet mehrere Ansätze zur Verbesserung von Speech Translation, alle motiviert durch das Ziel, Error Propagation zu vermeiden, sowie durch die Herausforderungen und Möglichkeiten der neuen komplett neuronalen Modelle zur Spracherkennung und Übersetzung. Hierbei werden wir zum Teil völlig neuartige Modelle entwickeln und zum Teil Strategien entwickeln um erfolgreiche klassische Ideen auf neuronale Modelle zu übertragen. Wir betrachten zunächst eine einfachere Variante unseres Problems, die Spracherkennung. Um Speech Translation Modelle zu entwickeln die komplett auf neuronalen Sequence-to-Sequence Modellen basieren, müssen wir zunächst sicherstellen dass wir dieses einfachere Problem zufriedenstellend mit ähnlichen Modellen lösen können. Dazu entwickeln wir zunächst ein komplett neuronales Baseline Spracherkennungs-System auf Grundlage von Ergebnissen aus der Literatur, welches wir anschließend durch eine neuartige Self-Attentional Architektur erweitern. Wir zeigen dass wir hiermit sowohl die Trainingszeit verkürzen können, als auch bessere Einblicke in die oft als Blackbox beschriebenen Netze gewinnen und diese aus linguistischer Sicht interpretieren können. Als nächstes widmen wir uns dem kaskadierten Ansatz zur Speech Translation. Hier nehmen wir an, dass eine Ausgabe eines Spracherkenners gegeben ist, und wir diese so akkurat wie möglich übersetzen wollen. Dazu ist es nötig, mit den Fehlern des Spracherkenners umzugehen, was wir erstens durch verbesserte Robustheit des Übersetzers und zweitens durch Betrachten alternativer Erkennungshypothesen erreichen. Die Verbesserung der Robustheit der Übersetzungskomponente, unser erster Beitrag, erreichen wir durch das Verrauschen der Trainings-Eingaben, wodurch das Modell lernt, mit fehlerhaften Eingaben und insbesondere Spracherkennungsfehlern besser umzugehen. Zweitens entwickeln wir ein Lattice-to-Sequence Übersetzungsmodell, also ein Modell welches Wortgraphen als Eingaben erwartet und diese in eine übersetzte Wortsequenz überführt. Dies ermöglicht uns, einen Teil des Hypothesenraums des Spracherkenners, in Form eines eben solchen Wortgraphen, an den Spracherkenner weiterzureichen. Hierdurch hat die Übersetzungskomponente Zugriff auf verschiedene alternative Ausgaben des Spracherkenners und kann im Training lernen, daraus selbständig die zum Übersetzen optimale und weniger fehlerbehaftete Eingabe zu extrahieren. Schließlich kommen wir zum finalen und wichtigsten Beitrag dieser Dissertation. Ein vielversprechender neuer Speech Translation Ansatz ist die direkte Modellierung, d.h. ohne explizite Erzeugung eines Transkripts in der Quellsprache als Zwischenschritt. Hierzu sind direkte Daten, d.h. Tonaufnahmen mit zugehörigen textuellen Übersetzungen nötig, im Unterschied zu kaskadierten Modellen, welche auf transkribierte Tonaufnahmen sowie davon unabhängigen parallelen übersetzten Texten trainiert werden. Erstmals bieten die neuen end-to-end trainierbaren Sequence-to-Sequence Modelle grundsätzlich die Möglichkeit dieses direkten Weges und wurden auch bereits von einigen Forschungsgruppen entsprechend getestet, jedoch sind die Ergebnisse teils widersprüchlich und es bleibt bisher unklar, ob man Verbesserungen gegenüber kaskadierten Systemen erwarten kann. Wir zeigen hier dass dies entscheidend von der Menge der verfügbaren Daten abhängt, was sich leicht dadurch erklären lässt dass direkte Modellierung ein deutlich komplexeres Problem darstellt als der Weg über zwei Schritte. Solche Situationen bedeuten im Maschinellen Lernen oftmals dass mehr Daten benötigt werden. Dies führt uns zu einem fundamentalen Problem dieses ansonsten sehr vielversprechenden Ansatzes, nämlich dass mehr direkte Trainingsdaten benötigt werden, obwohl diese in der Praxis sehr viel schwieriger zu sammeln sind als Trainingsdaten für traditionelle Systeme. Als Ausweg testen wir zunächst eine naheliegende Strategie, weitere traditionelle Daten ins direkte Modell-Training zu integrieren: Multi-Task Training. Dies stellt sich in unseren Experimenten allerdings als unzureichend heraus. Wir entwickeln daher ein neues Modell, das ähnlich einer Kaskade auf zwei Modellierungsschritten basiert, jedoch komplett durch Backpropagation trainiert wird und dabei bei der Übersetzung nur auf Audio-Kontextvektoren zurückgreift und damit nicht durch Erkennungsfehler beeinträchtigt wird. Wir zeigen dass dieses Modell erstens unter idealen Datenkonditionen bessere Ergebnisse gegenüber vergleichbaren direkten und kaskadierten Modellen erzielt, und zweitens deutlich mehr von zusätzlichen traditionellen Daten profitiert als die einfacheren direkten Modelle. Wir zeigen damit erstmals, dass end-to-end trainierbare Speech Translation Modelle eine ernst zu nehmende und praktisch relevante Alternative für traditionelle Ansätze sind

KITopen

Optimizing Segmentation Strategies for Simultaneous Speech Translation

Author
Publication venue: 'Association for Computational Linguistics (ACL)'
Publication date: 01/01/2014
Field of study

Crossref