831 research outputs found
High Performance Neural Networks for Online Speech Recognizer
Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die Fähigkeit einer Maschine, Wörter und Ausdrücke gesprochener Sprache zu identifizieren und diese in ein für Menschen lesbares Format zu konvertieren.
Die Anwendungen sind ein maßgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermöglicht.
Um diese Fähigkeit in vollem Maße zu gewährleisten, müssen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, für eine Interaktion mit einem Benutzer, auch schnell genug, antworten.
Dieses Wechselspiel beider Bedingungen eröffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschließlich mit dem Problem der Genauigkeit befasst, unterscheidet.
Schon ĂĽber ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht.
Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Lösung der Spracherkennungsaufgabe ermöglichte.
Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-Domäne der Sprache statistisch entkoppelt und modelliert.
Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Aussprachewörterbuch, HMM-Topologien, Phonem-Cluster-Bäumen, einem akustischen Modell und einem Sprachmodell, besteht.
Durch aktuelle Fortschritte bei kĂĽnstlichen neuronalen Netzen (KNN) fĂĽr die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen.
In den letzten Jahren hat die EinfĂĽhrung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, groĂźes Interesse auf sich gezogen.
Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfällt.
Gleichzeitig benötigt die Ende-zu-Ende ASR oft eine wesentlich größere Trainingsdatenmenge und es ist eine größere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet.
Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems fĂĽr ein Online- und Streaming-Szenario.
Der Autor erreichte dies durch ein Vorgehen in zwei Schritten.
Im ersten Schritt wurden vielfältige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen.
Batch-Mode bedeutet, dass die vollständigen Audiodaten beim Start der Verarbeitung zur Verfügung stehen.
Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermöglichen Inferenzen online bzw. fortlaufend durchzuführen.
Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt.
Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, können anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden.
Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem groĂźen Dynamikumfang bekannt.
Diese Merkmale können drastisch durch natürliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order Aufnahmegeräte, beeinflusst werden.
Die groĂźe Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern.
Diese Diskrepanz gehen wir durch zwei high-level Ansätze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an.
Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkömmliche Merkmalsextraktionen.
Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet.
Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung ĂĽbertreffen lieĂź.
DarĂĽber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor.
Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusätzliche Trainingsdaten zu generieren und so die Qualität der Trainingsdaten zu erhöhen.
Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting.
Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells für die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Lösung vor.
Die erste Methode (dynamic time stretching) simuliert den Effekt von Geschwindigkeitsänderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion.
In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene Sätze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergrößern.
Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark für Telefongespräche.
Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusätzliche Anpassungen und Inferenz-Techniken, erfüllen.
Weder der ĂĽblicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen.
Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor.
Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder für den Latenzhöchstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern.
Um die Latenzmetrik zu optimieren, führten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte früh zum Benutzer zu schicken und diese später teilweise zu korrigieren.
In Experimenten in einer realen Situation in der Vorlesungspräsentations-Domäne konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden.
Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist fĂĽr Ende-zu-Ende Spracherkennung zunehmend beliebt geworden.
Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen.
Wie S2S-Modelle mit ihrem Batch-Mode Kapazität aber für eine online Spracherkennung gebraucht werden können, ist dennoch eine offene Forschungsfrage.
Wir näherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten.
Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusätzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen.
Unsere Experimente auf dem Datensatz mit Telefongesprächen zeigten, dass unser Stream-Erkenner, mit einer Verzögerung von 1,5~Sekunden für alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht.
Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne EinbuĂźen in der Genauigkeit genutzt werden kann
Sequence Teacher-Student Training of Acoustic Models for Automatic Free Speaking Language Assessment
A high performance automatic speech recognition (ASR) system is
an important constituent component of an automatic language assessment system for free speaking language tests. The ASR system
is required to be capable of recognising non-native spontaneous English
speech and to be deployable under real-time conditions. The
performance of ASR systems can often be significantly improved by
leveraging upon multiple systems that are complementary, such as an
ensemble. Ensemble methods, however, can be computationally expensive,
often requiring multiple decoding runs, which makes them
impractical for deployment. In this paper, a lattice-free implementation
of sequence-level teacher-student training is used to reduce this
computational cost, thereby allowing for real-time applications. This
method allows a single student model to emulate the performance of
an ensemble of teachers, but without the need for multiple decoding
runs. Adaptations of the student model to speakers from different
first languages (L1s) and grades are also explored.Cambridge Assessment Englis
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
We introduce the Universal Speech Model (USM), a single large model that
performs automatic speech recognition (ASR) across 100+ languages. This is
achieved by pre-training the encoder of the model on a large unlabeled
multilingual dataset of 12 million (M) hours spanning over 300 languages, and
fine-tuning on a smaller labeled dataset. We use multilingual pre-training with
random-projection quantization and speech-text modality matching to achieve
state-of-the-art performance on downstream multilingual ASR and speech-to-text
translation tasks. We also demonstrate that despite using a labeled training
set 1/7-th the size of that used for the Whisper model, our model exhibits
comparable or better performance on both in-domain and out-of-domain speech
recognition tasks across many languages.Comment: 20 pages, 7 figures, 8 table
Analysis of Data Augmentation Methods for Low-Resource Maltese ASR
Recent years have seen an increased interest in the computational speech
processing of Maltese, but resources remain sparse. In this paper, we consider
data augmentation techniques for improving speech recognition for low-resource
languages, focusing on Maltese as a test case. We consider three different
types of data augmentation: unsupervised training, multilingual training and
the use of synthesized speech as training data. The goal is to determine which
of these techniques, or combination of them, is the most effective to improve
speech recognition for languages where the starting point is a small corpus of
approximately 7 hours of transcribed speech. Our results show that combining
the data augmentation techniques studied here lead us to an absolute WER
improvement of 15% without the use of a language model.Comment: 12 page
Sensing the Waterscape - Re-Assembling the Politics of Climate Change and Displacement in Bangkok, Thailand
The effects of climate change on human society and urban metropolises in the Global South, such as Bangkok, have been widely discussed in academic and policy circles. In the last few decades, debates on climate change and displacement have particularly captured the attention of the media, policymakers and academics. So-called “climate refugees” have advanced as the “human face of climate change”. Critically examining the literature on the relationship between climate change and displacement that either sees this relationship as deterministic (so-called Maximalist position) or complex (so-called Minimalist position), this dissertation seeks to reorient debates on climate change and displacement to consider the link between both compounds as an emerging assemblage. The dissertation argues that such a perspective allows for a more-than Western ontology, a nuanced engagement with urban spaces such as Bangkok, in which climate change and displacement begin to materialise and contribute to a political quest for open futures.
Within this emerging assemblage, affective forces, human and non-human actors, the urban materiality of a fragmented waterscape shapes and influences the politics of climate change and displacement. Through an intra-urban comparative research design that utilises a range of qualitative and ethnographic methods (e.g. participant observations, semi-structured interviews, walk-along interviews), the emerging heterogeneous urban climate change and displacement assemblage is investigated. In three empirical chapters, the dissertation attends to the historical fragmentation of Bangkok’s waterscape and its connections to contemporary and future climate change and displacement; the 2011 inundation in which wide parts of the city were flooded, involving diverse topologies of displacement; and finally two urban struggles over the re-engineering of Bangkok’s waterscape, in which the political contestations that are at stake within the climate change and displacement assemblage are analysed and compared.
The dissertation argues that through re-framing debates on climate change and migration through an assemblage approach, a more sensory, nuanced, and ultimately more complex understanding of the political nature of the relationship between climate change and displacement is advanced
On the dynamic adaptation of language models based on dialogue information
We present an approach to adapt dynamically the language models (LMs) used by a speech recognizer that is part of a spoken dialogue system. We have developed a grammar generation strategy that automatically adapts the LMs using the semantic information that the user provides (represented as dialogue concepts), together with the information regarding the intentions of the speaker (inferred by the dialogue manager, and represented as dialogue goals). We carry out the adaptation as a linear interpolation between a background LM, and one or more of the LMs associated to the dialogue elements (concepts or goals) addressed by the user. The interpolation weights between those models are automatically estimated on each dialogue turn, using measures such as the posterior probabilities of concepts and goals, estimated as part of the inference procedure to determine the actions to be carried out. We propose two approaches to handle the LMs related to concepts and goals. Whereas in the first one we estimate a LM for each one of them, in the second one we apply several clustering strategies to group together those elements that share some common properties, and estimate a LM for each cluster. Our evaluation shows how the system can estimate a dynamic model adapted to each dialogue turn, which helps to improve the performance of the speech recognition (up to a 14.82% of relative improvement), which leads to an improvement in both the language understanding and the dialogue management tasks
Dubbing Wordplay in Children’s Programmes from English into Thai
This doctoral research aims to investigate the most prevalent translation techniques adopted by Thai dubbing translators when transferring English-language idioms found in animated films into a lesser-known language such as Thai. To achieve this purpose, the methodological approach combines a quantitative phase, which has the benefit of revealing certain tendencies, with a qualitative phase that investigates the data in greater depth.
Wordplay instances can be grouped into two main categories according to their presentation nature: media-based and rhetoric-based. In the case of the media-based category, the types of wordplay instances uncovered in the analysis are audio-verbal, audio-visual-verbal and visual-verbal, while, based in the rhetoric-based category, they are homonymy, homophony, paraphony, hahaphony and allusion types. In an attempt to render ST puns into the TT, the following seven dubbing techniques have been activated by Thai translators: loan, literal translation, explicitation, substitution, recreation, combination and non-translation. Close examination of the data reveals that, despite the translators’ best effort to transfer the semantic ambiguity and humorous effect embedded in the English wordplay into the Thai dialogue, PUN>NON-PUN is the translation outcome with the highest occurrence. This results in the inevitable loss of semantic ambiguity and humour in the TT wordplay, as well as other pedagogical objectives intended by the film’s producers such as a language learning facilitator for young viewers
Improving multilingual speech recognition systems
End-to-end trainable deep neural networks have become the state-of-the-art architecture for automatic speech recognition (ASR), provided that the network is trained with a sufficiently large dataset. However, many existing languages are too sparsely resourced for deep learning networks to achieve as high accuracy as their resource-abundant counterparts.
Multilingual recognition systems mitigate data sparsity issues by training models on data from multiple language resources to learn a speech-to-text or speech-to-phone model universal to all languages. The resulting multilingual ASR models usually have better recognition accuracy than the models trained on the individual dataset.
In this work, we propose that two limitations exist for multilingual systems, and resolving the two limitations could result in improved recognition accuracy: (1) existing corpora are of the considerably varied form (spontaneous or read speech), corpus size, noise level, and phoneme distribution and the ASR models trained on the joint multilingual dataset have large performance disparities over different languages. We present an optimizable loss function, equal accuracy ratio (EAR), that measures the sequence-level performance disparity between different user groups and we show that explicitly optimizing this objective reduces the performance gap and improves the multilingual recognition accuracy. (2) While having good accuracy on the seen training language, the multilingual systems do not generalize well to unseen testing languages, which we refer to as cross-lingual recognition accuracy. We introduce language embedding using external linguistic typologies and show that such embedding can significantly increase both multilingual and cross-lingual accuracy. We illustrate the effectiveness of the proposed methods with experiments on multilingual and multi-user and multi-dialect corpora
The discursive construction of nostalgic Thai identity through Thai television programmes
PhD ThesisGlobal pop culture and media consumption have influenced contemporary Thai
society and its traditionally perceived national culture and heritage. Such cultural
impacts are not only from the global trends of Western cultures, but also from the
more local influential Asian cultures, such as South Korean and Japanese. In
response to this, within a general strategy, Thai television has been utilised as a
principal source for promoting a projected contemporary Thai cultural identity. This
study examines the discursive construction of nostalgic Thai identity in popular
television variety shows whereby a form of integrative cultural identity for the country
is envisaged. The research covers processes of production and consumption of
certain television texts to provide an understanding of the ways in which this Thai
identity is constructed, represented and perceived. It intends: a. to analyse the
textual features of the shows (including visuals, language, design, narrative etc.); b.
to examine the perspectives of the key figures in the television industry; and c. to
analyse and compare the viewership’s perceptions of Thai identity representations in
the shows in relations to their own lifeworlds. The study adopts qualitative research
methods: multimodal discourse analysis, in-depth interviews with key figures in the
television industry, as well as focus groups with various viewerships. The study finds
that the construction of nostalgia around the perception of Thainess has been at the
centre of these particular identity discourses which promote the country’s perceived
traditional culture and heritage as core identity markers. In this way, the Thai
representation in the shows is constructed in line with the reflective nostalgia which
focuses on reflecting the nation’s past and culture, rather than a restorative nostalgia
which relates to total restoration of national past/symbols i.e. an uncompromising
return to “origin”. In addition to the cultural concerns of the text producers, the
television shows have actively been substantiating this notion of Thai identity in line
with the government’s cultural policy, which envisages contemporary Thai identity as
a form of inclusive collective identity incorporating modernism as well as
traditionalism, rather than a form of openly nationalistic and exclusionary identity.
This representation of Thai identity both arises from and is compatible with the
country’s socio-cultural and historical circumstances as a way to underpin the
maintenance of the traditionality/distinctiveness of Thai culture, while simultaneously
integrating a form of multiculturalism. The inclusive vision of Thai identity
ii
construction/representation can also be supportive of the international policies of
cooperation and relationships between Thailand and other (neighbouring) countriesBangkok Universit
- …