831 research outputs found

    High Performance Neural Networks for Online Speech Recognizer

    Get PDF
    Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die Fähigkeit einer Maschine, Wörter und Ausdrücke gesprochener Sprache zu identifizieren und diese in ein für Menschen lesbares Format zu konvertieren. Die Anwendungen sind ein maßgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermöglicht. Um diese Fähigkeit in vollem Maße zu gewährleisten, müssen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, für eine Interaktion mit einem Benutzer, auch schnell genug, antworten. Dieses Wechselspiel beider Bedingungen eröffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschließlich mit dem Problem der Genauigkeit befasst, unterscheidet. Schon über ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht. Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Lösung der Spracherkennungsaufgabe ermöglichte. Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-Domäne der Sprache statistisch entkoppelt und modelliert. Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Aussprachewörterbuch, HMM-Topologien, Phonem-Cluster-Bäumen, einem akustischen Modell und einem Sprachmodell, besteht. Durch aktuelle Fortschritte bei künstlichen neuronalen Netzen (KNN) für die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen. In den letzten Jahren hat die Einführung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, großes Interesse auf sich gezogen. Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfällt. Gleichzeitig benötigt die Ende-zu-Ende ASR oft eine wesentlich größere Trainingsdatenmenge und es ist eine größere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet. Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems für ein Online- und Streaming-Szenario. Der Autor erreichte dies durch ein Vorgehen in zwei Schritten. Im ersten Schritt wurden vielfältige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen. Batch-Mode bedeutet, dass die vollständigen Audiodaten beim Start der Verarbeitung zur Verfügung stehen. Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermöglichen Inferenzen online bzw. fortlaufend durchzuführen. Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt. Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, können anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden. Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem großen Dynamikumfang bekannt. Diese Merkmale können drastisch durch natürliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order Aufnahmegeräte, beeinflusst werden. Die große Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern. Diese Diskrepanz gehen wir durch zwei high-level Ansätze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an. Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkömmliche Merkmalsextraktionen. Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet. Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung übertreffen ließ. Darüber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor. Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusätzliche Trainingsdaten zu generieren und so die Qualität der Trainingsdaten zu erhöhen. Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting. Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells für die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Lösung vor. Die erste Methode (dynamic time stretching) simuliert den Effekt von Geschwindigkeitsänderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion. In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene Sätze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergrößern. Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark für Telefongespräche. Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusätzliche Anpassungen und Inferenz-Techniken, erfüllen. Weder der üblicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen. Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor. Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder für den Latenzhöchstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern. Um die Latenzmetrik zu optimieren, führten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte früh zum Benutzer zu schicken und diese später teilweise zu korrigieren. In Experimenten in einer realen Situation in der Vorlesungspräsentations-Domäne konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden. Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist für Ende-zu-Ende Spracherkennung zunehmend beliebt geworden. Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen. Wie S2S-Modelle mit ihrem Batch-Mode Kapazität aber für eine online Spracherkennung gebraucht werden können, ist dennoch eine offene Forschungsfrage. Wir näherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten. Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusätzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen. Unsere Experimente auf dem Datensatz mit Telefongesprächen zeigten, dass unser Stream-Erkenner, mit einer Verzögerung von 1,5~Sekunden für alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht. Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne Einbußen in der Genauigkeit genutzt werden kann

    Sequence Teacher-Student Training of Acoustic Models for Automatic Free Speaking Language Assessment

    Get PDF
    A high performance automatic speech recognition (ASR) system is an important constituent component of an automatic language assessment system for free speaking language tests. The ASR system is required to be capable of recognising non-native spontaneous English speech and to be deployable under real-time conditions. The performance of ASR systems can often be significantly improved by leveraging upon multiple systems that are complementary, such as an ensemble. Ensemble methods, however, can be computationally expensive, often requiring multiple decoding runs, which makes them impractical for deployment. In this paper, a lattice-free implementation of sequence-level teacher-student training is used to reduce this computational cost, thereby allowing for real-time applications. This method allows a single student model to emulate the performance of an ensemble of teachers, but without the need for multiple decoding runs. Adaptations of the student model to speakers from different first languages (L1s) and grades are also explored.Cambridge Assessment Englis

    Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

    Full text link
    We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.Comment: 20 pages, 7 figures, 8 table

    Analysis of Data Augmentation Methods for Low-Resource Maltese ASR

    Full text link
    Recent years have seen an increased interest in the computational speech processing of Maltese, but resources remain sparse. In this paper, we consider data augmentation techniques for improving speech recognition for low-resource languages, focusing on Maltese as a test case. We consider three different types of data augmentation: unsupervised training, multilingual training and the use of synthesized speech as training data. The goal is to determine which of these techniques, or combination of them, is the most effective to improve speech recognition for languages where the starting point is a small corpus of approximately 7 hours of transcribed speech. Our results show that combining the data augmentation techniques studied here lead us to an absolute WER improvement of 15% without the use of a language model.Comment: 12 page

    Sensing the Waterscape - Re-Assembling the Politics of Climate Change and Displacement in Bangkok, Thailand

    Get PDF
    The effects of climate change on human society and urban metropolises in the Global South, such as Bangkok, have been widely discussed in academic and policy circles. In the last few decades, debates on climate change and displacement have particularly captured the attention of the media, policymakers and academics. So-called “climate refugees” have advanced as the “human face of climate change”. Critically examining the literature on the relationship between climate change and displacement that either sees this relationship as deterministic (so-called Maximalist position) or complex (so-called Minimalist position), this dissertation seeks to reorient debates on climate change and displacement to consider the link between both compounds as an emerging assemblage. The dissertation argues that such a perspective allows for a more-than Western ontology, a nuanced engagement with urban spaces such as Bangkok, in which climate change and displacement begin to materialise and contribute to a political quest for open futures. Within this emerging assemblage, affective forces, human and non-human actors, the urban materiality of a fragmented waterscape shapes and influences the politics of climate change and displacement. Through an intra-urban comparative research design that utilises a range of qualitative and ethnographic methods (e.g. participant observations, semi-structured interviews, walk-along interviews), the emerging heterogeneous urban climate change and displacement assemblage is investigated. In three empirical chapters, the dissertation attends to the historical fragmentation of Bangkok’s waterscape and its connections to contemporary and future climate change and displacement; the 2011 inundation in which wide parts of the city were flooded, involving diverse topologies of displacement; and finally two urban struggles over the re-engineering of Bangkok’s waterscape, in which the political contestations that are at stake within the climate change and displacement assemblage are analysed and compared. The dissertation argues that through re-framing debates on climate change and migration through an assemblage approach, a more sensory, nuanced, and ultimately more complex understanding of the political nature of the relationship between climate change and displacement is advanced

    On the dynamic adaptation of language models based on dialogue information

    Get PDF
    We present an approach to adapt dynamically the language models (LMs) used by a speech recognizer that is part of a spoken dialogue system. We have developed a grammar generation strategy that automatically adapts the LMs using the semantic information that the user provides (represented as dialogue concepts), together with the information regarding the intentions of the speaker (inferred by the dialogue manager, and represented as dialogue goals). We carry out the adaptation as a linear interpolation between a background LM, and one or more of the LMs associated to the dialogue elements (concepts or goals) addressed by the user. The interpolation weights between those models are automatically estimated on each dialogue turn, using measures such as the posterior probabilities of concepts and goals, estimated as part of the inference procedure to determine the actions to be carried out. We propose two approaches to handle the LMs related to concepts and goals. Whereas in the first one we estimate a LM for each one of them, in the second one we apply several clustering strategies to group together those elements that share some common properties, and estimate a LM for each cluster. Our evaluation shows how the system can estimate a dynamic model adapted to each dialogue turn, which helps to improve the performance of the speech recognition (up to a 14.82% of relative improvement), which leads to an improvement in both the language understanding and the dialogue management tasks

    Dubbing Wordplay in Children’s Programmes from English into Thai

    Get PDF
    This doctoral research aims to investigate the most prevalent translation techniques adopted by Thai dubbing translators when transferring English-language idioms found in animated films into a lesser-known language such as Thai. To achieve this purpose, the methodological approach combines a quantitative phase, which has the benefit of revealing certain tendencies, with a qualitative phase that investigates the data in greater depth. Wordplay instances can be grouped into two main categories according to their presentation nature: media-based and rhetoric-based. In the case of the media-based category, the types of wordplay instances uncovered in the analysis are audio-verbal, audio-visual-verbal and visual-verbal, while, based in the rhetoric-based category, they are homonymy, homophony, paraphony, hahaphony and allusion types. In an attempt to render ST puns into the TT, the following seven dubbing techniques have been activated by Thai translators: loan, literal translation, explicitation, substitution, recreation, combination and non-translation. Close examination of the data reveals that, despite the translators’ best effort to transfer the semantic ambiguity and humorous effect embedded in the English wordplay into the Thai dialogue, PUN>NON-PUN is the translation outcome with the highest occurrence. This results in the inevitable loss of semantic ambiguity and humour in the TT wordplay, as well as other pedagogical objectives intended by the film’s producers such as a language learning facilitator for young viewers

    Improving multilingual speech recognition systems

    Get PDF
    End-to-end trainable deep neural networks have become the state-of-the-art architecture for automatic speech recognition (ASR), provided that the network is trained with a sufficiently large dataset. However, many existing languages are too sparsely resourced for deep learning networks to achieve as high accuracy as their resource-abundant counterparts. Multilingual recognition systems mitigate data sparsity issues by training models on data from multiple language resources to learn a speech-to-text or speech-to-phone model universal to all languages. The resulting multilingual ASR models usually have better recognition accuracy than the models trained on the individual dataset. In this work, we propose that two limitations exist for multilingual systems, and resolving the two limitations could result in improved recognition accuracy: (1) existing corpora are of the considerably varied form (spontaneous or read speech), corpus size, noise level, and phoneme distribution and the ASR models trained on the joint multilingual dataset have large performance disparities over different languages. We present an optimizable loss function, equal accuracy ratio (EAR), that measures the sequence-level performance disparity between different user groups and we show that explicitly optimizing this objective reduces the performance gap and improves the multilingual recognition accuracy. (2) While having good accuracy on the seen training language, the multilingual systems do not generalize well to unseen testing languages, which we refer to as cross-lingual recognition accuracy. We introduce language embedding using external linguistic typologies and show that such embedding can significantly increase both multilingual and cross-lingual accuracy. We illustrate the effectiveness of the proposed methods with experiments on multilingual and multi-user and multi-dialect corpora

    The discursive construction of nostalgic Thai identity through Thai television programmes

    Get PDF
    PhD ThesisGlobal pop culture and media consumption have influenced contemporary Thai society and its traditionally perceived national culture and heritage. Such cultural impacts are not only from the global trends of Western cultures, but also from the more local influential Asian cultures, such as South Korean and Japanese. In response to this, within a general strategy, Thai television has been utilised as a principal source for promoting a projected contemporary Thai cultural identity. This study examines the discursive construction of nostalgic Thai identity in popular television variety shows whereby a form of integrative cultural identity for the country is envisaged. The research covers processes of production and consumption of certain television texts to provide an understanding of the ways in which this Thai identity is constructed, represented and perceived. It intends: a. to analyse the textual features of the shows (including visuals, language, design, narrative etc.); b. to examine the perspectives of the key figures in the television industry; and c. to analyse and compare the viewership’s perceptions of Thai identity representations in the shows in relations to their own lifeworlds. The study adopts qualitative research methods: multimodal discourse analysis, in-depth interviews with key figures in the television industry, as well as focus groups with various viewerships. The study finds that the construction of nostalgia around the perception of Thainess has been at the centre of these particular identity discourses which promote the country’s perceived traditional culture and heritage as core identity markers. In this way, the Thai representation in the shows is constructed in line with the reflective nostalgia which focuses on reflecting the nation’s past and culture, rather than a restorative nostalgia which relates to total restoration of national past/symbols i.e. an uncompromising return to “origin”. In addition to the cultural concerns of the text producers, the television shows have actively been substantiating this notion of Thai identity in line with the government’s cultural policy, which envisages contemporary Thai identity as a form of inclusive collective identity incorporating modernism as well as traditionalism, rather than a form of openly nationalistic and exclusionary identity. This representation of Thai identity both arises from and is compatible with the country’s socio-cultural and historical circumstances as a way to underpin the maintenance of the traditionality/distinctiveness of Thai culture, while simultaneously integrating a form of multiculturalism. The inclusive vision of Thai identity ii construction/representation can also be supportive of the international policies of cooperation and relationships between Thailand and other (neighbouring) countriesBangkok Universit
    • …
    corecore