659 research outputs found
High Performance Neural Networks for Online Speech Recognizer
Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die FĂ€higkeit einer Maschine, Wörter und AusdrĂŒcke gesprochener Sprache zu identifizieren und diese in ein fĂŒr Menschen lesbares Format zu konvertieren.
Die Anwendungen sind ein maĂgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermöglicht.
Um diese FĂ€higkeit in vollem MaĂe zu gewĂ€hrleisten, mĂŒssen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, fĂŒr eine Interaktion mit einem Benutzer, auch schnell genug, antworten.
Dieses Wechselspiel beider Bedingungen eröffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschlieĂlich mit dem Problem der Genauigkeit befasst, unterscheidet.
Schon ĂŒber ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht.
Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Lösung der Spracherkennungsaufgabe ermöglichte.
Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-DomÀne der Sprache statistisch entkoppelt und modelliert.
Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Aussprachewörterbuch, HMM-Topologien, Phonem-Cluster-BÀumen, einem akustischen Modell und einem Sprachmodell, besteht.
Durch aktuelle Fortschritte bei kĂŒnstlichen neuronalen Netzen (KNN) fĂŒr die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen.
In den letzten Jahren hat die EinfĂŒhrung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, groĂes Interesse auf sich gezogen.
Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfÀllt.
Gleichzeitig benötigt die Ende-zu-Ende ASR oft eine wesentlich gröĂere Trainingsdatenmenge und es ist eine gröĂere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet.
Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems fĂŒr ein Online- und Streaming-Szenario.
Der Autor erreichte dies durch ein Vorgehen in zwei Schritten.
Im ersten Schritt wurden vielfÀltige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen.
Batch-Mode bedeutet, dass die vollstĂ€ndigen Audiodaten beim Start der Verarbeitung zur VerfĂŒgung stehen.
Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermöglichen Inferenzen online bzw. fortlaufend durchzufĂŒhren.
Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt.
Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, können anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden.
Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem groĂen Dynamikumfang bekannt.
Diese Merkmale können drastisch durch natĂŒrliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order AufnahmegerĂ€te, beeinflusst werden.
Die groĂe Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern.
Diese Diskrepanz gehen wir durch zwei high-level AnsÀtze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an.
Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkömmliche Merkmalsextraktionen.
Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet.
Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung ĂŒbertreffen lieĂ.
DarĂŒber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor.
Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusÀtzliche Trainingsdaten zu generieren und so die QualitÀt der Trainingsdaten zu erhöhen.
Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting.
Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells fĂŒr die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Lösung vor.
Die erste Methode (dynamic time stretching) simuliert den Effekt von GeschwindigkeitsÀnderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion.
In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene SĂ€tze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergröĂern.
Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark fĂŒr TelefongesprĂ€che.
Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusĂ€tzliche Anpassungen und Inferenz-Techniken, erfĂŒllen.
Weder der ĂŒblicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen.
Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor.
Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder fĂŒr den Latenzhöchstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern.
Um die Latenzmetrik zu optimieren, fĂŒhrten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte frĂŒh zum Benutzer zu schicken und diese spĂ€ter teilweise zu korrigieren.
In Experimenten in einer realen Situation in der VorlesungsprÀsentations-DomÀne konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden.
Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist fĂŒr Ende-zu-Ende Spracherkennung zunehmend beliebt geworden.
Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen.
Wie S2S-Modelle mit ihrem Batch-Mode KapazitĂ€t aber fĂŒr eine online Spracherkennung gebraucht werden können, ist dennoch eine offene Forschungsfrage.
Wir nÀherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten.
Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusÀtzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen.
Unsere Experimente auf dem Datensatz mit TelefongesprĂ€chen zeigten, dass unser Stream-Erkenner, mit einer Verzögerung von 1,5~Sekunden fĂŒr alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht.
Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne EinbuĂen in der Genauigkeit genutzt werden kann
Lyapunov Exponents for Random Dynamical Systems
In this thesis the Lyapunov exponents of random dynamical systems are presented and investigated. The main results are:
1. In the space of all unbounded linear cocycles satisfying a certain integrability condition, we construct an open set of linear cocycles have simple Lyapunov spectrum and no exponential separation. Thus, unlike the bounded case, the exponential separation property is nongeneric in the space of unbounded cocycles.
2. The multiplicative ergodic theorem is established for random difference equations as well as random differential equations with random delay.
3. We provide a computational method for computing an invariant measure for infinite iterated functions systems as well as the Lyapunov exponents of products of random matrices.In den vorliegenden Arbeit werden Lyapunov-Exponented fĂŒr zufĂ€llige dynamische Systeme untersucht. Die Hauptresultate sind:
1. Im Raum aller unbeschrĂ€nkten linearen Kozyklen, die eine gewisse IntegrabilitĂ€tsbedingung erfĂŒllen, konstruieren wir eine offene Menge linearer Kyzyklen, die einfaches Lyapunov-Spektrum besitzen und nicht exponentiell separiert sind. Im Gegensatz zum beschrĂ€nkten Fall ist die Eingenschaft der exponentiellen Separiertheit nicht generisch in Raum der unbeschrĂ€nkten Kozyklen.
2. Sowohl fĂŒr zufĂ€llige Differenzengleichungen, als auch fĂŒr zufĂ€llige Differentialgleichungen, mit zufĂ€lligem Delay wird ein multiplikatives Ergodentheorem bewiesen.
3.Eine algorithmisch implementierbare Methode wird entwickelt zur Berechnung von invarianten MaĂen fĂŒr unendliche iterierte Funktionensysteme und zur Berechnung von Lyapunov-Exponenten fĂŒr Produkte von zufĂ€lligen Matrizen
The analog simulation of heat transfer devices for the smoothing of a fluctuating fluid temperature
Equations are written to describe a heat exchanger with electrical energy input and also a large tank system which can have electrical energy input. The output temperatures were sampled and fedback to define the energy input to the two systems. These systems were simulated on an analog computer and the ability of the two systems to smooth a fluctuating temperature input was tested. The testing of the systems included trying different types of controllers in the control system as well as different size tanks for the tank system. A satisfactory smoothing of the output temperature was demonstrated after some modifications --Abstract, page ii
The mean-square dichotomy spectrum and a bifurcation to a mean-square attractor
The dichotomy spectrum is introduced for linear mean-square random dynamical
systems, and it is shown that for finite-dimensional mean-field stochastic
differential equations, the dichotomy spectrum consists of finitely many
compact intervals. It is then demonstrated that a change in the sign of the
dichotomy spectrum is associated with a bifurcation from a trivial to a
non-trivial mean-square random attractor
Lyapunov Exponents for Random Dynamical Systems
In this thesis the Lyapunov exponents of random dynamical systems are presented and investigated. The main results are:
1. In the space of all unbounded linear cocycles satisfying a certain integrability condition, we construct an open set of linear cocycles have simple Lyapunov spectrum and no exponential separation. Thus, unlike the bounded case, the exponential separation property is nongeneric in the space of unbounded cocycles.
2. The multiplicative ergodic theorem is established for random difference equations as well as random differential equations with random delay.
3. We provide a computational method for computing an invariant measure for infinite iterated functions systems as well as the Lyapunov exponents of products of random matrices.In den vorliegenden Arbeit werden Lyapunov-Exponented fĂŒr zufĂ€llige dynamische Systeme untersucht. Die Hauptresultate sind:
1. Im Raum aller unbeschrĂ€nkten linearen Kozyklen, die eine gewisse IntegrabilitĂ€tsbedingung erfĂŒllen, konstruieren wir eine offene Menge linearer Kyzyklen, die einfaches Lyapunov-Spektrum besitzen und nicht exponentiell separiert sind. Im Gegensatz zum beschrĂ€nkten Fall ist die Eingenschaft der exponentiellen Separiertheit nicht generisch in Raum der unbeschrĂ€nkten Kozyklen.
2. Sowohl fĂŒr zufĂ€llige Differenzengleichungen, als auch fĂŒr zufĂ€llige Differentialgleichungen, mit zufĂ€lligem Delay wird ein multiplikatives Ergodentheorem bewiesen.
3.Eine algorithmisch implementierbare Methode wird entwickelt zur Berechnung von invarianten MaĂen fĂŒr unendliche iterierte Funktionensysteme und zur Berechnung von Lyapunov-Exponenten fĂŒr Produkte von zufĂ€lligen Matrizen
The Bohl spectrum for nonautonomous differential equations
We develop the Bohl spectrum for nonautonomous linear differential equation
on a half line, which is a spectral concept that lies between the Lyapunov and
the Sacker--Sell spectrum. We prove that the Bohl spectrum is given by the
union of finitely many intervals, and we show by means of an explicit example
that the Bohl spectrum does not coincide with the Sacker--Sell spectrum in
general. We demonstrate for this example that any higher-order nonlinear
perturbation is exponentially stable, although this not evident from the
Sacker--Sell spectrum. We also analyze in detail situations in which the Bohl
spectrum is identical to the Sacker-Sell spectrum
Advanced digital signal processing for coherent optical OFDM transmissions
Coherent optical orthogonal frequency division multiplexing (CO-OFDM) has been actively considered as a potential candidate for long-haul transmission and 400 Gb/s to 1 Tb/s Ethernet transport because of its high spectral efficiency, efficient implementation, flexibility and robustness against linear impairments such as chromatic dispersion and polarization mode dispersion. However, due to the long symbol duration and narrow subcarrier spacing, CO-OFDM systems are sensitive to laser phase noise and fibre nonlinearity induced penalties. As a result, the development of CO-OFDM transmission technology crucially relies on efficient techniques to compensate for the laser phase noise and fibre nonlinearity impairments. In this thesis, high performance and low complexity digital signal processing techniques for laser phase noise and fibre nonlinearity compensation in CO-OFDM transmissions are demonstrated. For laser phase noise compensation, three novel techniques, namely quasipilot-aided, decision-directed-free blind and multiplier-free blind are introduced. For fibre nonlinear compensation, two novel techniques which are referred to as phase conjugated pilots and phase conjugated subcarrier coding, are proposed. All these abovementioned digital signal processing techniques offer high performances and flexibilities while requiring relatively low complexities in comparison with other existing phase noise and nonlinear compensation techniques. As a result of the developments of these digital signal processing techniques, CO-OFDM technology is expected to play a significant role in future ultra-high capacity optical network. In addition, this thesis also presents preliminary study on nonlinear Fourier transform based transmission schemes in which OFDM is a highly suitable modulation format. The obtained result paves the way towards a truly flexible nonlinear wave-division multiplexing system that allows the current nonlinear transmission limitations to be exceeded
- âŠ