82 research outputs found
DNN adaptation by automatic quality estimation of ASR hypotheses
In this paper we propose to exploit the automatic Quality Estimation (QE) of
ASR hypotheses to perform the unsupervised adaptation of a deep neural network
modeling acoustic probabilities. Our hypothesis is that significant
improvements can be achieved by: i)automatically transcribing the evaluation
data we are currently trying to recognise, and ii) selecting from it a subset
of "good quality" instances based on the word error rate (WER) scores predicted
by a QE component. To validate this hypothesis, we run several experiments on
the evaluation data sets released for the CHiME-3 challenge. First, we operate
in oracle conditions in which manual transcriptions of the evaluation data are
available, thus allowing us to compute the "true" sentence WER. In this
scenario, we perform the adaptation with variable amounts of data, which are
characterised by different levels of quality. Then, we move to realistic
conditions in which the manual transcriptions of the evaluation data are not
available. In this case, the adaptation is performed on data selected according
to the WER scores "predicted" by a QE component. Our results indicate that: i)
QE predictions allow us to closely approximate the adaptation results obtained
in oracle conditions, and ii) the overall ASR performance based on the proposed
QE-driven adaptation method is significantly better than the strong, most
recent, CHiME-3 baseline.Comment: Computer Speech & Language December 201
Personalized Acoustic Modeling by Weakly Supervised Multi-Task Deep Learning using Acoustic Tokens Discovered from Unlabeled Data
It is well known that recognizers personalized to each user are much more
effective than user-independent recognizers. With the popularity of smartphones
today, although it is not difficult to collect a large set of audio data for
each user, it is difficult to transcribe it. However, it is now possible to
automatically discover acoustic tokens from unlabeled personal data in an
unsupervised way. We therefore propose a multi-task deep learning framework
called a phoneme-token deep neural network (PTDNN), jointly trained from
unsupervised acoustic tokens discovered from unlabeled data and very limited
transcribed data for personalized acoustic modeling. We term this scenario
"weakly supervised". The underlying intuition is that the high degree of
similarity between the HMM states of acoustic token models and phoneme models
may help them learn from each other in this multi-task learning framework.
Initial experiments performed over a personalized audio data set recorded from
Facebook posts demonstrated that very good improvements can be achieved in both
frame accuracy and word accuracy over popularly-considered baselines such as
fDLR, speaker code and lightly supervised adaptation. This approach complements
existing speaker adaptation approaches and can be used jointly with such
techniques to yield improved results.Comment: 5 pages, 5 figures, published in IEEE ICASSP 201
CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES
Tesis por compendio[ES] Durante los últimos años, los repositorios multimedia en línea se han convertido
en fuentes clave de conocimiento gracias al auge de Internet, especialmente en
el área de la educación. Instituciones educativas de todo el mundo han dedicado
muchos recursos en la búsqueda de nuevos métodos de enseñanza, tanto para
mejorar la asimilación de nuevos conocimientos, como para poder llegar a una
audiencia más amplia. Como resultado, hoy en día disponemos de diferentes
repositorios con clases grabadas que siven como herramientas complementarias en
la enseñanza, o incluso pueden asentar una nueva base en la enseñanza a
distancia. Sin embargo, deben cumplir con una serie de requisitos para que la
experiencia sea totalmente satisfactoria y es aquí donde la transcripción de los
materiales juega un papel fundamental. La transcripción posibilita una búsqueda
precisa de los materiales en los que el alumno está interesado, se abre la
puerta a la traducción automática, a funciones de recomendación, a la
generación de resumenes de las charlas y además, el poder hacer
llegar el contenido a personas con discapacidades auditivas. No obstante, la
generación de estas transcripciones puede resultar muy costosa.
Con todo esto en mente, la presente tesis tiene como objetivo proporcionar
nuevas herramientas y técnicas que faciliten la transcripción de estos
repositorios. En particular, abordamos el desarrollo de un conjunto de herramientas
de reconocimiento de automático del habla, con énfasis en las técnicas de aprendizaje
profundo que contribuyen a proporcionar transcripciones precisas en casos de
estudio reales. Además, se presentan diferentes participaciones en competiciones
internacionales donde se demuestra la competitividad del software comparada con
otras soluciones. Por otra parte, en aras de mejorar los sistemas de
reconocimiento, se propone una nueva técnica de adaptación de estos sistemas al
interlocutor basada en el uso Medidas de Confianza. Esto además motivó el
desarrollo de técnicas para la mejora en la estimación de este tipo de medidas
por medio de Redes Neuronales Recurrentes.
Todas las contribuciones presentadas se han probado en diferentes repositorios
educativos. De hecho, el toolkit transLectures-UPV es parte de un conjunto de
herramientas que sirve para generar transcripciones de clases en diferentes
universidades e instituciones españolas y europeas.[CA] Durant els últims anys, els repositoris multimèdia en línia s'han convertit
en fonts clau de coneixement gràcies a l'expansió d'Internet, especialment en
l'àrea de l'educació. Institucions educatives de tot el món han dedicat
molts recursos en la recerca de nous mètodes d'ensenyament, tant per
millorar l'assimilació de nous coneixements, com per poder arribar a una
audiència més àmplia. Com a resultat, avui dia disposem de diferents
repositoris amb classes gravades que serveixen com a eines complementàries en
l'ensenyament, o fins i tot poden assentar una nova base a l'ensenyament a
distància. No obstant això, han de complir amb una sèrie de requisits perquè la
experiència siga totalment satisfactòria i és ací on la transcripció dels
materials juga un paper fonamental. La transcripció possibilita una recerca
precisa dels materials en els quals l'alumne està interessat, s'obri la
porta a la traducció automàtica, a funcions de recomanació, a la
generació de resums de les xerrades i el poder fer
arribar el contingut a persones amb discapacitats auditives. No obstant, la
generació d'aquestes transcripcions pot resultar molt costosa.
Amb això en ment, la present tesi té com a objectiu proporcionar noves
eines i tècniques que faciliten la transcripció d'aquests repositoris. En
particular, abordem el desenvolupament d'un conjunt d'eines de reconeixement
automàtic de la parla, amb èmfasi en les tècniques d'aprenentatge profund que
contribueixen a proporcionar transcripcions precises en casos d'estudi reals. A
més, es presenten diferents participacions en competicions internacionals on es
demostra la competitivitat del programari comparada amb altres solucions.
D'altra banda, per tal de millorar els sistemes de reconeixement, es proposa una
nova tècnica d'adaptació d'aquests sistemes a l'interlocutor basada en l'ús de
Mesures de Confiança. A més, això va motivar el desenvolupament de tècniques per
a la millora en l'estimació d'aquest tipus de mesures per mitjà de Xarxes
Neuronals Recurrents.
Totes les contribucions presentades s'han provat en diferents repositoris
educatius. De fet, el toolkit transLectures-UPV és part d'un conjunt d'eines
que serveix per generar transcripcions de classes en diferents universitats i
institucions espanyoles i europees.[EN] During the last years, on-line multimedia repositories have become key
knowledge assets thanks to the rise of Internet and especially in the area of
education. Educational institutions around the world have devoted big efforts
to explore different teaching methods, to improve the transmission of knowledge
and to reach a wider audience. As a result, online video lecture repositories
are now available and serve as complementary tools that can boost the learning
experience to better assimilate new concepts. In order to guarantee the success
of these repositories the transcription of each lecture plays a very important
role because it constitutes the first step towards the availability of many other
features. This transcription allows the searchability of learning materials,
enables the translation into another languages, provides recommendation
functions, gives the possibility to provide content summaries, guarantees
the access to people with hearing disabilities, etc. However, the
transcription of these videos is expensive in terms of time and human cost.
To this purpose, this thesis aims at providing new tools and techniques that
ease the transcription of these repositories. In particular, we address the
development of a complete Automatic Speech Recognition Toolkit with an special
focus on the Deep Learning techniques that contribute to provide accurate
transcriptions in real-world scenarios. This toolkit is tested against many
other in different international competitions showing comparable transcription
quality. Moreover, a new technique to improve the recognition accuracy has been
proposed which makes use of Confidence Measures, and constitutes the spark that
motivated the proposal of new Confidence Measures techniques that helped to
further improve the transcription quality. To this end, a new speaker-adapted
confidence measure approach was proposed for models based on Recurrent Neural
Networks.
The contributions proposed herein have been tested in real-life scenarios in
different educational repositories. In fact, the transLectures-UPV toolkit is
part of a set of tools for providing video lecture transcriptions in many
different Spanish and European universities and institutions.Agua Teba, MÁD. (2019). CONTRIBUTIONS TO EFFICIENT AUTOMATIC TRANSCRIPTION OF VIDEO LECTURES [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/130198TESISCompendi
Acoustic model selection for recognition of regional accented speech
Accent is cited as an issue for speech recognition systems. Our experiments showed that the ASR word error rate is up to seven times greater for accented speech compared with standard British English. The main objective of this research is to develop Automatic Speech Recognition (ASR) techniques that are robust to accent variation. We applied different acoustic modelling techniques to compensate for the effects of regional accents on the ASR performance. For conventional GMM-HMM based ASR systems, we showed that using a small amount of data from a test speaker to choose an accent dependent model using an accent identification system, or building a model using the data from N neighbouring speakers in AID space, will result in superior performance compared to that obtained with unsupervised or supervised speaker adaptation. In addition we showed that using a DNN-HMM rather than a GMM-HMM based acoustic model would improve the recognition accuracy considerably. Even if we apply two stages of accent followed by speaker adaptation to the GMM-HMM baseline system, the GMM-HMM based system will not outperform the baseline DNN-HMM based system. For more contemporary DNN-HMM based ASR systems we investigated how adding different types of accented data to the training set can provide better recognition accuracy on accented speech. Finally, we proposed a new approach for visualisation of the AID feature space. This is helpful in analysing the AID recognition accuracies and analysing AID confusion matrices
Confidence Measures for Automatic and Interactive Speech Recognition
[EN] This thesis work contributes to the field of the {Automatic Speech Recognition} (ASR). And particularly to the {Interactive Speech Transcription} and {Confidence Measures} (CM) for ASR.
The main goals of this thesis work can be summarised as follows:
1. To design IST methods and tools to tackle the problem of improving automatically generated transcripts.
2. To assess the designed IST methods and tools on real-life tasks of transcription in large educational repositories of video lectures.
3. To improve the reliability of the IST by improving the underlying (CM).
Abstracts:
The {Automatic Speech Recognition} (ASR) is a crucial task in a broad range of important applications which could not accomplished by means of manual transcription. The ASR can provide cost-effective transcripts in scenarios of increasing social impact such as the {Massive Open Online Courses} (MOOC), for which the availability of accurate enough is crucial even if they are not flawless. The transcripts enable search-ability, summarisation, recommendation, translation; they make the contents accessible to non-native speakers and users with impairments, etc. The usefulness is such that students improve their academic performance when learning from subtitled video lectures even when transcript is not perfect.
Unfortunately, the current ASR technology is still far from the necessary accuracy.
The imperfect transcripts resulting from ASR can be manually supervised and corrected, but the effort can be even higher than manual transcription.
For the purpose of alleviating this issue, a novel {Interactive Transcription of Speech} (IST) system is presented in this thesis. This IST succeeded in reducing the effort if a small quantity of errors can be allowed; and also in improving the underlying ASR models in a cost-effective way.
In other to adequate the proposed framework into real-life MOOCs,
another intelligent interaction methods involving limited user effort were investigated. And also, it was introduced a new method which benefit from the user interactions to improve automatically the unsupervised parts ({Constrained Search} for ASR).
The conducted research was deployed into a web-based IST platform with which it was possible to produce a massive number of semi-supervised lectures from two different well-known repositories, videoLectures.net and poliMedia.
Finally, the performance of the IST and ASR systems can be easily increased by improving the computation of the {Confidence Measure} (CM) of transcribed words. As so, two contributions were developed:
a new particular {Logistic Regresion} (LR) model;
and the speaker adaption of the CM for cases in which it is possible, such with MOOCs.[ES] Este trabajo contribuye en el campo del {reconocimiento automático del habla} (RAH). Y en especial, en el de la {transcripción interactiva del habla} (TIH) y el de las {medidas de confianza} (MC) para RAH. Los objetivos principales son los siguientes:
1. Diseño de métodos y herramientas TIH para mejorar las transcripciones automáticas.
2. Evaluar los métodos y herramientas TIH empleando tareas de transcripción realistas extraídas de grandes repositorios de vídeos educacionales.
3. Mejorar la fiabilidad del TIH mediante la mejora de las MC.
Resumen:
El {reconocimiento automático del habla} (RAH) es una tarea crucial en una amplia gama de aplicaciones importantes que no podrían realizarse mediante transcripción manual. El RAH puede proporcionar transcripciones rentables en escenarios de creciente impacto social como el de los {cursos abiertos en linea masivos} (MOOC), para el que la disponibilidad de transcripciones es crucial, incluso cuando no son completamente perfectas. Las transcripciones permiten la automatización de procesos como buscar, resumir, recomendar, traducir; hacen que los contenidos sean más accesibles para hablantes no nativos y usuarios con discapacidades, etc. Incluso se ha comprobado que mejora el rendimiento de los estudiantes que aprenden de videos con subtítulos incluso cuando estos no son completamente perfectos.
Desafortunadamente, la tecnología RAH actual aún está lejos de la precisión necesaria.
Las transcripciones imperfectas resultantes del RAH pueden ser supervisadas y corregidas manualmente, pero el esfuerzo puede ser incluso superior al de la transcripción manual. Con el fin de aliviar este problema, esta tesis presenta un novedoso sistema de {transcripción interactiva del habla} (TIH).
Este método TIH consigue reducir el esfuerzo de semi-supervisión siempre que sea aceptable una pequeña cantidad de errores; además mejora a la par los modelos RAH subyacentes.
Con objeto de transportar el marco propuesto para MOOCs, también se investigaron otros métodos de interacción inteligentes que involucran esfuerzo limitado por parte del usuario. Además, se introdujo un nuevo método que aprovecha las interacciones para mejorar aún más las partes no supervisadas (ASR con {búsqueda restringida}).
La investigación en TIH llevada a cabo se desplegó en una plataforma web con el que fue posible producir un número masivo de transcripciones de videos de dos conocidos repositorios, videoLectures.net y poliMedia.
Por último, el rendimiento de la TIH y los sistemas de RAH se puede aumentar directamente mediante la mejora de la estimación de la {medida de confianza} (MC) de las palabras transcritas. Por este motivo se desarrollaron dos contribuciones: un nuevo modelo discriminativo {logístico} (LR);
y la adaptación al locutor de la MC para los casos en que es posible, como por ejemplo en MOOCs.[CA] Aquest treball hi contribueix al camp del {reconeixment automàtic de la parla} (RAP).
I en especial, al de la {transcripció interactiva de la parla} i el de {mesures de confiança} (MC) per a RAP.
Els objectius principals són els següents:
1. Dissenyar mètodes i eines per a TIP per tal de millorar les transcripcions automàtiques.
2. Avaluar els mètodes i eines TIP per a tasques de transcripció realistes extretes de grans repositoris de vídeos educacionals.
3. Millorar la fiabilitat del TIP, mitjançant la millora de les MC.
Resum:
El {reconeixment automàtic de la parla} (RAP) és una tasca crucial per una àmplia gamma d'aplicacions importants que no es poden dur a terme per mitjà de la transcripció manual. El RAP pot proporcionar transcripcions en escenaris de creixent impacte social com els {cursos online oberts massius} (MOOC). Les transcripcions permeten automatitzar tasques com ara cercar, resumir, recomanar, traduir; a més a més,
fa accessibles els continguts als parlants no nadius i els usuaris amb discapacitat, etc. Fins i tot, pot millorar el rendiment acadèmic de estudiants que aprenen de xerrades amb subtítols, encara que aquests subtítols no siguen perfectes. Malauradament, la tecnologia RAP actual encara està lluny de la precisió necessària.
Les transcripcions imperfectes resultants de RAP poden ser supervisades i corregides manualment, però aquest l'esforç pot acabar sent superior a la transcripció manual. Per tal de resoldre aquest problema, en aquest treball es presenta un sistema nou per a {transcripció interactiva de la parla} (TIP). Aquest sistema TIP va ser reeixit en la reducció de l'esforç per quan es pot permetre una certa quantitat d'errors;
així com també en en la millora dels models RAP subjacents.
Per tal d'adequar el marc proposat per a MOOCs, també es van investigar altres mètodes d'interacció intel·ligents amb esforç d''usuari limitat.
A més a més, es va introduir un nou mètode que aprofita les interaccions per tal de millorar encara més les parts no supervisades (RAP amb {cerca restringida}).
La investigació en TIP duta a terme es va desplegar en una plataforma web amb la qual va ser possible produir un nombre massiu de transcripcions semi-supervisades de xerrades de repositoris ben coneguts, videoLectures.net i poliMedia.
Finalment, el rendiment de la TIP i els sistemes de RAP es pot augmentar directament mitjançant la millora de l'estimació de la {Confiança Mesura} (MC) de les paraules transcrites. Per tant, es van desenvolupar dues contribucions: un nou model discriminatiu logístic (LR);
i l'adaptació al locutor de la MC per casos en que és possible, per exemple amb MOOCs.Sánchez Cortina, I. (2016). Confidence Measures for Automatic and Interactive Speech Recognition [Tesis doctoral no publicada]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/61473TESI
Using Deep Neural Networks for Speaker Diarisation
Speaker diarisation answers the question “who spoke when?” in an audio recording. The input may vary, but a system is required to output speaker labelled segments in time. Typical stages are Speech Activity Detection (SAD), speaker segmentation and speaker clustering. Early research focussed on Conversational Telephone Speech (CTS) and Broadcast News (BN) domains before the direction shifted to meetings and, more recently, broadcast media. The British Broadcasting Corporation (BBC) supplied data through the Multi-Genre Broadcast (MGB) Challenge in 2015 which showed the difficulties speaker diarisation systems have on broadcast media data.
Diarisation is typically an unsupervised task which does not use auxiliary data or information to enhance a system. However, methods which do involve supplementary data have shown promise. Five semi-supervised methods are investigated which use a combination of inputs: different channel types and transcripts. The methods involve Deep Neural Networks (DNNs) for SAD, DNNs trained for channel detection, transcript alignment, and combinations of these approaches. However, the methods are only applicable when datasets contain the required inputs. Therefore, a method involving a pretrained Speaker Separation Deep Neural Network (ssDNN) is investigated which is applicable to every dataset. This technique performs speaker clustering and speaker segmentation using DNNs successfully for meeting data and with mixed results for broadcast media.
The task of diarisation focuses on two aspects: accurate segments and speaker labels. The Diarisation Error Rate (DER) does not evaluate the segmentation quality as it does not measure the number of correctly detected segments. Other metrics exist, such as boundary and purity measures, but these also mask the segmentation quality. An alternative metric is presented based on the F-measure which considers the number of hypothesis segments correctly matched to reference segments. A deeper insight into the segment quality is shown through this metric
High Performance Neural Networks for Online Speech Recognizer
Automatische Spracherkennung (engl. automatic speech recognition, ASR) beschreibt die Fähigkeit einer Maschine, Wörter und Ausdrücke gesprochener Sprache zu identifizieren und diese in ein für Menschen lesbares Format zu konvertieren.
Die Anwendungen sind ein maßgeblicher Teil des digitalen Lebens bspw. wird der Dialog zwischen Mensch und Maschine oder ein Dialog zwischen Menschen, die unterschiedliche Muttersprachen sprechen, ermöglicht.
Um diese Fähigkeit in vollem Maße zu gewährleisten, müssen ASR-Anwendungen nicht nur mit hoher Genauigkeit, sondern, für eine Interaktion mit einem Benutzer, auch schnell genug, antworten.
Dieses Wechselspiel beider Bedingungen eröffnet das Forschungsgebiet der Online Speech Recognition, welche sich von der konventionellen Spracherkennung, die sich ausschließlich mit dem Problem der Genauigkeit befasst, unterscheidet.
Schon über ein halbes Jahrhundert wird aktiv in der automatischen Spracherkennung geforscht.
Verschiedene Muster- und Template-Matching-Methoden wurden bis Mitte 1980 erforscht, als das Hidden Markov Model (HMM) einen Durchbruch zur Lösung der Spracherkennungsaufgabe ermöglichte.
Der HMM-Ansatz schafft ein allgemeines Framework, welches Schwankungen in der Zeit sowie Spektrums-Domäne der Sprache statistisch entkoppelt und modelliert.
Ein HMM-basierter Erkenner wird auf eine komplexe Pipeline aufgesetzt, welche aus etlichen statistischen und nicht-statistischen Komponenten, wie bspw. einem Aussprachewörterbuch, HMM-Topologien, Phonem-Cluster-Bäumen, einem akustischen Modell und einem Sprachmodell, besteht.
Durch aktuelle Fortschritte bei künstlichen neuronalen Netzen (KNN) für die akustische sowie sprachliche Modellierung dominiert der hybride HMM/KNN-Ansatz in unterschiedlichen ASR-Anwendungen.
In den letzten Jahren hat die Einführung komplett neuronaler Ende-zu-Ende Spracherkennungssystems, welche eine neuronale Netzwerkarchitektur verwenden, um die direkt Abbildung eines akustischen Signals zu einer textuellen Transkription zu approximieren, großes Interesse auf sich gezogen.
Die Vorteile des Ende-zu-Ende-Ansatzes liegen in der Einfachheit des Trainings eines kompletten Spracherkennungssystems, wobei die komplexe Struktur einer HMM-basierten Pipeline entfällt.
Gleichzeitig benötigt die Ende-zu-Ende ASR oft eine wesentlich größere Trainingsdatenmenge und es ist eine größere Herausforderung ein Ende-zu-Ende Modell so anzupassen, dass es auf einer neuen Aufgabe gut abschneidet.
Diese Dissertation befasst sich mit der Entwicklung eines hoch-performanten Spracherkennungssystems für ein Online- und Streaming-Szenario.
Der Autor erreichte dies durch ein Vorgehen in zwei Schritten.
Im ersten Schritt wurden vielfältige Techniken im HMM-KNN- und Ende-zu-Ende-Paradigma angewandt, um ein hoch-performantes System im Batch-Mode zu bauen.
Batch-Mode bedeutet, dass die vollständigen Audiodaten beim Start der Verarbeitung zur Verfügung stehen.
Im zweiten Schritt wurden effiziente Anpassungen untersucht, die einem hoch-performanten Batch-Mode-System ermöglichen Inferenzen online bzw. fortlaufend durchzuführen.
Gleichzeitig wurden neuartige Algorithmen zu Reduktion der wahrgenommenen Latenz, welche das kritischste Problem von online Spracherkennern ist, entwickelt.
Erster Schritt. Die vorgestellte Techniken, die auf hochperformante Ergebnisse abzielen, können anhand deren Position in der Spracherkennungs-Pipeline, wie Merkmalsextraktion und Daten-Augmentierung, kategorisiert werden.
Bevor Sprachsignale eine digitale Form annehmen, sind sie als Ergebnis der Faltung mehrere Frequenzkomponenten in einem großen Dynamikumfang bekannt.
Diese Merkmale können drastisch durch natürliche Faktoren, wie bspw. unterschiedliche Sprecher, Umgebungen order Aufnahmegeräte, beeinflusst werden.
Die große Varianz der Sprachsignale verursacht typischerweise die Diskrepanz zwischen Training und Test und kann die Erkennungsleistung drastisch verschlechtern.
Diese Diskrepanz gehen wir durch zwei high-level Ansätze, welche auf Neuronalen Netzen basieren, in der Merkmalsextraktion an.
Wir zeigten, dass auf tiefe neuronale Netze (DNN) basierte akustische Modelle, die mittels dieser Sprecher-angepasster Merkmale trainiert wurden, in Bezug auf die Wortfehlerrate (WER) relativ, bis zu 19% besser abschneiden, als herkömmliche Merkmalsextraktionen.
Im zweiten Ansatz wird ein Long short-term memory (LSTM) Netzwerk, das mittels Connectionist Temporal Classification (CTC) Kriterium auf Phon-Labeln trainiert wurde, als High-Level Merkmals-Transformation verwendet.
Die Kombination der aus dem CTC-Netzwerk extrahierten Merkmale und der Bottleneck-Merkmale ergab einen effizienten Merkmalsraum, der ein DNN-basiertes akustisches Modell ein starkes CTC-basierendes Baseline Modell mit deutlichem Vorsprung übertreffen ließ.
Darüber hinaus zeigten wir, dass die Verwendung einer Standard Cepstral Mean und Varianz Normalisierung (CMVN) als low-level Merkmalsextraktion in einer potenziellen Diskrepanz von Offline Training und Online Test resultiert und schlugen eine Lineare Diskriminaz Analyse (LDA), die auf linearer Transformation basiert, als Ersatz vor.
Daten-Augmentierung wurde in der Spracherkennung verwendet, um zusätzliche Trainingsdaten zu generieren und so die Qualität der Trainingsdaten zu erhöhen.
Diese Technik verbessert die Robustheit des Modells und verhindert Overfitting.
Wir zeigten, dass Overfitting das kritischste Problem beim Training eines Ende-zu-Ende Sequence-to-sequence (S2S) Modells für die Spracherkennungsaufgabe ist und stellten zwei neuartige on-the-fly Daten-Augmentierungsmethoden als Lösung vor.
Die erste Methode (dynamic time stretching) simuliert den Effekt von Geschwindigkeitsänderungen durch eine direkte Manipulation der zeitlichen Folge an Frequenzvektoren durch eine Echtzeit-Interpolationsfunktion.
In der zweiten Methode zeigten wir eine effiziente Strategie, um gesprochene Sätze on-the-fly zu sub-samplen und so die Trainingsdatenmenge mit mehrere Varianten eines einzelnen Samples zu vergrößern.
Wir zeigten, dass diese Methoden sehr effizient sind, um Overfitting zu vermeiden und die Kombination mit der SpecAugment-Methode aus der Literatur verbesserte die Leistung des vorgestellten S2S-Modells zu einem State-of-the-Art auf dem Benchmark für Telefongespräche.
Zweiter Schritt. Wir zeigten, dass die vorgestellten Hoch-leistungs-Batch-Mode ASR Systeme des hybriden (HMM/KNN) und Ende-zu-Ende Paradigmas die Anforderungen in einer online bzw. realen Situation, durch zusätzliche Anpassungen und Inferenz-Techniken, erfüllen.
Weder der üblicherweise verwendete Echtzeitfaktor, noch die Commitment-Latenz sind ausreichend, um die vom Benutzer wahrgenommene Latenz aufzuzeigen.
Wir stellten eine neuartige und effiziente Methode zur Messung der vom Benutzer wahrgenommenen Latenz in einer Online- und Streaming-Situation vor.
Wir zeigten weiter auf, dass ein fortlaufender HMM/KNN Erkenner entweder für den Latenzhöchstwert oder die mittlere Latenz optimiert werden sollte, um das Nutzererlebnis zu verbessern.
Um die Latenzmetrik zu optimieren, führten wir einen Mechanismus ein (Hypothese Update), welcher erlaubt hypothetische Transkripte früh zum Benutzer zu schicken und diese später teilweise zu korrigieren.
In Experimenten in einer realen Situation in der Vorlesungspräsentations-Domäne konnte gezeigt werden, dass dieses Vorgehen die Wort-basierte Latenz unseres Erkenners stark reduziert, d.h. von 2,10 auf 1,09 Sekunden.
Das Sequence-to-sequence (S2S) Attention-basiertes Modell ist für Ende-zu-Ende Spracherkennung zunehmend beliebt geworden.
Etliche Vorteile der Architektur und der Optimierung eines S2S-Modells wurde vorgestellt, um State-of-the-Art Ergebnisse auf Standard-Benchmarks zu erreichen.
Wie S2S-Modelle mit ihrem Batch-Mode Kapazität aber für eine online Spracherkennung gebraucht werden können, ist dennoch eine offene Forschungsfrage.
Wir näherten uns diesem Problem, indem wir die Latenzprobleme, die durch die normale Softmax-Attention Funktion, bidirektionale Encoder und die Inferenz mit Strahlensuche verursacht wurden, analysierten.
Wir nahmen uns all dieser Latenzprobleme in einem an, in dem wir einen zusätzlichen Trainings-Loss, um die Unsicherheit der Attention-Funktion auf Frames auf die vorausgeblickt wird, und einen neuartigen Inferenz-Algorithmus, der partielle Hypothesen bestimmt, vorstellen.
Unsere Experimente auf dem Datensatz mit Telefongesprächen zeigten, dass unser Stream-Erkenner, mit einer Verzögerung von 1,5~Sekunden für alle Ausgabeelemente, in vollem Umfang die Performanz eines Batch-Mode-Systems derselben Konfiguration erreicht.
Nach bestem Wissen ist dies das erste Mal, dass ein S2S-Spracherkennungsmodell in einer online Situation ohne Einbußen in der Genauigkeit genutzt werden kann
Learning representations for speech recognition using artificial neural networks
Learning representations is a central challenge in machine learning. For speech
recognition, we are interested in learning robust representations that are stable
across different acoustic environments, recording equipment and irrelevant inter–
and intra– speaker variabilities. This thesis is concerned with representation
learning for acoustic model adaptation to speakers and environments, construction
of acoustic models in low-resource settings, and learning representations from
multiple acoustic channels. The investigations are primarily focused on the hybrid
approach to acoustic modelling based on hidden Markov models and artificial
neural networks (ANN).
The first contribution concerns acoustic model adaptation. This comprises
two new adaptation transforms operating in ANN parameters space. Both operate
at the level of activation functions and treat a trained ANN acoustic model as
a canonical set of fixed-basis functions, from which one can later derive variants
tailored to the specific distribution present in adaptation data. The first technique,
termed Learning Hidden Unit Contributions (LHUC), depends on learning
distribution-dependent linear combination coefficients for hidden units. This
technique is then extended to altering groups of hidden units with parametric and
differentiable pooling operators. We found the proposed adaptation techniques
pose many desirable properties: they are relatively low-dimensional, do not overfit
and can work in both a supervised and an unsupervised manner. For LHUC we
also present extensions to speaker adaptive training and environment factorisation.
On average, depending on the characteristics of the test set, 5-25% relative
word error rate (WERR) reductions are obtained in an unsupervised two-pass
adaptation setting.
The second contribution concerns building acoustic models in low-resource
data scenarios. In particular, we are concerned with insufficient amounts of
transcribed acoustic material for estimating acoustic models in the target language
– thus assuming resources like lexicons or texts to estimate language models
are available. First we proposed an ANN with a structured output layer
which models both context–dependent and context–independent speech units,
with the context-independent predictions used at runtime to aid the prediction
of context-dependent states. We also propose to perform multi-task adaptation
with a structured output layer. We obtain consistent WERR reductions up to
6.4% in low-resource speaker-independent acoustic modelling. Adapting those
models in a multi-task manner with LHUC decreases WERRs by an additional
13.6%, compared to 12.7% for non multi-task LHUC. We then demonstrate that
one can build better acoustic models with unsupervised multi– and cross– lingual
initialisation and find that pre-training is a largely language-independent. Up to
14.4% WERR reductions are observed, depending on the amount of the available
transcribed acoustic data in the target language.
The third contribution concerns building acoustic models from multi-channel
acoustic data. For this purpose we investigate various ways of integrating and
learning multi-channel representations. In particular, we investigate channel concatenation
and the applicability of convolutional layers for this purpose. We
propose a multi-channel convolutional layer with cross-channel pooling, which
can be seen as a data-driven non-parametric auditory attention mechanism. We
find that for unconstrained microphone arrays, our approach is able to match the
performance of the comparable models trained on beamform-enhanced signals
Acoustic adaptation of automatic speech recognition systems in educational environments
[ES] La adaptación acústica de sistemas de reconocimiento automático del habla (ASR) es un tarea de gran interés en varios dominios de aplicación de la ASR y, en particular, en entornos educativos como por ejemplo el de la propia UPV. En general, el objetivo principal de esta tarea es la mejora de sistemas de ASR de propósito general teniendo en cuenta particularidades acústicas específicas del dominio de aplicación. En este trabajo se propone hacer una revisión del estado del arte en adaptación acústica de sistemas de ASR y aplicar las técnicas que se consideran más adecuadas para entornos educativos y, en particular, para el repositorio UPV media.[CA] L'adaptació acústica de sistemes de reconeixement automàtic de la parla (ASR) és un tasca de gran interés en diversos dominis d'aplicació de l'ASR i, en particular, en entorns educatius com ara el de la pròpia UPV. En general, l'objectiu principal d'aquesta tasca és la millora de sistemes d'ASR de propòsit general tenint en compte particularitats acústiques específiques del domini d'aplicació. En aquest treball es proposa fer una revisió de l'estat de l'art en adaptació acústica de sistemes d'ASR i aplicar les tècniques que es consideren més adequades per a entorns educatius i, en particular, per al repositori UPV mèdia.[EN] The acoustic adaptation of automatic speech recognition (ASR) systems is a task of great interest in several ASR application domains and, in particular, in educational environments such as the UPV itself. In general, the main objective of this task is the improvement of general purpose ASR systems taking into account specific acoustic particularities of the application domain. In this work we propose to review the state of the art in acoustic adaptation of ASR systems and apply the techniques that are considered most suitable for educational environments and, in particular, for the UPV media repository.Mas Mollà, G. (2023). Acoustic adaptation of automatic speech recognition systems in educational environments. Universitat Politècnica de València. http://hdl.handle.net/10251/19667
- …