Robust Large Vocabulary Continuous Speech Recognition Using Missing Data Techniques (Robuuste spraakherkenning voor groot vocabularium gebruik makend van de techniek van de ontbrekende data)
De mogelijkheden om spraakherkenning in ons dagelijkse leven te integrer en nemen meer en meer toe. Met de stijgende populariteit van apparaten z oals mobiele telefoons, computers, muziekspelers en navigatiesystemen, i s de laatste jaren de vraag naar toepassingen die met de menselijke stem aangestuurd kunnen worden aanzienlijk gegroeid. Essentieel echter voor de praktische toepassing van spraakherkenning in deze systemen is de rob uustheid tegen het nadelige effect van onbekende stoorgeluiden. In tegenstelling tot menselijke luisteraars zijn systemen voor automati sche spraakherkenning buitengewoon gevoelig aan tijdsvariërende achtergr ondruis. Dit effect is te wijten aan het verschil tussen de ruisloze oms tandigheden waarin de statistische modellen van spraak worden opgesteld en de ruizige condities waaraan deze systemen in de praktijk onderhevig zijn. Zonder de aanwending van technieken die dit verschil trachten te v erkleinen, zal de nauwkeurigheid van de spraakherkenner aanzienlijk dale n. De primaire doelstelling van deze doctoraatsstudie is het spraakherkenn ingssysteem ruisrobuust maken door een techniek te hanteren die gebaseer d is op het reconstrueren van de ontbrekende data of Missing Feature The ory (MFT). In een MFT-gebaseerde herkenner zal een spectraal masker aang even welke regio's in de tijd-frequentie voorstelling van het verstoorde spraaksignaal gedomineerd worden door de achtergrondruis en ze vervolge ns classificeren als onbetrouwbaar. Deze regio's zullen in het verdere h erkenningsproces als ontbrekend worden beschouwd. In geval van een corre cte classificatie, beschikt MFT over een groot potentieel om nauwkeurige spraakherkenning te verrichten op de overblijvende informatie uit het v erstoorde spraaksignaal. In tegenstelling tot de meeste andere methodes voor ruiscompensatie, heeft MFT bovendien als belangrijk voordeel dat ha ar prestatie onafhankelijk is van het type achtergrondruis. In dit werk worden de ontbrekende componenten van de kenmerkenvectoren die uit de spraak worden berekend, geschat aan de hand van de zogenaamde data imputation techniek. Deze techniek is bruikbaar in elk ken merkendomein dat een lineaire transformatie is van het log-spectrale dom ein en is toepasbaar op zowel de statische als de dynamische kenmerkenve ctoren. Twee nieuwe maskeringsmethodes werden ontwikkeld en geëvalueerd voor maskers die ofwel een ja/nee -beslissing maken over de betrouwbaar heid van de data, ofwel hiervoor een kans schatten. Een methode die corr igeert voor de verschillen die kunnen optreden in het communicatiekanaal werd eveneens in de herkenningsprocedure geïntegreerd. Het resultaat van dit doctoraat is een MFT-gebaseerde spraakherkenner d ie robuust is tegen een brede waaier van achtergrondgeluiden en variatie s in microfoon- en kanaalkarakteristieken. Het systeem werd getest op tw ee standaarddatabanken: een klein vocabularium databank voor cijferherke nning (Aurora2) en een groot vocabularium dicteertaak (Aurora4). Met een minimum aan veronderstellingen over de achtergrondruis, behaalt het ont wikkelde systeem een herkenningsnauwkeurigheid dat behoort tot de beste gepubliceerde resultaten op beide databanken.Van Segbroeck M., ''Robust large vocabulary continuous speech recognition using missing data techniques'', Proefschrift voorgedragen tot het behalen van het doctoraat in de ingenieurswetenschappen, K.U.Leuven, January 2010, Leuven, Belgium.status: publishe