    Parts-based models and local features for automatic speech recognition

    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2009.Cataloged from PDF version of thesis.Includes bibliographical references (p. 101-108).While automatic speech recognition (ASR) systems have steadily improved and are now in widespread use, their accuracy continues to lag behind human performance, particularly in adverse conditions. This thesis revisits the basic acoustic modeling assumptions common to most ASR systems and argues that improvements to the underlying model of speech are required to address these shortcomings. A number of problems with the standard method of hidden Markov models (HMMs) and features derived from fixed, frame-based spectra (e.g. MFCCs) are discussed. Based on these problems, a set of desirable properties of an improved acoustic model are proposed, and we present a "parts-based" framework as an alternative. The parts-based model (PBM), based on previous work in machine vision, uses graphical models to represent speech with a deformable template of spectro-temporally localized "parts", as opposed to modeling speech as a sequence of fixed spectral profiles. We discuss the proposed model's relationship to HMMs and segment-based recognizers, and describe how they can be viewed as special cases of the PBM. Two variations of PBMs are described in detail. The first represents each phonetic unit with a set of time-frequency (T-F) "patches" which act as filters over a spectrogram. The model structure encodes the patches' relative T-F positions. The second variation, referred to as a "speech schematic" model, more directly encodes the information in a spectrogram by using simple edge detectors and focusing more on modeling the constraints between parts.(cont.) We demonstrate the proposed models on various isolated recognition tasks and show the benefits over baseline systems, particularly in noisy conditions and when only limited training data is available. We discuss efficient implementation of the models and describe how they can be combined to build larger recognition systems. It is argued that the flexible templates used in parts-based modeling may provide a better generative model of speech than typical HMMs.by Kenneth Thomas Schutte.Ph.D

    Időzítési mintázatok a magyar beszédben

    A Beszéd – Kutatás – Alkalmazás sorozat nyolcadik köteteként megjelenő mű egy olyan vizsgálatsorozatot mutat be, amely hiánypótló a magyar beszéddel foglalkozó szakirodalomban. Bár általánosságban a magyar beszéd időzítésével kapcsolatban sok leírás megjelent már, a beszédritmus eddigi megközelítései, az ezzel kapcsolatos korábbi állítások a ritmus sajátosságainak megragadhatatlanságát, a sok változóból adódó bizonytalanságot sugallták, nem véletlenül. A jelenség valóban soktényezős, az adatok gyakran ellentmondásosak, nehéz fogódzókat találni a megfelelő módszertan kialakításához. Kohári Anna azonban vette a bátorságot, hogy erre az ingoványos talajra lépjen, és útját siker koronázta. A nemzetközi szakirodalom széles körének ismeretében új, korábban a (magyar) beszédre még nem alkalmazott módszertanokat használva, különféle metódusokat ötvözve, szorgalmas, aprólékos és szisztematikus elemző munkával jutott el azon eredményekig és megállapításokig, amelyek ebben a kötetben napvilágot látnak, és amelyek a legkorszerűbb ismereteinket foglalják össze a (magyar) beszéd ritmusának vonatkozásában. A kötet bevezetése tananyagként is használható, mivel áttekinti és értelmezi a vonatkozó tudományos fogalomkészletet és terminológiát, továbbá számot ad a nemzetközi és a magyar kutatási eredményekről a legutóbbi időkig bezárólag. A második fejezettől kezdődően a szerző saját kutatásának lépéseit ismerjük meg, az elemzett anyag, az alkalmazott módszerek és az eredmények részletes, jól illusztrált áttekintését kapja az olvasó. Kohári Anna arra is rámutat, hogy a kapott eredmények mely területeken és milyen módon hasznosulhatnak, valamint kijelöli a további kutatások lehetséges irányait is. Mindezek alapján a kötet nemcsak a szűkebb, fonetikusokból álló olvasótábor érdeklődésére tarthat számot, hanem olyan területek művelői is építhetnek a benne foglalt ismeretekre, amelyek a beszéd időzítéséhez bármilyen módon kapcsolódnak, a logopédiától a beszédtechnológiáig. Az a kutatásmódszertani innováció, amelyre a kötet példát ad, azonban még távolabbi, a beszédhez nem vagy kevésbé kapcsolódó, de az időzítés mintázatait magában rejtő jelenségek leírásában is haszonnal kecsegtet. Így a könyv bátran ajánlható a szélesebb érdeklődő közönség számára is

    Explicit Duration Modelling in HMM/ANN Hybrids

    Abstract. In some languages like Finnish or Hungarian phone duration is a very important distinctive acoustic cue. The conventional HMM speech recognition framework, however, is known to poorly model the duration information. In this paper we compare different duration models within the framework of HMM/ANN hybrids. The tests are performed with two different hybrid models, the conventional one and the “averaging hybrid ” recently proposed. Independent of the model configuration, we report that the usual exponential duration model has no detectable advantage over using no duration model at all. Similarly, applying the same fixed value for all state transition probabilities, as is usual with HMM/ANN systems, is found to have no influence on the performance. However, the practical trick of imposing a minimum duration on the phones turns out to be very useful. The key part of the paper is the introduction of the gamma distribution duration model, which proves clearly superior to the exponential one, yielding a 12-20 % relative improvement in the word error rate, thus justifying the use of sophisticated duration models in speech recognition.