10 research outputs found

    Development of a speech recognition system for Spanish broadcast news

    Get PDF
    This paper reports on the development process of a speech recognition system for Spanish broadcast news within the MESH FP6 project. The system uses the SONIC recognizer developed at the Center for Spoken Language Research (CSLR), University of Colorado. Acoustic and language models were trained using Hub4 broadcast news data. Experiments and evaluation results are reported

    Assessment of Classifiers for Potential Voice-Enabled Transportation Apps

    Get PDF
    Transportation apps are playing a positive role for today’s technology-driven users. They provide users with a convenient and flexible tool to access transportation data and services, as well as collect and manage data. In many of these apps, such as Google Maps, their operations rely on the effectiveness of the voice recognition system. For the existing and new apps to be truly effective, the built-in voice recognition system needs to be robust (i.e., being able to recognize words spoken in different pitch and tone). The goal of this study is to assess three post-processing classifiers (i.e., bag-of-sentences, support vector machine, and maximum entropy) to enhance the commonly used Google’s voice recognition system. The experiments investigated three factors (original phrasing, reduced phrasing, and personalized phrasing) at three levels (zero training repetition, 5 training repetitions, and 10 training repetitions). Results indicated that personal phrasing yielded the highest correctness and that training the device to recognize an individual’s voice improved correctness as well. Although simplistic, the bag-of-sentences classifier significantly improved voice recognition correctness. The classification efficiency of the maximum entropy and support vector machine algorithms was found to be nearly identical. These results suggest that post-processing techniques could significantly enhance Google’s voice recognition system

    Context-Dependent Speech Recognition in Human-Machine Interaction

    Get PDF
    Поред великог значаја контекстуалних информација при разумевању говора, њихова обрада и употреба у савременим системима за аутоматско препознавање говора је веома ограничена, што знатно нарушава перформансе препознавања у реалним условима употребе. Стога, уколико желимо да се карактеристике ових система приближе људским, неопходно је укључити контекст у адекватном обиму. У овој тези је представљен нови методолошки приступ контекстно зависном препознавању говора у интеракцији између човека и машине. На методолошком нивоу, овај приступ је хибридан, јер интегрише статистичке и симболичке методе, и когнитивно инспирисан, јер узима у обзир увиде у резулатате ис траживања из области неурокогнитивних наука. Основни принцип је да се оцењивање хипотеза система за препознавање врши на основу њихове контекстуалне усклађености, информационог садржаја и семантичке исправности. Приступ је илустрован прототипским имплементацијама за конкретне домене интеракције.Pored velikog značaja kontekstualnih informacija pri razumevanju govora, njihova obrada i upotreba u savremenim sistemima za automatsko prepoznavanje govora je veoma ograničena, što znatno narušava performanse prepoznavanja u realnim uslovima upotrebe. Stoga, ukoliko želimo da se karakteristike ovih sistema približe ljudskim, neophodno je uključiti kontekst u adekvatnom obimu. U ovoj tezi je predstavljen novi metodološki pristup kontekstno zavisnom prepoznavanju govora u interakciji između čoveka i mašine. Na metodološkom nivou, ovaj pristup je hibridan, jer integriše statističke i simboličke metode, i kognitivno inspirisan, jer uzima u obzir uvide u rezulatate is traživanja iz oblasti neurokognitivnih nauka. Osnovni princip je da se ocenjivanje hipoteza sistema za prepoznavanje vrši na osnovu njihove kontekstualne usklađenosti, informacionog sadržaja i semantičke ispravnosti. Pristup je ilustrovan prototipskim implementacijama za konkretne domene interakcije.Although the importance of contextual information in speech recognition has been acknowledged for a long time now, it remained clearly underutilized even in state-of-the-art speech recognition systems. This thesis introduces a novel, methodologically hybrid approach to the research question of contextdependent speech recognition in human-machine interaction. To the extent that it is hybrid, the approach integrates aspects of both statistical and representational paradigms. The aim of this thesis is to extend the standard statistical pattern matching approach with a cognitively-inspired and analytically tractable model with explanatory power. This methodological extension allows for accounting for contextual information which is otherwise unavailable in speech recognition systems, and using it to improve postprocessing of recognition hypotheses. The thesis introduces an algorithm for evaluation of recognition hypotheses, illustrates it for concrete interaction domains, and discusses its implementation within two prototype conversational agents

    Comparación de técnicas de parametrización espectral para reconocimiento de voz en idioma español

    Get PDF
    El reconocimiento de voz es un área de investigación del procesamiento digital de señales con un amplio campo de aplicaciones en diversos sistemas y dispositivos electrónicos, en los que la interacción humano-máquina es deseable o indispensable mediante comandos de voz. La correcta caracterización de la señal de voz y la elección del método adecuado que modele los coeficientes obtenidos en la etapa de extracción de características es esencial para obtener una tasa de reconocimiento significativa. En el presente trabajo, se realizó una comparación de dos técnicas clásicas de parametrización en la etapa de caracterización de la señal de voz; Codificación Predictiva Lineal (LPC) y Coeficientes Cepstrales de Frecuencias Mel (MFCC). Se realizaron diferentes pruebas de estas técnicas con el fin de encontrar la configuración que brinde la mayor tasa de reconocimiento y el menor consumo de recursos (tiempo y cálculo). Se usaron dos frecuencias de muestreo (8 y 16kHz) y se varió el número de coeficientes (8-12 para 8kHz y 16-24 para 16kHz) que caracterizaron a la señal de voz. En la etapa de modelado se hizo uso de la técnica Modelos Ocultos de Markov (HMM). En los resultados se resalta que la técnica de extracción MFCC presentó una tasa de reconocimiento superior que la técnica LPC para la misma frecuencia de muestreo y con el mismo número de coeficientes

    Diszharmóniás jelenségek a beszédben

    Get PDF

    A System for Simultaneous Translation of Lectures and Speeches

    Get PDF
    This thesis realizes the first existing automatic system for simultaneous speech-to-speech translation. The focus of this system is the automatic translation of (technical oriented) lectures and speeches from English to Spanish, but the different aspects described in this thesis will also be helpful for developing simultaneous translation systems for other domains or languages

    Recent Progress in Corpus-Based Spontaneous Speech Recognition

    No full text
    corecore