77 research outputs found

    Methods for pronunciation assessment in computer aided language learning

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 2011.Cataloged from PDF version of thesis.Includes bibliographical references (p. 149-176).Learning a foreign language is a challenging endeavor that entails acquiring a wide range of new knowledge including words, grammar, gestures, sounds, etc. Mastering these skills all require extensive practice by the learner and opportunities may not always be available. Computer Aided Language Learning (CALL) systems provide non-threatening environments where foreign language skills can be practiced where ever and whenever a student desires. These systems often have several technologies to identify the different types of errors made by a student. This thesis focuses on the problem of identifying mispronunciations made by a foreign language student using a CALL system. We make several assumptions about the nature of the learning activity: it takes place using a dialogue system, it is a task- or game-oriented activity, the student should not be interrupted by the pronunciation feedback system, and that the goal of the feedback system is to identify severe mispronunciations with high reliability. Detecting mispronunciations requires a corpus of speech with human judgements of pronunciation quality. Typical approaches to collecting such a corpus use an expert phonetician to both phonetically transcribe and assign judgements of quality to each phone in a corpus. This is time consuming and expensive. It also places an extra burden on the transcriber. We describe a novel method for obtaining phone level judgements of pronunciation quality by utilizing non-expert, crowd-sourced, word level judgements of pronunciation. Foreign language learners typically exhibit high variation and pronunciation shapes distinct from native speakers that make analysis for mispronunciation difficult. We detail a simple, but effective method for transforming the vowel space of non-native speakers to make mispronunciation detection more robust and accurate. We show that this transformation not only enhances performance on a simple classification task, but also results in distributions that can be better exploited for mispronunciation detection. This transformation of the vowel is exploited to train a mispronunciation detector using a variety of features derived from acoustic model scores and vowel class distributions. We confirm that the transformation technique results in a more robust and accurate identification of mispronunciations than traditional acoustic models.by Mitchell A. Peabody.Ph.D

    Akustische Phonetik und ihre multidisziplinären Aspekte

    Get PDF
    The aim of this book is to honor the multidisciplinary work of Doz. Dr. Sylvia Moosmüller† in the field of acoustic phonetics. The essays in this volume range from sociophonetics, language diagnostics, dialectology, to language technology. They thus exemplify the breadth of acoustic phonetics, which has been shaped by influences from the humanities and technical sciences since its beginnings.Ziel dieses Buches ist es, die multidisziplinäre Arbeit von Doz. Dr. Sylvia Moosmüller (†) im Bereich der akustischen Phonetik zu würdigen. Die Aufsätze in diesem Band sind in der Soziophonetik, Sprachdiagnostik, Dialektologie und Sprachtechnologie angesiedelt. Sie stellen damit exemplarisch die Breite der akustischen Phonetik dar, die seit ihrer Entstehung durch Einflüsse aus den Geisteswissenschaften und den technischen Wissenschaften geprägt war

    Pronunciation modeling for Cantonese speech recognition.

    Get PDF
    Kam Patgi.Thesis (M.Phil.)--Chinese University of Hong Kong, 2003.Includes bibliographical references (leaf 103).Abstracts in English and Chinese.Chapter Chapter 1. --- Introduction --- p.1Chapter 1.1 --- Automatic Speech Recognition --- p.1Chapter 1.2 --- Pronunciation Modeling in ASR --- p.2Chapter 1.3 --- Obj ectives of the Thesis --- p.5Chapter 1.4 --- Thesis Outline --- p.5Reference --- p.7Chapter Chapter 2. --- The Cantonese Dialect --- p.9Chapter 2.1 --- Cantonese - A Typical Chinese Dialect --- p.10Chapter 2.1.1 --- Cantonese Phonology --- p.11Chapter 2.1.2 --- Cantonese Phonetics --- p.12Chapter 2.2 --- Pronunciation Variation in Cantonese --- p.13Chapter 2.2.1 --- Phone Change and Sound Change --- p.14Chapter 2.2.2 --- Notation for Different Sound Units --- p.16Chapter 2.3 --- Summary --- p.17Reference --- p.18Chapter Chapter 3. --- Large-Vocabulary Continuous Speech Recognition for Cantonese --- p.19Chapter 3.1 --- Feature Representation of the Speech Signal --- p.20Chapter 3.2 --- Probabilistic Framework of ASR --- p.20Chapter 3.3 --- Hidden Markov Model for Acoustic Modeling --- p.21Chapter 3.4 --- Pronunciation Lexicon --- p.25Chapter 3.5 --- Statistical Language Model --- p.25Chapter 3.6 --- Decoding --- p.26Chapter 3.7 --- The Baseline Cantonese LVCSR System --- p.26Chapter 3.7.1 --- System Architecture --- p.26Chapter 3.7.2 --- Speech Databases --- p.28Chapter 3.8 --- Summary --- p.29Reference --- p.30Chapter Chapter 4. --- Pronunciation Model --- p.32Chapter 4.1 --- Pronunciation Modeling at Different Levels --- p.33Chapter 4.2 --- Phone-level pronunciation model and its Application --- p.35Chapter 4.2.1 --- IF Confusion Matrix (CM) --- p.35Chapter 4.2.2 --- Decision Tree Pronunciation Model (DTPM) --- p.38Chapter 4.2.3 --- Refinement of Confusion Matrix --- p.41Chapter 4.3 --- Summary --- p.43References --- p.44Chapter Chapter 5. --- Pronunciation Modeling at Lexical Level --- p.45Chapter 5.1 --- Construction of PVD --- p.46Chapter 5.2 --- PVD Pruning by Word Unigram --- p.48Chapter 5.3 --- Recognition Experiments --- p.49Chapter 5.3.1 --- Experiment 1 ´ؤPronunciation Modeling in LVCSR --- p.49Chapter 5.3.2 --- Experiment 2 ´ؤ Pronunciation Modeling in Domain Specific task --- p.58Chapter 5.3.3 --- Experiment 3 ´ؤ PVD Pruning by Word Unigram --- p.62Chapter 5.4 --- Summary --- p.63Reference --- p.64Chapter Chapter 6. --- Pronunciation Modeling at Acoustic Model Level --- p.66Chapter 6.1 --- Hierarchy of HMM --- p.67Chapter 6.2 --- Sharing of Mixture Components --- p.68Chapter 6.3 --- Adaptation of Mixture Components --- p.70Chapter 6.4 --- Combination of Mixture Component Sharing and Adaptation --- p.74Chapter 6.5 --- Recognition Experiments --- p.78Chapter 6.6 --- Result Analysis --- p.80Chapter 6.6.1 --- Performance of Sharing Mixture Components --- p.81Chapter 6.6.2 --- Performance of Mixture Component Adaptation --- p.84Chapter 6.7 --- Summary --- p.85Reference --- p.87Chapter Chapter 7. --- Pronunciation Modeling at Decoding Level --- p.88Chapter 7.1 --- Search Process in Cantonese LVCSR --- p.88Chapter 7.2 --- Model-Level Search Space Expansion --- p.90Chapter 7.3 --- State-Level Output Probability Modification --- p.92Chapter 7.4 --- Recognition Experiments --- p.93Chapter 7.4.1 --- Experiment 1 ´ؤModel-Level Search Space Expansion --- p.93Chapter 7.4.2 --- Experiment 2 ´ؤ State-Level Output Probability Modification …… --- p.94Chapter 7.5 --- Summary --- p.96Reference --- p.97Chapter Chapter 8. --- Conclusions and Suggestions for Future Work --- p.98Chapter 8.1 --- Conclusions --- p.98Chapter 8.2 --- Suggestions for Future Work --- p.100Reference --- p.103Appendix I Base Syllable Table --- p.104Appendix II Cantonese Initials and Finals --- p.105Appendix III IF confusion matrix --- p.106Appendix IV Phonetic Question Set --- p.112Appendix V CDDT and PCDT --- p.11

    Speech-to-speech translation to support medical interviews

    Get PDF
    Projeto de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013Este relatório apresenta a criação de um sistema de tradução fala-para-fala. O sistema consiste na captação de voz na forma de sinal áudio que de seguida é interpretado, traduzido e sintetizado para voz. Tendo como entrada um enunciado numa linguagem de origem e como saída um enunciado numa linguagem destino. O sistema implementado tem como âmbito do seu funcionamento o domínio médico, tendo em vista apoiar o diálogo entre médico e utente em linguagens diferentes durante consultas médicas. No caso do presente trabalho, foram escolhidos o português e inglês, sendo possível a tradução fala-para-fala nos dois sentidos. A escolha destas duas línguas resulta sobretudo da disponibilidade de recursos para o desenvolvimento do sistema. Ao longo dos anos tem existido um esforço de pesquisa e desenvolvimento em tecnologia que permite quebrar as barreiras do multilinguismo. Uma dessas tecnologias, com resultados de qualidade crescentemente aceitável, são os sistemas de tradução fala-para-fala. Em geral, estes sistemas são compostos por três componentes: reconhecimento de fala, tradução automática e sintetização de voz. Neste projecto foram implementadas as três componentes. No entanto, uma vez que face às tecnologias disponíveis, a componente de tradução tem um maior impacto no desempenho final do sistema, a esta foi conferida uma maior atenção. Embora nós, como humanos, compreendamos facilmente a linguagem falada, isto é algo extremamente difícil e complexo de um ponto de vista computacional. O objectivo do reconhecimento de fala é abordar esta tarefa computacionalmente através da construção de sistemas que mapeiam um sinal acústico para uma sequência de caracteres. Os modelos actuais para reconhecimento de fala fazem uso de modelos estatísticos. Nestes, a fala é reconhecida através do uso de modelos de linguagem que possibilitam a estimativa das probabilidades para as palavras, independentemente do sinal de entrada, e de um modelo acústico onde as propriedades acústicas da fala estão contempladas. Os modelos actuais de tradução automática, assim como os de reconhecimento de fala, são na sua larga maioria estatísticos. Actualmente os modelos de tradução baseados em unidades frásicas de input são os que obtém os resultados com melhor qualidade. Esta abordagem consiste na tradução de pequenos segmentos de palavras, onde existe uma tradução lexical e um modelo de alinhamento. Os modelos estatísticos fazem uso de textos de duas línguas alinhados, tendo como princípio o facto de que através da frequência de cada segmento de palavras, em relação à outra linguagem, seja obtida uma distribuição probabilística. Deste modo torna-se possível calcular qual a palavra ou conjunto de palavras mais prováveis de ocorrer como tradução para determinado texto que se pretenda traduzir. A sintetização de voz consiste na geração de fala na forma de onda acústica tendo como ponto de partida uma palavra ou uma sequência de palavras. Envolve o processamento de linguagens naturais e processamento de sinal. O primeiro converte o texto numa representação fonética e o último converte essa representação em sinal acústico. Neste documento é apresentado o estado da arte das três áreas envolvidas. São também apresentados os sistemas de tradução fala-para-fala, fazendo ou não uso do domínio médico, e também os processos existentes para a avaliação de cada uma das componentes. Tendo em vista a implementação de um sistema com as diversas componentes, foi necessário efectuar um levantamento da tecnologia existente. O levantamento teve por objectivo a implementação de duas soluções aplicacionais. Uma aplicação disponível pela internet como página web e outra através de uma aplicação móvel, ambas permitindo o reconhecimento de fala, tradução automática e sintetização de voz em ambas as linguagens e direcções. Dois sistemas de reconhecimento de fala foram escolhidos, o Microsoft Speech Platform para a aplicação móvel e o reconhecimento de fala disponível pelo Google nos browsers Google Chrome. O primeiro a ser usado na aplicação móvel e o segundo na aplicação web. O sistema de tradução automática escolhido foi o Moses. Sendo um sistema de tradução estatístico que permite a criação de modelos de tradução diversos, como os modelos baseados em frase e os modelos baseados em fatores. O sistema de sintetização de voz escolhido foi o Microsoft Speech Platform. A aplicação móvel foi desenvolvida para a plataforma iOS da Apple tendo em vista o uso de um telemóvel iPhone. A integração dos componentes pelas diversas arquitecturas foi assegurada pela implementação de web services. O reconhecimento de fala na aplicação web foi desenvolvido recorrendo ao uso da W3C Speech Input API Specifications, onde a programação através de HTML permite a captação de áudio no Google Chrome. Para a implementação do sistema tradução fala-para-fala foi necessário a obtenção de corpora paralelos de forma a se poder treinar os modelos estatísticos, sendo este um dos factores cruciais para o bom desempenho dos componentes. Uma vez que o sistema tem como domínio de aplicação o diálogo médico, corpora neste domínio seria o mais vantajoso. No entanto, a inexistência de tais corpora para o par Inglês-Português levou à aquisição de corpora alternativos. Através de uma experiência exploratória foi abordado o tipo de implementação mais adequado da componente de reconhecimento de fala, tendo como foco o modelo de linguagem. Três experiências foram então conduzidas de forma a decidir entre a aplicação de um modelo de linguagem baseado em regras ou um modelo estatístico. Para implementar um modelo de linguagem baseado em regras foi necessário a criação de um corpus médico que reflectisse um diálogo entre médico e paciente. Para tal, com a ajuda de um médico, criei um diálogo de um caso hipotético de lesão num braço devido a um acidente de carro. Este diálogo teve como base para a sua estruturação a aplicação do processo de anamnesis. A anamnesis consiste numa metodologia médica que através de um conjunto de perguntas chave permite adquirir a informação necessária para a formulação de um diagnóstico médico e decisão sobre o tratamento necessário. O corpus médico foi também transformado num corpus de fala de forma a este ser avaliado ao longo das experiências. Numa primeira experiência foi criada uma gramática básica cuja implementação foi obtida recorrendo à Speech Recognition Grammar Specification de forma a ser usada como modelo de linguagem pela componente de reconhecimento de fala. A segunda experiência tinha como objectivo a criação de uma gramática mais complexa que a primeira. Para tal foi criada uma gramática livre de contexto. Após a criação da gramática livre de contexto esta foi convertida manualmente para uma gramática SRGS. Na terceira experiência foram criados dois modelo de linguagem estatísticos, o primeiro fazendo uso do mesmo corpus que o usado nas experiências anteriores e o segundo composto por 30.000 frases independentes. Obteve-se melhores resultados com o modelo de linguagem estatístico e este ficou como a escolha para a implementação do componente de reconhecimento de fala. No treino da componente de tradução automática foram usados dois modelos estatísticos, baseados em frases e em factores. Pretendeu-se comparar os resultados entre os dois modelos de forma a escolher o modelo mais vantajoso. Para fazer uso do modelo baseado em factores foi necessária a preparação de corpora. Com os corpora já adquiridos foi concretizada a sua anotação para ambas as linguagens. Recorrendo ao LX-Suite e ao CoreNLP, foram criados corpora anotados com lemmas e informação morfossintáctica, com a primeira ferramenta para o português e a última para o inglês. Uma vez que a componente de sintetização de voz permitia uma implementação célere, esta foi implementada recorrendo aos modelos já existentes para ambas as linguagens e disponibilizados pela ferramenta. Por fim, são apresentados os resultados obtidos e a sua avaliação. Tanto a avaliação do sistema de reconhecimento de fala como o de tradução automática demonstraram um desempenho muito competitivo, do nível do estado da arte. A componente de reconhecimento de fala, assim como a componente de tradução automática, obtiveram melhores resultados fazendo-se uso de modelos de linguagem estatístico.This report presents the development of a speech-to-speech translation system. The system consists in the capture of voice as an audio signal that is then interpreted, translated and synthesized to voice for a target language. The three main components of the system, speech recognition, machine translation and speech synthesis, make use of statistical models, such as hidden Markov models. Given the technology available, the machine translation component has a greater impact on the performance of the system, a greater attention has thus been given to it. The system assumes the support to medical interviews between doctor and patient in different languages as its applicational domain. Two application solutions were developed: an online service on a website and a mobile application. This report begins by presenting the general concepts of the relevant areas involved. It proceeds with an overview of the state of the art relating to each area as well as to the methods used for the evaluation of the different components. It provides also an overview of existing technology and the criteria for choosing the tools to be used in the development of the system. It explains the acquisition and creation of the corpora used, and the process of development and integration of the components: speech recognition, machine translation and text-to-speech. Finally, the evaluation results are presented, as well as the final conclusions

    A study on reusing resources of speech synthesis for closely-related languages

    Get PDF
    This thesis describes research on building a text-to-speech (TTS) framework that can accommodate the lack of linguistic information of under-resource languages by using existing resources from another language. It describes the adaptation process required when such limited resource is used. The main natural languages involved in this research are Malay and Iban language. The thesis includes a study on grapheme to phoneme mapping and the substitution of phonemes. A set of substitution matrices is presented which show the phoneme confusion in term of perception among respondents. The experiments conducted study the intelligibility as well as perception based on context of utterances. The study on the phonetic prosody is then presented and compared to the Klatt duration model. This is to find the similarities of cross language duration model if one exists. Then a comparative study of Iban native speaker with an Iban polyglot TTS using Malay resources is presented. This is to confirm that the prosody of Malay can be used to generate Iban synthesised speech. The central hypothesis of this thesis is that by using a closely-related language resource, a natural sounding speech can be produced. The aim of this research was to show that by sticking to the indigenous language characteristics, it is possible to build a polyglot synthesised speech system even with insufficient speech resources

    Speech Recognition

    Get PDF
    Chapters in the first part of the book cover all the essential speech processing techniques for building robust, automatic speech recognition systems: the representation for speech signals and the methods for speech-features extraction, acoustic and language modeling, efficient algorithms for searching the hypothesis space, and multimodal approaches to speech recognition. The last part of the book is devoted to other speech processing applications that can use the information from automatic speech recognition for speaker identification and tracking, for prosody modeling in emotion-detection systems and in other speech processing applications that are able to operate in real-world environments, like mobile communication services and smart homes

    Models and Analysis of Vocal Emissions for Biomedical Applications

    Get PDF
    The International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications (MAVEBA) came into being in 1999 from the particularly felt need of sharing know-how, objectives and results between areas that until then seemed quite distinct such as bioengineering, medicine and singing. MAVEBA deals with all aspects concerning the study of the human voice with applications ranging from the neonate to the adult and elderly. Over the years the initial issues have grown and spread also in other aspects of research such as occupational voice disorders, neurology, rehabilitation, image and video analysis. MAVEBA takes place every two years always in Firenze, Italy. This edition celebrates twenty years of uninterrupted and succesfully research in the field of voice analysis
    corecore