4 research outputs found

    Automatic identification of brazilian regional accents based on statistical modeling and machine learning techniques

    Get PDF
    Orientadores: Lee Luan Ling, Tiago Fernandes TavaresDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de ComputaçãoResumo: O sinal de fala possui características linguísticas fortemente determinadas por aspectos geográficos (região de origem), sociais e étnicos, tais como dialetos e sotaques. Eles estão diretamente relacionados a um idioma pois são compostos por estruturas fonéticas e fonológicas que são intrínsecas e que os diferenciam dos demais. Diversos estudos desenvolvidos na literatura de processamento de sinais de fala tem como finalidade modelar as variações da fala em sistemas de reconhecimento. A partir desses estudos, há a hipótese de que a classificação das variações linguísticas melhora a acurácia e permite a construção de modelos linguísticos mais adaptados às aplicações reais. Aplicações forenses e Speech to Text são exemplos de casos reais de sistemas de reconhecimento de fala. Em geral, o desempenho de sistemas de reconhecimento é mensurado em cenário de avaliação closed-set como também em cenário de teste cross datasets. Experimentos reportados na literatura consideram o caso mais fácil de avaliação, o closed-set. Neste cenário, as classes de treinamento são as mesmas utilizadas para teste. O cenário de teste cross datasets, consiste em treinar e testar o reconhecimento em duas bases de dados diferentes e independentes, sem controle sobre as condições de captura e gravação. Este último melhor se aplica em casos reais de identificação. Neste trabalho, são aplicadas técnicas de reconhecimento de padrões para a identificação das variações regionais da fala do português brasileiro. O objetivo é identificar automaticamente os sotaques brasileiros usando modelos GMM-UBM, iVectors e GMM-SVM. Além de avaliar os sistemas em um cenário closed-set, conforme outros trabalhos descritos na literatura, também analisamos a acurácia em cenários de teste cross datasets. Para execução dos experimentos, utilizamos três bases de dados diferentes, todas em português brasileiro e, como uma das contribuições deste trabalho, desenvolvemos uma base de dados de fala que contempla parte da variação na fala do português brasileiroAbstract: The speech signal has linguistic characteristics strongly determined by geographical (region of origin), social and ethnic aspects, such as dialects and accents. These characteristics are directly related to a language because they have inherent phonetic and phonological structures which differentiate them from the others. Several studies developed in the literature of speech signal processing have the purpose of modeling regional speech variations for speech recognition systems, in order to establish a hypothesis that the classification of the linguistic variations can improves the recognition accuracy and achieve some linguistic models more suitable for the real applications that includes forensic applications and speech to text conversion. As known, the performance of recognition systems is measured in the closed-set evaluation scenario in which, the training and testing data belongs to a common database. Experiments reported in the literature consider the easiest case to evaluate, the closed-set. However, the realistic performance of a recognition system can be performed under a cross data set scenario, in which the training and testing data belongs to different and independent databases without control over capture and recording conditions. In this work, we study some speech pattern recognition techniques to identify the regional variations of Brazilian Portuguese speech. The goal is to automatically identify the Brazilian regional accents using GMM-UBM, iVectors and GMM-SVM models. We evaluate the accent recognition systems under both closed-set and cross data sets scenarios. To perform the experiments we used three different Brazilian Portuguese databases. In fact, one of the major contributions of this work, is the compilation of a new speech database (Braccent), which explicitly expose the linguistic diversity of Brazilian PortugueseMestradoTelecomunicações e TelemáticaMestra em Engenharia ElétricaCAPE
    corecore