10 research outputs found

    RELACIONANDO A PRODUÇÃO E A PERCEPÇÃO DO RITMO DO PORTUGUÊS BRASILEIRO POR MEIO DE UMA TÉCNICA SEMIAUTOMÁTICA

    Get PDF
    No estudo apresentado, foi investigada a relação entre as medidas de produção do ritmo do português brasileiro apontadas por três métodos de caracterização do ritmo da fala e sua percepção por uma bateria de ouvintes, através de um teste de discriminação com fala deslexicalizada. O método avaliado na produção foi uma técnica semiautomática fundamentada na teoria de osciladores acoplados de Barbosa (2006). Os outros métodos utilizados foram o índice de variabilidade pareada e o comprimento resultante em estatística circular. O método de osciladores acoplados foi capaz de captar diferenças no ritmo de fala entre os locutores, entre os dois estilos (leitura e narração) e também ao longo das gravações. Entretanto, pesquisas adicionais são necessárias para melhor se investigar a relação entre produção e percepção do ritmo da fala

    Pragmatics and Prosody

    Get PDF
    Most of the papers collected in this book resulted from presentations and discussions undertaken during the V Lablita Workshop that took place at the Federal University of Minas Gerais, Brazil, on August 23-25, 2011. The workshop was held in conjunction with the II Brazilian Seminar on Pragmatics and Prosody. The guiding themes for the joint event were illocution, modality, attitude, information patterning and speech annotation. Thus, all papers presented here are concerned with theoretical and methodological issues related to the study of speech. Among the papers in this volume, there are different theoretical orientations, which are mirrored through the methodological designs of studies pursued. However, all papers are based on the analysis of actual speech, be it from corpora or from experimental contexts trying to emulate natural speech. Prosody is the keyword that comes out from all the papers in this publication, which indicates the high standing of this category in relation to studies that are geared towards the understanding of major elements that are constitutive of the structuring of speech

    Treino não supervisionado de modelos acústicos para reconhecimento de fala

    Get PDF
    Tese de doutoramento em Engenharia Electrotécnica e de Computadores, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de CoimbraEsta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis por esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistema de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridades entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual publicou-se vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, código fonte de todo sistema de treino e conversão e um demonstrador online.This thesis summarizes the works done in the automatic speech processing field aiming to increase the amount of the linguistic resources available for European Portuguese language. The development stage and the application of speech technologies into a language are related to the quantity and quality of resources available for that given language. Few languages have all the required resources to implement speech technologies within free-access and public domain. Like many other language, the Portuguese language lacks public and free resources which may hinder the development and the application of speech technologies that incorporate the Portuguese language. The works described in this thesis present an approach to create speech databases, using only the public and free-access resources, starting from multimedia signals without orthographic or phonetic transcriptions. It this sense, a solution is presented to take advantage of the wide availability in the public domain of multimedia material (e.g. podcasts) and select appropriate speech segments to train acoustic models. To this end, several systems have been developed to automatically segment and classify broadcast news. These systems can be combined to build speech databases with phonetic transcription without human intervention. A system was developed to automatically convert graphemes to phonemes based on phonological rules and statistical models. This hybrid approach is justified by the developments in machine learning algorithms applied to the conversion of graphemes into phonemes and by the fact that the Portuguese language presents a reasonable phonetic/phonologic regularity and an orthography that is roughly phonologically based. Using this system, a pronunciation dictionary was created including about 40 thousands entries that where manually confirmed. They were implemented a system for segmentation into five predetermined acoustic classes (speech, music, noise, speech with music and speech with noise) and a system for speaker diarization. These systems use various techniques such as acoustic fingerprint, Gaussian mixture model and Bayesian information criterion that normally are used in other speech processing tasks. In order to select appropriate audio segments or discard non-prepared speech segments that may impair acoustic models training, it was developed a system to detect speaking styles. The detection of speaking styles is based on the combination of acoustic and prosodic parameters, on automatic segmentation and on support vector machine classifiers. Also in this scope, a study was made in order to characterize the hesitation events present in the Portuguese broadcast news. The transcription of the audio databases is essential in the process of acoustic models training. The large-vocabulary continuous speech recognition system is usually used to do automatic transcription wen the database do not have any transcripts. In this thesis, it is proposed to use word-spotting system to provide phonetic transcriptions of speech segments. A preliminary implementation of a word-spotting system based on phoneme models was conducted. A strategy was proposed to decrease the system response time, creating, a priori, a sort of “acoustic signature” for each audio signal with the values of all calculations which do not depend on the searching word as for example the likelihood of all states of phoneme models. The detection of a word uses similarity measures based on likelihood of word model and likelihood of filler model, a peak detector and a threshold value defined as to minimize detection errors. Several resources for the Portuguese language were published that resulted from the application of the various systems developed throughout the development of this thesis with particular emphasis on the graphemes to phonemes system from which it was published several dictionaries of pronunciation, dictionary with heterophonic homographs words, dictionary of foreign words, statistical models for converting graphemes to phonemes, the source code of the whole system of training as well as conversion and an online demo

    TREINO NÃO SUPERVISIONADO DE MODELOS ACÚSTICOS PARA RECONHECIMENTO DE FALA

    Get PDF
    Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online

    Desenvolvimento vocal na infância: análise acústica de vocalizações de bebés face a estímulos musicais e linguísticos durante o segundo ano de vida

    Get PDF
    Tese apresentada para cumprimento dos requisitos necessários à obtenção do grau de Doutor em Ciências Musicais, na especialidade de Ensino e Psicologia da MúsicaA presente investigação acompanhou o desenvolvimento da voz cantada durante o segundo ano de vida e contemplou dois estudos: um estudo comparativo das diferenças entre as vocalizações produzidas pelas crianças em duas condições distintas – Conversa e Canção; e um estudo de análise longitudinal das características acústicas das vocalizações das crianças produzidas na condição Canção. Doze crianças foram observadas através de contextos de interacção com um adulto, em sessões realizadas aos 12, 15, 18, 21 e 24 meses. Cada sessão considerou dois períodos distintos, nos quais o experimentador ou falava ou cantava incitando as produções vocais da criança. As vocalizações das crianças foram gravadas e analisadas acusticamente. O primeiro estudo revelou que, na condição Conversa face à condição Canção, se registaram valores superiores nas seguintes variáveis: duração total de uma vocalização (durvocal: M = 1,52, SD = 1,46; F(1,660) = 9,77, p = 0,019); duração de uma vocalização dedicada à produção de vogais (durfonal: M = 0,98, SD = 0,77; F(1,660) = 4,23, p = 0,004); número de núcleos por vocalização (nnucleos: M = 5,48, SD = 4,47; F(1,660) = 12,20, p = 0,001); valor máximo da frequência fundamental de uma vocalização (maxF0: M = 563, SD = 152; F(1,516) = 4,36, p = 0,037); valor médio da frequência fundamental de uma vocalização (medF0: M = 406, SD = 115; F(1,516) = 4,80, p = 0,029). Por outro lado, a duração média dos núcleos de uma vocalização na condição Conversa (nnucleos: M = 0,087, SD = 0,036) foi inferior do que na condição Canção (F(1,660) = 8,77, p = 0,003). No segundo estudo constatou-se que a idade da criança influencia a duração das vocalizações, bem como o número e duração dos núcleos das vocalizações ocorrentes na condição Canção. Concretamente, verifica-se que a duração da vogal aumenta ao longo do tempo, implicando um aumento progressivo da duração das vocalizações produzidas na condição Canção. Os dois estudos demonstram que a duração da vogal desempenha um papel fundamental na distinção entre voz falada e voz cantada, à semelhança do que se verifica no comportamento vocal do adulto. Estes resultados sugerem que o estímulo cantado determina um comportamento vocal específico nas crianças antes dos 2 anos de idade, demonstrando uma capacidade que surge precocemente no desenvolvimento humano. Com base nestes resultados, são feitas algumas reflexões relativas ao papel da aculturação e educação musicais precoces, sugerindo pistas para futuras investigações nesta área

    Időzítési mintázatok a magyar beszédben

    Get PDF
    A Beszéd – Kutatás – Alkalmazás sorozat nyolcadik köteteként megjelenő mű egy olyan vizsgálatsorozatot mutat be, amely hiánypótló a magyar beszéddel foglalkozó szakirodalomban. Bár általánosságban a magyar beszéd időzítésével kapcsolatban sok leírás megjelent már, a beszédritmus eddigi megközelítései, az ezzel kapcsolatos korábbi állítások a ritmus sajátosságainak megragadhatatlanságát, a sok változóból adódó bizonytalanságot sugallták, nem véletlenül. A jelenség valóban soktényezős, az adatok gyakran ellentmondásosak, nehéz fogódzókat találni a megfelelő módszertan kialakításához. Kohári Anna azonban vette a bátorságot, hogy erre az ingoványos talajra lépjen, és útját siker koronázta. A nemzetközi szakirodalom széles körének ismeretében új, korábban a (magyar) beszédre még nem alkalmazott módszertanokat használva, különféle metódusokat ötvözve, szorgalmas, aprólékos és szisztematikus elemző munkával jutott el azon eredményekig és megállapításokig, amelyek ebben a kötetben napvilágot látnak, és amelyek a legkorszerűbb ismereteinket foglalják össze a (magyar) beszéd ritmusának vonatkozásában. A kötet bevezetése tananyagként is használható, mivel áttekinti és értelmezi a vonatkozó tudományos fogalomkészletet és terminológiát, továbbá számot ad a nemzetközi és a magyar kutatási eredményekről a legutóbbi időkig bezárólag. A második fejezettől kezdődően a szerző saját kutatásának lépéseit ismerjük meg, az elemzett anyag, az alkalmazott módszerek és az eredmények részletes, jól illusztrált áttekintését kapja az olvasó. Kohári Anna arra is rámutat, hogy a kapott eredmények mely területeken és milyen módon hasznosulhatnak, valamint kijelöli a további kutatások lehetséges irányait is. Mindezek alapján a kötet nemcsak a szűkebb, fonetikusokból álló olvasótábor érdeklődésére tarthat számot, hanem olyan területek művelői is építhetnek a benne foglalt ismeretekre, amelyek a beszéd időzítéséhez bármilyen módon kapcsolódnak, a logopédiától a beszédtechnológiáig. Az a kutatásmódszertani innováció, amelyre a kötet példát ad, azonban még távolabbi, a beszédhez nem vagy kevésbé kapcsolódó, de az időzítés mintázatait magában rejtő jelenségek leírásában is haszonnal kecsegtet. Így a könyv bátran ajánlható a szélesebb érdeklődő közönség számára is

    Illocution, Modality, Attitude, Information Patterning and Speech Annotation

    Get PDF
    Most of the papers collected in this book resulted from presentations and discussions undertaken during the V Lablita Workshop that took place at the Federal University of Minas Gerais, Brazil, on August 23-25, 2011. The workshop was held in conjunction with the II Brazilian Seminar on Pragmatics and Prosody. The guiding themes for the joint event were illocution, modality, attitude, information patterning and speech annotation. Thus, all papers presented here are concerned with theoretical and methodological issues related to the study of speech. Among the papers in this volume, there are different theoretical orientations, which are mirrored through the methodological designs of studies pursued. However, all papers are based on the analysis of actual speech, be it from corpora or from experimental contexts trying to emulate natural speech. Prosody is the keyword that comes out from all the papers in this publication, which indicates the high standing of this category in relation to studies that are geared towards the understanding of major elements that are constitutive of the structuring of speech

    Proceedings of the VIIth GSCP International Conference

    Get PDF
    The 7th International Conference of the Gruppo di Studi sulla Comunicazione Parlata, dedicated to the memory of Claire Blanche-Benveniste, chose as its main theme Speech and Corpora. The wide international origin of the 235 authors from 21 countries and 95 institutions led to papers on many different languages. The 89 papers of this volume reflect the themes of the conference: spoken corpora compilation and annotation, with the technological connected fields; the relation between prosody and pragmatics; speech pathologies; and different papers on phonetics, speech and linguistic analysis, pragmatics and sociolinguistics. Many papers are also dedicated to speech and second language studies. The online publication with FUP allows direct access to sound and video linked to papers (when downloaded)
    corecore