6 research outputs found

    Treino não supervisionado de modelos acústicos para reconhecimento de fala

    Get PDF
    Tese de doutoramento em Engenharia Electrotécnica e de Computadores, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de CoimbraEsta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis por esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistema de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridades entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual publicou-se vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, código fonte de todo sistema de treino e conversão e um demonstrador online.This thesis summarizes the works done in the automatic speech processing field aiming to increase the amount of the linguistic resources available for European Portuguese language. The development stage and the application of speech technologies into a language are related to the quantity and quality of resources available for that given language. Few languages have all the required resources to implement speech technologies within free-access and public domain. Like many other language, the Portuguese language lacks public and free resources which may hinder the development and the application of speech technologies that incorporate the Portuguese language. The works described in this thesis present an approach to create speech databases, using only the public and free-access resources, starting from multimedia signals without orthographic or phonetic transcriptions. It this sense, a solution is presented to take advantage of the wide availability in the public domain of multimedia material (e.g. podcasts) and select appropriate speech segments to train acoustic models. To this end, several systems have been developed to automatically segment and classify broadcast news. These systems can be combined to build speech databases with phonetic transcription without human intervention. A system was developed to automatically convert graphemes to phonemes based on phonological rules and statistical models. This hybrid approach is justified by the developments in machine learning algorithms applied to the conversion of graphemes into phonemes and by the fact that the Portuguese language presents a reasonable phonetic/phonologic regularity and an orthography that is roughly phonologically based. Using this system, a pronunciation dictionary was created including about 40 thousands entries that where manually confirmed. They were implemented a system for segmentation into five predetermined acoustic classes (speech, music, noise, speech with music and speech with noise) and a system for speaker diarization. These systems use various techniques such as acoustic fingerprint, Gaussian mixture model and Bayesian information criterion that normally are used in other speech processing tasks. In order to select appropriate audio segments or discard non-prepared speech segments that may impair acoustic models training, it was developed a system to detect speaking styles. The detection of speaking styles is based on the combination of acoustic and prosodic parameters, on automatic segmentation and on support vector machine classifiers. Also in this scope, a study was made in order to characterize the hesitation events present in the Portuguese broadcast news. The transcription of the audio databases is essential in the process of acoustic models training. The large-vocabulary continuous speech recognition system is usually used to do automatic transcription wen the database do not have any transcripts. In this thesis, it is proposed to use word-spotting system to provide phonetic transcriptions of speech segments. A preliminary implementation of a word-spotting system based on phoneme models was conducted. A strategy was proposed to decrease the system response time, creating, a priori, a sort of “acoustic signature” for each audio signal with the values of all calculations which do not depend on the searching word as for example the likelihood of all states of phoneme models. The detection of a word uses similarity measures based on likelihood of word model and likelihood of filler model, a peak detector and a threshold value defined as to minimize detection errors. Several resources for the Portuguese language were published that resulted from the application of the various systems developed throughout the development of this thesis with particular emphasis on the graphemes to phonemes system from which it was published several dictionaries of pronunciation, dictionary with heterophonic homographs words, dictionary of foreign words, statistical models for converting graphemes to phonemes, the source code of the whole system of training as well as conversion and an online demo

    TREINO NÃO SUPERVISIONADO DE MODELOS ACÚSTICOS PARA RECONHECIMENTO DE FALA

    Get PDF
    Esta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana. Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas, que foram verificadas manualmente. Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala. Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português. A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção. Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual se publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um demonstrador online

    Alfabetização baseada na ciência: manual do curso ABC

    Get PDF
    O presente manual faz parte do projeto ABC – Alfabetização Baseada na Ciência, fruto de um Acordo de Cooperação Internacional celebrado entre a Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), a Faculdade de Psicologia e de Ciências da Educação da Universidade do Porto (FPCEUP), o Instituto Politécnico do Porto (IPP) e a Universidade Aberta de Portugal (UAb). Essa importante parceria tem o objetivo de contribuir para a formação continuada dos profissionais da educação brasileiros que atuam na área de alfabetização, somando-se aos vários esforços que têm sido envidados pelo Ministério da Educação (MEC) para elevar a qualidade dos processos de alfabetização no Brasil e, consequentemente, os seus resultados. A formação de professores tem sido um dos pilares da Política Nacional de Alfabetização (PNA), instituída pelo MEC por meio do Decreto 9.765/19, a qual destaca entre seus princípios a fundamentação de programas e ações em evidências provenientes das ciências cognitivas, bem como a adoção de referenciais de políticas públicas exitosas, nacionais e estrangeiras, baseadas em evidências científicas.info:eu-repo/semantics/publishedVersio

    A importância dos estímulos visuais em crianças com atraso fonológico

    Get PDF
    Mestrado em Ciências da Fala e da AudiçãoO presente trabalho teve como principal objetivo o estudo da influência dos estímulos visuais em crianças com atraso fonológico. Neste sentido, procedeu-se ao desenvolvimento e à validação de conteúdo de materiais de avaliação/intervenção em Terapia da Fala, especificamente, uma Prova de Avaliação de Competências de Pré-Literacia e um conjunto de 50 cartões com estímulos visuais (cartões L&S). A Prova de Avaliação de Competências de Pré-Literacia possibilita a avaliação da identificação/nomeação do nome/som dos grafemas. Os cartões L&S estimulam o desenvolvimento das correspondências grafema-fonema e a melhoria da produção dos sons da fala. Um painel de peritos constituído por 6 terapeutas da fala realizou a avalição dos materiais supracitados com base num conjunto de critérios previamente definidos. A Prova de Avaliação de Competências de Pré-Literacia foi analisada com base nos critérios de clareza, simplicidade, precisão e relevância. Os cartões L&S foram analisados com base nos critérios de clareza e pertinência prática. Em ambos os casos, o método gráfico de Bland- Altman modificado permitiu concluir que existiu boa concordância entre os avaliadores, uma vez que a maioria dos valores correspondentes aos vários itens analisados se encontrava dentro dos limites esperados de concordância e a grandeza do limite superior não era muito elevada. A Prova de Avaliação de Competências de Pré-Literacia foi ainda sujeita a um estudo piloto realizado com 64 crianças em idade pré-escolar com idades compreendidas entre os 5;0 e os 6;3 e com desenvolvimento típico ao nível da fala e da linguagem. Tendencialmente, os resultados indicam melhores desempenhos nas subprovas de identificação do nome/som dos grafemas comparativamente às respetivas subprovas de nomeação de grafemas/fonemas. Adicionalmente, os resultados revelam que as crianças do género feminino obtiveram um melhor desempenho nas diversas subprovas comparativamente às crianças do género masculino. Pretendeu-se ainda estudar a influência de alguns cartões L&S ao nível da aquisição das correspondências grafema-fonema e da melhoria da produção dos sons da fala. Por conseguinte, um terapeuta da fala externo ao estudo, do Centro Hospitalar Tondela-Viseu, realizou uma intervenção terapêutica ao longo de 6 semanas num grupo de 7 crianças com idades compreendidas entre os 5;3 e os 6;5 com diagnóstico de atraso fonológico. Todas as crianças apresentavam um desenvolvimento típico ao nível dos restantes domínios da linguagem. As seguintes medidas de resultados foram recolhidas antes e após 6 sessões de intervenção: percentagem de consoantes corretas; percentagem de ocorrência dos processos fonológicos; inventário fonético; competências de pré-literacia (correspondência grafema-fonema). Os resultados obtidos neste estudo sugerem que os cartões L&S selecionados promovem melhorias na aprendizagem das correspondências grafema-fonema, sobretudo ao nível da aquisição do som correspondente ao grafema. Também se observaram melhorias nas restantes medidas de resultados, ao nível da produção dos sons da fala, o que é sugestivo de que os cenários dos cartões L&S fornecem pistas visuais que estimulam a produção correta dos sons correspondentes aos alvos terapêuticos.The main purpose of this work was to study the influence of visual stimuli in prescholers with phonological delay. It was developed and analysed the content validaty of speech and language assessment/intervention materials, specifically a Pre-Literacy Skills Assessment Probe and 50 visual stimuli (L&S cards). The Pre-Literacy Skills Assessment Probe assesses the identification/production of the graphemes names/sounds. The L&S cards stimulate grapheme-phoneme development and speech sound production. An expert panel of 6 speech and language therapists analysed these materials based on several criteria that were previously established. The Pre-Literacy Skills Assessment Probe was analysed based on clarity, simplicity, ambiguity and relevance criteria. The L&S cards were analised based on clarity and practicality criteria. The modified Bland- Altman method showed good agreement among evaluators, because the majority of the values was between the agreement limits and the superior limit was not very high. The content validity of the Pre-Literacy Skills Assessment Probe was also piloted with 64 preschoolers aged 5;0-6;3 with normal speech and language development. The results indicate better scores in letter name identification than in letter name/letter sound production. Additionally, girls scored higher than boys. The influence of the set of L&S cards in grapheme-phoneme correspondences development and in speech production improvement was also studied. An external speech and language therapist of the Tondela-Viseu Hospital carried out a 6-week therapeutic intervention in a group of 7 phonologicaly delayed preschoolers aged 5;3-6;5. All children have a normal development in other language domains. The following outcome measures were taken before and after the therapeutic intervention process: percentage of consonants correct; percentage of phonological processes; phonetic inventory; pre-literacy skills (grapheme-phoneme correspondence). The results indicate that the selected L&S cards facilitate phoneme-grapheme correspondence acquisition, specially in letter sound acquisition. Additional speech sound production improvements were observed, which indicates that L&S cards scenarios provide suitable visual clues to stimulate the correct production of therapeutic targets

    Conversão de Grafemas para Fonemas em Português Europeu - Abordagem Híbrida com Modelos Probabilísticos e Regras Fonológicas

    No full text
    A conversão de grafema para fonema diz respeito à tarefa de encontrar a pronúncia de um vocábulo dado na sua forma escrita, a qual tem uma forte componente de aplicação em sistemas de reconhecimento e de síntese de fala. Uma nova abordagem na conversão de grafema para fonema é proposta, aplicando um modelo híbrido para o qual concorrem regras fonológicas e decisões estatísticas. Os resultados mostram que a incorporação de regras fonológicas em algoritmos de informação estatística melhora acentuadamente o desempenho do conversor. Para este trabalho, foi construído um dicionário de pronunciação com mais de 40000 vocábulos derivados do corpus CETEMPúblico. Os dicionários fonológicos de pronunciação para o português europeu, bem como outros recursos produzidos durante este trabalho, estão disponibilizados publicamente. O sistema que aqui se descreve foi aplicado à língua portuguesa escrita, sem e com o Acordo Ortográfico de 1990, e, ainda que aplicado ao português na sua vertente europeia, observa características que permitem a sua aplicação a outras línguas românicas.<br /&gt

    Estudos experimentais sobre leitura e compreensão de problemas verbais de matemática

    Get PDF
    Tese de doutoramento, Linguística (Psicolinguística), Universidade de Lisboa, Faculdade de Letras, 2013A resolução de problemas verbais de matemática assume-se como uma complexa tarefa cognitiva, que envolve uma série de estratégias, sustentada por dois processos fundamentais: a abordagem cognitiva da solução de problemas centrada na teoria do processamento da informação, i.e., a representação cognitiva das informações extraídas dos enunciados que ocorre quando os sujeitos procuram compreender o problema; a definição dos procedimentos e das estratégias necessárias para alcançar a solução, que resulta na realização das operações algorítmicas para resolver o problema. Os estudos empíricos realizados no âmbito desta dissertação, que se inscreve no domínio da Psicolinguística, permitiram analisar os mecanismos cognitivos mobilizados no processamento da informação dos enunciados dos problemas e prestam um contributo às investigações realizadas nos últimos trinta anos com indicadores que se assumem como mais- -valias para sustentar o complexo processo de leitura e de compreensão de problemas verbais de matemática. A análise do desempenho dos sujeitos de diferentes níveis de ensino (4º, 6º e 9º anos de escolaridade) na resolução de problemas de construção e de escolha múltipla revelou que as dificuldades não residem apenas ou exclusivamente nas estratégias e nos procedimentos de resolução, ainda que estes assumam um papel relevante, mas na compreensão dos enunciados com características discursivas e estruturais distintas e na relação do resultado dessa compreensão com os restantes processos de resolução. A influência das macroestruturas linguísticas, nomeadamente a extensão dos enunciados textuais, e das propriedades das microestruturas linguísticas na construção da representação mental das situações enunciadas nos problemas evidenciou que a compreensão verbal antecede a compreensão matemática dos enunciados e que os fatores de natureza linguística atuam antes mesmo dos elementos estruturantes e dos aspetos fundamentais da competência matemática no processamento da informação e na compreensão dos problemas. A presença de vários sistemas semióticos (a língua natural, as escritas algébricas e formais, as figuras geométricas, as representações gráficas e as ilustrações) nos problemas bimodais implica a mobilização de mais recursos cognitivos e, portanto, uma maior sobrecarga na memória de trabalho que resulta em custos mais elevados do processamento da informação com impacto na compreensão e, consequentemente, no planeamento e na execução das restantes etapas de resolução.Solving mathematical word problems is a complex cognitive task, which involves a series of strategies, supported by two fundamental processes: the cognitive approach to problem solving centered in the theory of information processing, this means, the cognitive representation of information taken from texts, that occurs when students try to understand the mathematical problem; the definition of procedures and strategies that are necessary to achieve the solution, which results in the implementation of algorithmic operations to solve the problem. The empirical studies carried on in this thesis, which belong to the domain of Psycholinguistics, allowed to analyse the cognitive mechanisms involved when we process information which is contained in texts describing the problems, and contribute to investigations which have been carried out over the past thirty years with indicators that are a gain to sustain the complex process of reading and comprehension of mathematical word problems. The performance analysis of students from different grades of education (4, 6 and 9 years of schooling) when solving construction and multiple-choice problems showed that the difficulties lie not only or exclusively in the strategies and the procedures of resolution, even though they play an important role, but also in the understanding of the texts describing the problems, which have distinct structural and discursive characteristics and in the relationship between the results of that comprehension and the remaining resolution procedures. The influence of linguistic macrostructures, specifically the extent of the texts, and of the properties of linguistic microstructures in the construction of the mental representation of the situations described in the problems showed that the verbal comprehension precedes the mathematical comprehension and that linguistic factors act before the structural elements and the fundamental aspects of mathematical competence when we process information and understand the problems. The presence of multiple semiotic systems (natural language, the algebraic and formal writing, geometric figures, graphical representations and illustrations) in bimodal problems involve the mobilization of more cognitive resources and therefore a greater load on the working memory that results in higher costs of information processing with impact in the comprehension and, consequently, in the planning and implementation of the remaining stages of resolution
    corecore