8 research outputs found
Revisão do módulo de transcrição fonética para implementação no sintetizador de fala da empresa Verbio Technologies SL
Dissertação de mest., Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Univ. do Algarve, 2013O objetivo deste trabanlho é contribuir para a melhoria da qualidade do sistema
de conversão de texto em fala elaborado para o Português do Brasil e desenvolvido pela
empresa Verbio Technologies SL. Tais modificações foram possíveis a partir da revisão
minuciosa e das consequentes modificações no módulo de transcrição fonética do
sintetizador.
Devido às alterações introduzidas pela Nova Ortografia do Português foram
feitas modificações nas regras de transformação dos grafemas em fonemas, parte
integrante do transcritor fonético que compõe o sistema desenvolvido pela empresa. O
novo acordo ortográfico consiste na reestruturação ortográfica da língua portuguesa,
deste modo, muitas palavras sofreram modificações e, tais alterações deverão ser
abarcadas pelo transcritor grafema-fonema do sistema de síntese de fala.
Além das novas regras da ortografia portuguesa, também foi utilizado um
dicionário desenvolvido pelo Centro de Pesquisa e Desenvolvimento em
Telecomunicações (CPqD), versão 1.4 de maio de 2003. Este dicionário foi usado como
ponto de partida para a definição dos fonemas e do subsequente desenvolvimento das
novas regras.
A metodologia de estudo consistiu na análise detalhada de duas variantes
linguísticas do português brasileiro: a variante falada no Rio de Janeiro e a variante
falada São Paulo, regiões economicamente desenvolvidas e onde a aplicação de um
sintetizador se justica.
Além da incorporação das novas regras de ortografia da língua portuguesa,
foram definidas também algumas regras que contemplam determinados processos
fonológicos frequentes no português brasileiro, como é o caso da epêntese vocálica
Análise comparativa da sílaba em português europeu e nas línguas bantu
A presente dissertação tem por objectivo analisar e descrever as estratégias
de silabificação de unidades lexicais no Português Europeu comparando-as
com as de Copi, dado que, em linguística, os estudos de natureza comparativa
contribuem para encontrar as diferenças entre as línguas comparadas de
modo a prever as possíveis transferências, sejam positivas ou negativas. A
recolha de dados baseou-se em 45 alunos falantes nativos de Copi que, ao
mesmo tempo, são falantes de Português, bem como no próprio autor. Os
informantes abordados são residentes nos distritos de Zavala e Homoine
(Inhambane) e têm a idade compreendida entre 18 a 25 anos.
Esta pesquisa é de cunho etnolinguístico o que implicou a realização de um
trabalho de campo para a geração dos registos que forneceram os dados para
a análise contrastiva, através de inquérito sociolinguístico e conversas com os
alunos/formandos e outros participantes. Além disso, a revisão bibliográfica em
muitas línguas do mundo, entre as bantu e não bantu, também contribuiu para
constituir o corpus do estudo, o que permitiu que se chegasse a uma
conclusão de que na divisão da sílaba em Copi raras vezes, senão nunca, o
constituinte silábico “coda” (Cd) se encontra preenchido, facto que corrobora a
ideia segundo a qual este elemento, na estrutura da sílaba em bantu, é
opcional e convencionalmente representado entre parêntesis. Em PE é
frequente encontrar sílabas cuja coda é segmentalmente preenchida embora
não seja por todas as consoantes, mas as fonológicas /l, r, s/ e as suas
variantes.
Do ponto de vista teórico, esta pesquisa sustentou-se à luz de algumas teorias
sobre a sílaba e ortografia em Português Europeu, Vigário & Falé (1994);
Mateus d’Andrade (2000); Mateus et al (2005), Moutinho e Teixeira (2005);
Moutinho e Oliveira (2005); Oliveira (2007); Veloso (2008); Morais e Silva
(2010); sobre a sílaba e ortografia em línguas bantu, Hyman (1985); Sitoe
(1996); Ngunga (2004); Ngunga e Faquir (2011), e sobre bilinguismo e
educação bilingue, Hamel (1989); Baker (1993); Patel (2006), entre outros.
Como resultado, o estudo mostra que certos padrões silábicos ocorrem em
todas as línguas convocadas para o debate (CV – padrão silábico universal) e
que outros formatos apenas ocorrem em Português. A pesquisa mostra ainda
que a silabificação indiferenciada das palavras em PE pode ser justificada pelo
pouco incentivo para o ensino da ortografia das LB aliada à do PE, pois a
Educação Bilingue em Moçambique ocupa um espaço incipiente e poucos
trabalhos tem sido feitos sobre a sua realização em programas de ensino em
Moçambique.This dissertation aims to analyse and describe the syllabification strategies
of the lexical units in the European Portuguese comparing them with those
of Copi, since in linguistic the comparative studies contribute to meet the
differences among compared languages in order to foresee the possible
positive or negative transferences. The data collection was based on 45
Copi native speakers’ students and at the same time they are Portuguese
speakers as well as the author. The informants live in Zavala and Homoine
(Inhambane) and they are between 18 and 25 years old.
Being an ethnolinguist research, it was necessary to go to the field in order
to collect the data which allowed a contrastive analyse throughout a
sociolinguistic inquiry with the students/trainees an other participants. A
part from literature review in many world languages, bantu and non-bantu
languages, they also contributed for the construction of the study’s corpus
and allowed us to conclude that in the syllable division in Copi rarely or
never the syllabic constituent “Coda” (Cd) is filled, what corroborate that
this element in bantu syllabic structure is optional and is conventionally
represented into brackets. In the European Portuguese, it is usual to find
syllables which the Coda is segmentally filled although it does not happen
to all the consonants, nevertheless, the phonological /l,r,s/ and their
variations.
From the theoretical point of view, this research was based on syllable and
orthography theories in the European Portuguese (Vigário e Falé, 1994;
Mateus d’Andrade, 2010; Mateus et al, 2005; Moutinho e Teixeira, 2005;
Moutinho e Oliveira, 2005; Oliveira, 2007; Veloso, 2008; Morais e Silva,
2010); on syllable and orthography in bantu languages (Ngunga, 2004;
Ngunga e Faquir, 2011); and about bilingualism and bilingual education
(Hamel, 1989; Beker, 1993; Patel, 2006) and o forth. As a result, the study
shows that some syllabic standards occur in all the languages of this study
(CV universal syllabic standard) and other structures only occur in
Portuguese. The research shows also that the words indistinct
syllabification in European Portuguese can be justified by a reduced
stimulus for the teaching of bantu languages orthography allied to the
European Portuguese since the bilingual education in Mozambique is
incipient and less works have been carried out on the teaching
programmes in Mozambique.Mestrado em Línguas, Literaturas e Cultura
Treino não supervisionado de modelos acústicos para reconhecimento de fala
Tese de doutoramento em Engenharia Electrotécnica e de Computadores, apresentada ao Departamento de Engenharia Electrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de CoimbraEsta tese resume os trabalhos desenvolvidos na área de processamento automático de fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala para uma língua estão relacionados com a quantidade e a qualidade de recursos disponíveis por esta língua. Poucas línguas apresentam, no domínio público e livre, todos os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa, como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para aproveitar a grande disponibilidade de material multimédia existente no domínio público (podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases de dados de fala com transcrição fonética sem a intervenção humana.
Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil entradas que foram verificadas manualmente.
Foram implementados sistemas de segmentação e de diarização de locutor para segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana que normalmente são aplicadas noutras tarefas de processamento de fala.
Para selecionar os segmentos adequados ou descartar os segmentos com fala não preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito, fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos noticiários em português.
A transcrição fonética da base de dados de fala é indispensável no processo de treino de modelos acústicos. É frequente recorrer a sistema de reconhecimento de fala de grande vocabulário para fazer transcrição automática quando a base de dados não apresenta nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de “assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridades entre as verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos e um limiar definido por forma a minimizar os erros de deteção.
Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação dos vários sistemas desenvolvidos ao longo da execução desta tese com especial destaque para o sistema de conversão de grafemas para fonemas a partir do qual publicou-se vários dicionários de pronunciação, dicionários com as palavras homógrafas heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de grafemas para fonemas, código fonte de todo sistema de treino e conversão e um demonstrador online.This thesis summarizes the works done in the automatic speech processing field aiming to increase the amount of the linguistic resources available for European Portuguese language. The development stage and the application of speech technologies into a language are related to the quantity and quality of resources available for that given language. Few languages have all the required resources to implement speech technologies within free-access and public domain. Like many other language, the Portuguese language lacks public and free resources which may hinder the development and the application of speech technologies that incorporate the Portuguese language. The works described in this thesis present an approach to create speech databases, using only the public and free-access resources, starting from multimedia signals without orthographic or phonetic transcriptions. It this sense, a solution is presented to take advantage of the wide availability in the public domain of multimedia material (e.g. podcasts) and select appropriate speech segments to train acoustic models. To this end, several systems have been developed to automatically segment and classify broadcast news. These systems can be combined to build speech databases with phonetic transcription without human intervention.
A system was developed to automatically convert graphemes to phonemes based on phonological rules and statistical models. This hybrid approach is justified by the developments in machine learning algorithms applied to the conversion of graphemes into phonemes and by the fact that the Portuguese language presents a reasonable phonetic/phonologic regularity and an orthography that is roughly phonologically based. Using this system, a pronunciation dictionary was created including about 40 thousands entries that where manually confirmed.
They were implemented a system for segmentation into five predetermined acoustic classes (speech, music, noise, speech with music and speech with noise) and a system for speaker diarization. These systems use various techniques such as acoustic fingerprint, Gaussian mixture model and Bayesian information criterion that normally are used in other speech processing tasks.
In order to select appropriate audio segments or discard non-prepared speech segments that may impair acoustic models training, it was developed a system to detect speaking styles. The detection of speaking styles is based on the combination of acoustic and prosodic parameters, on automatic segmentation and on support vector machine classifiers. Also in this scope, a study was made in order to characterize the hesitation events present in the Portuguese broadcast news.
The transcription of the audio databases is essential in the process of acoustic models training. The large-vocabulary continuous speech recognition system is usually used to do automatic transcription wen the database do not have any transcripts. In this thesis, it is proposed to use word-spotting system to provide phonetic transcriptions of speech segments. A preliminary implementation of a word-spotting system based on phoneme models was conducted. A strategy was proposed to decrease the system response time, creating, a priori, a sort of “acoustic signature” for each audio signal with the values of all calculations which do not depend on the searching word as for example the likelihood of all states of phoneme models. The detection of a word uses similarity measures based on likelihood of word model and likelihood of filler model, a peak detector and a threshold value defined as to minimize detection errors.
Several resources for the Portuguese language were published that resulted from the application of the various systems developed throughout the development of this thesis with particular emphasis on the graphemes to phonemes system from which it was published several dictionaries of pronunciation, dictionary with heterophonic homographs words, dictionary of foreign words, statistical models for converting graphemes to phonemes, the source code of the whole system of training as well as conversion and an online demo
TREINO NÃO SUPERVISIONADO DE MODELOS ACÚSTICOS PARA RECONHECIMENTO DE FALA
Esta tese resume os trabalhos desenvolvidos na área de processamento automático de
fala com o objetivo de incrementar a quantidade de recursos linguísticos disponíveis para
o português europeu. O estágio de desenvolvimento e a aplicação das tecnologias de fala
para uma língua estão relacionados com a quantidade e a qualidade de recursos
disponíveis para esta língua. Poucas línguas apresentam, no domínio público e livre, todos
os recursos necessários para desenvolver as tecnologias de fala. A língua portuguesa,
como muitas outras, tem escassez de recursos públicos e livres, o que pode dificultar o
desenvolvimento e a aplicação de tecnologias de fala que incorporam esta língua. Os
trabalhos descritos nesta tese apresentam uma abordagem para criar bases de dados de
fala, recorrendo apenas aos recursos do domínio público e livres, partindo de sinais
multimédia sem transcrições ortográficas ou fonéticas. É apresentada uma solução para
aproveitar a grande disponibilidade de material multimédia existente no domínio público
(podcasts por exemplo) e selecionar segmentos de fala adequados para treinar modelos
acústicos. Para isso, foram desenvolvidos vários sistemas para segmentar e classificar
automaticamente os noticiários. Estes sistemas podem ser combinados para criar bases
de dados de fala com transcrição fonética sem a intervenção humana.
Foi desenvolvido um sistema de conversão automático de grafemas para fonemas que se
apoia em regras fonológicas e modelos estatísticos. Esta abordagem híbrida é justificada
pelos desenvolvimentos de algoritmos de aprendizagem automática aplicados a
conversão de grafemas para fonemas e pelo fato do português apresentar uma razoável
regularidade fonética e fonológica bem como uma ortografia de base fonológica. Com
auxílio deste sistema, foi criado um dicionário de pronunciação com cerca de 40 mil
entradas, que foram verificadas manualmente.
Foram implementados sistemas de segmentação e de diarização de locutor para
segmentar sinais de áudio. Estes sistemas utilizam várias técnicas como a impressão
digital acústica, modelos com misturas de gaussianas e critério de informação bayesiana
que normalmente são aplicadas noutras tarefas de processamento de fala.
Para selecionar os segmentos adequados ou descartar os segmentos com fala não
preparada que podem prejudicar o treino de modelos acústicos, foi desenvolvido um
sistema de deteção de estilos de fala. A deteção de estilos de fala baseia-se na
combinação de parâmetros acústicos e parâmetros prosódicos, na segmentação
automática e em classificadores de máquinas de vetores de suporte. Ainda neste âmbito,
fez-se um estudo com o intuito de caracterizar os eventos de hesitações presentes nos
noticiários em português.
A transcrição fonética da base de dados de fala é indispensável no processo de treino de
modelos acústicos. É frequente recorrer a sistemas de reconhecimento de fala de grande
vocabulário para fazer transcrição automática quando a base de dados não apresenta
nenhuma transcrição. Nesta tese, é proposto um sistema de word-spotting para fazer a
transcrição fonética dos segmentos de fala. Fez-se uma implementação preliminar de um
sistema de word-spotting baseado em modelos de fonemas. Foi proposta uma estratégia
para diminuir o tempo de resposta do sistema, criando, a priori, uma espécie de
“assinatura acústica” para cada sinal de áudio com os valores de todos os cálculos que
não dependem da palavra a pesquisar, como a verosimilhanças de todos os estados dos
modelos de fonemas. A deteção de uma palavra utiliza medidas de similaridade entre as
verosimilhanças do modelo da palavra e do modelo de enchimento, um detetor de picos
e um limiar definido por forma a minimizar os erros de deteção.
Foram publicados vários recursos para a língua portuguesa que resultaram da aplicação
dos vários sistemas desenvolvidos ao longo da execução desta tese com especial
destaque para o sistema de conversão de grafemas para fonemas a partir do qual se
publicaram vários dicionários de pronunciação, dicionários com as palavras homógrafas
heterofónicas, dicionário com estrangeirismos, modelos estatísticos para a conversão de
grafemas para fonemas, o código fonte de todo sistema de treino e conversão e um
demonstrador online
European Portuguese Articulatory Based Text-to-speech: First Results
In this paper we present recent work on the development of Linguistic Models, resulting in a first "complete" articulatory-based TTS system for Portuguese. The system, based on TADA system, integrates our past work in automatic syllabification and grapheme-phone conversion plus a first gestural specification of European Portuguese sounds. The system was integrated with SAPWindows, an articulatory synthesizer for Portuguese. A demonstration of the system capabilities and a first perceptual evaluation are presented. © 2008 Springer-Verlag Berlin Heidelberg.5190 LNAI101111Whalen, D.H.: Articulatory synthesis: Advances and prospects. In: ICPhS, pp. 175-177 (2003)Birkholz, P., Control of an articulatory speech synthesizer based on dynamic approximation of spatial articulatory targets (2007) Interspeech, pp. 2865-2868Teixeira, A., Martinez, R., Silva, L., Jesus, L., Pri?ncipe, J.C., Vaz, F.: Simulation of human speech production applied to the study and synthesis of European Portuguese. EURASIP Journal of Applied Signal Processing (2005)Browman, C.P., Goldstein, L., Gestural specification using dynamically-defined articulatory structures (1990) Journal of Phonetics, 18, pp. 299-320Hall, N.E., (2003) Gestures and Segments: Vowel intrusion as overlap, , Phd thesis, University of MassachusettsSaltzman, E., Munhall, K., A dynamic approach to gestural patterning in speech production (1989) Ecological Psychology, 1-3, pp. 333-382Rubin, P., Saltzman, E., Goldstein, L., McGowan, R., Tiede, M., Browman, C.P., CASY and extensions to the task - dynamic model (1996) Proc. 1st ESCA ETRW on Speech Production Modelling, , Autrans, FranceNam, H., Goldstein, L., Browman, C., Rubin, P., Proctor, M., Saltzman, E., (2006) TADA (TAsk Dynamics Application) manual. Manual, , Haskins LaboratoriesGoldstein, L., Byrd, D., Saltzman, E., The role of vocal tract gestural action units in understanding the evolution of phonology (2006) Action to Language via the Mirror Neuron System, pp. 215-249. , Arbib, M, ed, CUPRubin, P., Baer, T., Mermelstein, P., An articulatory synthesizer for perceptual research (1981) J. Acoust. Soc. America, 70 (2), pp. 321-328Mateus, M.H., d'Andrade, E., (2000) Phonology of Portuguese, , OUPOliveira, C., Moutinho, L., Teixeira, A., On European Portuguese automatic syllabification (2005) InterSpeechTeixeira, A., Oliveira, C., Moutinho, L.: On the use of machine learning and syllable information in European Portuguese grapheme-phone conversion. In: Vieira, R., Quaresma, P., Nunes, M.d.G.V., Mamede, N.J., Oliveira, C., Dias, M.C. (eds.) PROPOR 2006. LNCS (LNAI), 3960, pp. 212-215. Springer, Heidelberg (2006)Browman, C.P., Goldstein, L., Gestural syllable position effects in American English (1995) Producing Speech: Contemporary Issues, for Katherine Safford Harris, pp. 19-33. , Bell-Berti, F, Raphael, L.J, eds, AIP PressNascimento, F., Marques, L., Segura, L.: Portugues Fundamental: Metodos e Documentos. INIC-CLUL, Lisboa (1987