9 research outputs found

    Towards a Multimodal Silent Speech Interface for European Portuguese

    Get PDF
    Automatic Speech Recognition (ASR) in the presence of environmental noise is still a hard problem to tackle in speech science (Ng et al., 2000). Another problem well described in the literature is the one concerned with elderly speech production. Studies (Helfrich, 1979) have shown evidence of a slower speech rate, more breaks, more speech errors and a humbled volume of speech, when comparing elderly with teenagers or adults speech, on an acoustic level. This fact makes elderly speech hard to recognize, using currently available stochastic based ASR technology. To tackle these two problems in the context of ASR for HumanComputer Interaction, a novel Silent Speech Interface (SSI) in European Portuguese (EP) is envisioned.info:eu-repo/semantics/acceptedVersio

    Variação dialetal das laterais do português europeu

    Get PDF
    Mestrado em Ciências da Fala e da AudiçãoNo presente trabalho, foram obtidos dados acústicos das consoantes laterais do português europeu (/l/ e /ʎ/). No que diz respeito à lateral alveolar, o principal objetivo prendeu-se com a análise da influência da posição silábica nas características acústicas do /l/ nos três dialetos estudados (Aveiro, Bragança, Porto). Pretendeu-se assim verificar se o fenómeno de velarização é comum a todo o território nacional, como parecem sugerir estudos anteriores. Em relação à lateral palatal, os dados disponíveis são extremamente escassos, pelo que este trabalho teve como propósito recolher informação sobre F1, F2, F3 e duração, de modo a caraterizar foneticamente esta consoante do português europeu. Deste modo, para o estudo da lateral alveolar foram recolhidos e analisados acusticamente (F1, F2, F2-F1 e duração), dados de 37 falantes, naturais de Bragança (11), Porto (10) e Aveiro (16). Para o estudo da lateral palatal, recolheram-se e analisaram-se, do ponto de vista acústico (F1, F2, F3 e duração), dados de 21 informantes naturais dos distritos de Bragança (11) e Porto (10). Os resultados obtidos para a lateral alveolar, principalmente os de F2 e F2-F1, apontam para a existência de uma lateral velarizada, independentemente da posição silábica, em todos os dialetos em estudo. O /l/ é influenciado pela vogal adjacente, sofrendo efeitos de coarticulação. Para a lateral palatal, os resultados obtidos, apontam para valores de F1 próximos de 300Hz, F2 cerca dos 2050Hz e F3 a rondar os 2900Hz nos dois dialetos em estudo. A duração obtida para o /ʎ/ é inferior à registada noutros estudos para outras línguas, aproximando-se dos valores conhecidos para o Espanhol. Contrariamente ao esperado verificaram-se alguns efeitos de coarticulação motivados pela vogal adjacente.No presente trabalho, foram obtidos dados acústicos das consoantes laterais do português europeu (/l/ e /ʎ/). No que diz respeito à lateral alveolar, o principal objetivo prendeu-se com a análise da influência da posição silábica nas características acústicas do /l/ nos três dialetos estudados (Aveiro, Bragança, Porto). Pretendeu-se assim verificar se o fenómeno de velarização é comum a todo o território nacional, como parecem sugerir estudos anteriores. Em relação à lateral palatal, os dados disponíveis são extremamente escassos, pelo que este trabalho teve como propósito recolher informação sobre F1, F2, F3 e duração, de modo a caraterizar foneticamente esta consoante do português europeu. Deste modo, para o estudo da lateral alveolar foram recolhidos e analisados acusticamente (F1, F2, F2-F1 e duração), dados de 37 falantes, naturais de Bragança (11), Porto (10) e Aveiro (16). Para o estudo da lateral palatal, recolheram-se e analisaram-se, do ponto de vista acústico (F1, F2, F3 e duração), dados de 21 informantes naturais dos distritos de Bragança (11) e Porto (10). Os resultados obtidos para a lateral alveolar, principalmente os de F2 e F2-F1, apontam para a existência de uma lateral velarizada, independentemente da posição silábica, em todos os dialetos em estudo. O /l/ é influenciado pela vogal adjacente, sofrendo efeitos de coarticulação. Para a lateral palatal, os resultados obtidos, apontam para valores de F1 próximos de 300Hz, F2 cerca dos 2050Hz e F3 a rondar os 2900Hz nos dois dialetos em estudo. A duração obtida para o /ʎ/ é inferior à registada noutros estudos para outras línguas, aproximando-se dos valores conhecidos para o Espanhol. Contrariamente ao esperado verificaram-se alguns efeitos de coarticulação motivados pela vogal adjacente

    Interfaces de fala silenciosa multimodais para português europeu com base na articulação

    Get PDF
    Doutoramento conjunto MAPi em InformáticaThe concept of silent speech, when applied to Human-Computer Interaction (HCI), describes a system which allows for speech communication in the absence of an acoustic signal. By analyzing data gathered during different parts of the human speech production process, Silent Speech Interfaces (SSI) allow users with speech impairments to communicate with a system. SSI can also be used in the presence of environmental noise, and in situations in which privacy, confidentiality, or non-disturbance are important. Nonetheless, despite recent advances, performance and usability of Silent Speech systems still have much room for improvement. A better performance of such systems would enable their application in relevant areas, such as Ambient Assisted Living. Therefore, it is necessary to extend our understanding of the capabilities and limitations of silent speech modalities and to enhance their joint exploration. Thus, in this thesis, we have established several goals: (1) SSI language expansion to support European Portuguese; (2) overcome identified limitations of current SSI techniques to detect EP nasality (3) develop a Multimodal HCI approach for SSI based on non-invasive modalities; and (4) explore more direct measures in the Multimodal SSI for EP acquired from more invasive/obtrusive modalities, to be used as ground truth in articulation processes, enhancing our comprehension of other modalities. In order to achieve these goals and to support our research in this area, we have created a multimodal SSI framework that fosters leveraging modalities and combining information, supporting research in multimodal SSI. The proposed framework goes beyond the data acquisition process itself, including methods for online and offline synchronization, multimodal data processing, feature extraction, feature selection, analysis, classification and prototyping. Examples of applicability are provided for each stage of the framework. These include articulatory studies for HCI, the development of a multimodal SSI based on less invasive modalities and the use of ground truth information coming from more invasive/obtrusive modalities to overcome the limitations of other modalities. In the work here presented, we also apply existing methods in the area of SSI to EP for the first time, noting that nasal sounds may cause an inferior performance in some modalities. In this context, we propose a non-invasive solution for the detection of nasality based on a single Surface Electromyography sensor, conceivable of being included in a multimodal SSI.O conceito de fala silenciosa, quando aplicado a interação humano-computador, permite a comunicação na ausência de um sinal acústico. Através da análise de dados, recolhidos no processo de produção de fala humana, uma interface de fala silenciosa (referida como SSI, do inglês Silent Speech Interface) permite a utilizadores com deficiências ao nível da fala comunicar com um sistema. As SSI podem também ser usadas na presença de ruído ambiente, e em situações em que privacidade, confidencialidade, ou não perturbar, é importante. Contudo, apesar da evolução verificada recentemente, o desempenho e usabilidade de sistemas de fala silenciosa tem ainda uma grande margem de progressão. O aumento de desempenho destes sistemas possibilitaria assim a sua aplicação a áreas como Ambientes Assistidos. É desta forma fundamental alargar o nosso conhecimento sobre as capacidades e limitações das modalidades utilizadas para fala silenciosa e fomentar a sua exploração conjunta. Assim, foram estabelecidos vários objetivos para esta tese: (1) Expansão das linguagens suportadas por SSI com o Português Europeu; (2) Superar as limitações de técnicas de SSI atuais na deteção de nasalidade; (3) Desenvolver uma abordagem SSI multimodal para interação humano-computador, com base em modalidades não invasivas; (4) Explorar o uso de medidas diretas e complementares, adquiridas através de modalidades mais invasivas/intrusivas em configurações multimodais, que fornecem informação exata da articulação e permitem aumentar a nosso entendimento de outras modalidades. Para atingir os objetivos supramencionados e suportar a investigação nesta área procedeu-se à criação de uma plataforma SSI multimodal que potencia os meios para a exploração conjunta de modalidades. A plataforma proposta vai muito para além da simples aquisição de dados, incluindo também métodos para sincronização de modalidades, processamento de dados multimodais, extração e seleção de características, análise, classificação e prototipagem. Exemplos de aplicação para cada fase da plataforma incluem: estudos articulatórios para interação humano-computador, desenvolvimento de uma SSI multimodal com base em modalidades não invasivas, e o uso de informação exata com origem em modalidades invasivas/intrusivas para superar limitações de outras modalidades. No trabalho apresentado aplica-se ainda, pela primeira vez, métodos retirados do estado da arte ao Português Europeu, verificando-se que sons nasais podem causar um desempenho inferior de um sistema de fala silenciosa. Neste contexto, é proposta uma solução para a deteção de vogais nasais baseada num único sensor de eletromiografia, passível de ser integrada numa interface de fala silenciosa multimodal

    Ressonância magnética no estudo da produção do português europeu

    Get PDF
    Mestrado em Ciências da Fala e da AudiçãoA Ressonância Magnética (RM) é um método de imagem extremamente valioso na prática clínica e tem vindo a ser utilizado, nos últimos anos, em estudos de produção de fala. O facto de não utilizar radiações ionizantes, sendo considerado um método de aquisição relativamente inócuo, em conjunto com a sua capacidade multiplanar, boa resolução a nível de tecidos moles e possibilidade de modulação 3D, faz da RM um dos métodos mais promissores para obtenção de dados na área das Ciências da Fala. Existe já um vasto número de estudos com RM, para diversas línguas, mas este tipo de informação é ainda muito escassa para o Português Europeu. Este estudo com RM teve como principais objectivos a obtenção de uma base de dados relativa aos diversos sons do PE, mediante a aquisição de imagens relativas a produções estáticas (2D e 3D) e produções dinâmicas recorrendo a aquisição de imagem em tempo real. Foi também objectivo deste trabalho a validação de um método de aquisição de imagem (aquisição 3D). As imagens obtidas no corpus 2D permitiram obter as configurações do tracto vocal no plano sagital para grande parte dos sons do PE, incluindo todos os sons nasais, com uma resolução espacial e relação SNR que permitiu observar com nitidez a maior parte dos articuladores, extrair contornos e parâmetros articulatórios, e observar efeitos de coarticulação em oclusivas e fricativas. Da aquisição 3D, foram obtidas funções de área, parâmetros quantitativos como a abertura nasal, coeficiente de abertura do velo (CAV) e área da cavidade faríngea para vogais nasais, orais e consoantes nasais do PE. As imagens em tempo real, obtidas com uma velocidade de 5 frames/s, permitiram obter informação preliminar relativa à dinâmica dos articuladores durante a produção de fala. Os dados obtidos com este trabalho permitiram também o desenvolvimento de ferramentas de segmentação semi-automáticas fundamentais para a extracção de informação das imagens RM. ABSTRACT: Magnetic Resonance Imaging is a powerful diagnostic tool and has been used successfully to acquire information in speech production studies. Because it does not use ionising radiation, being considered a safe imaging technique, together with its multiplanar capability, good contrast resolution of soft tissues as well as the possibility of 3D modelling, makes MRI one of the most promising imaging methods in the area of speech research. There are several MRI speech production studies, for different languages, but there is not a systematic study for European Portuguese using MRI. The main goal of this study was to acquire a MRI database relative to European Portuguese sounds. This database included images relative to static productions (2D and 3D) as well as images obtained from dynamic productions during real time acquisition. 2D images allowed to get the configurations of the vocal tract in the mediosagittal plan for a vast part of the EP sounds, including all nasal sounds, with a SNR and spatial resolution that allowed (1) to observe with clearness most of the articulators, (2) to extract contours and articulatory parameters, and (3) to observe coarticulatory effects in stops and fricatives. From 3D acquisition, area functions were obtained together with some quantitative parameters such as nasal opening, Velum Port Opening Quotient (VPOQ) and pharyngeal areas, both for nasal and oral vowels and nasal consonants of EP. Real time images, obtained with a frame rate of five frames per second, allowed to get some (preliminary) information on the dynamics of the articulators (mainly tongue movements) during speech production. The database, obtained with this work, allowed the development of semiautomatic tools of segmentation for the extraction of information from MR images

    Do grafema ao gesto : contributos linguísticos para um sistema de síntese de base articulatória

    Get PDF
    Doutoramento em LinguísticaMotivados pelo propósito central de contribuir para a construção, a longo prazo, de um sistema completo de conversão de texto para fala, baseado em síntese articulatória, desenvolvemos um modelo linguístico para o português europeu (PE), com base no sistema TADA (TAsk Dynamic Application), que visou a obtenção automática da trajectória dos articuladores a partir do texto de entrada. A concretização deste objectivo ditou o desenvolvimento de um conjunto de tarefas, nomeadamente 1) a implementação e avaliação de dois sistemas de silabificação automática e de transcrição fonética, tendo em vista a transformação do texto de entrada num formato adequado ao TADA; 2) a criação de um dicionário gestual para os sons do PE, de modo a que cada fone obtido à saída do conversor grafema-fone pudesse ter correspondência com um conjunto de gestos articulatórios adaptados para o PE; 3) a análise do fenómeno da nasalidade à luz dos princípios dinâmicos da Fonologia Articulatória (FA), com base num estudo articulatório e perceptivo. Os dois algoritmos de silabificação automática implementados e testados fizeram apelo a conhecimentos de natureza fonológica sobre a estrutura da sílaba, sendo o primeiro baseado em transdutores de estados finitos e o segundo uma implementação fiel das propostas de Mateus & d'Andrade (2000). O desempenho destes algoritmos – sobretudo do segundo – mostrou-se similar ao de outros sistemas com as mesmas potencialidades. Quanto à conversão grafema-fone, seguimos uma metodologia baseada em regras de reescrita combinada com uma técnica de aprendizagem automática. Os resultados da avaliação deste sistema motivaram a exploração posterior de outros métodos automáticos, procurando também avaliar o impacto da integração de informação silábica nos sistemas. A descrição dinâmica dos sons do PE, ancorada nos princípios teóricos e metodológicos da FA, baseou-se essencialmente na análise de dados de ressonância magnética, a partir dos quais foram realizadas todas as medições, com vista à obtenção de parâmetros articulatórios quantitativos. Foi tentada uma primeira validação das várias configurações gestuais propostas, através de um pequeno teste perceptual, que permitiu identificar os principais problemas subjacentes à proposta gestual. Este trabalho propiciou, pela primeira vez para o PE, o desenvolvimento de um primeiro sistema de conversão de texto para fala, de base articulatória. A descrição dinâmica das vogais nasais contou, quer com os dados de ressonância magnética, para caracterização dos gestos orais, quer com os dados obtidos através de articulografia electromagnética (EMA), para estudo da dinâmica do velo e da sua relação com os restantes articuladores. Para além disso, foi efectuado um teste perceptivo, usando o TADA e o SAPWindows, para avaliar a sensibilidade dos ouvintes portugueses às variações na altura do velo e alterações na coordenação intergestual. Este estudo serviu de base a uma interpretação abstracta (em termos gestuais) das vogais nasais do PE e permitiu também esclarecer aspectos cruciais relacionados com a sua produção e percepção.Motivated by the central purpose of contributing for the construction, in the long term, of a complete text-to-speech system based in articulatory synthesis, we develop a linguistic model for European Portuguese (EP), based on TADA system (TAsk Dynamic Application), that aimed at the automatic attainment of the articulators trajectory from the input text. The specification of this purpose determined the development of a set of tasks, namely the 1) implementation and evaluation of two automatic syllabification systems and two grapheme-to-phoneme (G2P) conversion systems, in view of the transformation of the input in an appropriate format to the TADA; 2) the creation of a gestural database for the EP sounds, in so that each phone obtained at the output of the g2p system could have correspondence with a set of articulatory gestures adapted for EP; 3) the dynamic analysis of nasality, on the basis of an articulatory and perceptive study. The two automatic syllabification algorithms implemented and tested make appeal to phonological knowledge on the structure of the syllable, being the first one based in finite state transducers and the second one a faithful implementation of Mateus & d'Andrade (2000) proposals. The performance of these algorithms – especially the second - was similar to the one of other systems with the same potentialities. Regarding grapheme-to-phone conversion, we follow a methodology based on manual rules combined with an automatic learning technique. The evaluation results of this system motivated the exploitation of others automatic approaches, finding also to evaluate the impact of the syllabic information integration in the systems. The gestural description of the European Portuguese sounds, anchored on the theoretical and methodological tenets of the Articulatory Phonology, was based essentially on the analysis of magnetic resonance data (MRI), from which all the measurements were carried out, aiming to obtain the quantitative articulatory parameters. The several gestural configurations proposed have been validated, through a small perceptual test, which allowed identifying the main underlying problems of the gestural proposal. This work provided, for the first time to PE, the development of a first articulatory based text-to-speech system. The dynamic description of nasal vowels relied either on the magnetic resonance data, for characterization of the oral gestures, either on the data obtained through electromagnetic articulography (EMA), for the study of the velum dynamic and of its relation with the remaining articulators. Besides that, a perceptive test was performed, using TADA and SAPWindows, to evaluate the sensibility of the Portuguese listeners to the variations in the height of velum and alterations in the intergestural coordination. This study supported an abstract interpretation (in gestural terms) of the EP nasal vowels and allowed also to clarify crucial aspects related with its production and perception

    European Portuguese Articulatory Based Text-to-speech: First Results

    No full text
    In this paper we present recent work on the development of Linguistic Models, resulting in a first "complete" articulatory-based TTS system for Portuguese. The system, based on TADA system, integrates our past work in automatic syllabification and grapheme-phone conversion plus a first gestural specification of European Portuguese sounds. The system was integrated with SAPWindows, an articulatory synthesizer for Portuguese. A demonstration of the system capabilities and a first perceptual evaluation are presented. © 2008 Springer-Verlag Berlin Heidelberg.5190 LNAI101111Whalen, D.H.: Articulatory synthesis: Advances and prospects. In: ICPhS, pp. 175-177 (2003)Birkholz, P., Control of an articulatory speech synthesizer based on dynamic approximation of spatial articulatory targets (2007) Interspeech, pp. 2865-2868Teixeira, A., Martinez, R., Silva, L., Jesus, L., Pri?ncipe, J.C., Vaz, F.: Simulation of human speech production applied to the study and synthesis of European Portuguese. EURASIP Journal of Applied Signal Processing (2005)Browman, C.P., Goldstein, L., Gestural specification using dynamically-defined articulatory structures (1990) Journal of Phonetics, 18, pp. 299-320Hall, N.E., (2003) Gestures and Segments: Vowel intrusion as overlap, , Phd thesis, University of MassachusettsSaltzman, E., Munhall, K., A dynamic approach to gestural patterning in speech production (1989) Ecological Psychology, 1-3, pp. 333-382Rubin, P., Saltzman, E., Goldstein, L., McGowan, R., Tiede, M., Browman, C.P., CASY and extensions to the task - dynamic model (1996) Proc. 1st ESCA ETRW on Speech Production Modelling, , Autrans, FranceNam, H., Goldstein, L., Browman, C., Rubin, P., Proctor, M., Saltzman, E., (2006) TADA (TAsk Dynamics Application) manual. Manual, , Haskins LaboratoriesGoldstein, L., Byrd, D., Saltzman, E., The role of vocal tract gestural action units in understanding the evolution of phonology (2006) Action to Language via the Mirror Neuron System, pp. 215-249. , Arbib, M, ed, CUPRubin, P., Baer, T., Mermelstein, P., An articulatory synthesizer for perceptual research (1981) J. Acoust. Soc. America, 70 (2), pp. 321-328Mateus, M.H., d'Andrade, E., (2000) Phonology of Portuguese, , OUPOliveira, C., Moutinho, L., Teixeira, A., On European Portuguese automatic syllabification (2005) InterSpeechTeixeira, A., Oliveira, C., Moutinho, L.: On the use of machine learning and syllable information in European Portuguese grapheme-phone conversion. In: Vieira, R., Quaresma, P., Nunes, M.d.G.V., Mamede, N.J., Oliveira, C., Dias, M.C. (eds.) PROPOR 2006. LNCS (LNAI), 3960, pp. 212-215. Springer, Heidelberg (2006)Browman, C.P., Goldstein, L., Gestural syllable position effects in American English (1995) Producing Speech: Contemporary Issues, for Katherine Safford Harris, pp. 19-33. , Bell-Berti, F, Raphael, L.J, eds, AIP PressNascimento, F., Marques, L., Segura, L.: Portugues Fundamental: Metodos e Documentos. INIC-CLUL, Lisboa (1987
    corecore