216 research outputs found

    Marathi Speech Synthesis: A Review

    Get PDF
    This paper seeks to reveal the various aspects of Marathi Speech synthesis. This paper has reviewed research development in the International languages as well as Indian languages and then centering on the development in Marathi languages with regard to other Indian languages. It is anticipated that this work will serve to explore more in Marathi language. DOI: 10.17762/ijritcc2321-8169.15064

    Speech-to-speech translation to support medical interviews

    Get PDF
    Projeto de mestrado em Engenharia Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013Este relatório apresenta a criação de um sistema de tradução fala-para-fala. O sistema consiste na captação de voz na forma de sinal áudio que de seguida é interpretado, traduzido e sintetizado para voz. Tendo como entrada um enunciado numa linguagem de origem e como saída um enunciado numa linguagem destino. O sistema implementado tem como âmbito do seu funcionamento o domínio médico, tendo em vista apoiar o diálogo entre médico e utente em linguagens diferentes durante consultas médicas. No caso do presente trabalho, foram escolhidos o português e inglês, sendo possível a tradução fala-para-fala nos dois sentidos. A escolha destas duas línguas resulta sobretudo da disponibilidade de recursos para o desenvolvimento do sistema. Ao longo dos anos tem existido um esforço de pesquisa e desenvolvimento em tecnologia que permite quebrar as barreiras do multilinguismo. Uma dessas tecnologias, com resultados de qualidade crescentemente aceitável, são os sistemas de tradução fala-para-fala. Em geral, estes sistemas são compostos por três componentes: reconhecimento de fala, tradução automática e sintetização de voz. Neste projecto foram implementadas as três componentes. No entanto, uma vez que face às tecnologias disponíveis, a componente de tradução tem um maior impacto no desempenho final do sistema, a esta foi conferida uma maior atenção. Embora nós, como humanos, compreendamos facilmente a linguagem falada, isto é algo extremamente difícil e complexo de um ponto de vista computacional. O objectivo do reconhecimento de fala é abordar esta tarefa computacionalmente através da construção de sistemas que mapeiam um sinal acústico para uma sequência de caracteres. Os modelos actuais para reconhecimento de fala fazem uso de modelos estatísticos. Nestes, a fala é reconhecida através do uso de modelos de linguagem que possibilitam a estimativa das probabilidades para as palavras, independentemente do sinal de entrada, e de um modelo acústico onde as propriedades acústicas da fala estão contempladas. Os modelos actuais de tradução automática, assim como os de reconhecimento de fala, são na sua larga maioria estatísticos. Actualmente os modelos de tradução baseados em unidades frásicas de input são os que obtém os resultados com melhor qualidade. Esta abordagem consiste na tradução de pequenos segmentos de palavras, onde existe uma tradução lexical e um modelo de alinhamento. Os modelos estatísticos fazem uso de textos de duas línguas alinhados, tendo como princípio o facto de que através da frequência de cada segmento de palavras, em relação à outra linguagem, seja obtida uma distribuição probabilística. Deste modo torna-se possível calcular qual a palavra ou conjunto de palavras mais prováveis de ocorrer como tradução para determinado texto que se pretenda traduzir. A sintetização de voz consiste na geração de fala na forma de onda acústica tendo como ponto de partida uma palavra ou uma sequência de palavras. Envolve o processamento de linguagens naturais e processamento de sinal. O primeiro converte o texto numa representação fonética e o último converte essa representação em sinal acústico. Neste documento é apresentado o estado da arte das três áreas envolvidas. São também apresentados os sistemas de tradução fala-para-fala, fazendo ou não uso do domínio médico, e também os processos existentes para a avaliação de cada uma das componentes. Tendo em vista a implementação de um sistema com as diversas componentes, foi necessário efectuar um levantamento da tecnologia existente. O levantamento teve por objectivo a implementação de duas soluções aplicacionais. Uma aplicação disponível pela internet como página web e outra através de uma aplicação móvel, ambas permitindo o reconhecimento de fala, tradução automática e sintetização de voz em ambas as linguagens e direcções. Dois sistemas de reconhecimento de fala foram escolhidos, o Microsoft Speech Platform para a aplicação móvel e o reconhecimento de fala disponível pelo Google nos browsers Google Chrome. O primeiro a ser usado na aplicação móvel e o segundo na aplicação web. O sistema de tradução automática escolhido foi o Moses. Sendo um sistema de tradução estatístico que permite a criação de modelos de tradução diversos, como os modelos baseados em frase e os modelos baseados em fatores. O sistema de sintetização de voz escolhido foi o Microsoft Speech Platform. A aplicação móvel foi desenvolvida para a plataforma iOS da Apple tendo em vista o uso de um telemóvel iPhone. A integração dos componentes pelas diversas arquitecturas foi assegurada pela implementação de web services. O reconhecimento de fala na aplicação web foi desenvolvido recorrendo ao uso da W3C Speech Input API Specifications, onde a programação através de HTML permite a captação de áudio no Google Chrome. Para a implementação do sistema tradução fala-para-fala foi necessário a obtenção de corpora paralelos de forma a se poder treinar os modelos estatísticos, sendo este um dos factores cruciais para o bom desempenho dos componentes. Uma vez que o sistema tem como domínio de aplicação o diálogo médico, corpora neste domínio seria o mais vantajoso. No entanto, a inexistência de tais corpora para o par Inglês-Português levou à aquisição de corpora alternativos. Através de uma experiência exploratória foi abordado o tipo de implementação mais adequado da componente de reconhecimento de fala, tendo como foco o modelo de linguagem. Três experiências foram então conduzidas de forma a decidir entre a aplicação de um modelo de linguagem baseado em regras ou um modelo estatístico. Para implementar um modelo de linguagem baseado em regras foi necessário a criação de um corpus médico que reflectisse um diálogo entre médico e paciente. Para tal, com a ajuda de um médico, criei um diálogo de um caso hipotético de lesão num braço devido a um acidente de carro. Este diálogo teve como base para a sua estruturação a aplicação do processo de anamnesis. A anamnesis consiste numa metodologia médica que através de um conjunto de perguntas chave permite adquirir a informação necessária para a formulação de um diagnóstico médico e decisão sobre o tratamento necessário. O corpus médico foi também transformado num corpus de fala de forma a este ser avaliado ao longo das experiências. Numa primeira experiência foi criada uma gramática básica cuja implementação foi obtida recorrendo à Speech Recognition Grammar Specification de forma a ser usada como modelo de linguagem pela componente de reconhecimento de fala. A segunda experiência tinha como objectivo a criação de uma gramática mais complexa que a primeira. Para tal foi criada uma gramática livre de contexto. Após a criação da gramática livre de contexto esta foi convertida manualmente para uma gramática SRGS. Na terceira experiência foram criados dois modelo de linguagem estatísticos, o primeiro fazendo uso do mesmo corpus que o usado nas experiências anteriores e o segundo composto por 30.000 frases independentes. Obteve-se melhores resultados com o modelo de linguagem estatístico e este ficou como a escolha para a implementação do componente de reconhecimento de fala. No treino da componente de tradução automática foram usados dois modelos estatísticos, baseados em frases e em factores. Pretendeu-se comparar os resultados entre os dois modelos de forma a escolher o modelo mais vantajoso. Para fazer uso do modelo baseado em factores foi necessária a preparação de corpora. Com os corpora já adquiridos foi concretizada a sua anotação para ambas as linguagens. Recorrendo ao LX-Suite e ao CoreNLP, foram criados corpora anotados com lemmas e informação morfossintáctica, com a primeira ferramenta para o português e a última para o inglês. Uma vez que a componente de sintetização de voz permitia uma implementação célere, esta foi implementada recorrendo aos modelos já existentes para ambas as linguagens e disponibilizados pela ferramenta. Por fim, são apresentados os resultados obtidos e a sua avaliação. Tanto a avaliação do sistema de reconhecimento de fala como o de tradução automática demonstraram um desempenho muito competitivo, do nível do estado da arte. A componente de reconhecimento de fala, assim como a componente de tradução automática, obtiveram melhores resultados fazendo-se uso de modelos de linguagem estatístico.This report presents the development of a speech-to-speech translation system. The system consists in the capture of voice as an audio signal that is then interpreted, translated and synthesized to voice for a target language. The three main components of the system, speech recognition, machine translation and speech synthesis, make use of statistical models, such as hidden Markov models. Given the technology available, the machine translation component has a greater impact on the performance of the system, a greater attention has thus been given to it. The system assumes the support to medical interviews between doctor and patient in different languages as its applicational domain. Two application solutions were developed: an online service on a website and a mobile application. This report begins by presenting the general concepts of the relevant areas involved. It proceeds with an overview of the state of the art relating to each area as well as to the methods used for the evaluation of the different components. It provides also an overview of existing technology and the criteria for choosing the tools to be used in the development of the system. It explains the acquisition and creation of the corpora used, and the process of development and integration of the components: speech recognition, machine translation and text-to-speech. Finally, the evaluation results are presented, as well as the final conclusions

    earGram Actors: an interactive audiovisual system based on social behavior

    Get PDF
    In multi-agent systems, local interactions among system components following relatively simple rules often result in complex overall systemic behavior. Complex behavioral and morphological patterns have been used to generate and organize audiovisual systems with artistic purposes. In this work, we propose to use the Actor model of social interactions to drive a concatenative synthesis engine called earGram in real time. The Actor model was originally developed to explore the emergence of complex visual patterns. On the other hand, earGram was originally developed to facilitate the creative exploration of concatenative sound synthesis. The integrated audiovisual system allows a human performer to interact with the system dynamics while receiving visual and auditory feedback. The interaction happens indirectly by disturbing the rules governing the social relationships amongst the actors, which results in a wide range of dynamic spatiotemporal patterns. A performer thus improvises within the behavioural scope of the system while evaluating the apparent connections between parameter values and actual complexity of the system output

    Reducing Audible Spectral Discontinuities

    Get PDF
    In this paper, a common problem in diphone synthesis is discussed, viz., the occurrence of audible discontinuities at diphone boundaries. Informal observations show that spectral mismatch is most likely the cause of this phenomenon.We first set out to find an objective spectral measure for discontinuity. To this end, several spectral distance measures are related to the results of a listening experiment. Then, we studied the feasibility of extending the diphone database with context-sensitive diphones to reduce the occurrence of audible discontinuities. The number of additional diphones is limited by clustering consonant contexts that have a similar effect on the surrounding vowels on the basis of the best performing distance measure. A listening experiment has shown that the addition of these context-sensitive diphones significantly reduces the amount of audible discontinuities

    Preprocessing models for speech technologies : the impact of the normalizer and the grapheme-to-phoneme on hybrid systems

    Get PDF
    Um dos usos mais promissores e de crescimento mais rápido da tecnologia de linguagem natural corresponde às Tecnologias de Processamento da Fala. Esses sistemas usam tecnologia de reconhecimento automático de fala e conversão de texto em fala para fornecer uma interface de voz para aplicações de conversão. Com efeito, esta tecnologia está presente em diversas situações do nosso quotidiano, tais como assistentes virtuais em smartphones (como a SIRI ou Alexa), ou sistemas de interação por voz em automóveis. As tecnologias de fala evoluíram progressivamente até ao ponto em que os sistemas podem prestar pouca atenção à sua estrutura linguística. Com efeito, o Conhecimento Linguístico pode ser extremamente importante numa arquitetura de fala, particularmente numa fase de pré-processamento de dados: combinar conhecimento linguístico em modelo de tecnologia de fala permite produzir sistemas mais confiáveis e robustos. Neste sentido, o pré-processamento de dados é uma etapa fundamental na construção de um modelo de Inteligência Artificial (IA). Se os dados forem razoavelmente pré-processados, os resultados serão consistentes e de alta qualidade (García et al., 2016). Por exemplo, os sistemas mais modernos de reconhecimento de fala permitem modelizar entidades linguísticas em vários níveis, frases, palavras, fones e outras unidades, usando várias abordagens estatísticas (Jurafsky & Martin, 2022). Apesar de treinados sobre dados, estes sistemas são tão mais precisos quanto mais eficazes e eficientes a capturarem o conhecimento linguístico. Perante este cenário, este trabalho descreve os métodos de pré-processamento linguístico em sistemas híbridos (de inteligência artificial combinada com conhecimento linguístico) fornecidos por uma empresa internacional de Inteligência Artificial (IA), a Defined.ai. A start-up concentra-se em fornecer dados, modelos e ferramentas de alta qualidade para IA., a partir da sua plataforma de crowdsourcing Neevo. O utilizador da plataforma tem acesso a pequenas tarefas de anotação de dados, tais como: transcrição, gravação e anotação de áudios, validação de pronúncia, tradução de frases, classificação de sentimentos num texto, ou até extração de informação a partir de imagens e vídeos. Até ao momento, a empresa conta com mais de 500,000 utilizadores de 70 países e 50 línguas diferentes. Através duma recolha descentralizada dos dados, a Defined.ai responde à necessidade crescente de dados de treino que sejam justos, i.e., que não reflitam e/ou amplifiquem os padrões de discriminação vigentes na nossa sociedade (e.g., de género, raça, orientação sexual). Como resultado, a Defined.ai pode ser vista como uma comunidade de especialistas em IA, que produz sistemas justos, éticos e de futuro. Assim, o principal objetivo deste trabalho é aprimorar e avançar a qualidade dos modelos de pré-processamento, aplicando-lhes conhecimento linguístico. Assim, focamo-nos em dois modelos linguísticos introdutórios numa arquitetura de fala: Normalizador e Grafema-Fonema. Para abordar o assunto principal deste estudo, vamos delinear duas iniciativas realizadas em colaboração com a equipa de Machine learning da Defined.ai. O primeiro projeto centra-se na expansão e melhoria de um modelo Normalizador pt-PT. O segundo projeto abrange a criação de modelos Grafema-Fonema (do inglês Grapheme-to-phoneme, G2P) para duas línguas diferentes – Sueco e Russo. Os resultados mostram que ter uma abordagem baseada em regras para o Normalizador e G2P aumenta a sua precisão e desempenho, representado uma vantagem significativa na melhoria das ferramentas da Defined.ai e nas arquiteturas de fala. Além disso, com os resultados obtidos no primeiro projeto, melhoramos o normalizador na sua facilidade de uso, aumentando cada regra com o respetivo conhecimento linguístico. Desta forma, a nossa pesquisa demonstra o valor e a importância do conhecimento linguístico em modelos de pré-processamento. O primeiro projeto teve como objetivo fornecer cobertura para diversas regras linguísticas: Números Reais, Símbolos, Abreviaturas, Ordinais, Medidas, Moeda, Datas e Hora. A tarefa consistia em expandir as regras com suas respetivas expressões normalizadas a partir de regras a seguir que teriam uma leitura não marcada inequívoca própria. O objetivo principal é melhorar o normalizador tornando-o mais simples, consistente entre diferentes linguagens e de forma a cobrir entradas não ambíguas. Para preparar um modelo G2P para dois idiomas diferentes - Sueco e Russo - quatro tarefas foram realizadas: 1. Preparar uma análise linguística de cada língua, 2. Desenvolver um inventário fonético-fonológico inicial, 3. Mapear e converter automaticamente o léxico fonético para DC-Arpabet (o alfabeto fonético que a Defined.ai construiu), 4. Rever e corrigir o léxico fonético, e 4. Avaliar o modelo Grafema-Fonema. A revisão dos léxicos fonéticos foi realizada, em consulta com a nossa equipa da Defined.ai, por linguistas nativos que verificaram se os inventários fonéticos-fonológicos seriam adequados para transcrever. Segundo os resultados de cada modelo, nós avaliamos de acordo com 5 métricas padrão na literatura: Word Error Rate (WER), Precision, Recall, F1-score e Accuracy. Adaptamos a métrica WER para Word Error Rate over normalizable tokens (WERnorm) por forma a responder às necessidades dos nossos modelos. A métrica WER (ou taxa de erro por palavra) foi adaptada de forma a contabilizar tokens normalizáveis, em vez de todos os tokens. Deste modo, a avaliação do normalizador, avalia-se usando um conjunto de aproximadamente 1000 frases de referência, normalizadas manualmente e marcadas com a regra de normalização que deveria ser aplicada (por exemplo, números reais, símbolos, entre outros). De acordo com os resultados, na versão 2 do normalizador, obtivemos discrepâncias estatisticamente significativas entre as regras. A regra dos ordinais apresenta a maior percentagem (94%) e as abreviaturas (43%) o menor percentual. Concluímos também um aumento significativo no desempenho de algumas das regras. Por exemplo, as abreviaturas mostram um desempenho de 23 pontos percentuais (pp.) superior. Quando comparamos as duas versões, concluímos que a versão 2 do normalizador apresenta, em média, uma taxa de erro 4 pp. menor sobre os tokens normalizáveis em comparação com a versão 1. Assim, o uso da regra dos ordinais (94% F1-score) e da regra dos números reais (89% F1-score) é a maior fonte de melhoria no normalizador. Além disso, em relação à precisão, a versão 2 apresenta uma melhoria de, em média, 28 pp em relação à versão 1. No geral, os resultados revelam inequivocamente uma melhoria da performance do normalizador em todas as regras aplicadas. De acordo com os resultados do segundo projeto, o léxico fonético sueco alcançou um WER de 10%, enquanto o léxico fonético russo um WER ligeiramente inferior (11%). Os inventários fonético-fonológicos suecos apresentam uma precisão maior (97%) do que os inventários fonético-fonológicos russos (96%). No geral, o modelo sueco G2P apresenta um melhor desempenho (98%), embora a sua diferença ser menor quando comparado ao modelo russo (96%). Em conclusão, os resultados obtidos tiveram um impacto significativo na pipeline de fala da empresa e nas arquiteturas de fala escrita (15% é a arquitetura de fala). Além disso, a versão 2 do normalizador começou a ser usada noutros projetos do Defined.ai, principalmente em coleções de prompts de fala. Observamos que nossa expansão e melhoria na ferramenta abrangeu expressões que compõem uma proporção considerável de expressões normalizáveis, não limitando a utilidade da ferramenta, mas aumentando a diversidade que ela pode oferecer ao entregar prompts, por exemplo. Com base no trabalho desenvolvido, podemos observar que, ao ter uma abordagem baseada em regras para o Normalizador e o G2P, conseguimos aumentar a sua precisão e desempenho, representando não só uma vantagem significativa na melhoria das ferramentas da Defined.ai, como também nas arquiteturas de fala. Além disso, a nossa abordagem também foi aplicada a outras línguas obtendo resultados muito positivos e mostrando a importância da metodologia aplicada nesta tese. Desta forma, o nosso trabalho mostra a relevância e o valor acrescentado de aplicar conhecimento linguístico a modelos de pré-processamento.One of the most fast-growing and highly promising uses of natural language technology is in Speech Technologies. Such systems use automatic speech recognition (ASR) and text-to-speech (TTS) technology to provide a voice interface for conversational applications. Speech technologies have progressively evolved to the point where they pay little attention to their linguistic structure. Indeed, linguistic knowledge can be extremely important in a speech pipeline, particularly in the Data Preprocessing phase: combining linguistic knowledge in a speech technology model allows producing more reliable and robust systems. Given this background, this work describes the linguistic preprocessing methods in hybrid systems provided by an Artificial Intelligence (AI) international company, Defined.ai. The startup focuses on providing high-quality data, models, and AI tools. The main goal of this work is to enhance and advance the quality of preprocessing models by applying linguistic knowledge. Thus, we focus on two introductory linguistic models in a speech pipeline: Normalizer and Grapheme-to-Phoneme (G2P). To do so, two initiatives were conducted in collaboration with the Defined.ai Machine Learning team. The first project focuses on expanding and improving a pt-PT Normalizer model. The second project covers creating G2P models for two different languages – Swedish and Russian. Results show that having a rule-based approach to the Normalizer and G2P increases its accuracy and performance, representing a significant advantage in improving Defined.ai tools and speech pipelines. Also, with the results obtained on the first project, we improved the normalizer in ease of use by increasing each rule with linguistic knowledge. Accordingly, our research demonstrates the added value of linguistic knowledge in preprocessing models

    Affective Medicine: a review of Affective Computing efforts in Medical Informatics

    Get PDF
    Background: Affective computing (AC) is concerned with emotional interactions performed with and through computers. It is defined as “computing that relates to, arises from, or deliberately influences emotions”. AC enables investigation and understanding of the relation between human emotions and health as well as application of assistive and useful technologies in the medical domain. Objectives: 1) To review the general state of the art in AC and its applications in medicine, and 2) to establish synergies between the research communities of AC and medical informatics. Methods: Aspects related to the human affective state as a determinant of the human health are discussed, coupled with an illustration of significant AC research and related literature output. Moreover, affective communication channels are described and their range of application fields is explored through illustrative examples. Results: The presented conferences, European research projects and research publications illustrate the recent increase of interest in the AC area by the medical community. Tele-home healthcare, AmI, ubiquitous monitoring, e-learning and virtual communities with emotionally expressive characters for elderly or impaired people are few areas where the potential of AC has been realized and applications have emerged. Conclusions: A number of gaps can potentially be overcome through the synergy of AC and medical informatics. The application of AC technologies parallels the advancement of the existing state of the art and the introduction of new methods. The amount of work and projects reviewed in this paper witness an ambitious and optimistic synergetic future of the affective medicine field

    Singing voice resynthesis using concatenative-based techniques

    Get PDF
    Tese de Doutoramento. Engenharia Informática. Faculdade de Engenharia. Universidade do Porto. 201

    Phonetic events from the labeling the european Portuguese database for speech synthesis, FEUP/IPB-DB

    Get PDF
    In this paper a labeled new speech signal database (FEUP/IPB-DB) in Standard European Portuguese (hereafter SEP) is presented. The objective of this work is, on one hand, to provide phonetic material for Text-to-Speech (TTS) systems construction, either from the start or to improve the quality of existing ones, and, on the other hand, to place at service of the SEP scientific community a phonetically and prosodically valuable speech corpus, essential for Speech Synthesis or Phonetics research. Our purpose is to make it available for the scientific community, since there isn’t any other DB of its kind for EP. The main features of the database will be described as well as some basic statistical aspects. A discussion of some methodological problems and some observed phenomena in experimental phonetics deriving from the speech signal labeling is also done. The approach in our work is to produce a resource that can be further improved in subsequent steps with minimal re-work. The phonetic, linguistic and technical consistency are guaranteed through the involvement of a multidisciplinary team
    corecore