50 research outputs found

    Preprocessing models for speech technologies : the impact of the normalizer and the grapheme-to-phoneme on hybrid systems

    Get PDF
    Um dos usos mais promissores e de crescimento mais rápido da tecnologia de linguagem natural corresponde às Tecnologias de Processamento da Fala. Esses sistemas usam tecnologia de reconhecimento automático de fala e conversão de texto em fala para fornecer uma interface de voz para aplicações de conversão. Com efeito, esta tecnologia está presente em diversas situações do nosso quotidiano, tais como assistentes virtuais em smartphones (como a SIRI ou Alexa), ou sistemas de interação por voz em automóveis. As tecnologias de fala evoluíram progressivamente até ao ponto em que os sistemas podem prestar pouca atenção à sua estrutura linguística. Com efeito, o Conhecimento Linguístico pode ser extremamente importante numa arquitetura de fala, particularmente numa fase de pré-processamento de dados: combinar conhecimento linguístico em modelo de tecnologia de fala permite produzir sistemas mais confiáveis e robustos. Neste sentido, o pré-processamento de dados é uma etapa fundamental na construção de um modelo de Inteligência Artificial (IA). Se os dados forem razoavelmente pré-processados, os resultados serão consistentes e de alta qualidade (García et al., 2016). Por exemplo, os sistemas mais modernos de reconhecimento de fala permitem modelizar entidades linguísticas em vários níveis, frases, palavras, fones e outras unidades, usando várias abordagens estatísticas (Jurafsky & Martin, 2022). Apesar de treinados sobre dados, estes sistemas são tão mais precisos quanto mais eficazes e eficientes a capturarem o conhecimento linguístico. Perante este cenário, este trabalho descreve os métodos de pré-processamento linguístico em sistemas híbridos (de inteligência artificial combinada com conhecimento linguístico) fornecidos por uma empresa internacional de Inteligência Artificial (IA), a Defined.ai. A start-up concentra-se em fornecer dados, modelos e ferramentas de alta qualidade para IA., a partir da sua plataforma de crowdsourcing Neevo. O utilizador da plataforma tem acesso a pequenas tarefas de anotação de dados, tais como: transcrição, gravação e anotação de áudios, validação de pronúncia, tradução de frases, classificação de sentimentos num texto, ou até extração de informação a partir de imagens e vídeos. Até ao momento, a empresa conta com mais de 500,000 utilizadores de 70 países e 50 línguas diferentes. Através duma recolha descentralizada dos dados, a Defined.ai responde à necessidade crescente de dados de treino que sejam justos, i.e., que não reflitam e/ou amplifiquem os padrões de discriminação vigentes na nossa sociedade (e.g., de género, raça, orientação sexual). Como resultado, a Defined.ai pode ser vista como uma comunidade de especialistas em IA, que produz sistemas justos, éticos e de futuro. Assim, o principal objetivo deste trabalho é aprimorar e avançar a qualidade dos modelos de pré-processamento, aplicando-lhes conhecimento linguístico. Assim, focamo-nos em dois modelos linguísticos introdutórios numa arquitetura de fala: Normalizador e Grafema-Fonema. Para abordar o assunto principal deste estudo, vamos delinear duas iniciativas realizadas em colaboração com a equipa de Machine learning da Defined.ai. O primeiro projeto centra-se na expansão e melhoria de um modelo Normalizador pt-PT. O segundo projeto abrange a criação de modelos Grafema-Fonema (do inglês Grapheme-to-phoneme, G2P) para duas línguas diferentes – Sueco e Russo. Os resultados mostram que ter uma abordagem baseada em regras para o Normalizador e G2P aumenta a sua precisão e desempenho, representado uma vantagem significativa na melhoria das ferramentas da Defined.ai e nas arquiteturas de fala. Além disso, com os resultados obtidos no primeiro projeto, melhoramos o normalizador na sua facilidade de uso, aumentando cada regra com o respetivo conhecimento linguístico. Desta forma, a nossa pesquisa demonstra o valor e a importância do conhecimento linguístico em modelos de pré-processamento. O primeiro projeto teve como objetivo fornecer cobertura para diversas regras linguísticas: Números Reais, Símbolos, Abreviaturas, Ordinais, Medidas, Moeda, Datas e Hora. A tarefa consistia em expandir as regras com suas respetivas expressões normalizadas a partir de regras a seguir que teriam uma leitura não marcada inequívoca própria. O objetivo principal é melhorar o normalizador tornando-o mais simples, consistente entre diferentes linguagens e de forma a cobrir entradas não ambíguas. Para preparar um modelo G2P para dois idiomas diferentes - Sueco e Russo - quatro tarefas foram realizadas: 1. Preparar uma análise linguística de cada língua, 2. Desenvolver um inventário fonético-fonológico inicial, 3. Mapear e converter automaticamente o léxico fonético para DC-Arpabet (o alfabeto fonético que a Defined.ai construiu), 4. Rever e corrigir o léxico fonético, e 4. Avaliar o modelo Grafema-Fonema. A revisão dos léxicos fonéticos foi realizada, em consulta com a nossa equipa da Defined.ai, por linguistas nativos que verificaram se os inventários fonéticos-fonológicos seriam adequados para transcrever. Segundo os resultados de cada modelo, nós avaliamos de acordo com 5 métricas padrão na literatura: Word Error Rate (WER), Precision, Recall, F1-score e Accuracy. Adaptamos a métrica WER para Word Error Rate over normalizable tokens (WERnorm) por forma a responder às necessidades dos nossos modelos. A métrica WER (ou taxa de erro por palavra) foi adaptada de forma a contabilizar tokens normalizáveis, em vez de todos os tokens. Deste modo, a avaliação do normalizador, avalia-se usando um conjunto de aproximadamente 1000 frases de referência, normalizadas manualmente e marcadas com a regra de normalização que deveria ser aplicada (por exemplo, números reais, símbolos, entre outros). De acordo com os resultados, na versão 2 do normalizador, obtivemos discrepâncias estatisticamente significativas entre as regras. A regra dos ordinais apresenta a maior percentagem (94%) e as abreviaturas (43%) o menor percentual. Concluímos também um aumento significativo no desempenho de algumas das regras. Por exemplo, as abreviaturas mostram um desempenho de 23 pontos percentuais (pp.) superior. Quando comparamos as duas versões, concluímos que a versão 2 do normalizador apresenta, em média, uma taxa de erro 4 pp. menor sobre os tokens normalizáveis em comparação com a versão 1. Assim, o uso da regra dos ordinais (94% F1-score) e da regra dos números reais (89% F1-score) é a maior fonte de melhoria no normalizador. Além disso, em relação à precisão, a versão 2 apresenta uma melhoria de, em média, 28 pp em relação à versão 1. No geral, os resultados revelam inequivocamente uma melhoria da performance do normalizador em todas as regras aplicadas. De acordo com os resultados do segundo projeto, o léxico fonético sueco alcançou um WER de 10%, enquanto o léxico fonético russo um WER ligeiramente inferior (11%). Os inventários fonético-fonológicos suecos apresentam uma precisão maior (97%) do que os inventários fonético-fonológicos russos (96%). No geral, o modelo sueco G2P apresenta um melhor desempenho (98%), embora a sua diferença ser menor quando comparado ao modelo russo (96%). Em conclusão, os resultados obtidos tiveram um impacto significativo na pipeline de fala da empresa e nas arquiteturas de fala escrita (15% é a arquitetura de fala). Além disso, a versão 2 do normalizador começou a ser usada noutros projetos do Defined.ai, principalmente em coleções de prompts de fala. Observamos que nossa expansão e melhoria na ferramenta abrangeu expressões que compõem uma proporção considerável de expressões normalizáveis, não limitando a utilidade da ferramenta, mas aumentando a diversidade que ela pode oferecer ao entregar prompts, por exemplo. Com base no trabalho desenvolvido, podemos observar que, ao ter uma abordagem baseada em regras para o Normalizador e o G2P, conseguimos aumentar a sua precisão e desempenho, representando não só uma vantagem significativa na melhoria das ferramentas da Defined.ai, como também nas arquiteturas de fala. Além disso, a nossa abordagem também foi aplicada a outras línguas obtendo resultados muito positivos e mostrando a importância da metodologia aplicada nesta tese. Desta forma, o nosso trabalho mostra a relevância e o valor acrescentado de aplicar conhecimento linguístico a modelos de pré-processamento.One of the most fast-growing and highly promising uses of natural language technology is in Speech Technologies. Such systems use automatic speech recognition (ASR) and text-to-speech (TTS) technology to provide a voice interface for conversational applications. Speech technologies have progressively evolved to the point where they pay little attention to their linguistic structure. Indeed, linguistic knowledge can be extremely important in a speech pipeline, particularly in the Data Preprocessing phase: combining linguistic knowledge in a speech technology model allows producing more reliable and robust systems. Given this background, this work describes the linguistic preprocessing methods in hybrid systems provided by an Artificial Intelligence (AI) international company, Defined.ai. The startup focuses on providing high-quality data, models, and AI tools. The main goal of this work is to enhance and advance the quality of preprocessing models by applying linguistic knowledge. Thus, we focus on two introductory linguistic models in a speech pipeline: Normalizer and Grapheme-to-Phoneme (G2P). To do so, two initiatives were conducted in collaboration with the Defined.ai Machine Learning team. The first project focuses on expanding and improving a pt-PT Normalizer model. The second project covers creating G2P models for two different languages – Swedish and Russian. Results show that having a rule-based approach to the Normalizer and G2P increases its accuracy and performance, representing a significant advantage in improving Defined.ai tools and speech pipelines. Also, with the results obtained on the first project, we improved the normalizer in ease of use by increasing each rule with linguistic knowledge. Accordingly, our research demonstrates the added value of linguistic knowledge in preprocessing models

    Desegmentalization: towards a common framework for the modeling of tonogenesis and registrogenesis in mainland Southeast Asia with case studies from Austroasiatic

    Get PDF
    Suprasegmental contrasts of tone and register are commonplace phonological phenomena among the languages of Mainland Southeast Asia and its periphery (MSEA) (Matisoff 1990, 2001). Insofar as we have come to understand the origins and evolution of such contrasts, two theories predominate: tonogenesis (Haudricourt 1954) and registrogenesis (Huffman 1976). In their classical forms, tonogenesis and registrogenesis are well suited for modeling the development of tone and register in the best known, most studied languages of MSEA, but there is much additional complexity that they fail to capture. This is especially true for languages of Austroasiatic stock, which in many cases have developed tone and register in ways that must be considered ‘unorthodox’ with respect to the received models (Ferlus 1979, 2004, 2011; Diffloth 1982a, 1982b; Svantesson 1989; Gehrmann 2015; Sidwell 2015, 2019). The goal of this thesis is to present a possible way forward towards a unified conceptual framework for tone and register evolution in the languages of MSEA: desegmentalization. Expanding on Dockum’s (2019) concept of desegmental phonology, desegmentalization is the process by which one or more segmental properties (onset phonation, vowel height, vowel length or coda phonation) condition changes in the distribution of a language’s suprasegmental contrasts. A general survey of the Austroasiatic language family is presented, in which documented examples of desegmentalization are presented and discussed. Austroasiatic constitutes a useful laboratory for such a survey, because the identification of the segmental origins of suprasegmental contrasts in Austroasiatic languages is relatively straightforward in comparison to the other language families of MSEA. Based on this survey of desegmentalization processes in Austroasiatic, ten discrete desegmentalization models are proposed. The output typologies for the suprasegmental contrasts produced by each model are compared and implications for a general model of tonogenesis and registrogenesis are explored. This thesis offers (1) a digestible introduction for the non-specialist to the historical development of suprasegmental contrast in MSEA, (2) a resynthesis of current tonogenetic theory which integrates classical tonogenesis, classical registrogenesis and various other, lesser-known evolutionary pathways under the larger umbrella of desegmentalization and (3) a comprehensive overview of tone and register origins in the Austroasiatic family

    Negation in Low Katu

    Full text link
    In Low Katu (or Western Katu; ISO 639-3: kuf) there are five common words used to mark negation: kah, məʔ, jɨəʔ, ˀɛh and ˀɔːʔ. This variety in negators hints at differential syntactic or semantic uses. In this paper I illustrate the syntactic properties of these negators and, where possible, describe what semantic or pragmatic backgrounds they might have. I do this by comparing negative sentences from Katu folk tales and stories and investigating how they behave with respect to the typology of negation. Understanding the negation of Low Katu can unveil aspects on the scarcely researched syntactic behavior of this language, for instance on the position of verbs. This paper is intended to be the groundwork for further, more corpus-based research on negation or other grammatical aspects of Low Katu

    Austronesian and other languages of the Pacific and South-east Asia : an annotated catalogue of theses and dissertations

    Get PDF

    Linguistics of the Sino-Tibetan area : the state of the art ; papers presented to Paul K. Benedict for his 71st birthday

    Get PDF

    THE EFFECTS OF ONLINE KATAKANA WORD RECOGNITION TRAINING AMONG NOVICE LEARNERS OF JAPANESE AS A FOREIGN LANGUAGE

    Get PDF
    Because word recognition processes differ depending on orthographic systems, second language learners with different orthographic backgrounds need to acquire new word recognition strategies suitable to the orthography in their second language. Japanese is a multi-script language and one of the scripts, katakana, is mainly used to transcribe Western loanwords. Due to the sound alternations resulting from the process of borrowing, learners of Japanese often experience difficulties in reading and writing katakana loanwords. Thus, this study investigates the effectiveness of online katakana word recognition training among novice learners of Japanese. Thirty-one students from a first-semester Japanese course at a large research university in the Midwest were randomly divided into three groups and assigned different online training programs outside of the class for four weeks designed to establish sound-letter correspondences of katakana. The first experimental group (Scrambler Group) put the randomly scrambled letters in the right order to form a target katakana loanword by listening to the vocalized word, while the second experimental group (Reading Group) practiced with the same set of the words solely by enunciating and listening to the model reading. The participants took pre- and post-tests before and after the training so that the improvement resulting from the training was observed. The test was composed of two tasks, naming and providing the English meanings of katakana words. The number of correct answers was counted and the response time for a participant to process each word was measured. The test included words practiced in the training and unpracticed words in order to test whether the training effects was transferred to processing unpracticed words
    corecore