1,511 research outputs found

    Acoustic Modelling for Under-Resourced Languages

    Get PDF
    Automatic speech recognition systems have so far been developed only for very few languages out of the 4,000-7,000 existing ones. In this thesis we examine methods to rapidly create acoustic models in new, possibly under-resourced languages, in a time and cost effective manner. For this we examine the use of multilingual models, the application of articulatory features across languages, and the automatic discovery of word-like units in unwritten languages

    Acoustic data-driven lexicon learning based on a greedy pronunciation selection framework

    Full text link
    Speech recognition systems for irregularly-spelled languages like English normally require hand-written pronunciations. In this paper, we describe a system for automatically obtaining pronunciations of words for which pronunciations are not available, but for which transcribed data exists. Our method integrates information from the letter sequence and from the acoustic evidence. The novel aspect of the problem that we address is the problem of how to prune entries from such a lexicon (since, empirically, lexicons with too many entries do not tend to be good for ASR performance). Experiments on various ASR tasks show that, with the proposed framework, starting with an initial lexicon of several thousand words, we are able to learn a lexicon which performs close to a full expert lexicon in terms of WER performance on test data, and is better than lexicons built using G2P alone or with a pruning criterion based on pronunciation probability

    Phoneme-grapheme mapping

    Get PDF
    The act of reading involves complex processes such as phonological awareness, fluency, vocabulary, phonics, and comprehension that are not hardwired into the human brain, thus they must be explicitly taught. In economically disadvantaged families, most primary caregivers do not have the time or expertise to provide this type of instruction to children (Jensen, 2009). Through my experiences I have seen this to be true and as an educator have strived to provide the missing instruction particularly to students with disabilities. The purpose of this study was to investigate whether a phoneme-grapheme mapping strategy helped African-American students from such families further develop their phoneme awareness, decoding, and spelling in order to improve their overall basic reading achievement

    Wrighting in Englesh is harde: An error analysis of Norwegian pupils' L2 English spelling errors

    Get PDF
    Denne masteroppgaven i engelsk lingvistikk er en skrivefeilsanalyse som undersøker engelske skrivefeil produsert av norske elever i 10. klasse på ungdomsskolen og 11. klasse på videregående (vanligvis kjent som VG1). Denne oppgaven tar i bruk seks overordnede kategorier for å skille mellom ulike typer skrivefeil for å identifisere hvilke skrivefeil norske elever produserer, og videre hvorfor de tilsynelatende produserer disse skrivefeilene. Datamaterialet er hentet fra det digitale korpuset CORYL (en samling av nasjonale prøver i engelsk fra 2004/2005), samt et kontrollkorpus (en samling av engelske heldagsprøver) som ble utviklet i sammenheng med dette prosjektet i løpet av høsten 2020 og våren 2021. Ettersom tekstene i CORYL er skrevet for hånd, og tekstene i kontrollkorpuset er skrevet på PC, undersøker denne oppgaven også hvordan bruken av PC påvirker elevenes skrivefeil. Funnene i oppgaven tyder på at det er flere elementer som ligger bak elevenes engelske skrivefeil. Den tydeligste tendensen er at elevene bruker fonologiske strategier når de skal utlede hvordan et ukjent ord skal staves, og at dette igjen kan føre til at elevene staver ord feil da det ikke er en en-til-en korrespondanse mellom uttale og stavemåte i engelsk. Funnene tyder også på at elevene har et overforbruk av stavemåter som de gjerne anser å være ‘typisk engelsk’. Bruken av PC ser ut til å føre til at antall skrivefeil synker, og det antas at stavekontrollen i tekstbehandlingsprogrammet brukt av elevene har bidratt til nedgangen i antall skrivefeil. I tillegg viser funnene at visse typer skrivefeil har høyere forekomst, samt at nye typer skrivefeil oppstår, når elevene skriver på PC. Ettersom funnene fra denne masteroppgaven er basert på et mindre datagrunnlag, er norske elevers engelske skrivefeil et felt som må forskes på ytterligere før sikre konklusjoner kan trekkes.Engelsk mastergradsoppgaveENG350MAHF-ENGMAHF-LÆF

    Preprocessing models for speech technologies : the impact of the normalizer and the grapheme-to-phoneme on hybrid systems

    Get PDF
    Um dos usos mais promissores e de crescimento mais rápido da tecnologia de linguagem natural corresponde às Tecnologias de Processamento da Fala. Esses sistemas usam tecnologia de reconhecimento automático de fala e conversão de texto em fala para fornecer uma interface de voz para aplicações de conversão. Com efeito, esta tecnologia está presente em diversas situações do nosso quotidiano, tais como assistentes virtuais em smartphones (como a SIRI ou Alexa), ou sistemas de interação por voz em automóveis. As tecnologias de fala evoluíram progressivamente até ao ponto em que os sistemas podem prestar pouca atenção à sua estrutura linguística. Com efeito, o Conhecimento Linguístico pode ser extremamente importante numa arquitetura de fala, particularmente numa fase de pré-processamento de dados: combinar conhecimento linguístico em modelo de tecnologia de fala permite produzir sistemas mais confiáveis e robustos. Neste sentido, o pré-processamento de dados é uma etapa fundamental na construção de um modelo de Inteligência Artificial (IA). Se os dados forem razoavelmente pré-processados, os resultados serão consistentes e de alta qualidade (García et al., 2016). Por exemplo, os sistemas mais modernos de reconhecimento de fala permitem modelizar entidades linguísticas em vários níveis, frases, palavras, fones e outras unidades, usando várias abordagens estatísticas (Jurafsky & Martin, 2022). Apesar de treinados sobre dados, estes sistemas são tão mais precisos quanto mais eficazes e eficientes a capturarem o conhecimento linguístico. Perante este cenário, este trabalho descreve os métodos de pré-processamento linguístico em sistemas híbridos (de inteligência artificial combinada com conhecimento linguístico) fornecidos por uma empresa internacional de Inteligência Artificial (IA), a Defined.ai. A start-up concentra-se em fornecer dados, modelos e ferramentas de alta qualidade para IA., a partir da sua plataforma de crowdsourcing Neevo. O utilizador da plataforma tem acesso a pequenas tarefas de anotação de dados, tais como: transcrição, gravação e anotação de áudios, validação de pronúncia, tradução de frases, classificação de sentimentos num texto, ou até extração de informação a partir de imagens e vídeos. Até ao momento, a empresa conta com mais de 500,000 utilizadores de 70 países e 50 línguas diferentes. Através duma recolha descentralizada dos dados, a Defined.ai responde à necessidade crescente de dados de treino que sejam justos, i.e., que não reflitam e/ou amplifiquem os padrões de discriminação vigentes na nossa sociedade (e.g., de género, raça, orientação sexual). Como resultado, a Defined.ai pode ser vista como uma comunidade de especialistas em IA, que produz sistemas justos, éticos e de futuro. Assim, o principal objetivo deste trabalho é aprimorar e avançar a qualidade dos modelos de pré-processamento, aplicando-lhes conhecimento linguístico. Assim, focamo-nos em dois modelos linguísticos introdutórios numa arquitetura de fala: Normalizador e Grafema-Fonema. Para abordar o assunto principal deste estudo, vamos delinear duas iniciativas realizadas em colaboração com a equipa de Machine learning da Defined.ai. O primeiro projeto centra-se na expansão e melhoria de um modelo Normalizador pt-PT. O segundo projeto abrange a criação de modelos Grafema-Fonema (do inglês Grapheme-to-phoneme, G2P) para duas línguas diferentes – Sueco e Russo. Os resultados mostram que ter uma abordagem baseada em regras para o Normalizador e G2P aumenta a sua precisão e desempenho, representado uma vantagem significativa na melhoria das ferramentas da Defined.ai e nas arquiteturas de fala. Além disso, com os resultados obtidos no primeiro projeto, melhoramos o normalizador na sua facilidade de uso, aumentando cada regra com o respetivo conhecimento linguístico. Desta forma, a nossa pesquisa demonstra o valor e a importância do conhecimento linguístico em modelos de pré-processamento. O primeiro projeto teve como objetivo fornecer cobertura para diversas regras linguísticas: Números Reais, Símbolos, Abreviaturas, Ordinais, Medidas, Moeda, Datas e Hora. A tarefa consistia em expandir as regras com suas respetivas expressões normalizadas a partir de regras a seguir que teriam uma leitura não marcada inequívoca própria. O objetivo principal é melhorar o normalizador tornando-o mais simples, consistente entre diferentes linguagens e de forma a cobrir entradas não ambíguas. Para preparar um modelo G2P para dois idiomas diferentes - Sueco e Russo - quatro tarefas foram realizadas: 1. Preparar uma análise linguística de cada língua, 2. Desenvolver um inventário fonético-fonológico inicial, 3. Mapear e converter automaticamente o léxico fonético para DC-Arpabet (o alfabeto fonético que a Defined.ai construiu), 4. Rever e corrigir o léxico fonético, e 4. Avaliar o modelo Grafema-Fonema. A revisão dos léxicos fonéticos foi realizada, em consulta com a nossa equipa da Defined.ai, por linguistas nativos que verificaram se os inventários fonéticos-fonológicos seriam adequados para transcrever. Segundo os resultados de cada modelo, nós avaliamos de acordo com 5 métricas padrão na literatura: Word Error Rate (WER), Precision, Recall, F1-score e Accuracy. Adaptamos a métrica WER para Word Error Rate over normalizable tokens (WERnorm) por forma a responder às necessidades dos nossos modelos. A métrica WER (ou taxa de erro por palavra) foi adaptada de forma a contabilizar tokens normalizáveis, em vez de todos os tokens. Deste modo, a avaliação do normalizador, avalia-se usando um conjunto de aproximadamente 1000 frases de referência, normalizadas manualmente e marcadas com a regra de normalização que deveria ser aplicada (por exemplo, números reais, símbolos, entre outros). De acordo com os resultados, na versão 2 do normalizador, obtivemos discrepâncias estatisticamente significativas entre as regras. A regra dos ordinais apresenta a maior percentagem (94%) e as abreviaturas (43%) o menor percentual. Concluímos também um aumento significativo no desempenho de algumas das regras. Por exemplo, as abreviaturas mostram um desempenho de 23 pontos percentuais (pp.) superior. Quando comparamos as duas versões, concluímos que a versão 2 do normalizador apresenta, em média, uma taxa de erro 4 pp. menor sobre os tokens normalizáveis em comparação com a versão 1. Assim, o uso da regra dos ordinais (94% F1-score) e da regra dos números reais (89% F1-score) é a maior fonte de melhoria no normalizador. Além disso, em relação à precisão, a versão 2 apresenta uma melhoria de, em média, 28 pp em relação à versão 1. No geral, os resultados revelam inequivocamente uma melhoria da performance do normalizador em todas as regras aplicadas. De acordo com os resultados do segundo projeto, o léxico fonético sueco alcançou um WER de 10%, enquanto o léxico fonético russo um WER ligeiramente inferior (11%). Os inventários fonético-fonológicos suecos apresentam uma precisão maior (97%) do que os inventários fonético-fonológicos russos (96%). No geral, o modelo sueco G2P apresenta um melhor desempenho (98%), embora a sua diferença ser menor quando comparado ao modelo russo (96%). Em conclusão, os resultados obtidos tiveram um impacto significativo na pipeline de fala da empresa e nas arquiteturas de fala escrita (15% é a arquitetura de fala). Além disso, a versão 2 do normalizador começou a ser usada noutros projetos do Defined.ai, principalmente em coleções de prompts de fala. Observamos que nossa expansão e melhoria na ferramenta abrangeu expressões que compõem uma proporção considerável de expressões normalizáveis, não limitando a utilidade da ferramenta, mas aumentando a diversidade que ela pode oferecer ao entregar prompts, por exemplo. Com base no trabalho desenvolvido, podemos observar que, ao ter uma abordagem baseada em regras para o Normalizador e o G2P, conseguimos aumentar a sua precisão e desempenho, representando não só uma vantagem significativa na melhoria das ferramentas da Defined.ai, como também nas arquiteturas de fala. Além disso, a nossa abordagem também foi aplicada a outras línguas obtendo resultados muito positivos e mostrando a importância da metodologia aplicada nesta tese. Desta forma, o nosso trabalho mostra a relevância e o valor acrescentado de aplicar conhecimento linguístico a modelos de pré-processamento.One of the most fast-growing and highly promising uses of natural language technology is in Speech Technologies. Such systems use automatic speech recognition (ASR) and text-to-speech (TTS) technology to provide a voice interface for conversational applications. Speech technologies have progressively evolved to the point where they pay little attention to their linguistic structure. Indeed, linguistic knowledge can be extremely important in a speech pipeline, particularly in the Data Preprocessing phase: combining linguistic knowledge in a speech technology model allows producing more reliable and robust systems. Given this background, this work describes the linguistic preprocessing methods in hybrid systems provided by an Artificial Intelligence (AI) international company, Defined.ai. The startup focuses on providing high-quality data, models, and AI tools. The main goal of this work is to enhance and advance the quality of preprocessing models by applying linguistic knowledge. Thus, we focus on two introductory linguistic models in a speech pipeline: Normalizer and Grapheme-to-Phoneme (G2P). To do so, two initiatives were conducted in collaboration with the Defined.ai Machine Learning team. The first project focuses on expanding and improving a pt-PT Normalizer model. The second project covers creating G2P models for two different languages – Swedish and Russian. Results show that having a rule-based approach to the Normalizer and G2P increases its accuracy and performance, representing a significant advantage in improving Defined.ai tools and speech pipelines. Also, with the results obtained on the first project, we improved the normalizer in ease of use by increasing each rule with linguistic knowledge. Accordingly, our research demonstrates the added value of linguistic knowledge in preprocessing models

    The Predictive Ability of Early Reading Indicators and Spelling on Oral Reading Fluency

    Get PDF
    The purpose of this quantitative, predictive correlational study was to explore the predictive ability of beginning of the year scores of Nonsense Word Fluency (NWF), Oral Reading Fluency (ORF), and scores from a Primary Spelling Inventory (PSI) at mid-year ORF scores for second-grade students in a rural school district in central Pennsylvania. Because reading skills are strongly linked to positive academic and life outcomes, the identification of students who may have reading difficulties is a critical task for schools. Alphabetic and orthographic knowledge is central to reading development and essential for educators to understand the reading aptitude of students. This study included a convenience sample of 124 second-grade participants from two elementary schools in rural Pennsylvania. A linear multiple regression analysis was used to determine how accurately can ORF scores can be predicted from a linear combination of scores from the beginning of the year reading and spelling benchmarks. The null hypothesis was tested and rejected at the 95% confidence level, where F(3, 120) = 327.12 and p \u3c .001. There was a significant relationship between the combination of predictor variables and the criterion variable. Approximately 89% of the variance of the criterion variable can be explained by the linear combination of predictor variables. Only beginning of the year ORF was found to significantly predict mid-year ORF scores (p \u3c .001). Limitations, implications, and directions for future research are discussed

    Effective literacy teaching practices in Portugal: A study in first grade.

    Get PDF
    This article examines the effect of literacy teaching practices on the reading ability of first grade pupils in Portuguese, a semi-transparent orthography. First grade teachers (N=267) self-reported their literacy teaching practices through a questionnaire. Hierarchical cluster analysis revealed three groups with different practices – Language Experience, Phonic, and Balanced. Eight teachers from each group were randomly selected for classroom observation (N=24) to gain more in-depth information about their practices, namely by analysing classroom management procedures and materials used. Their pupils’ reading abilities were assessed at the beginning and end of the first grade (N=465) through two tasks: word reading and comprehension. Multivariate analysis of covariance, controlling for mother’s educational levels, showed that pupils of balanced teachers had better results than pupils in the other two groups. These results are in line with those described in the English literature, pointing out that the key term for describing successful literacy teaching practices is balance: balance in classroom management procedures, from more teacher-centred to more pupil-centred; balance in different types of reading materials, from more authentic materials to materials designed to work on specific skills; and balance between explicit instruction in grapheme-phoneme correspondences and reading and writing authentic texts.info:eu-repo/semantics/publishedVersio

    Wordification: A New Way of Teaching English Spelling Patterns

    Full text link
    Literacy, or the ability to read and write, is a crucial indicator of success in life and greater society. It is estimated that 85% of people in juvenile delinquent systems cannot adequately read or write, that more than half of those with substance abuse issues have complications in reading or writing and that two-thirds of those who do not complete high school lack proper literacy skills. Furthermore, young children who do not possess reading skills matching grade level by the fourth grade are approximately 80% likely to not catch up at all. Many may believe that in a developed country such as the United States, literacy fails to be an issue; however, this is a dangerous misunderstanding. Globally an estimated 1.19 trillion dollars are lost every year due to issues in literacy; in the USA, the loss is an estimated 300 billion. To put it in more shocking terms, one in five American adults still fail to comprehend basic sentences. Making matters worse, the only tools available now to correct a lack of reading and writing ability are found in expensive tutoring or other programs that oftentimes fail to be able to reach the required audience. In this paper, our team puts forward a new way of teaching English spelling and word recognitions to grade school students in the United States: Wordification. Wordification is a web application designed to teach English literacy using principles of linguistics applied to the orthographic and phonological properties of words in a manner not fully utilized previously in any computer-based teaching application.Comment: 1 pages, 4 figures, IEEE CPS Conferenc
    corecore