3,350 research outputs found

    Evaluating GPT-3.5 and GPT-4 on Grammatical Error Correction for Brazilian Portuguese

    Full text link
    We investigate the effectiveness of GPT-3.5 and GPT-4, two large language models, as Grammatical Error Correction (GEC) tools for Brazilian Portuguese and compare their performance against Microsoft Word and Google Docs. We introduce a GEC dataset for Brazilian Portuguese with four categories: Grammar, Spelling, Internet, and Fast typing. Our results show that while GPT-4 has higher recall than other methods, LLMs tend to have lower precision, leading to overcorrection. This study demonstrates the potential of LLMs as practical GEC tools for Brazilian Portuguese and encourages further exploration of LLMs for non-English languages and other educational settings.Comment: Accepted at LatinX in AI (LXAI) Research at ICML 202

    Residual segmental errors in english

    Get PDF
    Dissertação (mestrado) - Universidade Federal de Santa Catarina, Florianópolis, 1989.O presente estudo trata dos erros segmentais em inglês que persistem na fala do aluno de graduação em literaturas portuguesa-inglesa. Estes erros envolvem fonemas consonantais, fonemas vocálicos, os alomorfes do plural e do passado e alofones, os quais foram escolhidos para objeto de análise. Embora todos os erros segmentais persistem na fala do sujeito desta pesquisa, a freqüência de ocorrência de cada um varia de acordo com o fonema e com o semestre letivo

    Phonological context as a trigger of voicing change: a study on the production of english /s/ and /z/ in word-final position by brazilians

    Get PDF
    Dissertação (Mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão, Programa de Pós-Graduação em Inglês, 2013.2013-12-06T00:31:36

    Effects of non-native spelling in the production accuracy of Portuguese medicine brand names

    Get PDF
    UID/LIN/03213/2013Medicine brand names should be correctly read, because confusions with these names may lead to serious medication errors. Objectives: to evaluate if aspects of the spelling of medicine names negatively influence the way they are read aloud. Methods: a pronunciation task was conducted where participants had to read aloud medicine brand names. The names were classified in three groups: names comprising letters that are not used in Portuguese native vocabulary, names deviating from the Portuguese orthographic rules, and names following Portuguese spelling. The effect of name length was also investigated. Two groups of participants were tested: thirty nonbiomedical university students (younger and more educated), and thirty-seven pharmacy customers (older and less educated). Results: names with non-native letters (both groups of participants) and names with non-native patterns (students group only) yielded significantly more errors than the names with native shapes. Longer names showed more pronunciation errors than shorter names. Less educated, older subjects made significantly more errors than more educated, younger participants. Conclusion: some medicine brand names may need to be adapted or modified before commercialization in order to prevent potential errors in the use of medicinespublishersversionpublishe

    Evidences of Factorial Structure and Precision of Phonemic Awareness Tasks (TCFe)

    Get PDF
    Para evaluar la conciencia fonológica, habilidad determinante para el aprendizaje de la lectura y escritura, es necesario proporcionar evidencias a cerca del constructo que un dicho instrumento se propone a medir a fin de tener parâmetros fiables para la investigación empírica y para el desarrollo de programas de intervención educativa y de rehabilitación. En Brasil, hasta el momento, no hay estudios de evidencia de la validez basada en la estructura interna para pruebas de conciencia fonológica. Este artículo presenta los resultados para la validez de uma prueba de conciencia fonológica constituída por tres sub-pruebas: dos de subtración Del fonema inicial y una de segmentación fonémica. El análisis factorial confirmatorio multidimensional fue aplicado a uma muestra de 176 estudiantes brasileños ( Medad= 9,3 años) de 1º a 5º año del enseñanza básica. Los resultados indicará nun modelo bien ajustado, con items de dificuldad mediana y cargas factoriales altas; corroborando la estructura interna y la concepción teórica adecuadas.To assess phonological awareness - a decisive skill for learning to read and write - it is necessary to provide evidence about an instrument construct to present trustworthy parameters for both empirical research and the development of educational intervention and rehabilitation programs. In Brazil, at this moment, there are no studies regarding the internal structure for tests of phonological awareness. This article shows the factorial validity of a test of phonological awareness composed by three sub-tests: two tasks of subtraction of initial phoneme and one of phonemic segmentation. The multidimensional confirmatory factorial analysis was applied to a sample of 176 Brazilian students ( Mage= 9.3 years) from the first to fifth grade of elementary school. Results indicated a well-adjusted model, with items of intermediate difficulty and high factor loadings; thus, this corroboratedthe internal structure and well-designed theoretical conception.Para avaliar a consciência fonológica, habilidade determinante para a aprendizagem da leitura e da escrita, é necessário prover evidências acerca do construto que um dado instrumento se propõe a mensurar de modo a fornecer parâmetros confiáveis tanto para a pesquisa empírica como para o desenvolvimento de programas de intervenção educacional e de reabilitação. No Brasil, até o momento, não há estudos de evidências de validade com base na estrutura interna para testes de consciência fonológica. Este artigo apresenta os resultados para a validade de um teste de consciência fonológica constituído por três sub-testes: duas tarefas de subtração do fonema inicial e uma de segmentação fonêmica. A análise fatorial confirmatória multidimensional foi aplicada a uma amostra de 176 estudantes brasileiros ( Midade= 9,3 anos) de 1º ao 5º ano do ensino fundamental. Resultados indicaram modelo bem ajustado, com itens de dificuldade mediana e cargas fatoriais altas; corroborando a estrutura interna e concepção teórica adequadas

    A design proposal of an online corpus-driven dictionary of Portuguese for University Students

    Get PDF
    University students are expected to read and write academic texts as part of typical literacy practices in higher education settings. Hyland (2009, p. viii-ix) states that meeting these literacy demands involves “learning to use language in new ways”. In order to support the mastery of written academic Portuguese, the primary aim of this PhD research was to propose a design of an online corpus-driven dictionary of Portuguese for university students (DOPU) attending Portuguese-medium institutions, speakers of Brazilian Portuguese (BP) and European Portuguese (EP), either as a mother tongue or as an additional language. The semi-automated approach to dictionary-making (Gantar et al., 2016), which is the latest method for dictionary compilation and had never been employed for Portuguese, was tested as a means of provision of lexical content that would serve as a basis for compiling entries of DOPU. It consists of automatic extraction of data from the corpus and import into dictionary writing system, where lexicographers then analyse, validate and edit the information. Thus, evaluation of this method for designing DOPU was a secondary goal of this research. The procedure was performed on the Sketch Engine (Kilgarriff et al., 2004) corpus tool and the dictionary writing system used was iLex (Erlandsen, 2010). A number of new resources and tools were created especially for the extraction, given the unsuitability of the existing ones. These were: a 40 million-word corpus of academic texts (CoPEP), balanced between BP and EP and covering six areas of knowledge, a sketch grammar, and GDEX configurations for academic Portuguese. Evaluation of the adoption of the semi-automated approach in the context of the DOPU design indicated that although further development of these brand-new resources and tools, as well as the procedure itself, would greatly contribute to increasing the quality of DOPU’s lexical content, the extracted data can already be used as a basis for entry writing. The positive results of the experiment also suggest that this approach should be highly beneficial to other lexicographic projects of Portuguese as well.No ensino superior, espera-se que estudantes participem, em maior ou menor extensão, em atividades de leitura e escrita de textos que tipicamente circulam no contexto universitário, como artigos, livros, exames, ensaios, monografias, projetos, trabalhos de conclusão de curso, dissertações, teses, entre outros. Contudo, essas práticas costumam se apresentar como verdadeiros desafios aos alunos, que não estão familiarizados com esses novos gêneros discursivos. Conforme Hyland (2009, p. viii-ix), a condição para se ter sucesso nessas práticas é “aprender a usar a língua de novas maneiras”. A linguagem acadêmica é objeto de pesquisa há muitos anos, sendo especialmente desenvolvida no âmbito da língua inglesa. Se por um lado, durante um longo período todas as atenções estavam voltadas para o English for Academic Purposes (EAP) (inglês para fins acadêmicos), tendo em vista o incomparável apelo comercial dessa área, mais recentemente tem-se entendido que falantes de inglês como língua materna também precisam aprender inglês acadêmico, pois, como dito acima, trata-se de uma nova maneira de usar a língua, que os estudantes universitários desconhecem. Nesse sentido, é natural que a grande maioria de matérias pedagógicos como livros, manuais, gramáticas, listas de palavras e dicionários, por exemplo, sejam produzidos para o contexto de uso da língua inglesa. Assim como o inglês e tantas outras línguas, o português também é usado em universidades como língua na e pela qual se constrói conhecimento. Aliás, nos últimos 15 anos, temos vivenciado um fenômeno de expansão do acesso ao ensino universitário no Brasil, paralelamente a um grande aumento da presença de alunos estrangeiros fazendo ensino superior no Brasil e em Portugal, o que reforça a natureza do português como língua de construção e difusão científica. É de se saudar os esforços e as medidas de política linguística da Comunidade dos Países de Língua Portuguesa (CPLP) para apoiar e fomentar o português como língua da ciência. Apesar dessa clara importância do português acadêmico, sabemos que sua presença como objeto de estudo de uma área específica ainda é bastante restrita. Tem-se observado algum crescimento no que diz respeito à abordagem discursiva da linguagem acadêmica; contudo, descrições ao nível léxico-gramatical ainda são bastante escassas. Em especial, no que concerne recursos lexicográficos como auxiliares pedagógicos, a existência de um dicionário de português acadêmico especialmente criado para atender as necessidades de estudantes universitários é desconhecida. Nesse sentido, tendo em vista a demanda apresentada acima e a lacuna nos estudos atuais, a presente pesquisa de doutorado buscou colaborar tanto com o campo dos recursos ao ensino de português acadêmico quanto com o de elaboração de recursos lexicográficos através da proposta de desenho de um dicionário online corpus-driven de português para estudantes universitários (DOPU). Baseando-se em uma perspectiva de português como língua pluricêntrica, este dicionário contempla as variedades português brasileiro (PB) e europeu (PE). Além disso, o público-alvo se constitui por falantes de português como língua materna e como língua adicional. Para a construção do desenho, adotou-se a mais moderna abordagem de compilação de dicionários atualmente existente, qual seja, a semi-automated approach to dictionary-making (Gantar et al., 2016). Esse método consiste na extração automática de dados de um corpus e importação para um sistema de escrita de dicionários, no qual lexicógrafos analisam, editam e validam as informações que foram automaticamente pré-organizadas nos campos da entrada conforme definições previamente estabelecidas. Esta abordagem é revolucionária no sentido em que o ponto de partida da análise lexical do corpus não mais se dá na ferramenta de análise de corpus, mas sim diretamente no sistema de escrita de dicionários. Experimentar essa abordagem no desenvolvimento do desenho do DOPU constitui-se em um objetivo secundário desta pesquisa de doutorado, uma vez que tal método nunca foi aplicado para a construção de dicionários de português. Os programas utilizados para a aplicação do procedimento de extração foram o Sketch Engine (SkE) (Kilgarriff et al., 2004), provavelmente a mais sofisticada ferramenta de criação, análise e manutenção de corpus da atualidade, e o iLex (Erlandsen, 2010), um sistema de escrita de dicionários bastante flexível e com alta capacidade de processamento de dados. Para a implementação da abordagem, são necessários: um corpus anotado com classes de palavra; uma sketch grammar (trata-se de um arquivo com relações gramaticais e diretivas de processamento para o sistema do SkE computar diferentes tipos de relações através de cálculos estáticos); uma configuração de GDEX, isto é, Good Dictionary Examples – bons exemplos para dicionários (trata-se de uma configuração com classificadores para avaliar frases e atribuir pontuações conforme os critérios estabelecidos); e definições de parâmetros (frequência mínima dos colocados e das relações gramaticais). Tendo em vista a inadequação de corpora de português, bem como da sketch grammar e do GDEX existentes para o português, em função do propósito dessa extração de dados, qual seja, a compilação de entradas para o DOPU, foi necessário elaborar novos recursos. Foi compilado o Corpus de Português Escrito em Periódicos (CoPEP), com 40 milhões de palavras, equilibrado entre as variedades PB e PE, e que cobre seis áreas de conhecimento. Os metadados do corpus foram detalhadamente anotados, permitindo fazer pesquisas avançadas. É o primeiro corpus internacional de português acadêmico de que temos notícia. De forma a padronizar a análise lexical e diminuir desequilíbrios na contagem estatística, o CoPEP foi pós-processado com o conversor Lince de forma a atualizar as ortografias de cada variedade conforme a determinação do Acordo Ortográfico da Língua Portuguesa, de 1990. Uma sketch grammar foi especialmente elaborada para o CoPEP, e, nesse sentido, pode ser aplicada a outros corpora de português anotados pelo mesmo anotador. Optou-se por usar o anotador oferecido por padrão no SkE, qual seja, o Freeling v3. Criou-se uma sketch grammar com mais e mais precisas relações gramaticais do que aquela oferecida por padrão pelo SkE. Assim, usuários trabalhando com corpora de português anotados com Freeling no SkE poderão usar a minha versão, que já está disponível no Sketch Engine. Uma configuração de GDEX havia sido produzida para fornecer exemplos para a compilação do Oxford Portuguese Dicionary (2015). No entanto, por ser bastante geral, elaborada para um corpus Web e por buscar selecionar exemplos para um dicionário bilíngue português-inglês/inglês-português, julgou-se mais apropriado criar uma configuração completamente nova. Assim, desenvolvi tal recurso, tendo em vista as características de uso da língua como apresentadas no CoPEP e o perfil do usuário do DOPU. O procedimento de extração automática de dados do CoPEP e importação para o iLex tomou como base o procedimento usado para a criação de dicionários de esloveno (criadores desse método), fazendo-se adaptações. Acrescentaram-se dois elementos ao processo de extração: o longest-commonest match (LCM), que mostra a realização mais comum do par keyword e colocado, ajudando a entender o uso mais típico das colocações; e sugestões para atribuição de etiquetas com variedade típica, tanto para a keyword quanto para o colocado. A avaliação do processo de escrita de entradas-piloto indicou que o método de extração de dados do CoPEP e importação para o iLex foi extremamente positivo, dado que a análise lexical pôde ser bastante sofisticada sem demandar o tempo rotineiro necessário quando se parte das linhas de concordância para elaboração de entradas. Alguns dados que nesta pesquisa não foram extraídos automaticamente e que tiveram que ser analisados manualmente na ferramenta de corpus poderão ser incluídos numa próxima versão do procedimento. Análise do processo de criação dos recursos necessários indicou que aprimoramentos podem ser feitos, assim aumentando a acurácia da extração. Espera-se que o desenho de dicionário online corpus-driven de português para estudantes universitários proposto por esta pesquisa de doutorado sirva como base para o desenvolvimento de outras pesquisas relacionadas de forma que a sustentar a elaboração do DOPU

    Contrasting group analysis of Brazilian students with dyslexia and good readers using the computerized reading and writing assessment battery BALE

    Get PDF
    The analysis of cognitive processes underpinning reading and writing skills may help to distinguish different reading ability profiles. the present study used a Brazilian reading and writing battery to compare performance of students with dyslexia with two individually matched control groups: one contrasting on reading competence but not age and the other group contrasting on age but not reading competence. Participants were 28 individuals with dyslexia (19 boys) with a mean age of 9.82 (SD +/- 1.44) drawn from public and private schools. These were matched to: (1) an age control group (AC) of 26 good readers with a mean age of 9.77 (SD +/- 1.44) matched by age, sex, years of schooling, and type of school; (2) reading control group (RC) of 28 younger controls with a mean age of 782 (SD +/- 1.06) matched by sex, type of school, and reading level. All groups were tested on four tasks from the Brazilian Reading and Writing Assessment battery (BALE): Written Sentence Comprehension Test (VVSCT); Spoken Sentence Comprehension Test (OSCT); PicturePrint Writing Test (PPVVT 1.1-Writing); and the Reading Competence Test (RCT). These tasks evaluate reading and listening comprehension for sentences, spelling, and reading isolated words and pseudowords (non-words). the dyslexia group scored lower and took longer to complete tasks than the AC group. Compared with the RC group, there were no differences in total scores on reading or oral comprehension tasks. However, dyslexics presented slower reading speeds, longer completion times, and lower scores on spelling tasks, even compared with younger controls. Analysis of types of errors on word and pseudoword reading items showed students with dyslexia scoring lower for pseudoword reading than the other two groups. These findings suggest that the dyslexics overall scores were similar to those of younger readers. However, specific phonological and visual decoding deficits showed that the two groups differ in terms of underpinning reading strategies.Universidade Federal de São Paulo, Dept Psychobiol, BR-04039006 São Paulo, BrazilUniv Presbiteriana Mackenzie, Dept Psychol, São Paulo, BrazilUniversidade Federal de São Paulo, Dept Psychobiol, BR-04039006 São Paulo, BrazilWeb of Scienc

    Comparison between rule-based and data-driven natural language processing algorithms for Brazilian Portuguese speech synthesis

    Get PDF
    Due to the exponential growth in the use of computers, personal digital assistants and smartphones, the development of Text-to-Speech (TTS) systems have become highly demanded during the last years. An important part of these systems is the Text Analysis block, that converts the input text into linguistic specifications that are going to be used to generate the final speech waveform. The Natural Language Processing algorithms presented in this block are crucial to the quality of the speech generated by synthesizers. These algorithms are responsible for important tasks such as Grapheme-to-Phoneme Conversion, Syllabification and Stress Determination. For Brazilian Portuguese (BP), solutions for the algorithms presented in the Text Analysis block have been focused in rule-based approaches. These algorithms perform well for BP but have many disadvantages. On the other hand, there is still no research to evaluate and analyze the performance of data-driven approaches that reach state-of-the-art results for complex languages, such as English. So, in this work, we compare different data-driven approaches and rule-based approaches for NLP algorithms presented in a TTS system. Moreover, we propose, as a novel application, the use of Sequence-to-Sequence models as solution for the Syllabification and Stress Determination problems. As a brief summary of the results obtained, we show that data-driven algorithms can achieve state-of-the-art performance for the NLP algorithms presented in the Text Analysis block of a BP TTS system.Nos últimos anos, devido ao grande crescimento no uso de computadores, assistentes pessoais e smartphones, o desenvolvimento de sistemas capazes de converter texto em fala tem sido bastante demandado. O bloco de análise de texto, onde o texto de entrada é convertido em especificações linguísticas usadas para gerar a onda sonora final é uma parte importante destes sistemas. O desempenho dos algoritmos de Processamento de Linguagem Natural (NLP) presentes neste bloco é crucial para a qualidade dos sintetizadores de voz. Conversão Grafema-Fonema, separação silábica e determinação da sílaba tônica são algumas das tarefas executadas por estes algoritmos. Para o Português Brasileiro (BP), os algoritmos baseados em regras têm sido o foco na solução destes problemas. Estes algoritmos atingem bom desempenho para o BP, contudo apresentam diversas desvantagens. Por outro lado, ainda não há pesquisa no intuito de avaliar o desempenho de algoritmos data-driven, largamente utilizados para línguas complexas, como o inglês. Desta forma, expõe-se neste trabalho uma comparação entre diferentes técnicas data-driven e baseadas em regras para algoritmos de NLP utilizados em um sintetizador de voz. Além disso, propõe o uso de Sequence-to-Sequence models para a separação silábica e a determinação da tonicidade. Em suma, o presente trabalho demonstra que o uso de algoritmos data-driven atinge o estado-da-arte na performance dos algoritmos de Processamento de Linguagem Natural de um sintetizador de voz para o Português Brasileiro
    corecore