3 research outputs found

    Evaluation of really good grammatical error correction

    Full text link
    Although rarely stated, in practice, Grammatical Error Correction (GEC) encompasses various models with distinct objectives, ranging from grammatical error detection to improving fluency. Traditional evaluation methods fail to fully capture the full range of system capabilities and objectives. Reference-based evaluations suffer from limitations in capturing the wide variety of possible correction and the biases introduced during reference creation and is prone to favor fixing local errors over overall text improvement. The emergence of large language models (LLMs) has further highlighted the shortcomings of these evaluation strategies, emphasizing the need for a paradigm shift in evaluation methodology. In the current study, we perform a comprehensive evaluation of various GEC systems using a recently published dataset of Swedish learner texts. The evaluation is performed using established evaluation metrics as well as human judges. We find that GPT-3 in a few-shot setting by far outperforms previous grammatical error correction systems for Swedish, a language comprising only 0.11% of its training data. We also found that current evaluation methods contain undesirable biases that a human evaluation is able to reveal. We suggest using human post-editing of GEC system outputs to analyze the amount of change required to reach native-level human performance on the task, and provide a dataset annotated with human post-edits and assessments of grammaticality, fluency and meaning preservation of GEC system outputs

    Neural machine translation for Gawarbati

    No full text
    Nya neurala modeller har lett till stora framsteg inom maskinöversÀttning, men fungerar fortfarande sÀmre pÄ sprÄk som saknar stora mÀngder parallella data, sÄ kallade lÄgresurssprÄk. Gawarbati Àr ett litet, hotat lÄgresurssprÄk dÀr endast 5000 parallella meningar finns tillgÀngligt. Denna uppsats anvÀnder överföringsinlÀrning och hyperparametrar optimerade för smÄ datamÀngder för att undersöka möjligheter och begrÀnsningar för neural maskinöversÀttning frÄn gawarbati till engelska. Genom att anvÀnda överföringsinlÀrning dÀr en förÀldramodell först trÀnades pÄ hindi-engelska förbÀttrades översÀttningar med 1.8 BLEU och 1.3 chrF. Hyperparametrar optimerade för smÄ datamÀngder ökade BLEU med 0.6 men minskade chrF med 1. Att kombinera överföringsinlÀrning och hyperparametrar optimerade för smÄ datamÀngder försÀmrade resultatet med 0.5 BLEU och 2.2 chrF. De neurala modellerna jÀmförs med och presterar bÀttre Àn ordbaserad statistisk maskinöversÀttning och GPT-3. Den bÀst presterande modellen uppnÄdde endast 2.8 BLEU och 19 chrF, vilket belyser begrÀnsningarna av maskinöversÀttning pÄ lÄgresurssprÄk samt det kritiska behovet av mer data.Recent neural models have led to huge improvements in machine translation, but performance is still suboptimal for languages without large parallel datasets, so called low resource languages. Gawarbati is a small, threatened low resource language with only 5000 parallel sentences. This thesis uses transfer learning and hyperparameters optimized for small datasets to explore possibilities and limitations for neural machine translation from Gawarbati to English. Transfer learning, where the parent model was trained on parallel data between Hindi and English, improved results by 1.8 BLEU and 1.3 chrF. Hyperparameters optimized for small datasets increased BLEU by 0.6 but decreased chrF by 1. Combining transfer learning and hyperparameters optimized for small datasets led to a decrease in performance by 0.5 BLEU and 2.2 chrF. The neural models outperform a word based statistical machine translation and GPT-3. The highest performing model only achieved 2.8 BLEU and 19 chrF, which illustrates the limitations of machine translation for low resource languages and the critical need for more data.VR 2020-0150

    Neural machine translation for Gawarbati

    No full text
    Nya neurala modeller har lett till stora framsteg inom maskinöversÀttning, men fungerar fortfarande sÀmre pÄ sprÄk som saknar stora mÀngder parallella data, sÄ kallade lÄgresurssprÄk. Gawarbati Àr ett litet, hotat lÄgresurssprÄk dÀr endast 5000 parallella meningar finns tillgÀngligt. Denna uppsats anvÀnder överföringsinlÀrning och hyperparametrar optimerade för smÄ datamÀngder för att undersöka möjligheter och begrÀnsningar för neural maskinöversÀttning frÄn gawarbati till engelska. Genom att anvÀnda överföringsinlÀrning dÀr en förÀldramodell först trÀnades pÄ hindi-engelska förbÀttrades översÀttningar med 1.8 BLEU och 1.3 chrF. Hyperparametrar optimerade för smÄ datamÀngder ökade BLEU med 0.6 men minskade chrF med 1. Att kombinera överföringsinlÀrning och hyperparametrar optimerade för smÄ datamÀngder försÀmrade resultatet med 0.5 BLEU och 2.2 chrF. De neurala modellerna jÀmförs med och presterar bÀttre Àn ordbaserad statistisk maskinöversÀttning och GPT-3. Den bÀst presterande modellen uppnÄdde endast 2.8 BLEU och 19 chrF, vilket belyser begrÀnsningarna av maskinöversÀttning pÄ lÄgresurssprÄk samt det kritiska behovet av mer data.Recent neural models have led to huge improvements in machine translation, but performance is still suboptimal for languages without large parallel datasets, so called low resource languages. Gawarbati is a small, threatened low resource language with only 5000 parallel sentences. This thesis uses transfer learning and hyperparameters optimized for small datasets to explore possibilities and limitations for neural machine translation from Gawarbati to English. Transfer learning, where the parent model was trained on parallel data between Hindi and English, improved results by 1.8 BLEU and 1.3 chrF. Hyperparameters optimized for small datasets increased BLEU by 0.6 but decreased chrF by 1. Combining transfer learning and hyperparameters optimized for small datasets led to a decrease in performance by 0.5 BLEU and 2.2 chrF. The neural models outperform a word based statistical machine translation and GPT-3. The highest performing model only achieved 2.8 BLEU and 19 chrF, which illustrates the limitations of machine translation for low resource languages and the critical need for more data.VR 2020-0150
    corecore