Corrección gramatical para euskera mediante una arquitectura neuronal seq2seq y ejemplos sintéticos

Beloki Leiza, Zuhaitz; Ceberio Berger, Klara; Corral, Ander; Saralegi Urizar, Xabier

Corrección gramatical para euskera mediante una arquitectura neuronal seq2seq y ejemplos sintéticos

Authors: Zuhaitz Beloki Leiza
Klara Ceberio Berger
Ander Corral
Xabier Saralegi Urizar
Publication date: 1 September 2020
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Doi

Abstract

Sequence-to-sequence neural architectures are the state of the art for addressing the task of correcting grammatical errors. However, large training datasets are required for this task. This paper studies the use of sequence-to-sequence neural models for the correction of grammatical errors in Basque. As there is no training data for this language, we have developed a rule-based method to generate grammatically incorrect sentences from a collection of correct sentences extracted from a corpus of 500,000 news in Basque. We have built different training datasets according to different strategies to combine the synthetic examples. From these datasets different models based on the Transformer architecture have been trained and evaluated according to accuracy, recall and F0.5 score. The results obtained with the best model reach 0.87 of F0.5 score.Las arquitecturas neuronales secuencia a secuencia constituyen el estado del arte para abordar la tarea de corrección de errores gramaticales. Sin embargo, su entrenamiento requiere de grandes conjuntos de datos. Este trabajo estudia el uso de modelos neuronales secuencia a secuencia para la corrección de errores gramaticales en euskera. Al no existir datos de entrenamiento para este idioma, hemos desarrollado un método basado en reglas para generar de forma sintética oraciones gramaticalmente incorrectas a partir de una colección de oraciones correctas extraídas de un corpus de 500.000 noticias en euskera. Hemos construido diferentes conjuntos de datos de entrenamiento de acuerdo a distintas estrategias para combinar los ejemplos sintéticos. A partir de estos conjuntos de datos hemos entrenado sendos modelos basados en la arquitectura Transformer que hemos evaluado y comparado de acuerdo a las métricas de precisión, cobertura y F0.5. Los resultados obtenidos con el mejor modelo alcanzan un F0.5 de 0.87

Similar works

Full text

Open in the Core reader

Download PDF

Available Versions

Repositorio Institucional de la Universidad de Alicante

oai:rua.ua.es:10045/109288

Last time updated on 25/09/2020