AutoPunct: Sistema de Puntuación y Mayusculización Automático basado en BERT para Castellano y Euskera

Abstract

The raw output of an Automatic Speech Recognition system usually consists in a stream of words without any casing nor punctuation. In order to improve the readability and enable further uses of this output, punctuation and capitalisation have to be included. In this context, we present AutoPunct, a Transformers-based automatic punctuation and capitalisation model that combines both acoustic (i.e. silences duration) and lexical information (the words themselves). We compared its performance with a system based on Bidirectional Recurrent Neural Networks (BRNN) on Basque (a low-resource language) and Spanish, both individually and simultaneously. The result is a system that achieves high accuracy for punctuation and capitalisation in both languages at the same time, with a throughput of several thousand words per second using a standard GPU.La salida en bruto de un sistema de Reconocimiento Automático del Habla generalmente consiste en una secuencia de palabras sin mayúsculas ni signos de puntuación. Para mejorar la legibilidad y posibilitar posteriores usos de esta salida es necesario incluir la puntuación y las mayúsculas. En este contexto, presentamos AutoPunct, un modelo para puntuación y mayusculización basado en arquitecturas de Transformers que combina tanto información acústica (silencios) como léxica (palabras). Hemos comparado su desempeño con un sistema basado en redes neuronales recursivas bidireccionales (BRNN) en euskera (un idioma de pocos recursos) y castellano, así como combinando ambos idiomas. El resultado es un sistema que obtiene buenos resultados aplicando mayusculización y puntuación de manera simultánea en dos idiomas diferentes, con una velocidad de proceso que alcanza varios miles de palabras por segundo en una GPU estándar.This work was supported by the Department of Economic Development and Competitiveness of the Basque Government under projects GAMES (ZL-2020/00074) and Deep-Text (KK-2020-00088)

    Similar works