research

Desarrollo de un corrector ortográfico para aplicaciones de conversión texto-voz

Abstract

En Telefónica I+D hemos desarrollado un corrector ortográfico automático especialmente orientado a la adaptación de textos de Internet para su lectura por nuestro conversor texto-voz. El modelo de corrección detecta las palabras erróneas de acuerdo con el diccionario de formas correctas, y genera alternativas de corrección a través de transformaciones elementales de caracteres (inserción, borrado, sustitución o trasposición). La elección de la mejor de las alternativas se apoya en la probabilidad de ocurrencia ( según su frecuencia en el corpus de entrenamiento), la probabilidad de la transformación elemental (las matrices de confusión), el contexto (según el modelo de lenguaje) y el grado de corrección del texto (factor de confianza).Telefónica I+D has developed an automatic correction method specially focused on the adaptation of Internet text in order to be read by our text-to-speech system. The correction model detects errors by searching words in a dictionary, and then (if the word isn´t found) correction candidates are generated by making elemental transformations (such as insertion, deletion, substitution or transposition). The selection of the best candidate takes into account the word probability (its frecuency in the training corpus), the probability of the elemental transformation (confusion matrices), the context (language model) and the text correction level (reliability factor)

    Similar works