Sociedad Española para el Procesamiento del Lenguaje Natural
Abstract
En Telefónica I+D hemos desarrollado un corrector ortográfico automático
especialmente orientado a la adaptación de textos de Internet para su lectura por nuestro
conversor texto-voz. El modelo de corrección detecta las palabras erróneas de acuerdo con el
diccionario de formas correctas, y genera alternativas de corrección a través de
transformaciones elementales de caracteres (inserción, borrado, sustitución o trasposición). La
elección de la mejor de las alternativas se apoya en la probabilidad de ocurrencia ( según su
frecuencia en el corpus de entrenamiento), la probabilidad de la transformación elemental (las
matrices de confusión), el contexto (según el modelo de lenguaje) y el grado de corrección del
texto (factor de confianza).Telefónica I+D has developed an automatic correction method specially focused on
the adaptation of Internet text in order to be read by our text-to-speech system. The correction
model detects errors by searching words in a dictionary, and then (if the word isn´t found)
correction candidates are generated by making elemental transformations (such as insertion,
deletion, substitution or transposition). The selection of the best candidate takes into account
the word probability (its frecuency in the training corpus), the probability of the elemental
transformation (confusion matrices), the context (language model) and the text correction level
(reliability factor)