Cálculo del índice de complejidad en documentos manuscritos para la segmentación de líneas de texto

Abstract

Hasta el momento el conocimiento almacenado en los manuscritos antiguos no se ha utilizado en su totalidad debido a la falta de métodos robustos en el estado del arte para el reconocimiento de texto manuscrito. La principal dificultad de los métodos para el reconocimiento de texto manuscrito es que se requiere que el texto se encuentre dividido en líneas. Además, los métodos para la Segmentación de Líneas de Texto (SLT) no han sido optimizados para procesar manuscritos antiguos. La primera etapa de la SLT es la Localización de Líneas de Texto (LLT). En la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema de estos métodos es que existen demasiados máximos locales y no es posible identificar cuáles conjuntos de máximos locales representan una línea de texto. La segunda etapa de la SLT es la búsqueda de una ruta que permita separar las líneas de texto vecinas. Por un lado, el problema de los métodos actuales es que en algunos casos se realiza una búsqueda local de la ruta. Por otro lado, los métodos que realizan una búsqueda global de la ruta tienen problemas para encontrar una ruta entre trazos que se sobreponen. Los problemas de las dos etapas conforman un valor de complejidad. La complejidad visual de un documento mansucrito antiguo para ser segmentado puede apreciarse por el humano experto, sin embargo, no existe en el estado del arte un método para calcular la complejidad. En el estado del arte existen técnicas que permiten realizar una separación del cuerpo de letras y el espacio interlineal. Este trabajo se enfoca cuantificar la cantidad de información en el espacio interlineal para establecer un índice de complejidad. El índice de complejidad propuesto calcula la cantidad de información que aportan los trazos horizontales y verticales; además de la cantidad de información que aporta la tinta del documento y los valores del color del material de escritura

    Similar works