3 research outputs found
Segmentación de líneas de texto en documentos manuscritos antiguos independiente del lenguaje
Hasta el momento no se ha utilizado todo el conocimiento que hay en los manuscritos antiguos debido a que reconocimiento de texto manuscrito aún no cuenta con métodos robustos para esta tarea. El primer problema de los métodos para el reconocimiento de texto manuscrito es que requieren que el texto se encuentre dividido en líneas. Los métodos actuales para la segmentación de líneas de texto manuscrito no han sido optimizados para trabajar con manuscritos antiguos. La primera etapa de la Segmentación de Líneas de Texto (SLT) manuscrito consiste en la Localización de Líneas de Texto (LLT). Para la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema para estos métodos es que existen demasiados máximos locales, lo cual no permite localizar las líneas que hay. La segunda etapa de la SLT en manuscritos antiguos consiste en la búsqueda de una ruta que permita separar las líneas de texto, el problema de los métodos actuales es que algunos realizan una búsqueda local de la ruta y los otros métodos buscan la ruta evitando pasar por la mayor cantidad de caracteres. En este trabajo se presenta un sistema compuesto por dos nuevos métodos para la LLT manuscrito y otro método para la Búsqueda de una Ruta que permita Segmentar Líneas de Texto en documentos manuscritos (BRSLT) que supera a los métodos analizados en el estado del arte en las dos etapas. En el primer método propuesto se presenta la extracción de un mapa de energía que incrementa las diferencias entre los máximos y mínimos locales en un histograma. El segundo método propuesto consiste en buscar la mejor ruta para segmentar líneas de texto manuscrito antiguo usando un algoritmo genético. Para evaluar la exactitud de los métodos propuestos se han realizado experimentos con dos colecciones de documentos. Se ha realizado una evaluación independiente de los dos métodos propuesto. Las colecciones de documentos incluyen los idiomas: español, chino, árabe, inglés, árabe-español con escritura moderna y escritura antigua. Con los resultados de la experimentación se ha demostrado que es posible mejorar la LLT implementando un mapa de energía que incremente las diferencias entre máximos y mínimos locales. Los experimentos de la segunda sección demuestran que es necesario realizar una optimización global de la ruta para segmentar líneas de texto
Cálculo del índice de complejidad en documentos manuscritos para la segmentación de líneas de texto
Hasta el momento el conocimiento almacenado en los manuscritos antiguos
no se ha utilizado en su totalidad debido a la falta de métodos robustos en el
estado del arte para el reconocimiento de texto manuscrito.
La principal dificultad de los métodos para el reconocimiento de texto
manuscrito es que se requiere que el texto se encuentre dividido en líneas.
Además, los métodos para la Segmentación de Líneas de Texto (SLT) no han
sido optimizados para procesar manuscritos antiguos.
La primera etapa de la SLT es la Localización de Líneas de Texto (LLT). En la SLT
se han propuesto métodos que buscan los valores máximos locales en un
histograma. El problema de estos métodos es que existen demasiados máximos
locales y no es posible identificar cuáles conjuntos de máximos locales
representan una línea de texto.
La segunda etapa de la SLT es la búsqueda de una ruta que permita separar
las líneas de texto vecinas. Por un lado, el problema de los métodos actuales
es que en algunos casos se realiza una búsqueda local de la ruta. Por otro lado,
los métodos que realizan una búsqueda global de la ruta tienen problemas
para encontrar una ruta entre trazos que se sobreponen.
Los problemas de las dos etapas conforman un valor de complejidad. La
complejidad visual de un documento mansucrito antiguo para ser
segmentado puede apreciarse por el humano experto, sin embargo, no existe
en el estado del arte un método para calcular la complejidad.
En el estado del arte existen técnicas que permiten realizar una separación del
cuerpo de letras y el espacio interlineal. Este trabajo se enfoca cuantificar la
cantidad de información en el espacio interlineal para establecer un índice de
complejidad. El índice de complejidad propuesto calcula la cantidad de
información que aportan los trazos horizontales y verticales; además de la
cantidad de información que aporta la tinta del documento y los valores del
color del material de escritura
Projection-based text line segmentation with a variable threshold
Document image segmentation into text lines is one of the stages in unconstrained handwritten document recognition. This paper presents a new algorithm for text line separation in handwriting. The developed algorithm is based on a method using the projection profile. It employs thresholding, but the threshold value is variable. This permits determination of low or overlapping peaks of the graph. The proposed technique is shown to improve the recognition rate relative to traditional methods. The algorithm is robust in text line detection with respect to different text line lengths