4 research outputs found
Cálculo del índice de complejidad en documentos manuscritos para la segmentación de líneas de texto
Hasta el momento el conocimiento almacenado en los manuscritos antiguos
no se ha utilizado en su totalidad debido a la falta de métodos robustos en el
estado del arte para el reconocimiento de texto manuscrito.
La principal dificultad de los métodos para el reconocimiento de texto
manuscrito es que se requiere que el texto se encuentre dividido en líneas.
Además, los métodos para la Segmentación de Líneas de Texto (SLT) no han
sido optimizados para procesar manuscritos antiguos.
La primera etapa de la SLT es la Localización de Líneas de Texto (LLT). En la SLT
se han propuesto métodos que buscan los valores máximos locales en un
histograma. El problema de estos métodos es que existen demasiados máximos
locales y no es posible identificar cuáles conjuntos de máximos locales
representan una línea de texto.
La segunda etapa de la SLT es la búsqueda de una ruta que permita separar
las líneas de texto vecinas. Por un lado, el problema de los métodos actuales
es que en algunos casos se realiza una búsqueda local de la ruta. Por otro lado,
los métodos que realizan una búsqueda global de la ruta tienen problemas
para encontrar una ruta entre trazos que se sobreponen.
Los problemas de las dos etapas conforman un valor de complejidad. La
complejidad visual de un documento mansucrito antiguo para ser
segmentado puede apreciarse por el humano experto, sin embargo, no existe
en el estado del arte un método para calcular la complejidad.
En el estado del arte existen técnicas que permiten realizar una separación del
cuerpo de letras y el espacio interlineal. Este trabajo se enfoca cuantificar la
cantidad de información en el espacio interlineal para establecer un índice de
complejidad. El índice de complejidad propuesto calcula la cantidad de
información que aportan los trazos horizontales y verticales; además de la
cantidad de información que aporta la tinta del documento y los valores del
color del material de escritura
Dataset and ground truth for handwritten text in four different scripts
In document image analysis (DIA) especially in handwritten document recognition, standard databases play significant roles for evaluating performances of algorithms and comparing results obtained by different groups of researchers. The field of DIA regard to Indo-Persian documents is still at its infancy compared to Latin script-based documents; as such standard datasets are not still available in literature. This paper is an effort towards alleviating this gap. In this paper, an unconstrained handwritten dataset containing documents of Persian, Bangla, Oriya and Kannada (PBOK) is introduced. The PBOK contains 707 text-pages written in four different languages (Persian, Bangla, Oriya and Kannada) by 436 individuals. Total number of text-lines, words/subwords and characters are 12,565, 104,541 and 423,980, respectively. In most documents of PBOK dataset contain either an overlapping or a touching text-lines. The average number of text-lines in text-pages of the PBOK dataset is 18. Two types of ground truths, based on pixels information and content information, are generated for the dataset. Because of such ground truths, the PBOK dataset can be utilized in many areas of document image processing e.g. text-line segmentation, word segmentation and word recognition. To provide an insight for other researches, recent text-line segmentation results on this dataset are also reported