Search CORE

15 research outputs found

A Bottom Up Procedure for Text Line Segmentation of Latin Script

Author: Jain Himanshu
Kumar Archana Praveen
Publication venue
Publication date: 09/10/2017
Field of study

In this paper we present a bottom up procedure for segmentation of text lines written or printed in the Latin script. The proposed method uses a combination of image morphology, feature extraction and Gaussian mixture model to perform this task. The experimental results show the validity of the procedure.Comment: Accepted and presented at the IEEE conference "International Conference on Advances in Computing, Communications and Informatics (ICACCI) 2017

arXiv.org e-Print Archive

Crossref

Detection of Text Lines of Handwritten Arabic Manuscripts using Markov Decision Processes

Author: Boulid Youssef
Elyoussfi Elkettani Mohamed
Souhar Abdelghani
Publication venue: 'Universidad Internacional de La Rioja'
Publication date: 07/07/2021
Field of study

In a character recognition systems, the segmentation phase is critical since the accuracy of the recognition depend strongly on it. In this paper we present an approach based on Markov Decision Processes to extract text lines from binary images of Arabic handwritten documents. The proposed approach detects the connected components belonging to the same line by making use of knowledge about features and arrangement of those components. The initial results show that the system is promising for extracting Arabic handwritten lines

Re-UNIR

Historical handwritten document segmentation by using a weighted loss

Author: Capobianco Samuele
Marinai Simone
Scommegna Leonardo
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2018
Field of study

Crossref

Florence Research

Segmentation of Arabic Handwritten Documents into Text Lines using Watershed Transform

Author: Ameur E
Boulid Youssef
Ouagague Mly.
Souhar Abdelghani
Publication venue: 'Universidad Internacional de La Rioja'
Publication date: 13/09/2021
Field of study

A crucial task in character recognition systems is the segmentation of the document into text lines and especially if it is handwritten. When dealing with non-Latin document such as Arabic, the challenge becomes greater since in addition to the variability of writing, the presence of diacritical points and the high number of ascender and descender characters complicates more the process of the segmentation. To remedy with this complexity and even to make this difficulty an advantage since the focus is on the Arabic language which is semi-cursive in nature, a method based on the Watershed Transform technique is proposed. Tested on «Handwritten Arabic Proximity Datasets» a segmentation rate of 93% for a 95% of matching score is achieved

Re-UNIR

Segmentation of Handwritten Document Images into Text Lines

Author: Vassilis Katsouros
Vassilis Papavassiliou
Publication venue: 'IntechOpen'
Publication date: 19/04/2011
Field of study

IntechOpen

Seam Carving for Text Line Extraction on Color and Grayscale Historical Manuscripts

Author
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date
Field of study

Crossref

A general approach for multi-oriented text line extraction of handwritten document

Author: Belaïd Abdel
Ouwayed Nazih
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/09/2011
Field of study

International audienceThe multi-orientation occurs frequently in ancient handwritten documents, where the writers try to update a document by adding some annotations in the margins. Due to the margin narrowness, this gives rise to lines in different directions and orientations. Document recognition needs to ﬁnd the lines everywhere they are written whatever their orientation. This is why we propose in this paper a new approach allowing us to extract the multi-oriented lines in scanned documents. Because of the multi-orientation of lines and their dispersion in the page, we use an image meshing allowing us to progressively and locally determine the lines. Once the meshing is established, the orientation is determined using the Wigner-Ville distribution on the projection histogram proﬁle. This local orientation is then enlarged to limit the orientation in the neighborhood. Afterward, the text lines are extracted locally in each zone basing on the follow-up of the orientation lines and the proximity of connected components. Finally, the connected components that overlap and touch in adjacent lines are separated. The morphology analysis of the terminal letters of Arabic words is here considered. The proposed approach has been experimented on 100 documents reaching an accuracy of about 98.6

Crossref

INRIA a CCSD electronic archive server

HAL Descartes

Hal-Diderot

Segmentación de líneas de texto en documentos manuscritos antiguos independiente del lenguaje

Author: GARCIA CALDERON MIGUEL ANGEL
GARCIA CALDERON MIGUEL ANGEL
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 04/12/2017
Field of study

Hasta el momento no se ha utilizado todo el conocimiento que hay en los manuscritos antiguos debido a que reconocimiento de texto manuscrito aún no cuenta con métodos robustos para esta tarea. El primer problema de los métodos para el reconocimiento de texto manuscrito es que requieren que el texto se encuentre dividido en líneas. Los métodos actuales para la segmentación de líneas de texto manuscrito no han sido optimizados para trabajar con manuscritos antiguos. La primera etapa de la Segmentación de Líneas de Texto (SLT) manuscrito consiste en la Localización de Líneas de Texto (LLT). Para la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema para estos métodos es que existen demasiados máximos locales, lo cual no permite localizar las líneas que hay. La segunda etapa de la SLT en manuscritos antiguos consiste en la búsqueda de una ruta que permita separar las líneas de texto, el problema de los métodos actuales es que algunos realizan una búsqueda local de la ruta y los otros métodos buscan la ruta evitando pasar por la mayor cantidad de caracteres. En este trabajo se presenta un sistema compuesto por dos nuevos métodos para la LLT manuscrito y otro método para la Búsqueda de una Ruta que permita Segmentar Líneas de Texto en documentos manuscritos (BRSLT) que supera a los métodos analizados en el estado del arte en las dos etapas. En el primer método propuesto se presenta la extracción de un mapa de energía que incrementa las diferencias entre los máximos y mínimos locales en un histograma. El segundo método propuesto consiste en buscar la mejor ruta para segmentar líneas de texto manuscrito antiguo usando un algoritmo genético. Para evaluar la exactitud de los métodos propuestos se han realizado experimentos con dos colecciones de documentos. Se ha realizado una evaluación independiente de los dos métodos propuesto. Las colecciones de documentos incluyen los idiomas: español, chino, árabe, inglés, árabe-español con escritura moderna y escritura antigua. Con los resultados de la experimentación se ha demostrado que es posible mejorar la LLT implementando un mapa de energía que incremente las diferencias entre máximos y mínimos locales. Los experimentos de la segunda sección demuestran que es necesario realizar una optimización global de la ruta para segmentar líneas de texto

Repositorio Institucional de la Universidad Autónoma del Estado de México

Cálculo del índice de complejidad en documentos manuscritos para la segmentación de líneas de texto

Author: García Calderón Miguel Ángel
Publication venue: 'Universidad Autonoma del Estado de Mexico'
Publication date: 14/01/2022
Field of study

Hasta el momento el conocimiento almacenado en los manuscritos antiguos no se ha utilizado en su totalidad debido a la falta de métodos robustos en el estado del arte para el reconocimiento de texto manuscrito. La principal dificultad de los métodos para el reconocimiento de texto manuscrito es que se requiere que el texto se encuentre dividido en líneas. Además, los métodos para la Segmentación de Líneas de Texto (SLT) no han sido optimizados para procesar manuscritos antiguos. La primera etapa de la SLT es la Localización de Líneas de Texto (LLT). En la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema de estos métodos es que existen demasiados máximos locales y no es posible identificar cuáles conjuntos de máximos locales representan una línea de texto. La segunda etapa de la SLT es la búsqueda de una ruta que permita separar las líneas de texto vecinas. Por un lado, el problema de los métodos actuales es que en algunos casos se realiza una búsqueda local de la ruta. Por otro lado, los métodos que realizan una búsqueda global de la ruta tienen problemas para encontrar una ruta entre trazos que se sobreponen. Los problemas de las dos etapas conforman un valor de complejidad. La complejidad visual de un documento mansucrito antiguo para ser segmentado puede apreciarse por el humano experto, sin embargo, no existe en el estado del arte un método para calcular la complejidad. En el estado del arte existen técnicas que permiten realizar una separación del cuerpo de letras y el espacio interlineal. Este trabajo se enfoca cuantificar la cantidad de información en el espacio interlineal para establecer un índice de complejidad. El índice de complejidad propuesto calcula la cantidad de información que aportan los trazos horizontales y verticales; además de la cantidad de información que aporta la tinta del documento y los valores del color del material de escritura

Repositorio Institucional de la Universidad Autónoma del Estado de México