7 research outputs found

    Segmentación de líneas de texto en documentos manuscritos antiguos independiente del lenguaje

    Get PDF
    Hasta el momento no se ha utilizado todo el conocimiento que hay en los manuscritos antiguos debido a que reconocimiento de texto manuscrito aún no cuenta con métodos robustos para esta tarea. El primer problema de los métodos para el reconocimiento de texto manuscrito es que requieren que el texto se encuentre dividido en líneas. Los métodos actuales para la segmentación de líneas de texto manuscrito no han sido optimizados para trabajar con manuscritos antiguos. La primera etapa de la Segmentación de Líneas de Texto (SLT) manuscrito consiste en la Localización de Líneas de Texto (LLT). Para la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema para estos métodos es que existen demasiados máximos locales, lo cual no permite localizar las líneas que hay. La segunda etapa de la SLT en manuscritos antiguos consiste en la búsqueda de una ruta que permita separar las líneas de texto, el problema de los métodos actuales es que algunos realizan una búsqueda local de la ruta y los otros métodos buscan la ruta evitando pasar por la mayor cantidad de caracteres. En este trabajo se presenta un sistema compuesto por dos nuevos métodos para la LLT manuscrito y otro método para la Búsqueda de una Ruta que permita Segmentar Líneas de Texto en documentos manuscritos (BRSLT) que supera a los métodos analizados en el estado del arte en las dos etapas. En el primer método propuesto se presenta la extracción de un mapa de energía que incrementa las diferencias entre los máximos y mínimos locales en un histograma. El segundo método propuesto consiste en buscar la mejor ruta para segmentar líneas de texto manuscrito antiguo usando un algoritmo genético. Para evaluar la exactitud de los métodos propuestos se han realizado experimentos con dos colecciones de documentos. Se ha realizado una evaluación independiente de los dos métodos propuesto. Las colecciones de documentos incluyen los idiomas: español, chino, árabe, inglés, árabe-español con escritura moderna y escritura antigua. Con los resultados de la experimentación se ha demostrado que es posible mejorar la LLT implementando un mapa de energía que incremente las diferencias entre máximos y mínimos locales. Los experimentos de la segunda sección demuestran que es necesario realizar una optimización global de la ruta para segmentar líneas de texto

    Cálculo del índice de complejidad en documentos manuscritos para la segmentación de líneas de texto

    Get PDF
    Hasta el momento el conocimiento almacenado en los manuscritos antiguos no se ha utilizado en su totalidad debido a la falta de métodos robustos en el estado del arte para el reconocimiento de texto manuscrito. La principal dificultad de los métodos para el reconocimiento de texto manuscrito es que se requiere que el texto se encuentre dividido en líneas. Además, los métodos para la Segmentación de Líneas de Texto (SLT) no han sido optimizados para procesar manuscritos antiguos. La primera etapa de la SLT es la Localización de Líneas de Texto (LLT). En la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema de estos métodos es que existen demasiados máximos locales y no es posible identificar cuáles conjuntos de máximos locales representan una línea de texto. La segunda etapa de la SLT es la búsqueda de una ruta que permita separar las líneas de texto vecinas. Por un lado, el problema de los métodos actuales es que en algunos casos se realiza una búsqueda local de la ruta. Por otro lado, los métodos que realizan una búsqueda global de la ruta tienen problemas para encontrar una ruta entre trazos que se sobreponen. Los problemas de las dos etapas conforman un valor de complejidad. La complejidad visual de un documento mansucrito antiguo para ser segmentado puede apreciarse por el humano experto, sin embargo, no existe en el estado del arte un método para calcular la complejidad. En el estado del arte existen técnicas que permiten realizar una separación del cuerpo de letras y el espacio interlineal. Este trabajo se enfoca cuantificar la cantidad de información en el espacio interlineal para establecer un índice de complejidad. El índice de complejidad propuesto calcula la cantidad de información que aportan los trazos horizontales y verticales; además de la cantidad de información que aporta la tinta del documento y los valores del color del material de escritura

    Southeast Asian palm leaf manuscript images - a review of handwritten text line segmentation methods and new challenges

    No full text
    Due to their specific characteristics, palm leaf manuscripts provide new challenges for text line segmentation tasks in document analysis. We investigated the performance of six text line segmentation methods by conducting comparative experimental studies for the collection of palm leaf manuscript images. The image corpus used in this study comes from the sample images of palm leaf manuscripts of three different Southeast Asian scripts: Balinese script from Bali and Sundanese script from West Java, both from Indonesia, and Khmer script from Cambodia. For the experiments, four text line segmentation methods that work on binary images are tested: the adaptive partial projection line segmentation approach, the A* path planning approach, the shredding method, and our proposed energy function for shredding method. Two other methods that can be directly applied on grayscale images are also investigated: the adaptive local connectivity map method and the seam carving based method. The evaluation criteria and tool provided by ICDAR2013 Handwriting Segmentation Contest were used in this experiment

    Across Space and Time. Papers from the 41st Conference on Computer Applications and Quantitative Methods in Archaeology, Perth, 25-28 March 2013

    Get PDF
    This volume presents a selection of the best papers presented at the forty-first annual Conference on Computer Applications and Quantitative Methods in Archaeology. The theme for the conference was "Across Space and Time", and the papers explore a multitude of topics related to that concept, including databases, the semantic Web, geographical information systems, data collection and management, and more

    Line Segmentation for Grayscale Text Images of Khmer Palm Leaf Manuscripts

    No full text
    Text line segmentation is one of the most essential pre-processing steps in character recognition and document analysis. In ancient documents, a variety of deformations caused by aging produce noises which make the binarization process very challenging. Moreover, due to the irregular layout such as skewness and fluctuation of text lines, segmenting an ancient manuscript page into lines still remains an open problem to solve. In this paper, we propose a novel line segmentation scheme for grayscale images of Khmer ancient documents. First, a stroke width transform is applied to extract connected components from the document page. The number and medial positions of text lines are estimated using a modified piece-wise projection profile technique. Those positions are then modified adaptively according to the curvature of the actual text lines. Finally, a path finding approach is used to separate touching components and also to mark the boundary of the text lines. Experiments are conducted on a dataset of 110 pages of Khmer palm leaf manuscript images by comparing the robustness of the proposed approach with existing methods from the literature

    Across Space and Time Papers from the 41st Conference on Computer Applications and Quantitative Methods in Archaeology, Perth, 25-28 March 2013

    Get PDF
    The present volume includes 50 selected peer-reviewed papers presented at the 41st Computer Applications and Quantitative Methods in Archaeology Across Space and Time (CAA2013) conference held in Perth (Western Australia) in March 2013 at the University Club of Western Australia and hosted by the recently established CAA Australia National Chapter. It also hosts a paper presented at the 40th Computer Applications and Quantitative Methods in Archaeology (CAA2012) conference held in Southampton

    Document image analysis and text recognition on Khmer historical manuscripts

    No full text
    Palm leaves have been used as one of the major sources of writing and painting in many Southeast Asian countries. In Cambodia nowadays, palm leaf documents called “Sleuk Rith” in Khmer are still around attributable to their cultural value as well as the precious contents written on them. However, as a consequence of deterioration from natural aging and damage caused by various natural factors, palm leaf manuscripts are facing destruction and are in need for preservation. Many programs and projects are underway to recover and preserve palm leaf documents not only in their physical form but also in digital imaging through scanning and photography. The centralization of the digitized images allows easy access for the public. Nonetheless, searching and filtering the content of those documents using particular keywords are still unmanageable. An automatic recognition system therefore needs to be developed. This dissertation takes part in exploring document image analysis (DIA) researches which put Khmer palm leaf manuscripts into the spotlight. We aim to bring added values by designing tools to analyze, index, and access quickly and efficiently to the text content of palm leaf documents. In order to achieve this objective, different DIA tasks are studied, and novel approaches to solve such tasks are proposed. First, a new corpus of digitized Khmer palm leaf manuscripts has been collected. From this corpus, the first Khmer palm leaf manuscripts dataset called “SleukRith Set” consisting of different types of annotated data has been constructed. Experimental evaluations and comparisons of approaches on various DIA tasks such as binarization, text line segmentation, and isolated character recognition have been conducted on Khmer palm leaf manuscript datasets in addition to datasets of palm leaf manuscripts from Indonesia. Moreover, we propose an efficient line segmentation scheme for grayscale images of Khmer ancient documents which is able to adapt to the curvature of the actual text lines and to produce separating seams using a path finding technique. We also introduce a novel concept of utilizing the annotated information of glyph components in the word image to build a glyph-class map followed by a complete text recognition scheme using encoder-decoder mechanism. A new annotated data called “sub-syllable” which can be used as an efficient data augmentation technique for the text recognition task has been added to SleukRith set.(FSA - Sciences de l'ingénieur) -- UCL, 202
    corecore