3 research outputs found

    Análise de layout de página em jornais históricos germano-brasileiros

    Get PDF
    Orientador: Daniel WeingaertnerDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 30/08/2019Inclui referências: p. 71-75Área de concentração: Ciência da ComputaçãoResumo: Projetos de digitalizacao em massa tem surgido em todo mundo. No Brasil, um dos exemplos e a iniciativa Dokumente.br que preocupa-se em disponibilizar acervos brasileiros em lingua alema. Parte de seu acervo e composto por jornais historicos escritos com a fonte gotica Fraktur e precisam ter seus caracteres reconhecidos opticamente. Um bom desempenho nesta tarefa esta relacionado ao sucesso da etapa anterior do workflow de OCR, a analise de layout. As ferramentas OCR open source existentes nao conseguem atingir bons resultados de analise de layout neste tipo de material. Com o objetivo de corrigir esta lacuna, propomos duas abordagens para a analise de layout dos jornais da iniciativa Dokumente.br: a primeira delas, que chamamos de GBN-MHS, e uma implementacao do algoritmo "MHS 2017 System" proposto por Tran et al. (2017). A segunda abordagem e baseada em deep learning e a nomeamos de GBN-DL. Para avaliar o desempenho dos nossos metodos criamos o German-Brazilian Newspaper Dataset (GBN 1.0) e ja preparamos seu ground truth para analise de layout e tambem para OCR. Comparamos os resultados obtidos pelo analisador de layout do software Tesseract no dataset proposto e os resultados obtidos pelos metodos GBN-MHS e GBN-DL. Criamos dois cenarios de avaliacao: um composto por jornais que foram representados no conjunto de treinamento (Cenario 1) e outro com paginas de jornais que nao foram representados no conjunto de treinamento (Cenario 2). GBN-MHS e GBN-DL atingiram melhores resultados que Tesseract nos dois cenarios avaliados. No Cenario 1, GBN-DL conseguiu 92,81% de acuracia, GBN-MHS obteve 88,12% e Tesseract atingiu apenas 71,83%. No Cenario 2, GBN-DL atingiu 96,96%, GBN-MHS conseguiu 95,16% e Tesseract obteve 88,15% de acuracia. Os bons resultados atingidos pelos metodos propostos demonstram o potencial das nossas abordagens e o experimento tambem comprova como as ferramentas OCR open source existentes nao estao totalmente preparadas para trabalhar com documentos historicos. Palavras-chave: digitalizacao de jornais. sistemas OCR. analise de layout de pagina. segmentacao de paginas de jornais. OCR. OCR em Fraktur. Tesseract. OCRopy.Abstract: Mass digitization projects have emerged around the world. In Brazil, one example is the Dokumente.br initiative that aims at providing Brazilian collections in the German language. Part of its collection consists of historical newspapers written in the Gothic font Fraktur which need to have their characters recognized optically. A good performance in this task is related to the success of the previous OCR workflow step, the page layout analysis. The available open source OCR tools are not able to achieve good layout analysis results in this type of material. In order to correct this gap, two approaches to the layout analysis of the newspapers from the Dokumente.br initiative were proposed in this work: the first of these, which we call GBN-MHS, is an implementation of the "MHS 2017 System" algorithm proposed by Tran et al. (2017). The second proposal is based on deep learning and we call it GBN-DL. To evaluate the performance of the proposed methods we created the German-Brazilian Newspaper Dataset (GBN 1.0) and have already prepared its ground truth for layout analysis and also for OCR. We compared the results obtained by the layout analyzer from software Tesseract in the proposed dataset and the results obtained by the GBN-MHS and GBN-DL methods. We created two evaluation scenarios: one of them consists of newspapers that were represented in the training dataset (Scenario 1) and the other consists of newspaper pages that were not represented in the training dataset (Scenario 2). GBN-MHS and GBN-DL achieved better results than Tesseract in the two scenarios evaluated. In Scenario 1, GBN-DL achieved 92.81% in accuracy, GBN-MHS achieved 88.12% and Tesseract only 71.83%. In Scenario 2, GBN-DL reached 96.96%, GBN-MHS reached 95.16 % and Tesseract achieved 88.15 % in accuracy. The good results achieved by the proposed methods demonstrate the potential of our approaches, and the experiments also evidence that available open source OCR tools are not fully prepared to work with historical documents. Keywords: digitalization of newspapers. OCR systems. page layout analysis. page segmentation of newspapers. OCR. Fraktur OCR. Tesseract. OCRopy

    Abordagens livres de segmentação para reconhecimento automático de cadeias numéricas manuscritas utilizando aprendizado profundo

    Get PDF
    Orientador: Prof Dr. Luiz Eduardo Soares de OliveiraCoorientador: Prof. Dr. Robert SabourinTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Tecnologia. Defesa : Curitiba, 12/03/2019Inclui referências: p.83-90Resumo: Nas ultimas decadas, o reconhecimento de cadeias numericas manuscritas tem sido abordado de maneira similar por varios autores, no que se refere ao tratamento de digitos conectados. A necessidade de segmentar esses componentes e um consenso. Dessa forma, as propostas se concentram em determinar os pontos de segmentacao aplicando heuristicas sobre caracteristicas extraidas do objeto, plano de fundo, contorno, entre outras. No entanto, a producao de digitos fragmentados, ocasionando a sobre-segmentacao da cadeia, e um problema comum entre essas abordagem. Assim, as metologias sao categorizadas pela forma como manipulam os componentes resultantes desse processo: (a) Naquelas que produzem apenas uma segmentacao possivel, ou (b) naquelas que definem um conjunto de hipoteses de segmentacao, alem de um metodo de fusao para determinar a hipotese mais provavel. Apesar da segunda categoria apresentar taxas de reconhecimento mais elevadas, o custo computacional torna-se um aspecto desfavoravel, devido as recorrentes consultas ao classificador pelas inumeras hipoteses produzidas. Alem disso, a variabilidade dos tipos de conexao entre os digitos e a falta de contexto, como a informacao sobre a quantidade de digitos, denotam a limitacao de abordagens baseadas em processos heuristicos. Visando evitar estes problemas, evidenciamos ser possivel superar os metodos tradicionais implementando modelos baseados em aprendizado profundo para classificar digitos conectados diretamente, reduzindo a etapa de segmentacao a um processo de deteccao de componente conexo. Alem disso, aproveitando os avancos na area de deteccao de objetos, apresentamos uma nova abordagem para o problema, na qual, digitos passam a ser compreendidos como objetos em uma imagem e neste cenario, uma sequencia de digitos e uma sequencia de objetos. Para validar nossas hipoteses, experimentos realizados em bases de conhecimento geral avaliaram nossas propostas com os trabalhos presentes na literatura em termos de reconhecimento, correta segmentacao e custo computacional. Os resultados atingiram taxas de reconhecimento em torno 97% quando aplicado a uma base de duplas de digitos conectados e 95% para as amostras de cadeias da base NIST SD19, superando os niveis do estado da arte. Alem das altas taxas de reconhecimento, tambem houve significativa reducao de consultas ao classificador (custo computacional), principalmente em casos complexos, superando o desempenho dos trabalhos presentes no estado da arte, denotando o potencial das abordagens propostas.Abstract: Over the last decades, the recognition of handwritten digit strings has been approached in a similar way by several authors, regarding the connected digits issue. The segmentation of these components is a consensus. In this way, the approaches attempt to determining the segmentation points by applying heuristics on features extracted from the object, background, contour, etc. However, the production of fragmented digits, causing the over-segmentation of the string is a common problem among these approaches. Thus, the methodologies are categorized by the way they manipulate the components resulting from this process: (a) those ones that produce only a possible segmentation, or (b) those ones that define a set of segmentation hypotheses and a fusion method to determine the best hypothesis. Although the second category has higher recognition rates, the computational cost becomes an unfavorable aspect, due to the recurrent classifier calls to classify the hypotheses produced. Therefore, the variability of the connection types and the lack of context, such as the number of digits present in the string, denote the limitation of approaches based on heuristic processes. In order to avoid these problems, we believe that is possible to overcome traditional methods by implementing models based on deep learning to classify connected digits directly, reducing the segmentation step to a connected component detection process. In addition, taking advantage of advances of object detection field, we propose a new approach to the problem, in which, digits are understood as objects in an image and in this scenario, a sequence of digits is a sequence of objects. To validate our hypotheses, experiments were carried out in well-known datasets, evaluating our proposals against state-of-art in terms of recognition, correct segmentation and computational cost. The results achieved recognition rates of 97% when applied to a base of connected digit pairs, and 95% for the NIST SD19 samples, surpassing state-of-art levels. Besides the high recognition rates, it has a significant reduction in terms of classifier calls (computational cost), especially in complex cases, surpassing the performance of the works present in the state of the art, denoting the potential of the proposed approaches
    corecore