8 research outputs found
UAEMex at ImageCLEF 2016: Handwritten Scanned Document Retrieval Task
Abstract. This paper describes the participation of the (UAEMex) at the ImageCLEF 2016 Handwritten Scanned Document Retrieval Task. We propose to use a skip-character text search method based on Longest Common Subsequence. Our system split all characters in query to find all Longest Common Subsequence in one line of text
Overview of the CLEF 2018 personalised information retrieval lab (PIR-CLEF 2018)
At CLEF 2018, the Personalised Information Retrieval Lab
(PIR-CLEF 2018) has been conceived to provide an initiative aimed at
both providing and critically analysing a new approach to the evaluation
of personalization in Information Retrieval (PIR). PIR-CLEF 2018 is the
first edition of this Lab after the successful Pilot lab organised at CLEF
2017. PIR CLEF 2018 has provided registered participants with the data
sets originally developed for the PIR-CLEF 2017 Pilot task; the data collected are related to real search sessions over a subset of the ClueWeb12
collection, undertaken by 10 users by using a novel methodology. The
data were gathered during the search sessions undertaken by 10 volunteer searchers. Activities during these search sessions included relevance
assessment of a retrieved documents by the searchers. 16 groups registered to participate at PIR-CLEF 2018 and were provided with the data
set to allow them to work on PIR related tasks and to provide feedback
about our proposed PIR evaluation methodology with the aim to create
an effective evaluation task
Segmentación de líneas de texto en documentos manuscritos antiguos independiente del lenguaje
Hasta el momento no se ha utilizado todo el conocimiento que hay en los manuscritos antiguos debido a que reconocimiento de texto manuscrito aún no cuenta con métodos robustos para esta tarea. El primer problema de los métodos para el reconocimiento de texto manuscrito es que requieren que el texto se encuentre dividido en líneas. Los métodos actuales para la segmentación de líneas de texto manuscrito no han sido optimizados para trabajar con manuscritos antiguos. La primera etapa de la Segmentación de Líneas de Texto (SLT) manuscrito consiste en la Localización de Líneas de Texto (LLT). Para la SLT se han propuesto métodos que buscan los valores máximos locales en un histograma. El problema para estos métodos es que existen demasiados máximos locales, lo cual no permite localizar las líneas que hay. La segunda etapa de la SLT en manuscritos antiguos consiste en la búsqueda de una ruta que permita separar las líneas de texto, el problema de los métodos actuales es que algunos realizan una búsqueda local de la ruta y los otros métodos buscan la ruta evitando pasar por la mayor cantidad de caracteres. En este trabajo se presenta un sistema compuesto por dos nuevos métodos para la LLT manuscrito y otro método para la Búsqueda de una Ruta que permita Segmentar Líneas de Texto en documentos manuscritos (BRSLT) que supera a los métodos analizados en el estado del arte en las dos etapas. En el primer método propuesto se presenta la extracción de un mapa de energía que incrementa las diferencias entre los máximos y mínimos locales en un histograma. El segundo método propuesto consiste en buscar la mejor ruta para segmentar líneas de texto manuscrito antiguo usando un algoritmo genético. Para evaluar la exactitud de los métodos propuestos se han realizado experimentos con dos colecciones de documentos. Se ha realizado una evaluación independiente de los dos métodos propuesto. Las colecciones de documentos incluyen los idiomas: español, chino, árabe, inglés, árabe-español con escritura moderna y escritura antigua. Con los resultados de la experimentación se ha demostrado que es posible mejorar la LLT implementando un mapa de energía que incremente las diferencias entre máximos y mínimos locales. Los experimentos de la segunda sección demuestran que es necesario realizar una optimización global de la ruta para segmentar líneas de texto
Cálculo del índice de complejidad en documentos manuscritos para la segmentación de líneas de texto
Hasta el momento el conocimiento almacenado en los manuscritos antiguos
no se ha utilizado en su totalidad debido a la falta de métodos robustos en el
estado del arte para el reconocimiento de texto manuscrito.
La principal dificultad de los métodos para el reconocimiento de texto
manuscrito es que se requiere que el texto se encuentre dividido en líneas.
Además, los métodos para la Segmentación de Líneas de Texto (SLT) no han
sido optimizados para procesar manuscritos antiguos.
La primera etapa de la SLT es la Localización de Líneas de Texto (LLT). En la SLT
se han propuesto métodos que buscan los valores máximos locales en un
histograma. El problema de estos métodos es que existen demasiados máximos
locales y no es posible identificar cuáles conjuntos de máximos locales
representan una línea de texto.
La segunda etapa de la SLT es la búsqueda de una ruta que permita separar
las líneas de texto vecinas. Por un lado, el problema de los métodos actuales
es que en algunos casos se realiza una búsqueda local de la ruta. Por otro lado,
los métodos que realizan una búsqueda global de la ruta tienen problemas
para encontrar una ruta entre trazos que se sobreponen.
Los problemas de las dos etapas conforman un valor de complejidad. La
complejidad visual de un documento mansucrito antiguo para ser
segmentado puede apreciarse por el humano experto, sin embargo, no existe
en el estado del arte un método para calcular la complejidad.
En el estado del arte existen técnicas que permiten realizar una separación del
cuerpo de letras y el espacio interlineal. Este trabajo se enfoca cuantificar la
cantidad de información en el espacio interlineal para establecer un índice de
complejidad. El índice de complejidad propuesto calcula la cantidad de
información que aportan los trazos horizontales y verticales; además de la
cantidad de información que aporta la tinta del documento y los valores del
color del material de escritura
Transforming scholarship in the archives through handwritten text recognition:Transkribus as a case study
Purpose: An overview of the current use of handwritten text recognition (HTR) on archival manuscript material, as provided by the EU H2020 funded Transkribus platform. It explains HTR, demonstrates Transkribus, gives examples of use cases, highlights the affect HTR may have on scholarship, and evidences this turning point of the advanced use of digitised heritage content. The paper aims to discuss these issues. - Design/methodology/approach: This paper adopts a case study approach, using the development and delivery of the one openly available HTR platform for manuscript material. - Findings: Transkribus has demonstrated that HTR is now a useable technology that can be employed in conjunction with mass digitisation to generate accurate transcripts of archival material. Use cases are demonstrated, and a cooperative model is suggested as a way to ensure sustainability and scaling of the platform. However, funding and resourcing issues are identified. - Research limitations/implications: The paper presents results from projects: further user studies could be undertaken involving interviews, surveys, etc. - Practical implications: Only HTR provided via Transkribus is covered: however, this is the only publicly available platform for HTR on individual collections of historical documents at time of writing and it represents the current state-of-the-art in this field. - Social implications: The increased access to information contained within historical texts has the potential to be transformational for both institutions and individuals. - Originality/value: This is the first published overview of how HTR is used by a wide archival studies community, reporting and showcasing current application of handwriting technology in the cultural heritage sector
Neural text line extraction in historical documents: a two-stage clustering approach
Accessibility of the valuable cultural heritage which is hidden in countless scanned historical documents is the motivation for the presented dissertation. The developed (fully automatic) text line extraction methodology combines state-of-the-art machine learning techniques and modern image processing methods. It demonstrates its quality by outperforming several other approaches on a couple of benchmarking datasets. The method is already being used by a wide audience of researchers from different disciplines and thus contributes its (small) part to the aforementioned goal.Das Erschließen des unermesslichen Wissens, welches in unzähligen gescannten historischen Dokumenten verborgen liegt, bildet die Motivation für die vorgelegte Dissertation. Durch das Verknüpfen moderner Verfahren des maschinellen Lernens und der klassischen Bildverarbeitung wird in dieser Arbeit ein vollautomatisches Verfahren zur Extraktion von Textzeilen aus historischen Dokumenten entwickelt. Die Qualität wird auf verschiedensten Datensätzen im Vergleich zu anderen Ansätzen nachgewiesen. Das Verfahren wird bereits durch eine Vielzahl von Forschern verschiedenster Disziplinen genutzt
Towards Multi-Level Classification in Deep Plant Identification
Tesis de Graduación (Doctorado académico en Ingeniería) Instituto Tecnológico de Costa Rica, 2018.In the last decade, automatic identification of organisms based on computer vision techniques
has been a hot topic for both biodiversity scientists and machine learning specialists. Early
on, plants became particularly attractive as a subject of study for two main reasons. On the
one hand, quick and accurate inventories of plants are critical for biodiversity conservation;
for example, they are indispensable in conducting ecosystem inventories, defining models for
environmental service payments, and tracking populations of invasive plant species, among
others. On the other hand, plants are a more tractable group than, for instance, insects. First
of all, the number of species is smaller (around 400,000 compared to more than 8 million).
Secondly, they are better understood by the scientific community, particularly with respect
to their morphometric features. Thirdly, there are large, fast growing databases of digital
images of plants generated by both scientists and the general public. Finally, an incremental
approach based first on "flat elements" such as leaves and then the whole plant made it
feasible to use computer vision techniques early on. As a result, even mobile apps for the
general public are available nowadays.
This document presents the key results obtained while tackling the general problem of fully
automating the identification of plant species based solely on images. It describes the key
findings in a research path that started with a restricted scope, namely, identification of plants
from Costa Rica by using a morphometric approach that considers images of fresh leaves
only. Then, species from other regions of the world were included, but still using hand-crafted
feature extractors. A key methodological turn was the subsequent use of Deep Learning
techniques on images of any components of a plant. Then we studied and compared the
accuracy of a Deep Learning approach to do identifications based on datasets of images
of fresh plants and compared it with datasets of herbarium sheet images for the first time.
Among the results obtained during this research, potential biases in automatic plant identification
dataset were found and characterized. Feasibility of doing transfer learning between
different regions of the world was also proven. Even more importantly, it was for the first
time demonstrated that herbarium sheets are a good resource to do identifications of plants
mounted on herbarium sheets, which provides additional levels of importance to herbaria
around the globe. Finally, as a culmination of this research path, this document presents the
results of developing a novel multi-level classification approach that uses knowledge about
higher taxonomic levels to carry out not only family and genus level identifications but also
to try to improve the accuracy of species level identifications. This last step focuses on the
creation of a hierarchical loss function based on known plant taxonomies, coupled with multilevel
Deep Learning architectures to guide the model optimization with the prior knowledge
of a given class hierarchy.En la última década, la identificación automática de organismos basada en técnicas de visión
artificial ha sido un tema popular tanto entre los científicos de la biodiversidad como para los
especialistas en aprendizaje automático. Al principio, las plantas se volvieron particularmente atractivas como tema de estudio por dos razones principales. Por un lado, los inventarios rápidos y precisos de plantas son críticos para la conservación de la biodiversidad;
por ejemplo, son indispensables para realizar inventarios de ecosistemas, definir modelos
para pagos de servicios ambientales y rastrear poblaciones de especies de plantas invasoras, entre otros. Por otro lado, las plantas son un grupo más manejable que, por ejemplo,
los insectos. En primer lugar, la cantidad de especies es menor (alrededor de 400,000 en
comparación con más de 8 millones de insectos). En segundo lugar, la comunidad científica
las comprende mejor, en particular con respecto a sus características morfométricas. En
tercer lugar, existen grandes bases de datos de imágenes digitales de plantas generadas
tanto por científicos como por el público en general. Finalmente, un enfoque incremental
basado primero en "elementos planos" como hojas y luego en toda la planta hizo posible el
uso de técnicas de visión por computadora desde el principio. Como resultado, incluso las
aplicaciones móviles para el público en general están disponibles en la actualidad.
Este documento presenta los resultados clave obtenidos mientras se aborda el problema
general de automatizar por completo la identificación de especies de plantas basándose
únicamente en imágenes. Describe los hallazgos clave en un camino de investigación que
comenzó con un alcance restringido, a saber, la identificación de plantas de Costa Rica
mediante el uso de un enfoque morfométrico que considera imágenes de hojas frescas solamente. Luego, se incluyeron especies de otras regiones del mundo, pero todavía se utilizaban extractores de características hechos a mano. Un giro metodológico clave fue el
uso posterior de técnicas de aprendizaje profundo (deep learning) en imágenes de cualquier
componente de una planta. Luego, estudiamos y comparamos la exactitud de un enfoque
de aprendizaje profundo para realizar identificaciones basadas en conjuntos de datos de
imágenes de plantas frescas y las comparamos con conjuntos de datos de imágenes de hojas de herbario por primera vez. Entre los resultados obtenidos durante esta investigación,
se encontraron y caracterizaron posibles sesgos en el conjunto de datos de identificación
automática de plantas. La viabilidad de hacer un aprendizaje de transferencia (transfer
learning) entre diferentes regiones del mundo también se demostró. Aún más importante,
por primera vez se demostró que las láminas de herbario son un buen recurso para hacer
identificaciones de plantas montadas sobre láminas de herbario, lo que proporciona niveles
adicionales de importancia para herbarios en todo el mundo. Finalmente, como una culminación de este camino de investigación, este documento presenta los resultados del desarrollo de un nuevo enfoque de clasificación multi-nivel (multi-level) que utiliza el conocimiento sobre niveles taxonómicos superiores para llevar a cabo identificaciones a nivel de familia y
género, y también para tratar de mejorar la exactitud de identificaciones a nivel de especie.
Este último paso se centra en la creación de una función de pérdida jerárquica basada en
taxonomías de plantas conocidas, junto con arquitecturas de aprendizaje profundo de niveles
múltiples para guiar la optimización del modelo con el conocimiento previo de una jerarquía
de clases dada
Deep Learning in Medical Image Analysis
The accelerating power of deep learning in diagnosing diseases will empower physicians and speed up decision making in clinical environments. Applications of modern medical instruments and digitalization of medical care have generated enormous amounts of medical images in recent years. In this big data arena, new deep learning methods and computational models for efficient data processing, analysis, and modeling of the generated data are crucially important for clinical applications and understanding the underlying biological process. This book presents and highlights novel algorithms, architectures, techniques, and applications of deep learning for medical image analysis