8,689 research outputs found
Mining Images in Biomedical Publications: Detection and Analysis of Gel Diagrams
Authors of biomedical publications use gel images to report experimental
results such as protein-protein interactions or protein expressions under
different conditions. Gel images offer a concise way to communicate such
findings, not all of which need to be explicitly discussed in the article text.
This fact together with the abundance of gel images and their shared common
patterns makes them prime candidates for automated image mining and parsing. We
introduce an approach for the detection of gel images, and present a workflow
to analyze them. We are able to detect gel segments and panels at high
accuracy, and present preliminary results for the identification of gene names
in these images. While we cannot provide a complete solution at this point, we
present evidence that this kind of image mining is feasible.Comment: arXiv admin note: substantial text overlap with arXiv:1209.148
A Framework For Refining Text Classification and Object Recognition from Academic Articles
With the widespread use of the internet, it has become increasingly crucial
to extract specific information from vast amounts of academic articles
efficiently. Data mining techniques are generally employed to solve this issue.
However, data mining for academic articles is challenging since it requires
automatically extracting specific patterns in complex and unstructured layout
documents. Current data mining methods for academic articles employ
rule-based(RB) or machine learning(ML) approaches. However, using rule-based
methods incurs a high coding cost for complex typesetting articles. On the
other hand, simply using machine learning methods requires annotation work for
complex content types within the paper, which can be costly. Furthermore, only
using machine learning can lead to cases where patterns easily recognized by
rule-based methods are mistakenly extracted. To overcome these issues, from the
perspective of analyzing the standard layout and typesetting used in the
specified publication, we emphasize implementing specific methods for specific
characteristics in academic articles. We have developed a novel Text Block
Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid.
We used the well-known ACL proceeding articles as experimental data for the
validation experiment. The experiment shows that our approach achieved over 95%
classification accuracy and 90% detection accuracy for tables and figures.Comment: This paper has been accepted at 'The International Symposium on
Innovations in Intelligent Systems and Applications 2023 (INISTA 2023)
Automated scholarly paper review: Technologies and challenges
Peer review is a widely accepted mechanism for research evaluation, playing a
pivotal role in scholarly publishing. However, criticisms have long been
leveled on this mechanism, mostly because of its inefficiency and subjectivity.
Recent years have seen the application of artificial intelligence (AI) in
assisting the peer review process. Nonetheless, with the involvement of humans,
such limitations remain inevitable. In this review paper, we propose the
concept and pipeline of automated scholarly paper review (ASPR) and review the
relevant literature and technologies of achieving a full-scale computerized
review process. On the basis of the review and discussion, we conclude that
there is already corresponding research and implementation at each stage of
ASPR. We further look into the challenges in ASPR with the existing
technologies. The major difficulties lie in imperfect document parsing and
representation, inadequate data, defective human-computer interaction and
flawed deep logical reasoning. Moreover, we discuss the possible moral &
ethical issues and point out the future directions of ASPR. In the foreseeable
future, ASPR and peer review will coexist in a reinforcing manner before ASPR
is able to fully undertake the reviewing workload from humans
Management of Scientific Images: An approach to the extraction, annotation and retrieval of figures in the field of High Energy Physics
El entorno de la información en la primera década del siglo XXI no tiene precedentes. Las barreras fÃsicas que han limitado el acceso al conocimiento están desapareciendo a medida que los métodos tradicionales de acceso a información se reemplazan o se mejoran gracias al uso de sistemas basados en computador. Los sistemas digitales son capaces de gestionar colecciones mucho más grandes de documentos, confrontando a los usuarios de información con la avalancha de documentos asociados a su tópico de interés. Esta nueva situación ha creado un incentivo para el desarrollo de técnicas de minerÃa de datos y la creación de motores de búsqueda más eficientes y capaces de limitar los resultados de búsqueda a un subconjunto reducido de los más relevantes. Sin embargo, la mayorÃa de los motores de búsqueda en la actualidad trabajan con descripciones textuales. Estas descripciones se pueden extraer o bien del contenido o a través de fuentes externas. La recuperación basada en el contenido no textual de documentos es un tema de investigación continua. En particular, la recuperación de imágenes y el desentrañar la información contenida en ellas están suscitando un gran interés en la comunidad cientÃfica. Las bibliotecas digitales se sitúan en una posición especial dentro de los sistemas que facilitan el acceso al conocimiento. Actúan como repositorios de documentos que comparten algunas caracterÃsticas comunes (por ejemplo, pertenecer a la misma área de conocimiento o ser publicados por la misma institución) y como tales contienen documentos considerados de interés para un grupo particular de usuarios. Además, facilitan funcionalidades de recuperación sobre las colecciones gestionadas. Normalmente, las publicaciones cientÃficas son las unidades más pequeñas gestionadas por las bibliotecas digitales cientÃficas. Sin embargo, en el proceso de creación cientÃfica hay diferentes tipos de artefactos, entre otros: figuras y conjuntos de datos. Las figuras juegan un papel particularmente importante en el proceso de publicación cientÃfica. Representan los datos en una forma gráfica que nos permite mostrar patrones sobre grandes conjuntos de datos y transmitir ideas complejas de un modo fácilmente entendible. Los sistemas existentes para bibliotecas digitales facilitan el acceso a figuras, pero solo como parte de los ficheros sobre los que se serializa la publicación entera. El objetivo de esta tesis es proponer un conjunto de métodos ytécnicas que permitan transformar las figuras en productos de primera clase dentro del proceso de publicación cientÃfica, permitiendo que los investigadores puedan obtener el máximo beneficio a la hora de realizar búsquedas y revisiones de bibliografÃa existente. Los métodos y técnicas propuestos están orientados a facilitar la adquisición, anotación semántica y búsqueda de figuras contenidas en publicaciones cientÃficas. Para demostrar la completitud de la investigación se han ilustrado las teorÃas propuestas mediante ejemplos en el campo de la FÃsica de PartÃculas (también conocido como FÃsica de Altas EnergÃas). Para aquellos casos en los que se han necesitadoo en las figuras que aparecen con más frecuencia en las publicaciones de FÃsica de PartÃculas: los gráficos cientÃficos denominados en inglés con el término plots. Los prototipos que propuestas más detalladas han desarrollado para esta tesis se han integrado parcialmente dentro del software Invenio (1) para bibliotecas digitales, asà como dentro de INSPIRE, una de las mayores bibliotecas digitales en FÃsica de PartÃculas mantenida gracias a la colaboración de grandes laboratorios y centros de investigación como son el CERN, SLAC, DESY y Fermilab. 1). http://invenio-software.org
NSOAMT -- New Search Only Approach to Machine Translation
Translation automation mechanisms and tools have been developed for several
years to bring people who speak different languages together. A "new search
only approach to machine translation" was adopted to tackle some of the
slowness and inaccuracy of the other technologies. The idea is to develop a
solution that, by indexing an incremental set of words that combine a certain
semantic meaning, makes it possible to create a process of correspondence
between their native language record and the language of translation. This
research principle assumes that the vocabulary used in a given type of
publication/document is relatively limited in terms of language style and word
diversity, which enhances the greater effect of instantaneously and rigor in
the translation process through the indexing process. A volume of electronic
text documents where processed and loaded into a database, and analyzed and
measured in order confirm the previous premise. Although the observed and
projected metric values did not give encouraging results, it was possible to
develop and make available a translation tool using this approach.Comment: 17 pages, 13 figures, 12 table
- …