5 research outputs found

    An Ontology-Based Information Extraction (OBIE) Framework for Analyzing Initial Public Offering (IPO) Prospectus

    Get PDF
    With the large amounts of information associated with the Initial Public Offering (IPO) process, an intelligent tool is needed for assisting the decision-making activities for both the investors and the underwriters. Even though a large body of related studies exists in extant literature, minimum attention has been devoted to the aspect of understanding hidden semantics within the informative contents of IPO prospectus. In this paper, we present a framework for processing the textual content of IPO prospectus based on an emerging technique named Ontology Based Information Extraction (OBIE). Preliminary results indicates that the framework is capable of meeting the design requirements identified. Moreover, lessons learned during the design and implementation span technical and organizational considerations and can serve as guidance for future research and development in related areas

    Applications of Natural Language Processing in Biodiversity Science

    Get PDF
    Centuries of biological knowledge are contained in the massive body of scientific literature, written for human-readability but too big for any one person to consume. Large-scale mining of information from the literature is necessary if biology is to transform into a data-driven science. A computer can handle the volume but cannot make sense of the language. This paper reviews and discusses the use of natural language processing (NLP) and machine-learning algorithms to extract information from systematic literature. NLP algorithms have been used for decades, but require special development for application in the biological realm due to the special nature of the language. Many tools exist for biological information extraction (cellular processes, taxonomic names, and morphological characters), but none have been applied life wide and most still require testing and development. Progress has been made in developing algorithms for automated annotation of taxonomic text, identification of taxonomic names in text, and extraction of morphological character information from taxonomic descriptions. This manuscript will briefly discuss the key steps in applying information extraction tools to enhance biodiversity science

    Un enfoque semiautomático de extracción de conocimiento sobre biodiversidad a partir de descripciones textuales de especies botánicas

    Get PDF
    Reporte final del proyecto. Código del Proyecto: 5402-1375-4301Este documento describe el estado final del proyecto. Primero se introduce la gran necesidad que se tiene de poder acceder a información textual sobre biodiversidad de una manera más estructurada y semánticamente más significativa. Luego se recapitulan los principales enfoques que han sido usados para enfrentar dicho problema. Se enfatizan los enfoques que se refieren a la estructuración de descripciones morfológicas y de distribuciones geográficas, por ser estas las áreas de interés principal del proyecto. A continuación se presenta en detalle la organización del proyecto y sus tres etapas principales: recolección y transformación de documentos fuentes, estructuración semántica de fragmentos de texto de interés, y finalmente, desarrollo de herramientas para aprovechar la información estructurada. Luego se presentan los resultados obtenidos por el proyecto: resultados y evaluaciones obtenidos en la estructuración semántica de descripciones morfológicas y distribuciones geográficas, así como el estado final de las herramientas desarrolladas para pre procesamiento de los documentos originales y para la consulta de fragmentos de texto estructurados semánticamente. Después de presentar los resultados se hace una comparación entre los diferentes objetivos planteados por el proyecto y los resultados obtenidos. Finalmente se hacen una serie de recomendaciones para que futuros proyectos aprovechen los estudios y herramientas producidos por este proyecto

    Extracción semiautomática de atributos morfológicos de especies a partir de descripciones taxonómicas

    Get PDF
    Proyecto de Graduación (Maestría en Computación con énfasis en Ciencias de la Computación) Instituto Tecnológico de Costa Rica, Escuela de Ingeniería en Computación, 2016Taxonomic literature keeps records of the planet's biodiversity and gives access to the knowledge needed for its sustainable management. Unfortunately, most of the taxonomic information is available in scientific publications in text format. The amount of publications generated is very large; therefore to process it manually is a complex and very expensive activity