1 research outputs found

    Obtener un m茅todo para la extracci贸n de informaci贸n a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, permitiendo su publicaci贸n, reutilizaci贸n e intercambio a trav茅s de la web sem谩ntica

    Get PDF
    Actualmente en el Servicio Nacional de Aprendizaje SENA, existen gran cantidad de archivos, los cuales contienen informaci贸n textual de manera semiestructurada, lo cual dificulta realizar consultas SQL complejas sobre la informaci贸n all铆 contenida, impidiendo que esta informaci贸n pueda ser utilizada de manera activa al interior de la Entidad. Aunque actualmente la entidad posee un avanzado gestor documental, el cual se encarga de gestionar, almacenar e indexar los documentos producidos por procesos realizados al interior de la entidad, la informaci贸n que se puede extraer de los mismos es bastante limitada, obligando en muchas ocasiones a abrir el documento para poder observar con mayor detalle el contenido en su interior. Adem谩s la indexaci贸n de estos documentos, en la mayor铆a de los casos se realiza 100% manual, lo que expone a la entidad a errores humanos debidos a los altos vol煤menes de documentos generados, as铆 como a las m煤ltiples fuentes que los generan; Esto impide que la informaci贸n hist贸rica contenida en estos documentos sea utilizada eficazmente como soporte en la toma de decisiones de la entidad. Para dar una alternativa de solucion a este problema es necesario construir una base de conocimiento siguiendo la estructura y los lineamientos de datos enlazados, que permitan que esta informaci贸n relevante pueda ser publicada, consultada y usada como insumo vital en la toma de decisiones al interior de la entidad. Para esto durante el desarrollo de este trabajo se pretende obtener un m茅todo para la extracci贸n de informaci贸n a partir de documentos semiestructurados producidos al interior del Servicio Nacional de Aprendizaje SENA, Este m茅todo ser谩 plasmado en un prototipo que permitir谩 extraer la informaci贸n necesaria mediante cuatro fases que abarcan desde la Extracci贸n de Informaci贸n hasta la fase de Persistencia de conocimiento, de manera que sea posible inferir la informaci贸n requerida.Abstract. Now in the Servicio Nacional de Aprendizaje SENA, there are lots of files, which contain textual semi-structured information, making it difficult to perform complex SQL queries about the information contained therein, preventing this information can be actively used inside SENA. Although the company now has an advanced document management system, which is responsible for managing, storing and indexing the documents produced by processes performed inside SENA, the information can be extracted from them is very limited, forcing many times to open the document to observe in detail the contents inside. Moreover indexing of these documents, in most cases 100% manually, which exposes the entity to human error due to high volumes of documents generated, as well as multiple sources that generate performed, this prevents the historical information contained in these documents to be used effectively as a support in the decision making in the organization. To give an alternative solution to this problem is necessary to build a knowledge base following the structure and guidelines linked data, which allow this relevant information can be posted, accessed and used as vital input in decision making inside the entity. For this during the development of this work it is to obtain a method for extracting information from semi-structured documents produced inside SENA, This method is embodied in a prototype which will extract the necessary information through four stages ranging from extraction to the phase information persistence of knowledge, so that it is possible to infer the required informationMaestr铆
    corecore