31,519 research outputs found

    Algoritmos de aprendizaje automático no supervisado para la extracción de palabras clave en trabajos de investigación de pregrado

    Get PDF
    La información que administra la Universidad Nacional del Altiplano de Puno, en los últimos años se ha visto incrementada sobre todo trabajos de investigación realizados por estudiantes y egresados de pregrado, para los que se usan técnicas empíricas para la selección de palabras clave, existiendo a la fecha métodos técnicos que ayuden en este proceso, en tanto el uso de tecnologías de información y comunicación han tomado relevancia e importancia en la administración y seguimiento de trabajos de investigación como la Plataforma de Investigación Integrada a la Labor Académica con Responsabilidad (PILAR), donde registra información de los proyectos de investigación como (Título, Resumen, Palabras Clave), en sus diferentes modalidades. En el presente trabajo de investigación se ha analizado 7430 registros de proyectos de investigación, a los cuales se realizaron predicciones con cada uno de los 09 modelos de aprendizaje automático no supervisado implementados. Los resultados nos muestran que el modelo TF-IDF, es el más eficiente en tiempo y en precisión de extracción de palabras clave, obteniendo un 72 % de precisión y en un tiempo de extracción entre [0.4786 ,SD 0.0501], por cada documento procesado por este modelo.Tesi

    Desarrollo de una herramienta que permita la extracción de una taxonomía de un conjunto de documentos de un dominio específico usando CFinder para la extracción de conceptos clave

    Get PDF
    Gracias a la World Wide Web la idea de información compartida alrededor del mundo es común para todos, la información es ingresada desde diferentes fuentes para que todos puedan verla y usarla. Una Smart Web o Semantic Web tiene como objetivo estructurar los contenidos de forma tal que todo esté relacionado y por lo tanto, presente información consistente. Para ello, se requieren de estructuras que puedan ser accesadas por computadoras y contengan reglas de inferencia para un razonamiento automático. Una de estas estructuras es la ontología. Una ontología busca conceptualizar el conocimiento de un dominio específico valiéndose de representaciones. Como primer paso para construir una ontología, se debe obtener una taxonomía. Una taxonomía es una clasificación de entidades de información a manera de jerarquías. Las taxonomías ofrecen diversas ventajas como clasificar de la información, realizar búsquedas de manera más eficaz y navegar entre muchos conceptos, sin embargo, requieren mucho esfuerzo para ser construidas a mano. Para poder construir una taxonomía en base a un grupo de documentos, primero se debe extraer los conceptos más relevantes presentes en dichos textos. Luego, se debe deducir la jerarquía se convertirá en la taxonomía. Para extraer los conceptos más relevantes de un grupo de documentos, el método CFinder ha probado ser muy útil y dar buenos resultados. El objetivo del CFinder es que sea usado para la construcción de ontologías u otro tipo de estructura que requiera una fase de extracción de conceptos clave. No obstante, no se ha integrado con un método que permita estructurar la jerarquía entre los conceptos extraídos. En este proyecto se busca complementar el método CFinder con una fase para la deducción de jerarquías entre los conceptos extraídos y la construcción de una taxonomía, de esta manera, se está brindando una nueva opción para la construcción automática de taxonomías. Para ello, se realiza la implementación de una herramienta para la construcción automática de una taxonomía de un dominio que haga uso del método CFinder. El proyecto inicia con la implementación de un módulo que permite la extracción de conceptos clave de un conjunto de documentos usando el método CFinder. Luego, se procede a implementar un módulo que permita extraer una taxonomía usando los conceptos clave extraídos. Finalmente, se realizan las pruebas necesarias para medir la eficacia del método implementado y, con los resultados obtenidos, se concluye que se alcanzó el objetivo principal del proyecto.Tesi

    Hipervinculación de documentos con Máquinas de Soporte Vectorial

    Get PDF
    En la actualidad el acceso a la información se da por medio de hipervínculos, los cuales interconectan los textos entre si únicamente si contienen una relación. Varios investigadores han estudiado la forma en que los humanos crean los hipervínculos y han tratado de replicar el modo de trabajo específicamente de la colección de Wikipedia. El uso de hipervínculos se ha pensado como un prometedor recurso para la recuperación de información, que fue inspirado por el análisis de citas de la literatura (Merlino-Santesteban, 2003). Según Dreyfus (Dreyfus, 2003) la hipervinculación no tiene ningún criterio específico, ni tampoco jerarquías. Por ello cuando todo puede vincularse indiscriminadamente y sin obedecer un propósito o significado en particular, el tamaño de la red y la arbitrariedad entre sus hipervínculos, hacen extremadamente difícil para un usuario encontrar exactamente el tipo de información que busca. En las organizaciones, la familiaridad y la confianza durante mucho tiempo han sido identificadas como las dimensiones de credibilidad de la fuente de información en publicidad (Eric Haley, 1996). Un hipervínculo, como una forma de información, puede, por lo tanto, tener un mayor impacto cuando se presenta por un objetivo conocido (Stewart & Zhang, 2003). Mientras tanto, los hipervínculos entre los sitios web pueden generan confianza en el remitente y el receptor del enlace, por lo que estas interacciones tienen efectos positivos de reputación para el destinatario (Stewart, 2006) (Lee, Lee, & Hwang, 2014). El estudio de documentos por medio de los hipervínculos es un área importante de investigación en minería de datos, en una red social a menudo lleva una gran cantidad de información estructural formada por los hipervínculos creando nodos compartidos dentro de la comunidad. Algunas importantes aplicaciones de los métodos de minería de datos para redes sociales son la recomendación social mediante las experiencias similares de los usuarios (Alhajj & Rokne, 2014). En marketing y publicidad se aprovechan las cascadas en las redes sociales y se obtienen beneficios sobre modelos de propagación de la información (Domingos & Richardson, 2001). Las empresas de publicidad están interesados en cuantificar el valor de un solo nodo en la red, tomando en cuenta que sus acciones pueden desencadenar cascadas a sus nodos vecinos. Los resultados de (Allan, 1997) (Bellot et al., 2013) (Agosti, Crestani, & Melucci, 1997) (Blustein, Webber, & Tague-Sutcliffe, 1997) sugieren que el descubrimiento de hipervínculos automatizado no es un problema resuelto y que cualquier evaluación de los sistemas de descubrimiento de Hipervínculos de Wikipedia debe basarse en la evaluación manual, no en los hipervínculos existentes

    Análisis semántico del lenguaje natural para expresiones geotemporales

    Get PDF
    En el contexto de bibliotecas y cartotecas digitales, los recursos son generalmente descritos en registros de metadatos que definen su objeto, ubicación, período de tiempo, formato y palabras clave. En lo que se refiere a ubicación y periodos de tiempo, los registros son generalmente insuficientes o proporcionan la información de una forma que no es comprensible por los sistemas informáticos (descripciones textuales). Este artículo presenta técnicas para la extracción de información geotemporal de colecciones de texto, utilizando técnicas básicas de minería de datos apoyadas en servicios de Gazetteer. El objetivo es partir de referencias textuales geotemporales descritas por humanos, identificar las entidades geográficas y temporales y expresarlas en un lenguaje comprensible y procesable por un sistema informático. Un prototipo es desarrollado para poner a prueba los conceptos presentados. Resultados experimentales demuestran la eficiencia y la exactitud de los enfoques propuestos

    Etiquetado asistido de documentos de investigación mediante procesamiento de lenguaje natural y tecnologías de la web semántica

    Get PDF
    El presente artículo se basa en la implementación del procesamiento de lenguaje natural (PLN) y las tecnologías de la web semántica, con la intención de facilitar la extracción de palabras claves en documentos de investigación de forma más eficiente y eficaz. Para tal fin, por medio de una matriz de comparación se seleccionó un algoritmo para realizar el proceso de extracción. Se eligió el algoritmo Keyword Extraction Based On Entropy Difference (C#) realizado por Zhen YANG, Jianjun LEI, Kefeng FAN y Yingxu LAI. Este algoritmo fue desarrollado para procesarlos documentos en idioma chino, por lo que fue requerida una adaptación al idioma inglés y español anexando los vocabularios de correspondientes a estos idiomas configurando el código fuente del algoritmo. Adicionalmente se adaptó el algoritmo para que usase una ontología con la terminología propia del dominio de conocimiento de ingenierías. El algoritmo fue evaluado por medio de ejemplos de artículos científicos, obteniendo métricas de recuperación de la información, como son la precisión, exhaustividad y el valor F. Se obtuvo como resultado un valor F promedio 0.63 para una muestra de 13 artículos científicos, lo que valida el algoritmo como óptimo para la tarea propuesta

    Análisis de decisiones en la selección de proveedores de tecnologías de la información: una revisión sistemática

    Get PDF
    En este artículo se aplica un protocolo de revisión sistemática de Ingeniería de Software para la decisión en la selección de proveedores de Tecnologías de la Información (TI). El objetivo es la búsqueda de documentos relacionados con la toma de decisión en la selección de proveedores de TI. Además, la revisión sistemática se centra en identificar las iniciativas y los informes de la toma de decisión en la selección de proveedores de TI. Los resultados obtenidos demuestran que existe una necesidad de más estudios y definen 16 criterios de evaluación para utilizarse en la selección de proveedores de TI

    A review of the extractive text summarization

    Get PDF
    Research in the area of automatic text summarization has intensifed in recent years due to the large amount of information available in electronic documents. This article present the most relevant methods for automatic text extractive summarization that have been developed both for a single document and multiple documents, with special emphasis on methods based on algebraic reduction, clustering and evolutionary models, of which there is great amount of research in recent years, since they are language-independent and unsupervised methods.Las investigaciones en el área de generación automática de resúmenes de textos se han intensifcado en los últimos años debido a la gran cantidad de información disponible en documentos electrónicos. Este artículo presenta los métodos más relevantes de generación automática de resúmenes extractivos que se han desarrollado tanto para un solo documento como para múltiples documentos, haciendo especial énfasis en los métodos basados en reducción algebraica, en agrupamiento y en modelos evolutivos, de los cuales existe gran cantidad de investigaciones en los últimos años, dado que son métodos independientes del lenguaje y no supervisados. &nbsp

    A review of the extractive text summarization

    Get PDF
    Research in the area of automatic text summarization has intensifed in recent years due to the large amount of information available in electronic documents. This article present the most relevant methods for automatic text extractive summarization that have been developed both for a single document and multiple documents, with special emphasis on methods based on algebraic reduction, clustering and evolutionary models, of which there is great amount of research in recent years, since they are language-independent and unsupervised methods.Las investigaciones en el área de generación automática de resúmenes de textos se han intensifcado en los últimos años debido a la gran cantidad de información disponible en documentos electrónicos. Este artículo presenta los métodos más relevantes de generación automática de resúmenes extractivos que se han desarrollado tanto para un solo documento como para múltiples documentos, haciendo especial énfasis en los métodos basados en reducción algebraica, en agrupamiento y en modelos evolutivos, de los cuales existe gran cantidad de investigaciones en los últimos años, dado que son métodos independientes del lenguaje y no supervisados. &nbsp

    Generación de un grafo de conocimiento de periódicos antiguos del Ecuador a través de procesos OCR.

    Get PDF
    La historia nos revela la existencia de una multitud de eventos que se desarrollan en el mundo día a día, dejando una huella en el tiempo. Antiguamente, la transmisión de ese conocimiento se realizaba de manera oral y se mantenía vivo a través de generaciones. No obstante, el avance de la tecnología ha revolucionado la forma en que accedemos a la información y nos ha permitido explorar registros históricos en una escala sin precedentes. En este contexto, surge un desafío, gran parte de esa información yace dormida en periódicos antiguos, los cuales se encuentran en un estado de deterioro y son difíciles de tratar. Estos periódicos contienen relatos de eventos de la historia del Ecuador en los siglos XIX y XX, pero acceder a esa información de manera rápida y eficiente es un desafío. Para abordar este problema, en este trabajo de titulación, se propone una solución basada en la digitalización de texto, el procesamiento texto y las tecnologías de la web semántica. El objetivo principal es extraer la información de los periódicos antiguos, organizarla de manera estructurada y generar un grafo de conocimiento que represente los eventos ocurridos en Ecuador durante ese período histórico. La solución propuesta implica la automatización de cada uno de los pasos del proceso. Para lograrlo, se han construido varios widgets en Orange, que permite realizar tareas específicas en cada etapa del proceso. Estos widgets trabajan en conjunto para extraer la información, identificar entidades y relaciones, obtener Word Embendings y generar un grafo de conocimiento.History reveals to us the existence of a multitude of events that unfold in the world day by day, leaving a footprint in time. In the past, the transmission of this knowledge was done orally and kept alive through generations. However, the advancement of technology has revolutionized the way we access information and has allowed us to explore historical records on an unprecedented scale. In this context, a challenge arises: a large portion of this valuable information lies dormant in old newspapers, which are in a state of deterioration and are difficult to handle. These newspapers contain detailed accounts of events that marked Ecuador’s history in the 19th and 20th centuries, but accessing that information quickly and efficiently has become a challenge. To address this problem, this thesis proposes a solution based on text digitization, text processing, and semantic web technologies. The main objective is to extract information from old newspapers, organize it in a structured manner, and generate a knowledge graph that represents the events that occurred in Ecuador during that historical period. As part of this solution, a prototype search engine has also been developed that utilizes the generated knowledge graph. This search engine is one of the many ways to exploit the graph and allows users to make specific queries and searches related to historical events, people, places, and topics in the context of old newspapers. The proposed solution involves the automation of each step of the process. To achieve this, several widgets have been built in Orange, a visual data analysis platform, that allows for specific tasks to be performed at each stage of the process. These widgets include text digitization tools, text processing techniques, and semantic web algorithms that work together to extract relevant information, identify entities and relationships, obtain Word Embeddings, and generate a knowledge graph enriched with historical events.0000-0002-2438-922
    corecore