2 research outputs found

    Extracci贸n de informaci贸n para la generaci贸n de reportes estructurados a partir de noticias peruanas relacionadas a cr铆menes

    Get PDF
    Actualmente, m煤ltiples fuerzas policiales y agencias de inteligencia han decidido enfocar parte de sus esfuerzos en la recolecci贸n de todo tipo de informaci贸n sobre cr铆menes. Esto con el objetivo de poder analizar los datos disponibles y utilizar los resultados de esta tarea para la mejora de procesos actuales, e incluso, para la prevenci贸n de ataques y delitos futuros. No obstante, debido a la velocidad con la que se generan datos e informaci贸n en la 煤ltima d茅cada, las t茅cnicas de an谩lisis tradicional han resultado en baja productividad y en un uso ineficiente de recursos. Es por esta raz贸n, que desde el campo de la inform谩tica, y espec铆ficamente desde las ciencias de la computaci贸n, se vienen realizado m煤ltiples intentos para ayudar a identificar y obtener la informaci贸n m谩s importante dentro de estos grandes vol煤menes de datos. Hasta el momento los estudios previos realizados para este dominio, abarcan desde la predicci贸n del lugar de un delito utilizando data num茅rica, hasta la identificaci贸n de nombres y entidades en descripciones textuales. En este contexto, este trabajo propone la creaci贸n de una herramienta de extracci贸n de informaci贸n para noticias relacionadas al dominio criminal peruano. Buscando identificar autom谩ticamente culpables, v铆ctimas y locaciones mediante los siguientes pasos: (1) Procesamiento y generaci贸n de un conjunto de datos en base a noticias criminales, (2) Implementaci贸n y validaci贸n de algoritmos de extracci贸n e informaci贸n, y (3) Elaboraci贸n de una interfaz de programaci贸n de aplicaciones para el consumo del modelo desarrollado. Los resultados obtenidos evidencian que el enfoque utilizado, basado en dependencias sint谩cticas y reconocimiento de entidades nombradas, es exitoso. Adem谩s, se espera que en el futuro se puedan mejorar los resultados obtenidos con t茅cnicas de procesamiento de lenguaje natural para dominios con pocos recursos.Tesi

    A series of case studies to enhance the social utility of RSS

    Get PDF
    RSS (really simple syndication, rich site summary or RDF site summary) is a dialect of XML that provides a method of syndicating on-line content, where postings consist of frequently updated news items, blog entries and multimedia. RSS feeds, produced by organisations or individuals, are often aggregated, and delivered to users for consumption via readers. The semi-structured format of RSS also allows the delivery/exchange of machine-readable content between different platforms and systems. Articles on web pages frequently include icons that represent social media services which facilitate social data. Amongst these, RSS feeds deliver data which is typically presented in the journalistic style of headline, story and snapshot(s). Consequently, applications and academic research have employed RSS on this basis. Therefore, within the context of social media, the question arises: can the social function, i.e. utility, of RSS be enhanced by producing from it data which is actionable and effective? This thesis is based upon the hypothesis that the fluctuations in the keyword frequencies present in RSS can be mined to produce actionable and effective data, to enhance the technology's social utility. To this end, we present a series of laboratory-based case studies which demonstrate two novel and logically consistent RSS-mining paradigms. Our first paradigm allows users to define mining rules to mine data from feeds. The second paradigm employs a semi-automated classification of feeds and correlates this with sentiment. We visualise the outputs produced by the case studies for these paradigms, where they can benefit users in real-world scenarios, varying from statistics and trend analysis to mining financial and sporting data. The contributions of this thesis to web engineering and text mining are the demonstration of the proof of concept of our paradigms, through the integration of an array of open-source, third-party products into a coherent and innovative, alpha-version prototype software implemented in a Java JSP/servlet-based web application architecture
    corecore