2,381 research outputs found

    Web semántica : un nuevo enfoque para la organización y recuperación de información en el web

    Get PDF
    A theoretical and conceptual approach to the development of the information organization and retrieval is made in an automatic environment by means of the automatic indexing and classification of the information as processes prior to information retrieval. The evolution experienced by the systems of organization of information and knowledge is analysed by taxonomies, thesaurus and Topic Maps toward more complex structures, such as ontologies. Some metadata schemes created for the description of the information in the web, as well as the components and technologies that integrate the theoretical model of the web semantics, are examined. Finally, the constructive stratum model that will guarantee the functioning of its entire infrastructure is explained

    Data Mining Streams of Social Networks, A Tool to Improve The Library Services.

    Get PDF
    Los sistemas de soporte al trabajo colaborativo son herramientas valiosas en contextos en los cuales se requiere la participación de un grupo de personas para llevar a cabo una determinada tarea. Uno de estos contextos es la Bibliotecología, Archivística y Documentación. Las interacciones entre los usuarios y profesionales de esta área, mediante el uso de herramientas tales como Twitter, Facebook, fuentes RSS y blogs, generan grandes flujos de datos (streams) no estructurados. Estos streams pueden ser estudiados para analizar aspectos tales como influencia, relaciones de cercanía, opinión y generación de recomendaciones, logrando de esta forma que las bibliotecas obtengan otros beneficios del uso de las tecnologías de información y comunicación. Desde la perspectiva de la minería de datos, el procesamiento de estos streams plantea importantes desafíos. El uso de algoritmos de minería en este contexto, implica que en estos se deban considerar aspectos como la adaptación a la alta velocidad en que llegan los datos, la diversidad de las fuentes de datos y su estructura, la variabilidad de los datos en el tiempo y el trabajo sin restricciones de memoria. Este artículo revisa el estado del arte en lo referente a algoritmos de minería de datos sobre streams originados en redes sociales, específicamente, Facebook y Twitter. Se presenta una revisión de las técnicas más representativas de clasificación y agrupamiento, y de cómo cada una de ellas aporta al descubrimiento de conocimiento en el área de la Bibliotecología. Para concluir se presentan algunos de los problemas que son objeto de investigación activa.The Groupware systems are a valuable source for disseminating information in contexts in which the participation of a group of people is required to perform a task. One such context is the Library, Archives and Documentation. The interactions among users and professionals in this area, who use tools such as Twitter, Facebook, RSS feeds and blogs, generate a large amount of unstructured data streams. They can be used to the problem of mining topic-specific influence, graph mining, opinion mining and recommender systems, thus achieving that libraries can obtain maximum benefit from the use of Information and Communication Technologies. From the perspective of data stream mining, the processing of these streams poses significant challenges. The algorithms must be adapted to problems such as: high arrival rate, memory requirements without restrictions, diverse sources of data and concept-drift. In this work, we explore the current state-of-the-art solutions of data stream mining originating from social networks, specifically, Facebook and Twitter. We present a review of the most representative algorithms and how they contribute to knowledge discovery in the area of librarianship. We conclude by presenting some of the problems that are the subject of active research.Facultad de Informátic

    Evolutionary strategies of object-sign

    Get PDF
    The present study examines the relationship between design and culture. The article focuses on discovering the mechanics through which a design remains or it is modified. By exploring the product of design, from a semiotic perspective and the evolutionary theory, this research tries to clarify the ways in which the design brings meanings; therefore, its role in the maintenance and revitalization of cultural identity is assessed. Starting from an inter- and trans-disciplinary perspective, a theoretical reflection and proposal is defined. The proposal is then validated through a case analysis driven Content Analysis and Multivariate Data Processing methodology. Finally, the accelerated transit of the objects of consumption in the contemporary society is analyzed

    Diseño de una red social para el análisis de texto y relacionar usuarios por niveles de descubrimiento de lexemas mediante técnicas de inteligencia artificial

    Get PDF
    En nuestra sociedad, se están dando cambios en los procesos comunicativos que de alguna manera reflejan en cierta medida los cambios sociales, económicos y políticos como engranaje de la transformación de la forma de educar, escribir y de expresarse, por esto el contenido digital es la tendencia de la revolución de las comunicaciones, considerando como insumo para el análisis de los textos producidos en estas nuevas formas de expresión en redes sociales de diversa índole. Ante este escenario donde las personas pasan gran parte de su tiempo y se expresan sin temores, lo que podría aprovecharse para descubrir patrones que puedan utilizarse para caracterizar perfiles de usuarios, categorizando de acuerdo a la temática o mensajería expresada en las redes sociales. La presente investigación tiene como finalidad el diseño una red social para el análisis de texto y relacionar usuarios por niveles de descubrimiento de lexemas mediante técnicas de Inteligencia Artificial. El tipo de investigación es de tipo aplicativa y un diseño no experimental, se consideró como unidad de análisis por los textos producidos por los usuarios de una red social durante el periodo de la investigación. En los resultados se resalta en lo que respecta al corpus textual de las unidades léxicas básicas en la red social, el volumen promedio que se almacena en cada publicación es de 0.2057 Kilobytes, el análisis del componente morfológico y el lexicográfico del lexema de los textos por usuario en la red social, es determinante el manejo del error de volumen no léxico, obteniéndose una media de 01693 Kilobytes, en cada publicación y los patrones de lexemas en los textos lo determina el nivel del error de clasificación obteniéndose una media de este error de 98.33%. Se concluye que se logra diseñar una red social para el análisis de texto y relacionar usuarios por niveles de descubrimiento de lexemas mediante el algoritmo de Inteligencia Artificial

    Modelo algorítmico para la clasificación de documentos de carácter judicial en lenguaje portugués según su contenido

    Get PDF
    En los últimos años la generación de información virtual ha aumentado considerablemente. Parte de esa información se encuentra almacenada en bases de datos de instituciones públicas y privadas. Sin embargo, no toda la información almacenada de forma electrónica tiene una estructura definida, tal es el caso de los documentos donde encontramos secuencias de palabras no estructuradas, los cuales según estudios representan el 80% de la información de las empresas. La tarea de clasificar automáticamente documentos tiene como motivo principal brindar una herramienta de mejora en la gestión de la información, la cual es considerada como condición indispensable para el éxito de cualquiera empresa. Ante esto, en el propósito del proyecto se propone la obtención de un modelo algorítmico para la clasificación automática de documentos de carácter judicial en lenguaje portugués según su contenido con el fin de automatizar las labores manuales involucradas en el proceso, y con ello disminuir los recursos implicados en la tarea de clasificación. La colección de documentos será brindada por una empresa en Brasil encargada de la clasificación manual de intimaciones a través de especialistas, llamados procuradores. Las intimaciones son documentos que son enviados desde los tribunales hacia las procuradurías durante un proceso de juicio.Tesi

    Generación automática inteligente de resúmenes de textos con técnicas de <i>soft computing</i>

    Get PDF
    Esta tesis se ha desarrollado siguiendo las líneas de investigación que el Instituto de Investigacion en Informática LIDI (III-LIDI, Argentina) y el grupo de investigación Soft Managemement of Internet and Learning (SMILe, España) llevan a cabo de manera colaborativa. Contó con el apoyo externo de los profesores doctores Cristina Puente (Universidad Pontificia Comillas), Aurelio F. Bariviera (Universidad Rovira i Virgili) y Alejandro Sobrino (Universidad de Santiago de Compostela). Fue presentada por Augusto Villa Monte, en el marco de su doctorado en cotutela, como requisito para obtener el grado de doctor en Ciencias Informáticas por la Universidad Nacional de La Plata (UNLP, Argentina) y doctor en Tecnologías Informáticas Avanzadas por la Universidad de Castilla-La Mancha (UCLM, España).Tesis doctoral realizada en co-tutela entre la Universidad Nacional de La Plata y la Universidad de Castilla-La Mancha (España). Grado alcanzado: Doctor en Ciencias Informáticas. Directores de tesis: Laura Lanzarini (UNLP) y José Ángel Olivas Varela (UCLM). La tesis, presentada en el año 2019, obtuvo el Premio "Dr. Raúl Gallard" en el 2020.Red de Universidades con Carreras en Informátic

    Contextual analysis: CONTEXT (SOCIOS), a data processing system

    Get PDF
    Este artículo plantea el estudio del lenguaje como fenómeno de primera magnitud para avanzar en la investigación y el conocimiento en las ciencias humanas y sociales. Se revisa la tradición del Análisis de Contenido y se operativiza la noción de contexto psicosocial como elemento referencial necesario en la captación del conjunto de significados, personales y sociales, que vehicula. Se presenta la aplicación informática ConText, dentro de los módulos del sistema SOCIOS, especialmente diseñado en el Laboratorio de Psicología Social de la Universidad de Barcelona para el tratamiento de datos de interacción social, aplicándolo en esta ocasión a datos de contenido verbal, desde la perspectiva del “Análisis Textual” o “Text Mining”. Se aportan criterios teóricos y metodológicos de utilización y se detallan algunas de sus características y procedimientos principales, tratando de mostrar su utilidad para la investigación. Se realiza una ejemplificación sobre la base de un corpus de definiciones personales sobre la noción de ‘Felicidad’ en una muestra ocasional de 160 universitarios. Finalmente se reflexiona sobre la importancia de considerar el análisis del lenguaje desde una perspectiva multidisciplinar y crítica, en la línea desarrollada por Van Dijk y el “Análisis del Discurso”.This article A first approach has already been published in this journal (see Anuario de Psicología, 37(3), 277-297, 2006), suggests that language must be studied as a first order phenomenon in order to advance research and knowledge in the humanities and social sciences. We review the tradition of content analysis and operationalize the concept of psychosocial context, as a necessary reference in the collection of the set of personal and social meanings it conveys. We present ConText, a computer application among the modules of the system SOCIOS, specially designed in the Laboratorio de Psicología Social of the University of Barcelona for the treatment of social interaction data. In this case ConText applies to contents of verbal data from the perspective of ”Textual Analysis” or “Text Mining”. We provide the theoretical and methodological criteria for its use and detail some of the software characteristics and main procedures, trying to show their usefulness for research. Exemplification is made on the basis of a corpus of personal definitions of the “Happiness” notion in a casual sample of 160 university students. Finally we reflect on the importance of considering the analysis of language from a multidisciplinary perspective and criticism, in line wuith van Dijk’s “Analysis of Discours”

    Clasificación automática de correos electrónicos

    Get PDF
    En la actualidad se generan millones de datos cada día y su aprovechamiento e interpretación se han vuelto fundamentales en todos los ámbitos. Sin embargo, la mayor parte de esta información posee un formato textual, sin la estructura ni la organización de las bases de datos tradicionales, lo cual representa un enorme desafío para su procesamiento mediante técnicas de aprendizaje automático. Otro de los desafíos inherentes al procesamiento masivo de datos comprende el etiquetado de los mismos, actividad necesaria para las técnicas de aprendizaje supervisado donde la estrategia tradicional consiste en el etiquetado manual. Por su parte, el correo electrónico es una de las herramientas de comunicación asincrónica más extendida en la actualidad, habiendo desplazado a los canales más clásicos de comunicación debido a su alta eficiencia, costo extremadamente bajo y compatibilidad con muchos tipos diferentes de información. Existen trabajos que han recogido estimaciones respecto de la utilización mundial de este medio de comunicación tomando como referencia al Grupo Radicati, quienes afirman que actualmente existen más de 3930 millones de usuarios y se proyectan 4371 millones para el año 2023, alcanzando el tráfico actual de 293.6 billones de correos enviados diariamente. Muchos de estos correos electrónicos son enviados a centros de contacto de organizaciones públicas y privadas debido a que este medio se ha constituido en un canal de comunicación estándar. Sin embargo, éste es un canal que requiere una importante afectación de recursos humanos. Con el fin de mejorar su uso y aprovechar a los correos electrónicos como fuente de conocimiento se han aplicado diversas técnicas de minería de datos a este tipo de información, entendiendo a la minería de datos como una etapa del proceso de descubrimiento de conocimiento que consiste en aplicar algoritmos de análisis y explotación de datos para producir una enumeración particular de patrones (o modelos) sobre los datos. A su vez, el correo electrónico como fuente de datos posee un conjunto de características particulares respecto de otras fuentes de datos que hace que existan diferencias y problemáticas particulares entre la minería de textos tradicional y la minería de correos electrónicos, conocida como email mining. En este contexto, se ha aplicado email mining con diferentes objetivos como la detección de correo electrónico no deseado, la categorización de correo electrónico, el análisis de contactos, de propiedades de red de correo electrónico y visualización. En este trabajo, en primer lugar se intenta dimensionar la cantidad de conocimiento que supone el intercambio de correos diariamente a nivel mundial, así como entender su evolución y características técnicas. A continuación, se realiza un estudio del estado del arte de la disciplina, partiendo del proceso de descubrimiento de conocimiento y caracterizando el proceso de construcción de un clasificador automático de correos electrónicos. Luego, quizás como principal contribución de esta investigación, se propone una nueva estrategia de etiquetado semi-supervisado híbrido con tres variantes. Se parte de de una base inicial con correos etiquetados de forma tradicional y se realiza una extracción de las características principales para cada clase, utilizando tres técnicas como la regresión logística, TF-IDF y SS3. Luego, con la base de conocimiento completa indexada en un motor de búsqueda de propósito general como Elasticsearch, se recuperan documentos de cada clase en función de las características detectadas por cada técnica y se construye un clasificador, el cual se evalúa en función de un conjunto de datos de prueba diferente del utilizado para el proceso anterior. En términos del desarrollo experimental, se trabaja a partir de un caso de estudio basado en correos electrónicos en idioma español propiedad de la Universidad Nacional de Luján. Esta Universidad cuenta con un sistema informático propio para llevar adelante la gestión académica de las actividades inherentes a la enseñanza de grado y pregrado, así como los trámites que de éstas se desprenden. Este sistema de gestión cuenta con una interfaz web a la que acceden los estudiantes para realizar todos los trámites relacionados a su vinculación con la Institución. A su vez, posee una funcionalidad para realizar consultas vía correo electrónico al staff administrativo. El sistema, ante la formulación de una consulta por parte de los estudiantes envía, mediante un servidor SMTP, la consulta a una dirección de correo electrónico especialmente destinada para este fin. Al cuerpo de ese correo, además del texto escrito por el estudiante, se agregan datos académicos y de la persona tales como nombre y apellido, legajo, documento, Carrera, teléfono y email personal. Utilizando una porción de esa base de conocimiento, en este trabajo se aborda el desafío de generar un modelo, en el marco de la disciplina de aprendizaje automático para clasificar cual es el tema de cada consulta realizada en función del contenido de los mensajes enviados. A su vez, se realizan experimentaciones en términos del proceso de clasificación semi-supervisada propuesto. A partir de este proceso, se demuestra que, para los datos utilizados, estas técnicas de extracción de características, utilizadas como estrategias de etiquetado para la clasificación semi-supervisada, mejoran la capacidad de los clasificadores cuando se incorporan las instancias etiquetadas automáticamente a las etiquetadas de forma manual para entrenar el modelo. Por último, se reformula esta estrategia para ser utilizada como una estrategia de balanceo para el aprendizaje automático desde conjuntos de datos desbalanceados. Nuevamente, se demuestra que la estrategia sigue siendo competitiva, al menos para este conjunto de datos, en relación a algunas de las técnicas de remuestreo más utilizadas de la actualidad, tanto de oversampling como de undersampling.Facultad de Informátic

    Estudio de herramientas para topic detección en comentarios y post de Facebook

    Get PDF
    Las redes sociales se han vuelto cada vez más importantes en los últimos años. Entre ellas destaca Facebook y Twitter, donde los usuarios comparten opiniones y otros contenidos de forma pública. Dichas redes contiene grandes cantidades de información oculta a simple vista. En este trabajo se pretende trabajar con datos obtenidos de Facebook y analizarlos para obtener información relevante (topics o palabras clave) y obtener conclusiones y quizás alguna idea que pueda adaptarse a Twitter. Para ello se va a hacer uso del análisis semántico, en pos de poder asociar los temas o noticias que dejan los usuarios sobre un tema o marca o comentarios de la propia empresa o marca en su cuenta oficial con temas más generales (o meta-topics). Cabe destacar que, aunque cada vez existe un mayor número de trabajos dedicados a analizar este tipo de redes, el análisis semántico (como el llevado a cabo en este trabajo) de textos es todavía escaso, siendo lo más cercano trabajos parecidos a este sobre las técnicas de Topic Detection. Dada la cantidad de información que se maneja hoy en día en los medios de comunicación y especialmente en la red, resulta imprescindible filtrar los datos que se obtienen (noticias, reflexiones u opiniones), para más tarde tratar toda esa información de la manera más adecuada, ordenarla y tenerla a disposición para sacar el máximo provecho de su contenido. Realizar todo este proceso sin ayuda de procesos automáticos sería costoso e imposible. Este trabajo realiza un estudio con diferentes herramientas para comprobar el rendimiento de ellas sobre la fuente de origen del texto, en este caso Facebook, y comprobar las diferencias o similitudes entre ellas.Social networks have become increasingly important in recent years time. Among them is Facebook and Twitter, where users share opinions and other public contents. These networks contain large amounts of information hiding in plain sight. In this project aims to work with data from Facebook and analyze them to obtain relevant information (topics or keywords) and get conclusions and perhaps some idea that can adapt to Twitter. To do this is to make use of semantic analysis in pursuit of associating topics or news that let users on a topic or brand or comments from the company or brand in their official has more general topics (or meta-topics ). Note that, although an increasing number of works devoted to analyzing such networks exist, semantic analysis (as done in this study) of texts is still rare, being the closest thing works like this on Topic Detection techniques. Given the amount of information used today in the media and especially in the network, it is essential to filter the data obtained (news, thoughts or opinions), later to treat all such information in the most appropriate way , order it and have it on hand to make the most of its contents. Perform this process without the help of automated processes would be expensive and impossible. This paper makes a study of different tools to check the performance of them on the source text, in this case Facebook, and check the differences or similarities between them.Ingeniería Técnica en Sistemas de Telecomunicació

    Web semántica : un nuevo enfoque para la organización y recuperación de información en el web

    Get PDF
    A theoretical and conceptual approach to the development of the information organization and retrieval is made in an automatic environment by means of the automatic indexing and classification of the information as processes prior to information retrieval. The evolution experienced by the systems of organization of information and knowledge is analysed by taxonomies, thesaurus and Topic Maps toward more complex structures, such as ontologies. Some metadata schemes created for the description of the information in the web, as well as the components and technologies that integrate the theoretical model of the web semantics, are examined. Finally, the constructive stratum model that will guarantee the functioning of its entire infrastructure is explained
    corecore