287 research outputs found

    Categorización automática de respuestas aplicando algoritmos de clasificación supervisada al análisis de las contestaciones de estudiantes a una serie de preguntas tipo test

    Get PDF
    Durante los últimos años se ha evidenciado el creciente interés por el aprendizaje automático para la clasificación y categorización de documentos, textos, preguntas. Esto permite automatizar procesos que si se hicieran con la intervención del ser humano podrían tener un alto costo en tiempo, y abre las puertas para su implementación con sistemas incluyentes para estudiantes con discapacidades físicas. En este artículo se describe un trabajo de investigación que utiliza técnicas de minería de datos para obtener clasificadores que permitan identificar automáticamente las respuestas correctas expresadas por los estudiantes y éstas son asociadas a una pregunta con distintas opciones que son parte del proceso de evaluación de los conocimientos adquiridos de los estudiantes durante su proceso formativo. Atendiendo a estas consideraciones se utilizó un corpus con preguntas de diferentes categorías, donde cada pregunta tenía múltiples opciones factibles para ser seleccionadas; sin embargo a cada pregunta le pertenecía una sola respuesta correcta. Se transcribió las respuestas dadas por los estudiantes de la Modalidad Abierta y a Distancia de la Universidad Técnica Particular de Loja teniendo un total de 12960 transcripciones de las respuestas verbales que se obtuvieron de los estudiantes en español. Los resultados obtenidos mediante diferentes algoritmos de clasificación son presentados, analizados y comparados

    Clasificación automática de correos electrónicos

    Get PDF
    En la actualidad se generan millones de datos cada día y su aprovechamiento e interpretación se han vuelto fundamentales en todos los ámbitos. Sin embargo, la mayor parte de esta información posee un formato textual, sin la estructura ni la organización de las bases de datos tradicionales, lo cual representa un enorme desafío para su procesamiento mediante técnicas de aprendizaje automático. Otro de los desafíos inherentes al procesamiento masivo de datos comprende el etiquetado de los mismos, actividad necesaria para las técnicas de aprendizaje supervisado donde la estrategia tradicional consiste en el etiquetado manual. Por su parte, el correo electrónico es una de las herramientas de comunicación asincrónica más extendida en la actualidad, habiendo desplazado a los canales más clásicos de comunicación debido a su alta eficiencia, costo extremadamente bajo y compatibilidad con muchos tipos diferentes de información. Existen trabajos que han recogido estimaciones respecto de la utilización mundial de este medio de comunicación tomando como referencia al Grupo Radicati, quienes afirman que actualmente existen más de 3930 millones de usuarios y se proyectan 4371 millones para el año 2023, alcanzando el tráfico actual de 293.6 billones de correos enviados diariamente. Muchos de estos correos electrónicos son enviados a centros de contacto de organizaciones públicas y privadas debido a que este medio se ha constituido en un canal de comunicación estándar. Sin embargo, éste es un canal que requiere una importante afectación de recursos humanos. Con el fin de mejorar su uso y aprovechar a los correos electrónicos como fuente de conocimiento se han aplicado diversas técnicas de minería de datos a este tipo de información, entendiendo a la minería de datos como una etapa del proceso de descubrimiento de conocimiento que consiste en aplicar algoritmos de análisis y explotación de datos para producir una enumeración particular de patrones (o modelos) sobre los datos. A su vez, el correo electrónico como fuente de datos posee un conjunto de características particulares respecto de otras fuentes de datos que hace que existan diferencias y problemáticas particulares entre la minería de textos tradicional y la minería de correos electrónicos, conocida como email mining. En este contexto, se ha aplicado email mining con diferentes objetivos como la detección de correo electrónico no deseado, la categorización de correo electrónico, el análisis de contactos, de propiedades de red de correo electrónico y visualización. En este trabajo, en primer lugar se intenta dimensionar la cantidad de conocimiento que supone el intercambio de correos diariamente a nivel mundial, así como entender su evolución y características técnicas. A continuación, se realiza un estudio del estado del arte de la disciplina, partiendo del proceso de descubrimiento de conocimiento y caracterizando el proceso de construcción de un clasificador automático de correos electrónicos. Luego, quizás como principal contribución de esta investigación, se propone una nueva estrategia de etiquetado semi-supervisado híbrido con tres variantes. Se parte de de una base inicial con correos etiquetados de forma tradicional y se realiza una extracción de las características principales para cada clase, utilizando tres técnicas como la regresión logística, TF-IDF y SS3. Luego, con la base de conocimiento completa indexada en un motor de búsqueda de propósito general como Elasticsearch, se recuperan documentos de cada clase en función de las características detectadas por cada técnica y se construye un clasificador, el cual se evalúa en función de un conjunto de datos de prueba diferente del utilizado para el proceso anterior. En términos del desarrollo experimental, se trabaja a partir de un caso de estudio basado en correos electrónicos en idioma español propiedad de la Universidad Nacional de Luján. Esta Universidad cuenta con un sistema informático propio para llevar adelante la gestión académica de las actividades inherentes a la enseñanza de grado y pregrado, así como los trámites que de éstas se desprenden. Este sistema de gestión cuenta con una interfaz web a la que acceden los estudiantes para realizar todos los trámites relacionados a su vinculación con la Institución. A su vez, posee una funcionalidad para realizar consultas vía correo electrónico al staff administrativo. El sistema, ante la formulación de una consulta por parte de los estudiantes envía, mediante un servidor SMTP, la consulta a una dirección de correo electrónico especialmente destinada para este fin. Al cuerpo de ese correo, además del texto escrito por el estudiante, se agregan datos académicos y de la persona tales como nombre y apellido, legajo, documento, Carrera, teléfono y email personal. Utilizando una porción de esa base de conocimiento, en este trabajo se aborda el desafío de generar un modelo, en el marco de la disciplina de aprendizaje automático para clasificar cual es el tema de cada consulta realizada en función del contenido de los mensajes enviados. A su vez, se realizan experimentaciones en términos del proceso de clasificación semi-supervisada propuesto. A partir de este proceso, se demuestra que, para los datos utilizados, estas técnicas de extracción de características, utilizadas como estrategias de etiquetado para la clasificación semi-supervisada, mejoran la capacidad de los clasificadores cuando se incorporan las instancias etiquetadas automáticamente a las etiquetadas de forma manual para entrenar el modelo. Por último, se reformula esta estrategia para ser utilizada como una estrategia de balanceo para el aprendizaje automático desde conjuntos de datos desbalanceados. Nuevamente, se demuestra que la estrategia sigue siendo competitiva, al menos para este conjunto de datos, en relación a algunas de las técnicas de remuestreo más utilizadas de la actualidad, tanto de oversampling como de undersampling.Facultad de Informátic

    Revisión sistemática para las técnicas de minería Web de contenido

    Get PDF
    Trabajo de InvestigaciónDeterminar las principales técnicas empleadas de minería web que permiten realizar minería de contenido, con el fin de facilitar la búsqueda de información en bases documentales. Para ello se llevó a cabo una revisión sistemática de la información documentada en medios arbitrados en el período 2014 – 2018, empleando las bases documentales Redalyc, Scielo, Scopus, IEEEXplore, Google Scholar y Web of ScienceINTRODUCCIÓN 1. GENERALIDADES 2. DEFINICIÓN DE LOS CRITERIOS DE BÚSQUEDA DE ARTÍCULOS SOBRE MINERÍA DE CONTENIDO EN LA WEB 3. IDENTIFICACIÓN DE LAS TÉCNICAS QUE HAN SIDO EMPLEADAS PARA REALIZAR MINERÍA DE CONTENIDO EN LA WEB 4. CARACTERIZACIÓN DE LAS PRINCIPALES TÉCNICAS QUE HAN SIDO EMPLEADAS PARA REALIZAR MINERÍA DE CONTENIDO EN LA WEB 5. CONCLUSIONES 6. RECOMENDACIONES BIBLIOGRAFÍA ANEXOSPregradoIngeniero de Sistema

    Hipervinculación de documentos con Máquinas de Soporte Vectorial

    Get PDF
    En la actualidad el acceso a la información se da por medio de hipervínculos, los cuales interconectan los textos entre si únicamente si contienen una relación. Varios investigadores han estudiado la forma en que los humanos crean los hipervínculos y han tratado de replicar el modo de trabajo específicamente de la colección de Wikipedia. El uso de hipervínculos se ha pensado como un prometedor recurso para la recuperación de información, que fue inspirado por el análisis de citas de la literatura (Merlino-Santesteban, 2003). Según Dreyfus (Dreyfus, 2003) la hipervinculación no tiene ningún criterio específico, ni tampoco jerarquías. Por ello cuando todo puede vincularse indiscriminadamente y sin obedecer un propósito o significado en particular, el tamaño de la red y la arbitrariedad entre sus hipervínculos, hacen extremadamente difícil para un usuario encontrar exactamente el tipo de información que busca. En las organizaciones, la familiaridad y la confianza durante mucho tiempo han sido identificadas como las dimensiones de credibilidad de la fuente de información en publicidad (Eric Haley, 1996). Un hipervínculo, como una forma de información, puede, por lo tanto, tener un mayor impacto cuando se presenta por un objetivo conocido (Stewart & Zhang, 2003). Mientras tanto, los hipervínculos entre los sitios web pueden generan confianza en el remitente y el receptor del enlace, por lo que estas interacciones tienen efectos positivos de reputación para el destinatario (Stewart, 2006) (Lee, Lee, & Hwang, 2014). El estudio de documentos por medio de los hipervínculos es un área importante de investigación en minería de datos, en una red social a menudo lleva una gran cantidad de información estructural formada por los hipervínculos creando nodos compartidos dentro de la comunidad. Algunas importantes aplicaciones de los métodos de minería de datos para redes sociales son la recomendación social mediante las experiencias similares de los usuarios (Alhajj & Rokne, 2014). En marketing y publicidad se aprovechan las cascadas en las redes sociales y se obtienen beneficios sobre modelos de propagación de la información (Domingos & Richardson, 2001). Las empresas de publicidad están interesados en cuantificar el valor de un solo nodo en la red, tomando en cuenta que sus acciones pueden desencadenar cascadas a sus nodos vecinos. Los resultados de (Allan, 1997) (Bellot et al., 2013) (Agosti, Crestani, & Melucci, 1997) (Blustein, Webber, & Tague-Sutcliffe, 1997) sugieren que el descubrimiento de hipervínculos automatizado no es un problema resuelto y que cualquier evaluación de los sistemas de descubrimiento de Hipervínculos de Wikipedia debe basarse en la evaluación manual, no en los hipervínculos existentes

    Implantación de un modelo para Clasificación Automática de Textos en Grupo Coril

    Get PDF
    Las tecnologías de la información y la comunicación en los últimos tiempos han permitido al ser humano tener una cantidad excesiva de documentos en lenguaje natural. Dentro de toda la información que se genera hoy en día, podemos encontrar una nueva forma de comunicación, este trabajo de tesis surge con la necesidad de brindar una solución a los problemas que son el procesamiento del lenguaje natural y la ingeniería de software. Generalmente para el diseño de un sistema de clasificación de información se recurren a una gran variedad de recursos lingüísticos el resultado son sistemas de gran portabilidad en diferentes idiomas. Podemos encontrar textos sobre productos, política, noticias, personas famosas, etcétera. Sin embargo, la capacidad del ser humano para analizar la información de estos textos tiene un tope, el cual en cierta forma, mediante el lenguaje de procesamiento natural se puede maximizar. En la presente tesis se propone una metodología y se desarrolla una aplicación que permite el análisis de textos, clasificándolos en un repositorio de base de datos. Enfocándonos en textos cortos del idioma español y considerando una de las herramientas más importantes el NLTK

    Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales

    Get PDF
    La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados.This doctoral thesis with a qualitative-quantitative (mixed) approach is part of the analysis of feelings in social networks that publish texts with suicidal content. For this reason, Corpus life was developed to carry out experiments with machine learning algorithms, which originally consisted of 102 suicide messages (71 texts in English and 31 texts in Spanish), 70 of these samples without risk and 32 with risk. But due to the small number of samples and the imbalance between them, the generated outcome was not reliable. Therefore, this research had the general objective of developing a semi-supervised method to detect, classify and annotate in the Corpus Life, texts extracted from digital environments, in order to increase their number of annotations, through a process of automatic assessments of their quality, prior to their inclusion or exclusion. Records which were tested manually, using the Cohen's Kappa concordance measure, with the participation of specialized annotators who evaluated the texts, reaching a level of agreement between annotators of 0.86, close to 0.78-0.81 of statistically significant reaching automatically by means of the f1 macro index, with the semi-supervised method. This led to achieving experiments with a higher degree of reliability, through a structured method with well-defined and linked activities, roles and processes

    Sistema de minería de opiniones para la detección de sesgos sociales.

    Get PDF
    Trabajo de Fin de Grado. Grado en Ingeniería Informática. Curso académico 2021-2022.[ES]Como objetivo del proyecto planteado como trabajo de fin de grado, se desarrolla un sistema de minería de opiniones para la identificación de sesgos sociales. Se pretende identificar el sentimiento de odio, la discriminación racial y de género. Este trabajo abarca desde las etapas iniciales de diseño haciendo uso de las herramientas que aporta la Ingeniería de Software, hasta el desarrollo de un producto final y funcional desplegado. El producto final deberá de dar al usuario final una interfaz que permita visualizar el proceso que lleva a cabo el sistema de minería de opiniones para realizar un análisis sobre sus propios conjuntos de datos o utilizando los ya predefinidos en la aplicación. En este proyecto, se va a desarrollar un modelo de inteligencia artificial que implementa el análisis de sentimientos con información extraída de la red social Twitter. Por último, como ya se ha mencionado, la aplicación web se llevará a cabo utilizando la herramienta de visualización de datos Streamlit donde podremos desplegarla, de manera que sea accesible para cualquier usuario.[EN]As an objective of the project proposed as an end-of-degree work, the aim is to develop a system of opinion mining for the identification of social biases. The aim is to identify feelings of hatred, racial and gender discrimination. This work will cover from the initial stages of design making use of the tools provided by Software Engineering, to the development of a final and functional product deployed. The final product must give the end user an interface that allows visualizing the process carried out by the feedback mining system to be able to perform analyses on their own data sets or using those already predefined in the application. In this project, an artificial intelligence model will be developed to develop sentiment analysis with information extracted from the social network Twitter. Finally, as already mentioned, the web application will be carried out using the Streamlit data visualization tool where we can deploy it and that is accessible to any user

    Aprendizaje automático aplicado al análisis de sentimientos

    Get PDF
    With the evolution of the Internet, there is a large amount of information present on the web such as the opinions of users or consumers about different contexts, either to express their agreement or disagreement about a product or service received, as well as the opinion of a item purchased or about the management performed by someone. Due to the large number of opinions, comments and suggestions from users, it is very important to explore, analyze and organize their views to make better decisions. Sentiment analysis is a natural language processing and information extraction task that identifies the opinions of the users explained in the form of positive, negative or neutral comments. Several techniques can be used for this purpose, for example the use of lexical dictionaries that has been widely used and recently the use of artificial intelligence specifically supervised algorithms. In this document, we propose the use of supervised algorithm techniques to observe their use and see the performance of different models of supervised algorithms to measure the effectiveness in the classification of a data set.Con la evolución del Internet, hay una gran cantidad de información presente en la web como lo son las opiniones de los usuarios o  consumidores sobre diversos contextos ya sea para expresar su conformidad o inconformidad sobre un producto o servicio recibido, así como la opinión de un artículo comprado o sobre la gestión que realiza alguna persona. Debido a la gran cantidad de opiniones, comentarios y sugerencias de los usuarios, es muy importante explorar, analizar y organizar sus puntos de vista para tomar mejores decisiones. El análisis de sentimientos es una tarea de procesamiento de lenguaje natural y extracción de información que identifica las opiniones de los usuarios explicadas en forma de comentarios positivos, negativos o neutrales. Varias técnicas pueden ser utilizadas para este fin, por ejemplo el uso de diccionarios léxicos que ha sido muy utilizada y recientemente la utilización de la inteligencia artificial específicamente algoritmos supervisados. En este documento, se propone la utilización de técnicas de algoritmos supervisados para observar su utilización y ver el rendimiento de diferentes modelos de algoritmos supervisados para medir la efectividad en la clasificación de un conjunto de datos

    Servicio web de identificación y clasificación de entidades nombradas

    Get PDF
    La finalidad de este proyecto es construir un Servicio Web donde tres recursos analicen un texto y se obtenga como salida el mismo texto anotado según tipos (personas, localizaciones u organizaciones). Para llevar a cabo este trabajo se marcaron ciertos objetivos necesarios. A nivel de conocimientos, estudiar y analizar diferentes herramientas para la identificación y clasificación de EN, así como los técnicas y sistemas de extracción. Conocer también cómo funcionan estos sistemas por dentro, de qué manera identifica y clasifican las entidades y los etiquetados que manejan para analizar sus salidas con el fin de diseñar un mapping común. A nivel técnico, los objetivos marcados estaban en seleccionar un lenguaje de programación estructurado que facilitara la tarea de acoplar los tres recursos y un entorno de desarrollo de aplicaciones que soportara este lenguaje. Finalmente Java fue el lenguaje seleccionado y Eclipse el entorno de desarrollo. Eclipse facilita la tarea a la hora comunicarse con otros servicios y sistemas como, Tomcat y Axis seleccionados como servidor y motor de Servicios Web y así poder ofrecer un sistema de EEN en forma de servicio.Ingeniería Técnica en Informática de Gestió
    corecore