2,996 research outputs found

    Clasificación automática de correos electrónicos

    Get PDF
    En la actualidad se generan millones de datos cada día y su aprovechamiento e interpretación se han vuelto fundamentales en todos los ámbitos. Sin embargo, la mayor parte de esta información posee un formato textual, sin la estructura ni la organización de las bases de datos tradicionales, lo cual representa un enorme desafío para su procesamiento mediante técnicas de aprendizaje automático. Otro de los desafíos inherentes al procesamiento masivo de datos comprende el etiquetado de los mismos, actividad necesaria para las técnicas de aprendizaje supervisado donde la estrategia tradicional consiste en el etiquetado manual. Por su parte, el correo electrónico es una de las herramientas de comunicación asincrónica más extendida en la actualidad, habiendo desplazado a los canales más clásicos de comunicación debido a su alta eficiencia, costo extremadamente bajo y compatibilidad con muchos tipos diferentes de información. Existen trabajos que han recogido estimaciones respecto de la utilización mundial de este medio de comunicación tomando como referencia al Grupo Radicati, quienes afirman que actualmente existen más de 3930 millones de usuarios y se proyectan 4371 millones para el año 2023, alcanzando el tráfico actual de 293.6 billones de correos enviados diariamente. Muchos de estos correos electrónicos son enviados a centros de contacto de organizaciones públicas y privadas debido a que este medio se ha constituido en un canal de comunicación estándar. Sin embargo, éste es un canal que requiere una importante afectación de recursos humanos. Con el fin de mejorar su uso y aprovechar a los correos electrónicos como fuente de conocimiento se han aplicado diversas técnicas de minería de datos a este tipo de información, entendiendo a la minería de datos como una etapa del proceso de descubrimiento de conocimiento que consiste en aplicar algoritmos de análisis y explotación de datos para producir una enumeración particular de patrones (o modelos) sobre los datos. A su vez, el correo electrónico como fuente de datos posee un conjunto de características particulares respecto de otras fuentes de datos que hace que existan diferencias y problemáticas particulares entre la minería de textos tradicional y la minería de correos electrónicos, conocida como email mining. En este contexto, se ha aplicado email mining con diferentes objetivos como la detección de correo electrónico no deseado, la categorización de correo electrónico, el análisis de contactos, de propiedades de red de correo electrónico y visualización. En este trabajo, en primer lugar se intenta dimensionar la cantidad de conocimiento que supone el intercambio de correos diariamente a nivel mundial, así como entender su evolución y características técnicas. A continuación, se realiza un estudio del estado del arte de la disciplina, partiendo del proceso de descubrimiento de conocimiento y caracterizando el proceso de construcción de un clasificador automático de correos electrónicos. Luego, quizás como principal contribución de esta investigación, se propone una nueva estrategia de etiquetado semi-supervisado híbrido con tres variantes. Se parte de de una base inicial con correos etiquetados de forma tradicional y se realiza una extracción de las características principales para cada clase, utilizando tres técnicas como la regresión logística, TF-IDF y SS3. Luego, con la base de conocimiento completa indexada en un motor de búsqueda de propósito general como Elasticsearch, se recuperan documentos de cada clase en función de las características detectadas por cada técnica y se construye un clasificador, el cual se evalúa en función de un conjunto de datos de prueba diferente del utilizado para el proceso anterior. En términos del desarrollo experimental, se trabaja a partir de un caso de estudio basado en correos electrónicos en idioma español propiedad de la Universidad Nacional de Luján. Esta Universidad cuenta con un sistema informático propio para llevar adelante la gestión académica de las actividades inherentes a la enseñanza de grado y pregrado, así como los trámites que de éstas se desprenden. Este sistema de gestión cuenta con una interfaz web a la que acceden los estudiantes para realizar todos los trámites relacionados a su vinculación con la Institución. A su vez, posee una funcionalidad para realizar consultas vía correo electrónico al staff administrativo. El sistema, ante la formulación de una consulta por parte de los estudiantes envía, mediante un servidor SMTP, la consulta a una dirección de correo electrónico especialmente destinada para este fin. Al cuerpo de ese correo, además del texto escrito por el estudiante, se agregan datos académicos y de la persona tales como nombre y apellido, legajo, documento, Carrera, teléfono y email personal. Utilizando una porción de esa base de conocimiento, en este trabajo se aborda el desafío de generar un modelo, en el marco de la disciplina de aprendizaje automático para clasificar cual es el tema de cada consulta realizada en función del contenido de los mensajes enviados. A su vez, se realizan experimentaciones en términos del proceso de clasificación semi-supervisada propuesto. A partir de este proceso, se demuestra que, para los datos utilizados, estas técnicas de extracción de características, utilizadas como estrategias de etiquetado para la clasificación semi-supervisada, mejoran la capacidad de los clasificadores cuando se incorporan las instancias etiquetadas automáticamente a las etiquetadas de forma manual para entrenar el modelo. Por último, se reformula esta estrategia para ser utilizada como una estrategia de balanceo para el aprendizaje automático desde conjuntos de datos desbalanceados. Nuevamente, se demuestra que la estrategia sigue siendo competitiva, al menos para este conjunto de datos, en relación a algunas de las técnicas de remuestreo más utilizadas de la actualidad, tanto de oversampling como de undersampling.Facultad de Informátic

    Clasificación multiclase y visualización de quejas de organismos oficiales en twitter

    Get PDF
    Social networks generate massive amounts of information. Current Natural Language techniques allow the automatic processing of that information, and Data Mining enables the automatic extraction of useful info. However, a state-of-the-art review reveals that many classification methods only distinguish two classes. This paper presents a procedure to automatically classify tweets into several classes (more than two). The steps of the procedure are described in detail so that any researcher can follow them. The accuracy and coverage (instead of only coverage as usual in the literature) of two automatic classifiers (SVM and Random Forests) were analyzed in a comparative study. The procedure was applied to automatically identify more than two types of complaint from 190,000 tweets. According to the results, Random Forests should be used because they achieve an average accuracy of 81.46 % and an average coverage of 59.88 %.Las redes sociales acumulan gran cantidad de información. Las actuales técnicas de Procesamiento de Lenguaje Natural permiten su procesamiento automático y las técnicas de Minería de Datos permiten extraer datos útiles a partir de la información recopilada y procesada. Sin embargo, de la revisión del estado del arte, se observa que la mayoría de los métodos de clasificación de los datos identificados y extraídos de redes sociales son biclase. Esto no es suficiente para algunas áreas de clasificación, en las que hay más de dos clases a considerar. En este artículo, se aporta un estudio comparativo de los métodos svm y Random Forests, para la identificación automática de n-clases en microblogging de redes sociales. Los datos recopilados automáticamente para el estudio están conformados por 190 000 tweets de cuatro organismos oficiales: Metro, Protección Civil, Policía, y Gobierno de México. De los resultados obtenidos, se recomienda el uso de Random Forests, ya que se consigue una precisión media del 81.46 % y una cobertura media del 59.88 %, con nueve tipos de quejas identificadas automáticamente. &nbsp

    Categorización automática de respuestas aplicando algoritmos de clasificación supervisada al análisis de las contestaciones de estudiantes a una serie de preguntas tipo test

    Get PDF
    Durante los últimos años se ha evidenciado el creciente interés por el aprendizaje automático para la clasificación y categorización de documentos, textos, preguntas. Esto permite automatizar procesos que si se hicieran con la intervención del ser humano podrían tener un alto costo en tiempo, y abre las puertas para su implementación con sistemas incluyentes para estudiantes con discapacidades físicas. En este artículo se describe un trabajo de investigación que utiliza técnicas de minería de datos para obtener clasificadores que permitan identificar automáticamente las respuestas correctas expresadas por los estudiantes y éstas son asociadas a una pregunta con distintas opciones que son parte del proceso de evaluación de los conocimientos adquiridos de los estudiantes durante su proceso formativo. Atendiendo a estas consideraciones se utilizó un corpus con preguntas de diferentes categorías, donde cada pregunta tenía múltiples opciones factibles para ser seleccionadas; sin embargo a cada pregunta le pertenecía una sola respuesta correcta. Se transcribió las respuestas dadas por los estudiantes de la Modalidad Abierta y a Distancia de la Universidad Técnica Particular de Loja teniendo un total de 12960 transcripciones de las respuestas verbales que se obtuvieron de los estudiantes en español. Los resultados obtenidos mediante diferentes algoritmos de clasificación son presentados, analizados y comparados

    Tópicos avanzados en categorización de textos

    Get PDF
    Este artículo describe, en forma resumida, los trabajos de investigación y desarrollo que se están llevando a cabo en la línea “Agentes y Sistemas Inteligentes” del LIDIC, en el área de categorización de textos. Otras líneas de investigación del LIDIC, también abordan problemas de categorización pero, en nuestro caso, nos centramos en problemas que involucran documentos. Por este motivo, en nuestra línea se presta especial atención a técnicas vinculadas al procesamiento del lenguaje natural, la lingüistica computacional y la recuperación de la información. En este sentido, buena parte de los desarrollos en estos temas, se han realizado en forma conjunta con grupos de investigación con una experiencia considerable en el procesamiento del lenguaje natural, como por ejemplo, el NLEL de la Universidad Politécnica de Valencia, España. Los enfoques utilizados en nuestra línea de trabajo, buscan mejorar los procesos de categorización automática de textos en base a dos mecanismos principales: 1) el uso de técnicas de representación de textos más elaboradas, 2) el uso de algoritmos de categorización más eficientes y efectivos. Respecto al primer punto, nuestros trabajos incluyen el uso de representaciones que incorporan información semántica (conceptos) a los métodos tradicionales basados en términos y representaciones basadas en LSI (Latent Semantic Indexing). Las soluciones algorítmicas por su parte, incluyen el ensamblaje de clasificadores y los métodos de optimización bio-inspirados.Eje: Agentes y Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Estudio de un sistema de clasificación automática de textos según las emociones del texto y el perfil de los autores

    Get PDF
    Debido al gran volumen de información que hay disponible en Internet se hace necesario el desarrollo de técnicas para la clasificación de esta información de manera automática. Además de las clasificaciones típicas que consisten en dividir los documentos a clasificar según su temática o su autor, por el gran uso que se hace hoy en día de herramientas como las redes sociales o los blogs y la cantidad de opiniones o críticas que los usuarios publican en ellos resulta interesante el estudio de sistemas que permitan clasificar todos estos textos publicados en Internet según el perfil de los autores o según las emociones que los textos expresan, ya que ello permitiría a los usuarios, por ejemplo, detectar los comentarios malos sobre un determinado producto que están interesados en adquirir. Este Proyecto Fin de Carrera estudiará los diferentes algoritmos de clasificación y las características del lenguaje que es necesario tener en cuenta para el desarrollo de un sistema de clasificación automática de textos según el sentimiento que expresan o según el perfil de los autores, así como las fases de las que consta el diseño de estos sistemas. Por último, se presentarán los resultados de algunos trabajos llevados a cabo en este campo por diferentes grupos de investigación.Due to the large amount of information available on the Internet nowadays it is necessary to develop new methods that allow to classify this documents automatically. In addition to the classical classifications that consist on classifying the documents according to its theme or author it is interesting to study new systems that allow to classify the texts that the users publish on social networks or blogs according to their age or genre or according to the sentiments that express their opinions on this texts. These systems would help the users for detecting bad reviews about a product they are interested in. The aim of this project is the study of the different classification algorithms and the language characteristics that are necessary for the development of an automatic texts classification system according to the sentiments of the texts and according to the author’s profile, as well as the different steps for the design of these systems. Finally, the results of some studies carried out in this field by different research groups will be presented.Ingeniería de Telecomunicació

    Tópicos avanzados en categorización de textos

    Get PDF
    Este artículo describe, en forma resumida, los trabajos de investigación y desarrollo que se están llevando a cabo en la línea “Agentes y Sistemas Inteligentes” del LIDIC, en el área de categorización de textos. Otras líneas de investigación del LIDIC, también abordan problemas de categorización pero, en nuestro caso, nos centramos en problemas que involucran documentos. Por este motivo, en nuestra línea se presta especial atención a técnicas vinculadas al procesamiento del lenguaje natural, la lingüistica computacional y la recuperación de la información. En este sentido, buena parte de los desarrollos en estos temas, se han realizado en forma conjunta con grupos de investigación con una experiencia considerable en el procesamiento del lenguaje natural, como por ejemplo, el NLEL de la Universidad Politécnica de Valencia, España. Los enfoques utilizados en nuestra línea de trabajo, buscan mejorar los procesos de categorización automática de textos en base a dos mecanismos principales: 1) el uso de técnicas de representación de textos más elaboradas, 2) el uso de algoritmos de categorización más eficientes y efectivos. Respecto al primer punto, nuestros trabajos incluyen el uso de representaciones que incorporan información semántica (conceptos) a los métodos tradicionales basados en términos y representaciones basadas en LSI (Latent Semantic Indexing). Las soluciones algorítmicas por su parte, incluyen el ensamblaje de clasificadores y los métodos de optimización bio-inspirados.Eje: Agentes y Sistemas inteligentesRed de Universidades con Carreras en Informática (RedUNCI

    Sistema de clasificación automática sobre streams de tweets

    Get PDF
    El crecimiento de la red Social Twitter desde su aparición en el año 2006 ha sido sorprendente. En la actualidad millones de tweets son escritos y publicados al día, desde cualquier país y en cualquier idioma. El poder detectar los temas más populares (trending topics) de entre todos estos tweets nos permite conocer qué está ocurriendo en cualquier lugar del mundo, instantáneamente. De este modo, Twitter se ha convertido en una de las fuentes de información más poderosas. El presente Proyecto de Fin de Carrera tiene como objetivo conocer la importancia que están adquiriendo las técnicas de data mining (conjunto de técnicas que permiten extraer información relevante y desconocida de manera automática dentro de grandes volúmenes de información), estudiar en profundidad algunas de las técnicas de clasificación automática supervisadas y no supervisadas más importantes y finalmente diseñar, desarrollar y estudiar un clasificador automático de textos que haga uso de algoritmos diferentes pertenecientes al campo de aprendizaje no supervisado. Dicho clasificador se aplicará sobre una colección de miles de tweets con el objetivo de encontrar los temas más importantes o trending topics de dicha colección. Por último, se compararán las prestaciones de cada algoritmo utilizado en el desarrollo del clasificador. El sistema empleado se basa fundamentalmente en encontrar el grado de similitud entre los tweets tras procesarlos usando técnicas propias del Procesamiento del Lenguaje Natural para posteriormente y usando dos algoritmos de clustering diferentes (KMeans y DBSCAN) obtener la clasificación. El conseguir un sistema automático de clasificación para esta tarea es muy importante puesto que evitará la intervención humana y hará factible el procesamiento de la inmensa cantidad de información que la red social Twitter genera a diario.Since Twitter appeared in 2006, it has experienced a huge growth. Today millions of tweets are written and posted every day. Detecting trending topics allow us to know what is happening everywhere. This makes Twitter one of the most powerful sources of information. The aim of this final project is to know the increasing importance of data mining techniques, study deeply some of the automatic classification techniques and finally design, develop and study an automatic classifier based on two different algorithms in order to find the trending topics over thousands of tweets. The developed system relies on finding the similarity between tweets which previously were preprocessed using Natural Language Processing techniques and finally the classification will be got thanks to two different algorithms (DBSCAN and KMeans). Getting an automatic classification, specifically for this task, is very important because it will make things easier and faster and it will avoid the problems that could appear because of the human interaction. With this project, different techniques will be studied, compared and checked, getting a better understanding in that way in Artificial Intelligence concepts, specifically in the Automatic classification and Natural Language Processing issues.Ingeniería de Telecomunicació

    Revisión sistemática para las técnicas de minería Web de contenido

    Get PDF
    Trabajo de InvestigaciónDeterminar las principales técnicas empleadas de minería web que permiten realizar minería de contenido, con el fin de facilitar la búsqueda de información en bases documentales. Para ello se llevó a cabo una revisión sistemática de la información documentada en medios arbitrados en el período 2014 – 2018, empleando las bases documentales Redalyc, Scielo, Scopus, IEEEXplore, Google Scholar y Web of ScienceINTRODUCCIÓN 1. GENERALIDADES 2. DEFINICIÓN DE LOS CRITERIOS DE BÚSQUEDA DE ARTÍCULOS SOBRE MINERÍA DE CONTENIDO EN LA WEB 3. IDENTIFICACIÓN DE LAS TÉCNICAS QUE HAN SIDO EMPLEADAS PARA REALIZAR MINERÍA DE CONTENIDO EN LA WEB 4. CARACTERIZACIÓN DE LAS PRINCIPALES TÉCNICAS QUE HAN SIDO EMPLEADAS PARA REALIZAR MINERÍA DE CONTENIDO EN LA WEB 5. CONCLUSIONES 6. RECOMENDACIONES BIBLIOGRAFÍA ANEXOSPregradoIngeniero de Sistema

    Técnicas y usos en la clasificación automática de imágenes

    Get PDF
    The production and generation of visual information through mobile phones and cameras is enormous. Also and mainly through remote sensing, through the acquisition of images of the earth's surface by means of planes, spacecraft and satellites that capture and serve data on meteorology, oceanography, geology, geography, geolocation, security, and so on. These image capture instruments generate visual information every day that cannot be manually processed, which is why various techniques and methods are used for the automatic extraction of useful knowledge. This literature review aims to understand the techniques and uses of automatic classification of images. In order to do this, the Scopus and WoS databases were used to locate documents on the automatic classification of images published between 2008 and 2018. The resulting records were searched for their full texts, carrying out a content analysis to find out the most recurrent techniques and their applications. As a result, it becomes evident that the three most commonly used techniques for the automatic classification of images are decision trees, neural networks and support vector machines, with the application of a wide variety of automatic classification, which seeks to automate repetitive processes, inspection and complex surveillance, urban control and development or recognition and assessment after natural disasters, among other aspects

    Detección de patrones en conversaciones de WhatsApp mediante técnicas de Procesamiento del Lenguage Natural

    Get PDF
    Este trabajo desarrolla y experimenta un sistema de análisis de conversaciones de WhatsApp. El sistema es capaz de leer conversaciones, interpretarlas, analizarlas y reproducir los resultados del análisis gráficamente con el objetivo de facilitar al usuario la detección de patrones en la conversación. Para ello se emplean técnicas de minería de textos que permiten la explotación de la información y, de esta manera, medir automáticamente aspectos que sólo podrían medirse manualmente pero que sería inviable por el gran volumen de datos con el que se trabaja. Las métricas implicadas en el análisis miden la tasa de participación de los integrantes de la conversación, el flujo de mensajes entre usuarios y la cantidad de palabras, así como la longitud de los mensajes o el sentimiento que estos transmiten. Al representar gráficamente estas métricas el usuario es capaz de detectar patrones de conducta individuales y grupales que, de no ser por el análisis, no sería capaz de detectar. Algunos ejemplos de patrones que podrían detectarse son, la velocidad de cambio de temática en la conversación, la afinidad entre los integrantes del grupo, fluctuaciones de actividad distribuidas temporalmente y figuras de liderazgo, entre muchos otros. Para probar la efectividad del sistema se realiza una experimentación con un grupo de WhastApp real donde aparecen varias personas manteniendo diferentes conversaciones durante un largo periodo de tiempo. Se analiza la conversación y se comenta cada resultado justificando cada patrón detectado
    corecore