43 research outputs found

    Definición de un framework para el análisis predictivo de datos no estructurados

    Get PDF
    La cantidad de información que se genera segundo a segundo en Internet aumenta en volumen y variedad cada día. La web 2.0, el Internet de las cosas y los dispositivos móviles son tan sólo algunos de los elementos que han generado tal incremento en el volumen de los datos. En el futuro cercano, la introducción de la tecnología 5G propiciará un incremento exponencial en la generación de datos al permitir una mayor transferencia de Gb/s. Por lo anterior, la investigación en esta área debe establecer las pautas que guíen el camino mediante el cual se puedan establecer metodologías para el análisis de los datos, así como medios para tratarlos. No obstante, el tamaño y la diversidad de estos datos hacen que tengan que conjuntarse diversas disciplinas científicas para poder analizar los datos y obtener hallazgos relevantes dentro de la información. Es decir, que no sólo se aplicarán las técnicas tradicionales para realizar el análisis, sino que se tendrán que conjuntar otras áreas de la ciencia para poder extraer la denominada ‘información oculta’ que se encuentra tras estos datos. Por otra parte, dentro de esta disponibilidad de datos que se está generando, la web 2.0 contribuye con el paradigma de las redes sociales y los tipos de datos (no estructurados) que estos generan, comúnmente texto libre. Este texto libre puede venir asociado a otros elementos dependiendo de la fuente de donde procedan, por ejemplo, pueden estar asociados a una escala de valoración de algún producto o servicio. Por todo lo anterior, esta tesis plantea la definición de un framework que permita el análisis de datos no estructurados de redes sociales mediante técnicas de aprendizaje automático, procesamiento de lenguaje natural y big data. Dentro de las características principales de este framework se tienen: - El framework está dividido en dos fases, cada una de las cuáles consta de un conjunto de etapas definidas con el propósito de analizar un volumen de datos ya sea pequeño (inferior a lo considerado big data) o grande (big data). - El elemento central de la fase uno del framework es el modelo de aprendizaje automático el cual consiste de dos elementos: (i) una serie de técnicas de procesamiento de lenguaje natural orientadas al preprocesamiento de datos y (ii) una serie de algoritmos de aprendizaje automático para la clasificación de la información. - El modelo de aprendizaje automático construido en la primera fase tiene como intención el poder ser empleado en la segunda (big data) para analizar el mismo origen de datos, pero a un volumen mucho mayor. - El modelo de aprendizaje automático no está relacionado directamente con la aplicación de determinados algoritmos para su uso, lo que lo convierte en un modelo versátil para emplear. De tal manera que como se observa, el marco en que se desenvuelve esta investigación es multidisciplinar al conjuntar diversas disciplinas científicas con un mismo propósito. Por lo cual, el resolver el problema de análisis de datos no estructurados provenientes de redes sociales requiere de la unión de técnicas heterogéneas procedentes de diversas áreas de la ciencia y la ingeniería. La metodología de investigación seguida para la elaboración de esta tesis doctoral ha consistido en: 1. Estado del Arte: Se presenta una selección de estudios que otros autores en las áreas de Big Data, Machine Learning y Procesamiento de Lenguaje Natural han realizado al respecto, así como la unión de estos temas con el área de análisis de sentimientos y los sistemas de calificación de redes sociales. También se presenta una comparativa que integra los temas abordados con el propósito de conocer el estado del arte en cuanto a lo que otros autores han propuesto en sus estudios al combinar las tres áreas cubiertas por el framework. 2. Estado de la Técnica: En esta fase se analizaron los diversos elementos que componen el framework y a partir de esto se presenta una retrospectiva teórica al respecto. Se abordan temas más técnicos, para lo cual se presenta un panorama de las tecnologías que se están empleando en la investigación actual. 3. Solución Propuesta: En esta fase se presenta el framework propuesto analizándolo desde dos perspectivas: los aspectos teóricos que comprende cada fase y los aspectos de implementación, en los cuáles se abordan temas como la complejidad de llevar a la práctica cada fase en una situación real. 4. Evaluación y Validación: Se definen una serie de pruebas destinadas a comprobar las hipótesis establecidas al principio de la investigación, para demostrar la validez del modelo propuesto. 5. Documentación y Conclusiones.: Esta actividad consistió en documentar todos los aspectos relacionados con esta tesis y presentar las conclusiones que surgen al término de la investigación. Por consiguiente, se construyó un framework que contempla dos fases a través de las cuáles se realiza el análisis de un conjunto de datos no estructurados, siendo una distinción de este framework la construcción de un modelo de aprendizaje automático durante la primera fase, que pretende servir como base en la segunda, la cual se caracteriza por el procesamiento de datos de gran volumen. Para poder validar este trabajo de tesis, se emplearon datos de Yelp, concretamente del sector de la hotelería. De igual manera, se evaluó el framework mediante la ejecución de diversas pruebas empleando clasificadores de aprendizaje automático, obteniendo porcentajes altos de predicción en la búsqueda binaria llevada a cabo tanto en el entorno no big data como en big data. Las conclusiones obtenidas tras haber diseñado el framework, así como haber analizado y validado los resultados conseguidos demuestran que el modelo presentado es capaz de analizar datos no estructurados de redes sociales tanto a una escala menor (no big data) como mayor (big data) de análisis. Por otra parte, interesantes retos y futuras líneas de investigación surgen tras haber concluido el modelo tanto para extenderlo hacia el análisis de otro tipo de información, como en el aspecto de la integración y adaptación del modelo de aprendizaje automático de la primera hacia la segunda fase.The amount of information generated continuously on the Internet increases in volume and variety each day. Web 2.0, the Internet of things and mobile devices are just some of the elements that have generated such an increase in the volume of data. In the near future, the introduction of 5G technology will lead to an exponential increase in data generation by allowing a greater Gb/s transfer. Therefore, research in this area should establish the guidelines that guide the way by which methodologies can be established for the analysis of data, as well as means to deal with them. However, the size and diversity of these data mean that different scientific disciplines have to be combined in order to analyze the data and obtain relevant findings within the information. That is, not only traditional techniques will be applied to carry out the analysis, but other areas of science will have to be combined in order to extract the so-called 'hidden information' found behind these data. On the other hand, in this availability of data being generated, web 2.0 contributes with the paradigm of social networks and the types of (unstructured) data that these generate, commonly free text. This free text may be associated with other elements depending on the source they come from, for example, they may be associated with a rating scale of a product or service. For all the above, this thesis proposes the definition of a framework that allows the analysis of unstructured data of social networks using machine learning, natural language processing and big data techniques. The main features of this framework are: - The framework is divided into two phases, each of which consists of a set of stages defined for the purpose of analyzing a volume of data either small (less than big data) or large (big data). - The central element of phase one of the framework is the machine learning model which consists of two elements: (i) a series of natural language processing techniques for data preprocessing and (ii) a series of machine learning algorithms for the classification of information. - The machine learning model built in the first phase is intended to be used in the second phase (big data phase) to analyze the same data source, but at a much larger volume. - The machine learning model is not directly related to the application of certain algorithms for its use, which makes it a versatile model to adopt. Therefore, the framework where this research is developed is multidisciplinary by combining diverse scientific disciplines with a same purpose. Therefore, to solve the problem of unstructured data analysis of social networks requires the union of heterogeneous techniques from various areas of science and engineering. The research methodology for the preparation of this doctoral thesis consisted of the following: 1. State of the Art: It presents a selection of studies where other authors in the Big Data, Machine Learning and Natural Language Processing areas have done research about them, as well as the union of these topics with sentiment analysis and social network rating systems. It also presents a comparison that integrates the mentioned topics with the purpose of knowing the state of the art in terms of what other authors have proposed in their studies by combining the three areas covered by the framework. 2. State of the Technique: In this phase, the various elements that make up the framework were analyzed, presenting a theoretical retrospective about. More technical issues are addressed, presenting an overview of the technologies that are being used in current research. 3. Proposed Solution: In this phase, the proposed framework is presented analyzing it from two perspectives: the theoretical aspects that each phase comprises and the aspects of implementation, where topics as complexity of carrying out each phase in a real situation are addressed. 4. Evaluation and Validation: A series of tests are defined to verify the hypotheses established at the beginning of the research, to demonstrate the validity of the proposed model. 5. Documentation and Conclusions: This activity consisted of documenting all the aspects related to this thesis and presenting the conclusions that emerge at the end of the research. Therefore, a framework was built including two phases that perform the analysis of a set of unstructured data, a distinction of this framework is the construction of a machine learning model during the first phase, which aims to serve as a basis in the second, characterized by the processing of large volume of data. In order to validate this thesis, Yelp data was used, specifically in the hotel sector. Likewise, the framework was evaluated by executing several tests using machine learning classifiers, obtaining high prediction percentages in the binary search carried out both in the non-big data and the big data environment. The conclusions obtained after having designed the framework, as well as having analyzed and validated the results obtained show that the presented model is capable of analyzing unstructured data of social networks both on a smaller scale (not big data) and a higher scale (big data) of analysis. On the other hand, interesting challenges and future lines of research arise after having completed the model for both extending it to the analysis of another type of information, as in the aspect of integration and adaptation of the machine learning model from the first to the second phase.Programa Oficial de Doctorado en Ciencia y Tecnología InformáticaPresidente: Alejandro Calderón Mateos.- Secretario: Alejandro Rodríguez González.- Vocal: Mario Graff Guerrer

    Análisis de la contribución de los fonemas a la predicción de la valencia emocional en tweets en español e inglés

    Get PDF
    Aunque tradicionalmente se ha asumido que el sonido de las palabras y su significado se relacionan de forma arbitraria, distintos hallazgos empíricos respaldan la hipótesis de que las unidades fonológicas básicas del lenguaje guardan una relación sistemática con aspectos semánticos, incluyendo la connotación afectiva y actitudinal de las palabras (Adelman, Estes, & Cossu, 2018; Aryani, Conrad, Schmidtke, & Jacobs, 2018; Dingemanse, Blasi, Lupyan, Christiansen, & Monaghan, 2015; Monaghan, Shillcock, Christiansen, & Kirby, 2014; Schmidtke, Conrad, & Jacobs, 2014). A partir de estas premisas, se buscó identificar si las unidades fonológicas del español y el inglés contribuyen a la predicción de la valencia emocional en un corpus de tweets. Para esto, se entrenó un conjunto de modelos de regresión lineal múltiple, cuyo desempeño fue evaluado a partir de la correlación y los indicadores de error calculados partir de las valencias predichas y las observadas en los datasets de prueba proporcionados por el concurso SemEval-2018 (Mohammad, Bravo-Márquez, Salameh, & Kiritchenko, 2018). Se encontró que la adición de los recursos fonológicos a un conjunto de predictores léxicos (Bag of Words de los Tweets, normalizada con el método TF-IDF) tiene un efecto reducido pero consistente sobre las métricas globales de ajuste, y en ambos idiomas permite discriminar con mayor precisión las valencias observadas cercanas a los valores medios, así como las valencias inferiores asociadas a contenidos afectivos negativos.Magíster en Analítica para la Inteligencia de NegociosMaestrí

    Estudio y predicción de la evolución e impacto de tweets en trending topics

    Full text link
    Este Trabajo de Fin de Grado consiste en el desarrollo de un sistema de predicción para determinar la probabilidad de impacto de un tweet sobre una tendencia o trending topic determinada en la red social de Twitter. La motivación del proyecto viene dada por la enorme presencia que ha tenido y tiene esta red social a la hora de reflejar las ideas y sentimientos de sus usuarios ante grandes acontecimientos del mundo casi en tiempo real. El hecho de que se trate de un formato puramente en texto hace que dichos sucesos cristalicen en forma de topics o trends sobre los que los usuarios expresan sus ideas y compitan de forma indirecta por expresar en pocos caracteres sus ideas con el mayor impacto posible. Esto es especialmente atractivo para los profesionales de las campañas de marketing, campañas políticas o incluso otros investigadores interesados en establecer patrones del comportamiento humano. Para ello se ha llevado a cabo un proceso de investigación previo en el que se ha recopilado toda la información respecto a dicho algoritmo de popularidad de Twitter, sus revisiones en el tiempo y otros estudios académicos sobre el tema en cuestión, con el objetivo de sacar toda la información posible antes de intentar arrojar algo de luz sobre esta tecnología. También ha sido necesario el desarrollo de una herramienta capaz de recopilar, procesar y guardar un set de datos en tiempo real directamente desde la fuente sobre el que poder aplicar nuestro análisis. Finalmente, se ha desarrollado un modelo estadístico utilizando aprendizaje automático capaz de predecir el impacto de un nuevo tweet en un trending topic por las características que posee, habiendo hecho previamente un análisis de qué atributos so interesantes a la hora de realizar esta clasificación

    Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales

    Get PDF
    La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados.This doctoral thesis with a qualitative-quantitative (mixed) approach is part of the analysis of feelings in social networks that publish texts with suicidal content. For this reason, Corpus life was developed to carry out experiments with machine learning algorithms, which originally consisted of 102 suicide messages (71 texts in English and 31 texts in Spanish), 70 of these samples without risk and 32 with risk. But due to the small number of samples and the imbalance between them, the generated outcome was not reliable. Therefore, this research had the general objective of developing a semi-supervised method to detect, classify and annotate in the Corpus Life, texts extracted from digital environments, in order to increase their number of annotations, through a process of automatic assessments of their quality, prior to their inclusion or exclusion. Records which were tested manually, using the Cohen's Kappa concordance measure, with the participation of specialized annotators who evaluated the texts, reaching a level of agreement between annotators of 0.86, close to 0.78-0.81 of statistically significant reaching automatically by means of the f1 macro index, with the semi-supervised method. This led to achieving experiments with a higher degree of reliability, through a structured method with well-defined and linked activities, roles and processes

    Gestión de conocimiento colaborativa mediante información semántica

    Full text link
    Tesis doctoral inédita. Universidad Autónoma de Madrid, Escuela Politécnica Superior, septiembre de 200

    Generador automático de fichas de personajes para un entorno periodístico

    Get PDF
    Sistema que permite generar una ficha informativa de un personaje de forma automática a partir de las noticias pertenecientes a una base de datos documental de un medio de comunicación y otra información procedente de Internet

    Reconocimiento y clasificación automatizada de entidades nombradas en documentos medievales (s. XIV): Libro Becerro de las Behetrías

    Get PDF
    Mención Internacional en el título de doctorLos seres humanos utilizamos el lenguaje como medio de comunicación, lo que ha favorecido el desarrollo y organización de la sociedad en las diferentes épocas de la historia. Reflejo de ello son los innumerables testimonios textuales que tuvieron su auge en la época medieval, momento de transición de una sociedad de transmisión básicamente oral a otra en la que imperaba lo escrito. El desarrollo de técnicas computacionales ha pasado a formar parte del escenario de investigación en las Humanidades. En el ámbito de estudio de los testimonios textuales de la época medieval, las técnicas de procesamiento del lenguaje natural (PLN) han transformado significativamente los métodos, abriendo la posibilidad de generar nuevas preguntas de investigación. El procesamiento del lenguaje natural (PLN) ofrece diferentes aplicaciones como la traducción automática, recuperación y extracción de información, reconocimiento del habla, minería de textos entre otras. Dentro de la extracción de información (Information Extraction- IE) se define la subtarea de reconocimiento y clasificación de entidades nombradas EN (Named Entities- NE) cuyo objetivo es principalmente la identificación de nombres propios de personas, lugares y organizaciones. Los sistemas para el reconocimiento y clasificación de EN (NERC- Named Entity Recognition and Classification) utilizan habitualmente técnicas basadas en gramáticas lingüísticas, métodos estadísticos y gazetteers o listados de términos. En esta tesis se propone un método para la explotación de corpus de documentación medieval mediante sistemas de PLN, con el objetivo de la identificación y clasificación automatizada de las EN y relaciones para su posterior puesta a disposición, en abierto, a través de una plataforma web. Para ello, se ha llevado a cabo un estudio de caso utilizando la aplicación Freeling para español estándar y la variante diacrónica del español de los siglos XII al XVI en un corpus formado por los documentos que componen el Libro Becerro de la Behetrías de Castilla, del siglo XIV. Mediante el análisis de los problemas surgidos en la anotación automática se elabora una propuesta de adaptación para el etiquetado de las EN que no contienen triggers denominadas simples y se diseña una aplicación para la identificación de las entidades anidadas o complejas y sus relaciones. Para la evaluación de los resultados obtenidos fue necesaria la elaboración de un corpus anotado de forma manual que constituyese un gold standard, que con los niveles obtenidos de precisión, cobertura y medida F (F-measure), permitieron elaborar de forma semiautomática los gazetters de personas, lugares y organizaciones. Para su almacenamiento se diseñó una base de datos relacional en MySQL que permitiese su publicación en una plataforma web en PHP. Esta plataforma ofrece una interfaz de consulta para los usuarios en general e investigadores de diferentes disciplinas, que cuenta además con la opción de descarga de los programas desarrollados y gazetteers elaborados. Esto la convierte a su vez en una fuente de información para la reutilización e integración de los mismos en otros proyectos dentro de las Humanidades Digitales. Los resultados obtenidos en este estudio de caso ponen de manifiesto que la aplicación de este método abre las posibilidades de investigación, con otros sistemas de PLN, en corpus de documentación medieval para el reconocimiento y extracción de ENs.Computer science developments are currently an integral part of Digital Humanities scholarship. In the field of medieval text analysis, Natural Language Processing research (NLP) is significantly transforming the methods of study, opening up the possibilities to ask new research questions. Natural Language Processing (NLP) techniques facilitate, among others, automatic translation, information extraction and retrieval, speech recognition, and text mining. This thesis proposes a method for applying NLP methods to a medieval document corpus using information extraction (IE) tasks, including named entity (NE) recognition, which aims to identify mainly proper names of persons, places and organizations and their classification. Named Entity Recognition and Classification methods (NERC) often use techniques based on linguistic grammars, statistic methods and gazetteers or term lists. The method proposed in this thesis facilitates the automatic identification and classification of named entities and their relationships, presenting a case study in which the application “Freeling” for standard Spanish, and the diachronic variant for Spanish language from the XII to XVI centuries have been used. The corpus consists of the documents from the “Libro Becerro de la Behetrías de Castilla”, from the XIV century. Via the analysis of the issues emerging from the automatic annotation of this corpus, this investigation proposes an adaptation for labeling the simple named entities, and presents an application developed for the identification of the nested and complex entities and their relationships. The results obtained in this work have been evaluated using a manually annotated corpus (gold standard), analyzing precision, coverage and variance (F values). The evaluated results facilitated the semi-automatic creation of gazetters for persons, places, and organizations. In addition to the method resulting from this investigation, the software and gazetters developed during this work are offered in a web service for free download and can be consulted by specialized or non-specialized researchers from different disciplines via a user-friendly interface. Together, the method, the data, and this implementation aim to open up the possibilities for further medieval documents research and experimentationPrograma Oficial de Doctorado en Documentación: Archivos y Bibliotecas en el Entorno DigitalPresidente: María Isabel C. Jular Pérez-Alfaro.- Secretario: Diego Navarro Bonilla.- Vocal: Francisco Carlos Palett

    XXI Workshop de Investigadores en Ciencias de la Computación - WICC 2019: libro de actas

    Get PDF
    Trabajos presentados en el XXI Workshop de Investigadores en Ciencias de la Computación (WICC), celebrado en la provincia de San Juan los días 25 y 26 de abril 2019, organizado por la Red de Universidades con Carreras en Informática (RedUNCI) y la Facultad de Ciencias Exactas, Físicas y Naturales de la Universidad Nacional de San Juan.Red de Universidades con Carreras en Informátic

    XXI Workshop de Investigadores en Ciencias de la Computación - WICC 2019: libro de actas

    Get PDF
    Trabajos presentados en el XXI Workshop de Investigadores en Ciencias de la Computación (WICC), celebrado en la provincia de San Juan los días 25 y 26 de abril 2019, organizado por la Red de Universidades con Carreras en Informática (RedUNCI) y la Facultad de Ciencias Exactas, Físicas y Naturales de la Universidad Nacional de San Juan.Red de Universidades con Carreras en Informátic

    WICC 2017 : XIX Workshop de Investigadores en Ciencias de la Computación

    Get PDF
    Actas del XIX Workshop de Investigadores en Ciencias de la Computación (WICC 2017), realizado en el Instituto Tecnológico de Buenos Aires (ITBA), el 27 y 28 de abril de 2017.Red de Universidades con Carreras en Informática (RedUNCI
    corecore