Search CORE

1,005 research outputs found

Reconocimiento de niveles de ansiedad a partir del análisis multimodal y técnicas de aprendizaje de máquina en señales fisiológicas

Author: Gutiérrez Gómez Carlos Alberto
Publication venue: Maestría en Ingeniería Eléctrica
Publication date: 01/01/2014
Field of study

Aunque en la actualidad, los sistemas de reconocimiento de niveles de ansiedad son ampliamente utilizados en la fase de terapia cognitiva conductual, interfaz hombre computador, técnicas de manejo afectivas, las técnicas de procesamiento desarrolladas aun no alcanzan porcentajes de acierto altos, debido a problemas presentes en las mismas señales, como pueden ser los procesos de filtrado, artefactos, sistemas de caracterización que no determinan a ciencia cierta el contenido emocional presente en dichas señales ó sistemas de clasificación que no realizan en forma óptima su tarea. De igual forma se describe la idea fundamental de cada una de las técnicas con sus pro y sus contra, con el fin de establecer un marco comparativo y de esta forma encontrar una combinación de técnicas que ofrezcan el mínimo de error en el reconocimiento de la emoción presente procedente de una señal fisiológica. Con base en los problemas que presentan los sistemas de reconocimiento de emociones, se requiere de un sistema capaz de realizar esta tarea de manera robusta que aplique técnicas que sean capaces de cuantificar la información presente en las diferentes señales fisiológicas estudiadas. Por tanto se propone el desarrollo de una metodología para el reconocimiento de estados de ansiedad, mediante un análisis multimodal y técnicas de aprendizaje de maquina en señales fisiológicas con el fin de aplicar esta metodología en el tratamiento psicológico para el control de la ansiedad.Although inthe present systems of emotion recognition are widely used in the phase of cognitive behavioral therapy, computer human interface, techniques of emotional management, the techniques developed processing even not reach percentages higher confidence due to problems at the same signals, such as filtering processes, devices, systems characterization not determine with certainty the emotional content present in these signals or classification systems that do not perform optimally in their task. Likewise the fundamental idea of each of the techniques with their pros and cons, in order to establish a comparison frame and thus to find a combination of techniques which offer the least error in recognizing emotion described present from a physiological signal. Based on the problems presented by the emotion recognition systems, requires a system capable of performing this task robustly implement techniques that are able to quantify the information in the different physiological signals studied. Therefore a methodology for the recognition of anxiety states proposed by multimodal analysis techniques and machine learning in physiological signals in order to apply this methodology in psychological treatment for anxiety management

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Repositorio academico de la Universidad Tecnológica de Pereira

Hybrid call sentiment analysis systems

Author: Fernández de Pedro Emilio Perera
Quiñones Bellón Francisco
Sánchez de Paz Mario
Publication venue
Publication date: 01/06/2021
Field of study

Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2020/2021.A lo largo de los últimos años ha existido un incremento considerable en comunicaciones y operaciones llevadas a cabo en la red. Las Redes Sociales (RRSS) y el comercio electrónico han visto crecer su influencia en nuestro entorno de manera exponencial, generándose una ingente cantidad de datos sobre las preferencias de cada usuario. Los vídeos, audios, imágenes y textos que compartimos pueden ser analizados con detalle para extraer información sobre nuestros gustos. Esos sentimientos tienen un gran potencial dentro del comercio, debido al feedback que es transmitido por las opiniones de los usuarios en múltiples plataformas, que son procesadas por tecnologías basadas en análisis de la información: Machine Learning y Deep Learning, cuyo origen es la Inteligencia Artificial. Aplicando estas técnicas al marketing y al comercio online se puede obtener una gran cantidad de valor, algo que conocen bien la mayoría de empresas en la actualidad, que hacen uso de las RRSS y de estudios de mercado con Big Data para ofrecer una experiencia más cercana y personalizada para sus clientes. También existen otras aplicaciones que ofrecen infinidad de posibilidades en campos como la medicina, psicología o sociología. Dos campos, que en cierto modo comparten objetivo aunque sus análisis se centran en medios diferentes, son el Reconocimiento de Emociones en Audio y el Procesamiento de Lenguaje Natural (PLN). Estas tecnologías tienen como objetivo analizar y estimar el connotación subjetiva que alguien plasma en audio y texto con la mayor precisión posible. Dividiendo este proyecto en dichas partes, se han diseñado una serie de experimentos con el fin de estudiar y analizar los sentimientos en audio y el texto extraído gracias a una herramienta de transcripción. Junto a estas aplicaciones, otra herramienta estudiada y desarrollada es la de Speaker Diarization o separación de interlocutores. Este es el proceso que particiona un audio de entrada en segmentos homogéneos, según la actividad de los hablantes. La conjunción de los sistemas desarrollados nos llevaría a un análisis completo de un audio original, ofreciéndonos más detalles sobre el sentimiento y las emociones reflejadas en el mismo.Over the last few years, there has been a considerable increase in communications and operations carried out through the Internet. Social media and electronic marketing increased their influence in our society exponentially, creating a huge amount of data about our preferences. Videos, audios, images and texts we share online can be analized to extract that kind of information. That sentiment analysis have great potential in the marketing world due to the feedback sent by users in multiple platforms, which is processed by technologies based on data analysis like Machine Learning and Deep Learning. We can use these techniques in online marketing to obtain great valued information, something that companies already know and apply on social media and market studies with the purpose of giving a close experience to the user. There are also some other applications that could offer lots of possibilities in areas like medicine, psychology and sociology. Speech Emotion Recognition and Natural Language Processing are two of these technique families that look for sentiment and emotion on data, but they work on different media. These technologies’ goal is to estimate the subjective connotation inside a speech or a document. Dividing this project into to separated parts, we have designed a set of experiments to study and analize sentiment on audio and the text that is possible to extract from it with a transcription tool. Along with this systems, other tool that has been studied and developed is Speaker Diarization. Speaker Diarization is the process of partitioning an input audio stream into homogeneous segments according to the speaker identity. The conjunction of all the systems developed would make a complete analysis of the original audio, offering more details about the emotions expressed that a single appreciation could ignore.Depto. de Sistemas Informáticos y ComputaciónFac. de InformáticaTRUEunpu

Docta Complutense

Mobile Application for Analysis of Sentiments in Twitter

Author: Gordillo Juan Pablo Guevara
Publication venue
Publication date: 24/07/2018
Field of study

El Análisis de Sentimientos es una técnica muy popular para el estudio de redes sociales. Una de las redes sociales más populares para microblogging, con gran crecimiento, es Twitter, ya que permite a las personas expresar sus opiniones utilizando oraciones cortas y simples. Estos textos se generan a diario y por esta razón, es común que las personas quieran saber cuáles son los temas de actualidad y sus derivaciones. En este trabajo, proponemos implementar una aplicación móvil que brinde información a las personas, como un grado de polaridad positiva o negativa, sobre cualquier tema relevante en la sociedad, ayudando de esta manera a que las personas puedan tomar la mejor decisión. En el aplicativo se utilizarán varias técnicas de clasificación de texto de manera conjunta. Estas técnicas están enfocadas en el aprendizaje de máquina y de léxico

IC-online

Definición de una metodología para análisis de discurso basado en lingüística computacional y técnicas de aprendizaje de máquina

Author: Fajardo Becerra Daian Paola
Publication venue: 'Universidad de Medellin'
Publication date: 02/05/2023
Field of study

Las diferentes acciones realizadas por un ente regulador del estado, generan múltiples opiniones entre los ciudadanos, las cuales forman debates entre las personas haciendo que se encuentren de acuerdo, desacuerdo o parcialmente de acuerdo con las decisiones o estrategias planteadas. Con el fin de conocer las opiniones de los ciudadanos, en Chile se origina un proyecto llamado “Tenemos que hablar Chile” el cual realizaba preguntas estructuradas a un grupo de ciudadanos, donde la respuesta de cada persona era clasificada por el moderador. Dicha etiqueta fue utilizada para diferentes análisis de discurso que se empezaron a desarrollar sin ningún orden específico. Este proyecto fue replicado en Colombia, bajo la misma dinámica para así conocer las opiniones de los ciudadanos, sin embargo, las técnicas utilizadas fueron diferentes al proyecto chileno. Como resultado, se observa que a pesar de que ambos proyectos tenían la misma dinámica y buscaban un resultado similar, no se pudo reutilizar las técnicas desarrolladas en el proyecto de Chile en Colombia. Debido a esto, la propuesta de este proyecto de maestría busca la implementación de una metodología que permite usar diferentes técnicas de análisis de discurso basado en lingüística computacional y aprendizaje de máquina que dote al equipo de analistas con un esquema de etapas las cuales contarán con herramientas y técnicas de Natural Language processing (NLP, por sus siglas en inglés) para mejorar la eficiencia de este tipo de proyectos. Dentro de este proyecto se puede destacar las fortalezas del director quien tiene una alta experiencia en Machine Learning (ML, por sus siglas en ingles) y de NLP, además de las fortalezas del codirector con un amplio entendimiento del proyecto de "Tenemos que Hablar Colombia” (TQHC), y finalmente el estudiante de este proyecto con una base en la Maestría de Ciencia de los Datos y Analítica para generar una investigación sobre las técnicas de NLP.The different actions carried out by a state regulatory body generate multiple opinions among citizens, which form debates among people, causing them to agree, disagree or partially agree with the decisions or strategies proposed. In order to know the opinions of the citizens, in Chile a project called "Tenemos que hablar Chile" (We have to talk Chile) was created, which asked structured questions to a group of citizens, where the answer of each person was classified by the moderator. each person's answer was classified by the moderator. This label was used for different discourse analyses that began to be developed without any specific order. This project was replicated in Colombia, under the same dynamics in order to know the opinions of the citizens, however, the techniques used were different from the Chilean project. As a result, it is observed that although both projects had the same dynamics and sought a similar result, it was not possible to reuse the techniques developed in the Chilean project in Colombia. Due to this, the proposal of this master's project seeks the implementation of a methodology that allows the use of different techniques of discourse analysis based on computational linguistics and machine learning that will provide the team of analysts with a scheme of stages which will have tools and techniques of Natural Language processing (NLP) to improve the efficiency of this type of projects. Within this project we can highlight the strengths of the director who has a high experience in Machine Learning (ML) and NLP, in addition to the strengths of the co-director with a broad understanding of the project "Tenemos que Hablar Colombia" (TQHC), and finally the student of this project with a base in the Master of Data Science and Analytics to generate a research on NLP techniques

Repositorio Institucional Universidad EAFIT

Detección de comienzos de notas musicales en archivos de audio : estudio experimental

Author: Martí Solsona Salvador
Publication venue: 'Universitat Jaume I'
Publication date: 01/01/2015
Field of study

Treball Final de Màster Universitari en Sistemes Intel·ligents. Codi: SIE043. Curs: 2014/2015El desarrollo de soluciones computacionales aplicadas a problemas relacionados con el sonido y la música es un área de investigación emergente.! !Actualmente existen múltiples ámbitos de problemas en esta área del conocimiento, entre ellos: el procesado de audio, desarrollo de interfaces musicales, modelización de la interpretación musical, descripción del sonido y de la música, etc. Entre las disciplinas científicas más populares para tratar con estos problemas podemos encontrar el Aprendizaje Automático, Tecnologías Semánticas, Interacción Hombre Máquina y Procesado de Señal.! Un problema actual es el llamado genéricamente ‘Onset detection’ o detección en sonido de inicios de nota. El objetivo final de todo el proceso es conseguir una lista de instantes de tiempos en los que, presumiblemente, comienzan las notas. Existen multitud de aplicaciones que demandan una solución a este problema, como por ejemplo: la transcripción automática, el análisis de la estructura y frases musicales, la evaluación de la similitud musical, el análisis del rendimiento expresivo y la recuperación de información musical.! Como parte de un Trabajo de Introducción a la Investigación previo al desarrollo de este proyecto, se ha revisado el estado del arte más reciente del problema ‘Onset detection’ y se ha presentado un conjunto de datos en un formato muy cercano al contexto real que permitirá ilustrar este problema. También se ha planteado un proceso de re-ordenación de estos datos a un formato más estándar que favorezca su análisis y se ha descrito la metodología de evaluación de la efectividad de los métodos que se usará. Estas tareas son, a grandes rasgos, las que han permitido obtener una base de conocimiento sobre el problema y sus soluciones potenciales, y acometer el estudio experimental que propone este Trabajo Final de Máster. ! !Este proyecto pretende diseñar un marco experimental que permita evaluar soluciones al problema ‘Onset detection’. Cada solución contemplará, potencialmente, métodos de transformación de los datos, de aprendizaje y detección (clasificación), y de análisis de la efectividad de los resultados. Finalmente, se realizará una comparación de los métodos involucrados, con el fin de proponer directrices que ayuden en futuras investigaciones relacionadas

Repositori Institucional de la Universitat Jaume I

Análisis del lenguaje en grupos de apoyo en Internet de salud mental

Author: Ferraro Gabriela
Salvador-Carulla Luis
Publication venue: Anales de Lingüística
Publication date: 21/12/2021
Field of study

Assisting moderators to triage critical posts in Internet Support Groups is relevant to ensure its safe use. Automated text classification methods analysing the language expressed in posts of online forums is a promising solution. Natural Language Processing and Machine Learning technologies were used to build a triage post classifier using a dataset from Reachout.com mental health forum. When comparing with the state-of-the-art, our solution achieved the best classification performance for the crisis posts (52%), which is the most severe class.Dar asistencia a los moderadores de Grupos de Ayuda en Internet es importante para asegurar su uso de forma segura. Métodos de clasificación de textos que analizan el lenguaje utilizado en estos forums es una de las posibles soluciones. Esta investigación trata de utilizar tecnologías del procesamiento del lenguaje natural y el aprendizaje automático para construir un sistema de clasificación de triaje usando datos del forum de salud mental Reachout.com. Al comparar con el estado de la cuestión, nuestra propuesta alcanza el mejor rendimiento para la clase crisis (52%), siendo ésta la de mayor importancia

Centro Universitario Mendoza, Facultad de Filosofía y Letras: Open Journal Systems FFYL

Lengua, cosmovisión y mentalidad nacional

Author: Díaz Rojo José Antonio
Publication venue: 'Servicio de Publicaciones de la Universidad de Murcia'
Publication date: 01/01/2001
Field of study

La publicación original está disponible en http://www.um.es/tonosdigital/znum14/index.htmEl objetivo de este trabajo es presentar una síntesis de las principales ideas sobre la relación entre lengua y cosmovisión colectiva, así como aportar algunas reflexiones sobre las limitaciones de las teorías que sustentan que una lengua contiene una visión del mundo la cual es reflejo de la cultura y la mentalidad colectiva de un pueblo o comunidad lingüística. El principal desarrollo de esta tesis se alcanza con la antropología lingüística norteamericana surgida en el siglo XX, cuyas ideas básicas se sintetizan en las teorías del determinismo lingüístico y del relativismo lingüístico.Peer reviewe

Digital.CSIC

Minería de opinión: un análisis en tiempo real de tweets para Zacatecas

Author: César Alberto Collazos Ordóñez
Julián González Trinidad
Pedro Daniel Alaniz Lumbreras
Reveles Gómez Luis Carlos
Publication venue: Universidad Autónoma de Zacatecas
Publication date: 03/06/2021
Field of study

The Twitter social network has become an excellent tool to know in real time the opinions that users express on a great variety of topics. The formal analysis of the texts in tweets is the subject of numerous studies, derived from them, the emergence of emerging technologies such as Opinion Mining, where sentiment analysis is inert; which refers to the use of natural language processing to identify and extract subjective information from the texts [1]. By definition, sentiment analysis seeks to generate automatic tools capable of extracting subjective information to create structured and actionable knowledge [2]. In other words, this is a bulk document classification task automatically, depending on the positive or negative connotation of the language used in the document. This work focuses on performing sentiment analysis of Twitter comments georeferenced to the city of Zacatecas, such as a ranking of tweets tagged with their polarity, cleaning up the text of tweets, as well as extracting characteristics typical of the text don positive and negative polarity, using machine learning especially supervised learning algorithms to perform the classification. From the algorithms used it was obtained that Random Forest had a better accuracy by having 0.977, then Decision Trees with 0.9735 and SVM with 0.9551. With the results obtained it can be concluded that the improvement of the accuracy was achieved thanks to the features that were added, in addition it is shown that the supervised learning algorithms are classifying the tweets appropriately given the results obtained.La red social Twitter se ha convertido en una excelente herramienta para conocer en tiempo real las opiniones que los usuarios expresan sobre una gran variedad de temas. El análisis formal de los textos en los tweets es objeto de numerosos estudios, derivado de ellos, se ha impulsado la aparición de tecnologías emergentes como la Minería de Opinión, donde está inerte el análisis de sentimientos; el cual se refiere al uso del procesamiento del lenguaje natural para identificar y extraer información subjetiva de los textos [1]. Por definición, el análisis de sentimientos busca generar herramientas automáticas capaces de extraer información subjetiva para crear conocimiento estructurado y procesable [2]. En otras palabras, se trata de una tarea de clasificación masiva de documentos de manera automática, en función de la connotación positiva o negativa del lenguaje utilizado en el documento. Este trabajo se centra en realizar análisis de sentimientos de comentarios de Twitter georreferenciado a la ciudad de Zacatecas, como una clasificación de los tweets etiquetados con su polaridad, realizando una limpieza del texto de los tweets, así como la extracción de características propias del texto como polaridad positiva y negativa, utilizando el machine learning en especial los algoritmos de aprendizaje supervisado para realizar la clasificación. De los algoritmos utilizados se obtuvo que Random Forest tuvo un mejor accuracy al tener 0.977, después Arboles de Decisión con 0.9735 y SVM con 0.9551. Con los resultados obtenidos se puede concluir que la mejora del accuracy se logró gracias a las características que se fueron agregando, además se demuestra que los algoritmos de aprendizaje supervisado están clasificando los tweets de manera adecuada dado los resultados obtenidos

Caxcan Repositorio Institucional de la Universidad Autónoma de Zacatecas

Definición de un framework para el análisis predictivo de datos no estructurados

Author: Jiménez Márquez José Luis
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/01/2019
Field of study

La cantidad de información que se genera segundo a segundo en Internet aumenta en volumen y variedad cada día. La web 2.0, el Internet de las cosas y los dispositivos móviles son tan sólo algunos de los elementos que han generado tal incremento en el volumen de los datos. En el futuro cercano, la introducción de la tecnología 5G propiciará un incremento exponencial en la generación de datos al permitir una mayor transferencia de Gb/s. Por lo anterior, la investigación en esta área debe establecer las pautas que guíen el camino mediante el cual se puedan establecer metodologías para el análisis de los datos, así como medios para tratarlos. No obstante, el tamaño y la diversidad de estos datos hacen que tengan que conjuntarse diversas disciplinas científicas para poder analizar los datos y obtener hallazgos relevantes dentro de la información. Es decir, que no sólo se aplicarán las técnicas tradicionales para realizar el análisis, sino que se tendrán que conjuntar otras áreas de la ciencia para poder extraer la denominada ‘información oculta’ que se encuentra tras estos datos. Por otra parte, dentro de esta disponibilidad de datos que se está generando, la web 2.0 contribuye con el paradigma de las redes sociales y los tipos de datos (no estructurados) que estos generan, comúnmente texto libre. Este texto libre puede venir asociado a otros elementos dependiendo de la fuente de donde procedan, por ejemplo, pueden estar asociados a una escala de valoración de algún producto o servicio. Por todo lo anterior, esta tesis plantea la definición de un framework que permita el análisis de datos no estructurados de redes sociales mediante técnicas de aprendizaje automático, procesamiento de lenguaje natural y big data. Dentro de las características principales de este framework se tienen: - El framework está dividido en dos fases, cada una de las cuáles consta de un conjunto de etapas definidas con el propósito de analizar un volumen de datos ya sea pequeño (inferior a lo considerado big data) o grande (big data). - El elemento central de la fase uno del framework es el modelo de aprendizaje automático el cual consiste de dos elementos: (i) una serie de técnicas de procesamiento de lenguaje natural orientadas al preprocesamiento de datos y (ii) una serie de algoritmos de aprendizaje automático para la clasificación de la información. - El modelo de aprendizaje automático construido en la primera fase tiene como intención el poder ser empleado en la segunda (big data) para analizar el mismo origen de datos, pero a un volumen mucho mayor. - El modelo de aprendizaje automático no está relacionado directamente con la aplicación de determinados algoritmos para su uso, lo que lo convierte en un modelo versátil para emplear. De tal manera que como se observa, el marco en que se desenvuelve esta investigación es multidisciplinar al conjuntar diversas disciplinas científicas con un mismo propósito. Por lo cual, el resolver el problema de análisis de datos no estructurados provenientes de redes sociales requiere de la unión de técnicas heterogéneas procedentes de diversas áreas de la ciencia y la ingeniería. La metodología de investigación seguida para la elaboración de esta tesis doctoral ha consistido en: 1. Estado del Arte: Se presenta una selección de estudios que otros autores en las áreas de Big Data, Machine Learning y Procesamiento de Lenguaje Natural han realizado al respecto, así como la unión de estos temas con el área de análisis de sentimientos y los sistemas de calificación de redes sociales. También se presenta una comparativa que integra los temas abordados con el propósito de conocer el estado del arte en cuanto a lo que otros autores han propuesto en sus estudios al combinar las tres áreas cubiertas por el framework. 2. Estado de la Técnica: En esta fase se analizaron los diversos elementos que componen el framework y a partir de esto se presenta una retrospectiva teórica al respecto. Se abordan temas más técnicos, para lo cual se presenta un panorama de las tecnologías que se están empleando en la investigación actual. 3. Solución Propuesta: En esta fase se presenta el framework propuesto analizándolo desde dos perspectivas: los aspectos teóricos que comprende cada fase y los aspectos de implementación, en los cuáles se abordan temas como la complejidad de llevar a la práctica cada fase en una situación real. 4. Evaluación y Validación: Se definen una serie de pruebas destinadas a comprobar las hipótesis establecidas al principio de la investigación, para demostrar la validez del modelo propuesto. 5. Documentación y Conclusiones.: Esta actividad consistió en documentar todos los aspectos relacionados con esta tesis y presentar las conclusiones que surgen al término de la investigación. Por consiguiente, se construyó un framework que contempla dos fases a través de las cuáles se realiza el análisis de un conjunto de datos no estructurados, siendo una distinción de este framework la construcción de un modelo de aprendizaje automático durante la primera fase, que pretende servir como base en la segunda, la cual se caracteriza por el procesamiento de datos de gran volumen. Para poder validar este trabajo de tesis, se emplearon datos de Yelp, concretamente del sector de la hotelería. De igual manera, se evaluó el framework mediante la ejecución de diversas pruebas empleando clasificadores de aprendizaje automático, obteniendo porcentajes altos de predicción en la búsqueda binaria llevada a cabo tanto en el entorno no big data como en big data. Las conclusiones obtenidas tras haber diseñado el framework, así como haber analizado y validado los resultados conseguidos demuestran que el modelo presentado es capaz de analizar datos no estructurados de redes sociales tanto a una escala menor (no big data) como mayor (big data) de análisis. Por otra parte, interesantes retos y futuras líneas de investigación surgen tras haber concluido el modelo tanto para extenderlo hacia el análisis de otro tipo de información, como en el aspecto de la integración y adaptación del modelo de aprendizaje automático de la primera hacia la segunda fase.The amount of information generated continuously on the Internet increases in volume and variety each day. Web 2.0, the Internet of things and mobile devices are just some of the elements that have generated such an increase in the volume of data. In the near future, the introduction of 5G technology will lead to an exponential increase in data generation by allowing a greater Gb/s transfer. Therefore, research in this area should establish the guidelines that guide the way by which methodologies can be established for the analysis of data, as well as means to deal with them. However, the size and diversity of these data mean that different scientific disciplines have to be combined in order to analyze the data and obtain relevant findings within the information. That is, not only traditional techniques will be applied to carry out the analysis, but other areas of science will have to be combined in order to extract the so-called 'hidden information' found behind these data. On the other hand, in this availability of data being generated, web 2.0 contributes with the paradigm of social networks and the types of (unstructured) data that these generate, commonly free text. This free text may be associated with other elements depending on the source they come from, for example, they may be associated with a rating scale of a product or service. For all the above, this thesis proposes the definition of a framework that allows the analysis of unstructured data of social networks using machine learning, natural language processing and big data techniques. The main features of this framework are: - The framework is divided into two phases, each of which consists of a set of stages defined for the purpose of analyzing a volume of data either small (less than big data) or large (big data). - The central element of phase one of the framework is the machine learning model which consists of two elements: (i) a series of natural language processing techniques for data preprocessing and (ii) a series of machine learning algorithms for the classification of information. - The machine learning model built in the first phase is intended to be used in the second phase (big data phase) to analyze the same data source, but at a much larger volume. - The machine learning model is not directly related to the application of certain algorithms for its use, which makes it a versatile model to adopt. Therefore, the framework where this research is developed is multidisciplinary by combining diverse scientific disciplines with a same purpose. Therefore, to solve the problem of unstructured data analysis of social networks requires the union of heterogeneous techniques from various areas of science and engineering. The research methodology for the preparation of this doctoral thesis consisted of the following: 1. State of the Art: It presents a selection of studies where other authors in the Big Data, Machine Learning and Natural Language Processing areas have done research about them, as well as the union of these topics with sentiment analysis and social network rating systems. It also presents a comparison that integrates the mentioned topics with the purpose of knowing the state of the art in terms of what other authors have proposed in their studies by combining the three areas covered by the framework. 2. State of the Technique: In this phase, the various elements that make up the framework were analyzed, presenting a theoretical retrospective about. More technical issues are addressed, presenting an overview of the technologies that are being used in current research. 3. Proposed Solution: In this phase, the proposed framework is presented analyzing it from two perspectives: the theoretical aspects that each phase comprises and the aspects of implementation, where topics as complexity of carrying out each phase in a real situation are addressed. 4. Evaluation and Validation: A series of tests are defined to verify the hypotheses established at the beginning of the research, to demonstrate the validity of the proposed model. 5. Documentation and Conclusions: This activity consisted of documenting all the aspects related to this thesis and presenting the conclusions that emerge at the end of the research. Therefore, a framework was built including two phases that perform the analysis of a set of unstructured data, a distinction of this framework is the construction of a machine learning model during the first phase, which aims to serve as a basis in the second, characterized by the processing of large volume of data. In order to validate this thesis, Yelp data was used, specifically in the hotel sector. Likewise, the framework was evaluated by executing several tests using machine learning classifiers, obtaining high prediction percentages in the binary search carried out both in the non-big data and the big data environment. The conclusions obtained after having designed the framework, as well as having analyzed and validated the results obtained show that the presented model is capable of analyzing unstructured data of social networks both on a smaller scale (not big data) and a higher scale (big data) of analysis. On the other hand, interesting challenges and future lines of research arise after having completed the model for both extending it to the analysis of another type of information, as in the aspect of integration and adaptation of the machine learning model from the first to the second phase.Programa Oficial de Doctorado en Ciencia y Tecnología InformáticaPresidente: Alejandro Calderón Mateos.- Secretario: Alejandro Rodríguez González.- Vocal: Mario Graff Guerrer

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Universidad Carlos III de Madrid e-Archivo