8 research outputs found

    Framework for opinion as a service on review data of customer using semantics based analytics

    Get PDF
    At Opinion mining plays a significant role in representing the original and unbiased perception of the products/services. However, there are various challenges associated with performing an effective opinion mining in the present era of distributed computing system with dynamic behaviour of users. Existing approaches is more laborious towards extracting knowledge from the reviews of user which is further subjected to various rounds of operation with complex procedures. The proposed system addresses the problem by introducing a novel framework called as Opinion-as-a-Service which is meant for direct utilization of the extracted knowledge in most user friendly manner. The proposed system introduces a set of three sequential algorithm that performs aggregated of incoming stream of opinion data, performing indexing, followed by applying semantics for extracting knowledge. The study outcome shows that proposed system is better than existing system in mining performance

    Analítica de datos en información pública de medios periodísticos y redes sociales para el análisis de sentimiento: una revisión de literatura

    Get PDF
    El análisis de sentimiento es un área de investigación importante en el procesamiento de lenguaje natural, la cual está en constante crecimiento especialmente por la generación de grandes volúmenes de información textual, y el avance tecnológico en lo que se refiere al almacenamiento y los algoritmos inteligentes para el análisis de esta. Esta tarea cada vez va tomando más fuerza su uso en diferentes aplicaciones computacionales dado el crecimiento exponencial del uso de medios digitales y redes sociales, las cuales, gracias a la información debidamente procesada, pueden ser muy valiosas para los negocios. Actualmente existen procedimientos ambiguos para la realización de dicha tarea y sobre todo para textos en español y de manera específica para notas periodísticas y publicaciones realizadas en redes sociales, todo ello por el hecho de la escasa cantidad de herramientas existentes para la presente tarea, por ende el proceso de clasificación de las polaridades de los sentimientos expresadas en los textos se realiza de manera manual por expertos en el tema, generándose así resultados ambiguos y sesgados según la experiencia del encargado, lo cual generaba resultados que no eran del todo fiables retándole valor a dicha tarea, además del hecho de que realizarlo de manera totalmente manual resultaba muy pesado y se realizaba en un periodo largo de tiempo. Para la realización de dicha tarea existen múltiples técnicas de aprendizaje de máquina y de aprendizaje profundo que son adecuadas para este, pero en el último año uno de los modelos que va siendo reconocido cada vez más para ser aplicado a resolver problemas de procesamiento de lenguaje natural son los modelos basados en transformers dadas sus buenas capacidades y los resultados que se obtienen con estos. Ante dicha problemática surge la necesidad de investigar más acerca de cómo se vienen implementando soluciones para la realización de análisis de sentimiento para hacer una comparativa sobre los modelos usados y además dadas las buenas capacidades de los modelos basados en transformers investigar más a fondo la utilidad de estos y las aplicaciones que tiene para así comprobar sus buenas capacidades.Trabajo de investigació

    Drug Reviews: Cross-condition and Cross-source Analysis by Review Quantification Using Regional CNN-LSTM Models

    Get PDF
    Pharmaceutical drugs are usually rated by customers or patients (i.e. in a scale from 1 to 10). Often, they also give reviews or comments on the drug and its side effects. It is desirable to quantify the reviews to help analyze drug favorability in the market, in the absence of ratings. Since these reviews are in the form of text, we should use lexical methods for the analysis. The intent of this study was two-fold: First, to understand how better the efficiency will be if CNN-LSTM models are used to predict ratings or sentiment from reviews. These models are known to perform better than usual machine learning models in the case of textual data sequences. Second, how effective is it to migrate such information extraction models across different drug review data sets and across different disease conditions. Therefore three experiments were designed, first, an In-domain experiment where train and test data are from the same dataset. Two more experiments were conducted to examine the migration capability of models, namely cross-data source, where train and test are from different sources and cross-disease condition model training, where train and test data belong to different disease conditions in the same dataset. The experiments were evaluated using popular metrics such as RMSE, MAE, R2 and Pearson’s coefficient and the results showed that the proposed deep learning regression model works less successfully when compared to the machine learning sentiment extraction models in the literature, which were done on the same datasets. But, this study contributes to the existing literature in the quantity of research work done and in quality of the model and also suggests the future researchers on how to improve. This work also addressed the shortcomings in the literature by introducin

    Análisis de sentimiento en información de medios periodísticos y redes sociales mediante redes neuronales recurrentes

    Get PDF
    El análisis de sentimiento es un área de investigación importante en el procesamiento de lenguaje natural, la cual está en constante crecimiento especialmente por la generación de grandes volúmenes de información textual, y el avance tecnológico en lo que se refiere al almacenamiento y los algoritmos inteligentes para el análisis de esta. Esta tarea cada vez va tomando más fuerza su uso en diferentes aplicaciones computacionales dado el crecimiento exponencial del uso de medios digitales y redes sociales, las cuales, gracias a la información debidamente procesada, pueden ser muy valiosas para los negocios. Actualmente existen procedimientos ambiguos para la realización de dicha tarea y sobre todo para textos en español y de manera específica para notas periodísticas y publicaciones realizadas en redes sociales, todo ello por el hecho de la escasa cantidad de herramientas existentes para la presente tarea, por ende el proceso de clasificación de las polaridades de los sentimientos expresadas en los textos se realiza de manera manual por expertos en el tema, generándose así resultados ambiguos y sesgados según la experiencia del encargado, lo cual generaba resultados que no eran del todo fiables retándole valor a dicha tarea, además del hecho de que realizarlo de manera totalmente manual resultaba muy pesado y se realizaba en un periodo largo de tiempo. Para la realización de dicha tarea existen múltiples técnicas de aprendizaje de máquina y de aprendizaje profundo que son adecuadas para este, pero en el último año uno de los modelos que va siendo reconocido cada vez más para ser aplicado a resolver problemas de procesamiento de lenguaje natural son los modelos basados en transformers dadas sus buenas capacidades y los resultados que se obtienen con estos. Ante dicha problemática surge la necesidad de investigar más acerca de cómo se vienen implementando soluciones para la realización de análisis de sentimiento para hacer una comparativa sobre los modelos usados y además dadas las buenas capacidades de los modelos basados en transformers investigar más a fondo la utilidad de estos y las aplicaciones que tiene para así comprobar sus buenas capacidades

    Sentiment computing for the news event based on the social media big data

    Full text link
    © 2013 IEEE. The explosive increasing of the social media data on the Web has created and promoted the development of the social media big data mining area welcomed by researchers from both academia and industry. The sentiment computing of news event is a significant component of the social media big data. It has also attracted a lot of researches, which could support many real-world applications, such as public opinion monitoring for governments and news recommendation for Websites. However, existing sentiment computing methods are mainly based on the standard emotion thesaurus or supervised methods, which are not scalable to the social media big data. Therefore, we propose an innovative method to do the sentiment computing for news events. More specially, based on the social media data (i.e., words and emoticons) of a news event, a word emotion association network (WEAN) is built to jointly express its semantic and emotion, which lays the foundation for the news event sentiment computation. Based on WEAN, a word emotion computation algorithm is proposed to obtain the initial words emotion, which are further refined through the standard emotion thesaurus. With the words emotion in hand, we can compute every sentence's sentiment. Experimental results on real-world data sets demonstrate the excellent performance of the proposed method on the emotion computing for news events

    Definición de un framework para el análisis predictivo de datos no estructurados

    Get PDF
    La cantidad de información que se genera segundo a segundo en Internet aumenta en volumen y variedad cada día. La web 2.0, el Internet de las cosas y los dispositivos móviles son tan sólo algunos de los elementos que han generado tal incremento en el volumen de los datos. En el futuro cercano, la introducción de la tecnología 5G propiciará un incremento exponencial en la generación de datos al permitir una mayor transferencia de Gb/s. Por lo anterior, la investigación en esta área debe establecer las pautas que guíen el camino mediante el cual se puedan establecer metodologías para el análisis de los datos, así como medios para tratarlos. No obstante, el tamaño y la diversidad de estos datos hacen que tengan que conjuntarse diversas disciplinas científicas para poder analizar los datos y obtener hallazgos relevantes dentro de la información. Es decir, que no sólo se aplicarán las técnicas tradicionales para realizar el análisis, sino que se tendrán que conjuntar otras áreas de la ciencia para poder extraer la denominada ‘información oculta’ que se encuentra tras estos datos. Por otra parte, dentro de esta disponibilidad de datos que se está generando, la web 2.0 contribuye con el paradigma de las redes sociales y los tipos de datos (no estructurados) que estos generan, comúnmente texto libre. Este texto libre puede venir asociado a otros elementos dependiendo de la fuente de donde procedan, por ejemplo, pueden estar asociados a una escala de valoración de algún producto o servicio. Por todo lo anterior, esta tesis plantea la definición de un framework que permita el análisis de datos no estructurados de redes sociales mediante técnicas de aprendizaje automático, procesamiento de lenguaje natural y big data. Dentro de las características principales de este framework se tienen: - El framework está dividido en dos fases, cada una de las cuáles consta de un conjunto de etapas definidas con el propósito de analizar un volumen de datos ya sea pequeño (inferior a lo considerado big data) o grande (big data). - El elemento central de la fase uno del framework es el modelo de aprendizaje automático el cual consiste de dos elementos: (i) una serie de técnicas de procesamiento de lenguaje natural orientadas al preprocesamiento de datos y (ii) una serie de algoritmos de aprendizaje automático para la clasificación de la información. - El modelo de aprendizaje automático construido en la primera fase tiene como intención el poder ser empleado en la segunda (big data) para analizar el mismo origen de datos, pero a un volumen mucho mayor. - El modelo de aprendizaje automático no está relacionado directamente con la aplicación de determinados algoritmos para su uso, lo que lo convierte en un modelo versátil para emplear. De tal manera que como se observa, el marco en que se desenvuelve esta investigación es multidisciplinar al conjuntar diversas disciplinas científicas con un mismo propósito. Por lo cual, el resolver el problema de análisis de datos no estructurados provenientes de redes sociales requiere de la unión de técnicas heterogéneas procedentes de diversas áreas de la ciencia y la ingeniería. La metodología de investigación seguida para la elaboración de esta tesis doctoral ha consistido en: 1. Estado del Arte: Se presenta una selección de estudios que otros autores en las áreas de Big Data, Machine Learning y Procesamiento de Lenguaje Natural han realizado al respecto, así como la unión de estos temas con el área de análisis de sentimientos y los sistemas de calificación de redes sociales. También se presenta una comparativa que integra los temas abordados con el propósito de conocer el estado del arte en cuanto a lo que otros autores han propuesto en sus estudios al combinar las tres áreas cubiertas por el framework. 2. Estado de la Técnica: En esta fase se analizaron los diversos elementos que componen el framework y a partir de esto se presenta una retrospectiva teórica al respecto. Se abordan temas más técnicos, para lo cual se presenta un panorama de las tecnologías que se están empleando en la investigación actual. 3. Solución Propuesta: En esta fase se presenta el framework propuesto analizándolo desde dos perspectivas: los aspectos teóricos que comprende cada fase y los aspectos de implementación, en los cuáles se abordan temas como la complejidad de llevar a la práctica cada fase en una situación real. 4. Evaluación y Validación: Se definen una serie de pruebas destinadas a comprobar las hipótesis establecidas al principio de la investigación, para demostrar la validez del modelo propuesto. 5. Documentación y Conclusiones.: Esta actividad consistió en documentar todos los aspectos relacionados con esta tesis y presentar las conclusiones que surgen al término de la investigación. Por consiguiente, se construyó un framework que contempla dos fases a través de las cuáles se realiza el análisis de un conjunto de datos no estructurados, siendo una distinción de este framework la construcción de un modelo de aprendizaje automático durante la primera fase, que pretende servir como base en la segunda, la cual se caracteriza por el procesamiento de datos de gran volumen. Para poder validar este trabajo de tesis, se emplearon datos de Yelp, concretamente del sector de la hotelería. De igual manera, se evaluó el framework mediante la ejecución de diversas pruebas empleando clasificadores de aprendizaje automático, obteniendo porcentajes altos de predicción en la búsqueda binaria llevada a cabo tanto en el entorno no big data como en big data. Las conclusiones obtenidas tras haber diseñado el framework, así como haber analizado y validado los resultados conseguidos demuestran que el modelo presentado es capaz de analizar datos no estructurados de redes sociales tanto a una escala menor (no big data) como mayor (big data) de análisis. Por otra parte, interesantes retos y futuras líneas de investigación surgen tras haber concluido el modelo tanto para extenderlo hacia el análisis de otro tipo de información, como en el aspecto de la integración y adaptación del modelo de aprendizaje automático de la primera hacia la segunda fase.The amount of information generated continuously on the Internet increases in volume and variety each day. Web 2.0, the Internet of things and mobile devices are just some of the elements that have generated such an increase in the volume of data. In the near future, the introduction of 5G technology will lead to an exponential increase in data generation by allowing a greater Gb/s transfer. Therefore, research in this area should establish the guidelines that guide the way by which methodologies can be established for the analysis of data, as well as means to deal with them. However, the size and diversity of these data mean that different scientific disciplines have to be combined in order to analyze the data and obtain relevant findings within the information. That is, not only traditional techniques will be applied to carry out the analysis, but other areas of science will have to be combined in order to extract the so-called 'hidden information' found behind these data. On the other hand, in this availability of data being generated, web 2.0 contributes with the paradigm of social networks and the types of (unstructured) data that these generate, commonly free text. This free text may be associated with other elements depending on the source they come from, for example, they may be associated with a rating scale of a product or service. For all the above, this thesis proposes the definition of a framework that allows the analysis of unstructured data of social networks using machine learning, natural language processing and big data techniques. The main features of this framework are: - The framework is divided into two phases, each of which consists of a set of stages defined for the purpose of analyzing a volume of data either small (less than big data) or large (big data). - The central element of phase one of the framework is the machine learning model which consists of two elements: (i) a series of natural language processing techniques for data preprocessing and (ii) a series of machine learning algorithms for the classification of information. - The machine learning model built in the first phase is intended to be used in the second phase (big data phase) to analyze the same data source, but at a much larger volume. - The machine learning model is not directly related to the application of certain algorithms for its use, which makes it a versatile model to adopt. Therefore, the framework where this research is developed is multidisciplinary by combining diverse scientific disciplines with a same purpose. Therefore, to solve the problem of unstructured data analysis of social networks requires the union of heterogeneous techniques from various areas of science and engineering. The research methodology for the preparation of this doctoral thesis consisted of the following: 1. State of the Art: It presents a selection of studies where other authors in the Big Data, Machine Learning and Natural Language Processing areas have done research about them, as well as the union of these topics with sentiment analysis and social network rating systems. It also presents a comparison that integrates the mentioned topics with the purpose of knowing the state of the art in terms of what other authors have proposed in their studies by combining the three areas covered by the framework. 2. State of the Technique: In this phase, the various elements that make up the framework were analyzed, presenting a theoretical retrospective about. More technical issues are addressed, presenting an overview of the technologies that are being used in current research. 3. Proposed Solution: In this phase, the proposed framework is presented analyzing it from two perspectives: the theoretical aspects that each phase comprises and the aspects of implementation, where topics as complexity of carrying out each phase in a real situation are addressed. 4. Evaluation and Validation: A series of tests are defined to verify the hypotheses established at the beginning of the research, to demonstrate the validity of the proposed model. 5. Documentation and Conclusions: This activity consisted of documenting all the aspects related to this thesis and presenting the conclusions that emerge at the end of the research. Therefore, a framework was built including two phases that perform the analysis of a set of unstructured data, a distinction of this framework is the construction of a machine learning model during the first phase, which aims to serve as a basis in the second, characterized by the processing of large volume of data. In order to validate this thesis, Yelp data was used, specifically in the hotel sector. Likewise, the framework was evaluated by executing several tests using machine learning classifiers, obtaining high prediction percentages in the binary search carried out both in the non-big data and the big data environment. The conclusions obtained after having designed the framework, as well as having analyzed and validated the results obtained show that the presented model is capable of analyzing unstructured data of social networks both on a smaller scale (not big data) and a higher scale (big data) of analysis. On the other hand, interesting challenges and future lines of research arise after having completed the model for both extending it to the analysis of another type of information, as in the aspect of integration and adaptation of the machine learning model from the first to the second phase.Programa Oficial de Doctorado en Ciencia y Tecnología InformáticaPresidente: Alejandro Calderón Mateos.- Secretario: Alejandro Rodríguez González.- Vocal: Mario Graff Guerrer

    KLASIFIKASI SENTIMEN TERHADAP KOMENTAR TWITTER MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES

    Get PDF
    Iqbal Sahputra Ns (2021): KLASIFIKASI SENTIMEN TERHADAP KOMENTAR TWITTER MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES Twitter merupakan salah satu contoh dari sosial media atau jejaring sosial yang menjadi salah satu sumber paling umum untuk berkomunikasi. Setiap tweet atau kicauan dari Pengguna Twitter mengandung data seperti teks yang apabila dikumpulkan dapat diolah menjadi informasi. Pengolahan data dari kicauan Twitter akan menciptakan suatu trend yang dapat digunakan untuk kebutuhan informasi, Twitter digunakan untuk melakukan penilaian dan mengeluarkan pendapat mengenai segala sesuatu dan mengunggah postingan dengan opini yang berbeda-beda melalui tweet. Tweet yang didapat berasal dari komentar yang berhubungan politik ekonomi dan hukum, ulasan-ulasan tersebut disampaikan oleh masyarakat melalui tweet. Tweet tersebut dianalisis menggunakan sebuah teknik penggalian teks atau disebut juga text mining. Pada penelitian ini menggunakan 2 algoritma klasifikasi yaitu Support Vektor Machine dan Naïve Bayes, kelas dibagi menjadi tiga yaitu positif, negatif dan netral yang ditentukan oleh pakar bahasa. Data dibagi dengan pembagian data 90% data latih 10% data uji, 80% data latih 20% data uji dan 70% data latih 30% data uji kemudian dihitung akurasinya dengan confusion matrix. Pada percobaan menggunakan metode pembagian data dengan 10% pada Confusion matrix didapat hasil perbandingan akurasi antara SVM dan NB terhadap data politik ekonomi dan hukum, Pada data akurasi SVM lebih tinggi dibandingkan NB dengan akurasi SVM sebesar 81.33% sedangkan NB sebesar 69.66%. Jadi hasil akurasi pada data yang digunakan dalam penelitian ini, algoritma SVM memiliki performa lebih baik dibanding N
    corecore