40 research outputs found

    Opinion Mining based on the Spanish adaptation of ANEW on hotel customer comments

    Get PDF
    La minería de opiniones (MO) ha mostrado una alta tendencia de investigación en los últimos años debido a la producción en gran escala de opiniones y comentarios por parte de usuarios activos en Internet. Las empresas y organizaciones en general están interesadas en conocer cuál es la reputación que tienen de sus usuarios en las redes sociales, blogs, wikis y otros sitios web. Hasta ahora, la gran mayoría de trabajos de investigación involucran sistemas de MO en el idioma inglés. Por este motivo, la comunidad científica está interesada en trabajos diferentes a este lenguaje. En este artículo se muestra la construcción de un sistema de minería de opiniones en español sobre comentarios dados por clientes de diferentes hoteles. El sistema trabaja bajo el enfoque léxico utilizando la adaptación al español de las normas afectivas para las palabras en inglés (ANEW). Estas normas se basan en las evaluaciones que se realizaron en las dimensiones de valencia, excitación y el dominio. Para la construcción del sistema se tuvo en cuenta las fases de extracción, preprocesamiento de textos, identificación del sentimiento y la respectiva clasificación de la opinión utilizando ANEW. Los experimentos del sistema se hicieron sobre un corpus etiquetado proveniente de la versión en español de Tripadvisor. Como resultado final se obtuvo una precisión del 94% superando a sistemas similares.Recently, the Opinions Mining (OM) has shown a high tendency of research due to large-scale production of opinions and comments from users over the Internet. Companies and organizations, in general terms, are interested in knowing what is the reputation they have in social networks, blogs, wikis and other web sites. So far, the vast majority of research involving systems MO in English. For this reason, the scientific community is interested in researching different to this language. This article is about the construction of a mining system views in Spanish based on comments given by different clients and hotels. The system works on the lexical approach using Spanish adaptation of affective standards for English words (ANEW). These standards are based on evaluations conducted in the dimensions of valence, arousal and dominance. For the construction of the system took into account the phases of extraction, preprocessing of texts, identification of feelings and the respective ranking of the opinion using ANEW. System experiments were made on labeling a corpus from the Spanish version of Tripadvisor. As a result, precision exceeding 94% was obtained at similar systems

    Opinion mining based on the spanish adaptation of ANEW on hotel customer comments

    Get PDF
    La minería de opiniones (MO) ha mostrado una alta tendencia de investigación en los últimos años debido a la producción en gran escala de opiniones y comentarios por parte de usuarios activos en Internet. Las empresas y organizaciones en general están interesadas en conocer cuál es la reputación que tienen de sus usuarios en las redes sociales, blogs, wikis y otros sitios web. Hasta ahora, la gran mayoría de trabajos de investigación involucran sistemas de MO en el idioma inglés. Por este motivo, la comunidad científica está interesada en trabajos diferentes a este lenguaje. En este artículo se muestra la construcción de un sistema de minería de opiniones en español sobre comentarios dados por clientes de diferentes hoteles. El sistema trabaja bajo el enfoque léxico utilizando la adaptación al español de las normas afectivas para las palabras en inglés (ANEW). Estas normas se basan en las evaluaciones que se realizaron en las dimensiones de valencia, excitación y el dominio. Para la construcción del sistema se tuvo en cuenta las fases de extracción, pre procesamiento de textos, identificación del sentimiento y la respectiva clasificación de la opinión utilizando ANEW. Los experimentos del sistema se hicieron sobre un corpus etiquetado proveniente de la versión en español de Tripadvisor. Como resultado final se obtuvo una precisión del 94% superando a sistemas similares.Receantly, the Opinions Mining (OM) has shown a high tendency of research due to large-scale production of opinions and comments from users over the Internet. Companies and organizations, in general terms, are interested in knowing what is the reputation they have in social networks, blogs, wikis and other web sites. So far, the vast majority of research involving systems MO in English. For this reason, the scientific community is interested in researching different to this language. This article is about the construction of a mining system views in Spanish based on comments given by different clients and hotels. The system works on the lexical approach using Spanish adaptation of affective standards for English words (ANEW). These standards are based on evaluations conducted in the dimensions of valence, arousal and dominance. For the construction of the system took into account the phases of extraction, preprocessing of texts, identification of feelings and the respective ranking of the opinion using ANEW. System experiments were made on labeling a corpus from the spanish version of Tripadvisor. As a result, precision exceeding 94% was obtained at similar systems

    Técnicas de análisis de sentimientos aplicadas a la extracción de opiniones en el lenguaje español

    Get PDF
    Actualmente existe una gran cantidad de datos textuales disponibles, principalmente en Internet, que crece día a día. El texto es el tipo de dato más utilizado en la web, ya que es fácil de publicar y generar. Lo complejo es obtener información a partir de los mismos en forma automática, y manualmente es sumamente costoso. La información textual puede dividirse en dos tipos principales: hechos y opiniones. Mientras que los hechos son objetivos, las opiniones representan los sentimientos de cada autor. La Minería de Opinión o Análisis de Sentimientos estudia la extracción de información a partir de datos subjetivos y es relativamente reciente. Desde hace ya varios años existen sitios web donde los usuarios pueden expresar sus opiniones respecto a diversos temas, por ejemplo, nuevos productos o servicios, imagen empresarial, propuestas de leyes, etc. Este proyecto propone analizar distintas técnicas de Análisis de Sentimiento aplicadas a opiniones expresadas en el lenguaje Español, evaluar sus resultados para distintos casos reales, y realizar mejoras a las mismas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Técnicas de análisis de sentimientos aplicadas a la extracción de opiniones en el lenguaje español

    Get PDF
    Actualmente existe una gran cantidad de datos textuales disponibles, principalmente en Internet, que crece día a día. El texto es el tipo de dato más utilizado en la web, ya que es fácil de publicar y generar. Lo complejo es obtener información a partir de los mismos en forma automática, y manualmente es sumamente costoso. La información textual puede dividirse en dos tipos principales: hechos y opiniones. Mientras que los hechos son objetivos, las opiniones representan los sentimientos de cada autor. La Minería de Opinión o Análisis de Sentimientos estudia la extracción de información a partir de datos subjetivos y es relativamente reciente. Desde hace ya varios años existen sitios web donde los usuarios pueden expresar sus opiniones respecto a diversos temas, por ejemplo, nuevos productos o servicios, imagen empresarial, propuestas de leyes, etc. Este proyecto propone analizar distintas técnicas de Análisis de Sentimiento aplicadas a opiniones expresadas en el lenguaje Español, evaluar sus resultados para distintos casos reales, y realizar mejoras a las mismas.Eje: Bases de Datos y Minería de Datos.Red de Universidades con Carreras en Informátic

    Minería de opinión: un análisis en tiempo real de tweets para Zacatecas

    Get PDF
    The Twitter social network has become an excellent tool to know in real time the opinions that users express on a great variety of topics. The formal analysis of the texts in tweets is the subject of numerous studies, derived from them, the emergence of emerging technologies such as Opinion Mining, where sentiment analysis is inert; which refers to the use of natural language processing to identify and extract subjective information from the texts [1]. By definition, sentiment analysis seeks to generate automatic tools capable of extracting subjective information to create structured and actionable knowledge [2]. In other words, this is a bulk document classification task automatically, depending on the positive or negative connotation of the language used in the document. This work focuses on performing sentiment analysis of Twitter comments georeferenced to the city of Zacatecas, such as a ranking of tweets tagged with their polarity, cleaning up the text of tweets, as well as extracting characteristics typical of the text don positive and negative polarity, using machine learning especially supervised learning algorithms to perform the classification. From the algorithms used it was obtained that Random Forest had a better accuracy by having 0.977, then Decision Trees with 0.9735 and SVM with 0.9551. With the results obtained it can be concluded that the improvement of the accuracy was achieved thanks to the features that were added, in addition it is shown that the supervised learning algorithms are classifying the tweets appropriately given the results obtained.La red social Twitter se ha convertido en una excelente herramienta para conocer en tiempo real las opiniones que los usuarios expresan sobre una gran variedad de temas. El análisis formal de los textos en los tweets es objeto de numerosos estudios, derivado de ellos, se ha impulsado la aparición de tecnologías emergentes como la Minería de Opinión, donde está inerte el análisis de sentimientos; el cual se refiere al uso del procesamiento del lenguaje natural para identificar y extraer información subjetiva de los textos [1]. Por definición, el análisis de sentimientos busca generar herramientas automáticas capaces de extraer información subjetiva para crear conocimiento estructurado y procesable [2]. En otras palabras, se trata de una tarea de clasificación masiva de documentos de manera automática, en función de la connotación positiva o negativa del lenguaje utilizado en el documento. Este trabajo se centra en realizar análisis de sentimientos de comentarios de Twitter georreferenciado a la ciudad de Zacatecas, como una clasificación de los tweets etiquetados con su polaridad, realizando una limpieza del texto de los tweets, así como la extracción de características propias del texto como polaridad positiva y negativa, utilizando el machine learning en especial los algoritmos de aprendizaje supervisado para realizar la clasificación. De los algoritmos utilizados se obtuvo que Random Forest tuvo un mejor accuracy al tener 0.977, después Arboles de Decisión con 0.9735 y SVM con 0.9551. Con los resultados obtenidos se puede concluir que la mejora del accuracy se logró gracias a las características que se fueron agregando, además se demuestra que los algoritmos de aprendizaje supervisado están clasificando los tweets de manera adecuada dado los resultados obtenidos

    Identificación de emociones en textos de una red social

    Get PDF
    Las redes sociales se suelen utilizar para expresar opiniones sobrediferentes aspectos de la sociedad, como productos, servicios, política, celebridades, etc. Empresas, organizaciones y gobiernos hanmostrado su interés en conocer las opiniones que los usuarios tienensobre sus actividades o productos. Además de determinar si una opinión es positiva o negativa, resulta interesante establecer cuál es elsentimiento o emoción manifestada en la opinión. Identificar la emoción que un usuario expresa en un mensaje textual puede entendersecomo clasificar o categorizar el mensaje según sus características.En este trabajo, se desarrolló un método para clasificar textos breves uopiniones de la red social Twitter según la emoción que expresan. Enprimer lugar, fue necesario estructurar los textos descartando las partesirrelevantes y tratando de mantener la mayor cantidad de informaciónposible. Luego se utilizaron técnicas de aprendizaje automático para lageneración de un corpus de opiniones etiquetadas. Por último, se aplicó un método de clasificación por ponderación con diccionarios léxicosasociados a tres valores emocionales: valencia, activación y dominancia.   ARK: http://id.caicyt.gov.ar/ark:/s25457012/8h70ot6fnSocial networks are often used to express opinions on different aspectsof society, products, services, politics, celebrities, etc. Companies,organizations and governments have shown interest in knowing whatusers think about their activities or products. In addition to determining whether an opinion is positive or negative, itis interesting to determine what the feeling oremotion expressed in the opinion is. Identifying theemotion that a user expresses in a textual messagecan be understood as classifying or categorizing themessage according to its characteristics.In this work, a method was developed to classifyshort texts or opinions of the social networkTwitter, according to the emotion they express.First, it was necessary to structure the texts bydiscarding irrelevant parts, but trying to keep asmuch information as possible. Then, automaticlearning techniques were used to generate acorpus of tagged opinions. Finally, a method ofclassification by weighting was applied with lexicaldictionaries associated with three emotionalvalues: valence, activation and dominance

    Software de análisis de sentimiento en la evaluación de la satisfacción de los visitantes del sector turismo de Trujillo, 2018

    Get PDF
    El turismo es un gran eje para la economía mundial, esto no es diferente en el Perú y menos en la ciudad de Trujillo, que a particularmente cuenta con una ubicación geográfica privilegiada ya que a sus alrededores fueron ubicados los centros urbanos de 2 grandes culturas preincaicas. Además de esto, cuenta con una gran cantidad de museos dentro del centro histórico de la ciudad. Esta investigación está desarrollada en el ámbito del desarrollo de software, orientada a la mejora del proceso de retroalimentación para los centros turísticos de la ciudad de Trujillo realizando la captación y análisis de los comentarios vertidos en una Fan Page de Facebook por los visitantes. El presente trabajo de investigación se realizó con el objetivo de analizar la satisfacción de los visitantes del sector turismo en la ciudad de Trujillo en el 2018. El tipo de estudio fue del tipo trasversal. La recolección de datos se realizó a través de una Fanpage de Facebook y para el análisis de los mismos se utilizó el sistema de análisis de sentimientos. Esto permitirá conocer, en porcentajes, la satisfacción de los visitantes a los centros turísticos. Para culminar, aplicando el S.A.S se podrá conocer las fortalezas, oportunidades, debilidades y amenazas que posee cada centro turístico. Además, se logran aplicar políticas ambientalistas, eliminando la impresión de encuestas físicas logrando un ahorro en los ingresos económicos mensuales.Tourism is a great axis for the world’s economy, this is no different in Peru and less in the city of Trujillo, which has a privileged geographical location and it is close from two of the largest pre-Incan culture’s urban centers. In addition to this, Trujillo’s historic downtown has a large number of museums within. This research is developed in the field of software development, aimed at improving the feedback process for the tourist centers of the city of Trujillo by capturing and analyzing the comments published on a Facebook Fan Page by the visitors. The present research work was carried out with the objective of analyzing the satisfaction of the visitors of the tourism sector in the city of Trujillo in 2018. The type of study is transversal. The data collection was carried out through a Facebook Fanpage and for the analysis of them the Sentiment Analysis System (S.A.S.), was used. This allows to know, in percentages, the satisfaction of the visitors to the tourist centers. In conclution, by applying the S.A.S you can know the strengths, opportunities, weaknesses and threats that each tourist center has. In addition, environmental policies are applied, eliminating the impression of physical surveys achieving savings in monthly economic income

    Un modelo integrado de técnicas de aprendizaje de máquinas no supervisadas y ontologías para la detección automática de sentimientos desde una estructura gramatical simple en español

    Get PDF
    Recientemente el análisis de sentimientos (AS) ha mostrado un alto interés debido a la producción a gran escala de opiniones por parte de usuarios en la Internet. Las empresas en general, necesitan saber la reputación que tienen ante sus usuarios en la Web. Hasta ahora, la gran mayoría de trabajos de investigación involucran sistemas de AS que detectan el sentimiento global de una opinión escrita sobre una frase o un documento completo; estos sistemas resultan a veces incompletos ante la realidad de las organizaciones que quieren saber en detalle el comportamiento de sus productos. Resultados de esa necesidad, existen enfoques de AS dedicados a realizar un análisis más completo de grano fino, en donde se identifican las características o aspectos más importantes de una opinión para poder determinar el sentimiento de cada uno de los aspectos. Sin embargo, la mayoría de enfoques, no tienen en cuenta el concepto o significado de las palabras en el proceso de identificar los aspectos, por otra parte, se necesita un gran número de documentos etiquetados manualmente para determinar el sentimiento. Con el fin de dar solución a estos problemas, este trabajo de tesis doctoral, propone la construcción de un modelo para analizar sentimientos a nivel de aspectos en español, que permita extraer automáticamente las características de una opinión y determinar el sentimiento (polaridad) asociado. El modelo está basado en dos técnicas, la primera se basa en ontologías para detección aspectos explícitos e implícitos y la segunda, utiliza el aprendizaje de máquina no supervisado para determinar la polaridad sobre una estructura gramatical simple. Este modelo tiene en cuenta el significado de los aspectos en el momento de extracción, y es completamente no supervisado, lo que permite implementar un sistema que sea rápidamente escalable a cualquier idioma o dominio. Para la implementación del modelo, se desarrolló el prototipo AspectSA (elaborado en JAVA), que contiene componentes de software que permiten realizar el análisis de sentimientos a nivel de aspectos en los dominios de restaurante y hoteles. Adicionalmente, este prototipo se validó utilizando un conjunto de experimentos basados en corpus, desarrollados por SemEval 2016 en español. Los resultados obtenidos superaron a todos los participantes de SemEval y a los sistemas existentes para el lenguaje español.Abstract: Recently the sentiment analysis has shown a high interest due to large-scale production of opinions by users on the Internet. The companies generally need to know the reputation they have of their users on the Web. So far, the vast majority of research involving this systems that detect the overall sentiment of a written opinion on a phrase or an entire document. These systems are sometimes incomplete before the reality of organizations that want to know in detail the behavior of their products. Due to the above, there are some approaches dedicated to a more complete analysis offine grain, where the characteristics or most important aspects of an opinion are identified in order to determine the feeling of each one of the aspects. However, most approaches do not take into account the concept or meaning of words in the process of identifying aspects and also a large number of documents labeled manually is needed to determine the sentiment. In order to solve these problems, this doctoral thesis proposes the construction of a model to aspect-based sentiment analysis in Spanish that allows to automatically extract the characteristics of an opinion and determine the associated sentiment (polarity). The model is based on Ontologies for detection of characteristics (explicit and implicit aspects) and machine learning unsupervised to determine the polarity on a simple grammatical structure. This model takes into account the meaning of the aspects at the time of extraction and is completely unsupervised which allows to implement a system that is quickly scalable to any language or domain. For the implementation of the model was developed the prototype AspectSA (elaborated in JAVA), which contains software components that allow the aspect-based sentiment analysis in the domains of restaurants and hotels. In addition, this prototype was validated using a set of experiments based on the data set developed by SemEval 2016 in Spanish. The results obtained exceeded all SemEval participants and the existing systems for the Spanish language.Doctorad

    Técnicas de análisis de sentimientos aplicadas a la valoración de opiniones en el lenguaje español

    Get PDF
    En el presente existen grandes cantidades de datos en formato de texto escritos en el lenguaje natural, disponibles principalmente en sitios web y redes sociales, que crece día a día. El análisis manual de estos volúmenes de información es actualmente impráctico y costoso, por lo cual se hace necesario el uso de técnicas automatizadas para su procesamiento y análisis. La Minería de Opinión o Análisis de Sentimientos estudia la extracción de información a partir de datos subjetivos y es relativamente reciente. En los últimos años se han propuesto varios modelos de procesamiento del lenguaje natural para resolver el problema particular de clasificación de sentimientos. En este trabajo examinamos el rendimiento de varios de estos modelos aplicados a un caso donde los textos están escritos en el lenguaje castellano coloquial, lo que representa un desafío adicional. El caso propuesto es un conjunto de más de 50.000 reseñas de películas, extraídas del sitio www.cinesargentinos.com.ar.Workshop: WBDMD - Base de Datos y Minería de DatosRed de Universidades con Carreras en Informátic

    Diseño e implementación de un sistema automático de clasificación de mensajes intercambiados entre la ciudadanía y el Ayuntamiento de València

    Full text link
    [ES] En este documento se presenta el marco de análisis, diseño e implementación de una herramienta que permite visualizar la correlación que existe entre los temas que habla la ciudadanía en una red social y el volumen de datos publicados por el ayuntamiento en su catálogo de datos, con el fin de promover la apertura de los datos desde la demanda de la ciudadanía. El documento está dividido en seis partes, la primera ofrece una introducción al problema y su posible solución, los objetivos marcados y la metodología seleccionada. Una segunda parte contiene los avances que ha realizado el gobierno español en el marco político de los datos abiertos y el papel que desempeña la ciudadanía en el desarrollo de las políticas públicas. También, se presentan algunas técnicas de Machine Learning como herramientas de análisis de información en redes sociales. En la tercera y cuarta parte, se hace un análisis detallado al problema, se plantea la solución y se siguen dos metodologías de desarrollo, una para la parte que responde al problema de minería de texto y otra para la parte web. Los dos capítulos finales contienen el análisis de los resultados, y los trabajos que pueden derivar de este TFM y las conclusiones.[EN] This work presents one tool's analysis framework, design and implementation to visualize the correlation between interest topics spoken by citizen in social networks and data published by the “ayuntamiento”. This work aims to promote the data opening, having in mind the citizens needs and demand. The project consists of 6 chapters, the first provides the introduction to the problem and possible solutions for it, the main objectives and chosen methodology as well. The second one collects advancements made by the Spanish government in its political framework regarding open data and the citizen functions in the pubic politic development. Also, Machine Learning Technics are presented as a tool to process and analyze social networks information. In the third and fourth chapters, a deeper and more detailed analysis about the problem is made, and the problem solution is presented, in addition to the development methodologies regarding data mining for text and the another for the website side. The two final chapters have the results analysis, main conclusions and possible works that might derivative from this project.Mattos Barros, ML. (2018). Diseño e implementación de un sistema automático de clasificación de mensajes intercambiados entre la ciudadanía y el Ayuntamiento de València. http://hdl.handle.net/10251/111903TFG
    corecore