    Research Directions, Challenges and Issues in Opinion Mining

    Rapid growth of Internet and availability of user reviews on the web for any product has provided a need for an effective system to analyze the web reviews. Such reviews are useful to some extent, promising both the customers and product manufacturers. For any popular product, the number of reviews can be in hundreds or even thousands. This creates difficulty for a customer to analyze them and make important decisions on whether to purchase the product or to not. Mining such product reviews or opinions is termed as opinion mining which is broadly classified into two main categories namely facts and opinions. Though there are several approaches for opinion mining, there remains a challenge to decide on the recommendation provided by the system. In this paper, we analyze the basics of opinion mining, challenges, pros & cons of past opinion mining systems and provide some directions for the future research work, focusing on the challenges and issues


    The deeper penetration of business-to-consumer e-commerce requires that customer decision support systems (CDSS) serve a wider range of users. However, a significant weakness of existing e-shopping assistance programs is their inability to aid non-professional consumers (non-prosumers) in buying highly differentiated products. This paper proposes a novel framework that infers product recommendations with minimal information input. At the heart of the proposed framework is the feature-usage map (FUM), a Bayesian network-based model that encodes the correlations among a product’s technical specifications and its suitability in terms of its using scenario (usage). It also incorporates a query-based lazy learning mechanism that elicits a product’s rating score from product reviews and constructs its corresponding FUM in an on-demand manner. This mechanism allows the knowledge base to be enriched incrementally, with no need for an exhaustive repository of FUMs pertaining to all possible usage queries a user may invoke. The effectiveness of the proposed framework is evaluated through an empirical user study. The results show that the framework is able to effectively derive product ratings based on specified usage. Moreover, this rating information can also be incorporated into a conventional buying guide system to deliver purchase decision support for non-prosumer

    An Intelligent Online Shopping Guide Based On Product Review Mining

    This position paper describes an on-going work on a novel recommendation framework for assisting online shoppers in choosing the most desired products, in accordance with requirements input in natural language. Existing feature-based Shopping Guidance Systems fail when the customer lacks domain expertise. This framework enables the customer to use natural language in the query text to retrieve preferred products interactively. In addition, it is intelligent enough to allow a customer to use objective and subjective terms when querying, or even the purpose of purchase, to screen out the expected products

    Generación de un corpus para detección de competidores en el idioma español mediante minería de opiniones comparativas. Caso de estudio: sector textil en la provincia del Azuay

    En la actualidad con el avance de la tecnología y más aún con la llegada de la pandemia el uso de las plataformas digitales se ha incrementado. Un estudio presentado por la Cámara de Comercio Electrónico Ecuatoriana del año 2020 demuestra que el comercio electrónico ha incrementado en al menos 15 veces con respecto al 2019 el uso de plataformas digitales online con la llegada de la pandemia. Debido a esto, las empresas para hacer estudios de mercado deben buscar nuevas fuentes de información. Por lo tanto, el internet se ha convertido en un insumo intangible de toda estrategia comercial. Una parte fundamental de una estrategia comercial es analizar a la competencia, este análisis en años anteriores según la literatura se realizaba generalmente mediante encuestas, pero con la llegada de las plataformas digitales ha cambiado este método y hoy por hoy se puede extraer los datos de la web para luego implementar un proceso de Inteligencia Competitiva (CI), la cual permite hacer un análisis completo para tener una ventaja competitiva. CI comprende de varios pasos, esta investigación aborda todos estos pasos, pero se enfoca principalmente en el paso inicial, la recolección y análisis de datos, que es un paso fundamental para CI, donde actualmente existen problemas como: falta de corpus en español especializado para CI, por lo cual los investigadores no tienen la facilidad de implementar modelos de aprendizaje automático que les ayuden a tener una ventaja competitiva. El presente trabajo de investigación presenta una metodología para la creación de un corpus en el idioma español que permita entrenar algoritmos con el fin de realizar detección de competidores en el contexto del sector textil. Se han generado dos resultados principales: 1) Una metodología utilizando técnicas de minería de textos (minería de opiniones comparativas y reconocimiento de entidades nombradas) para construir corpus enfocado hacia la Inteligencia Competitiva. 2) Un corpus en español, dentro del dominio de comentarios de redes sociales, el cual sirve de base para futuras investigaciones relacionadas con la inteligencia competitiva, específicamente en la detección de competidores en el lenguaje español, donde la CI estaba estrictamente restringida por la falta de un corpus. Por último, se ha evaluado la utilidad del corpus desarrollado mediante un Dashboard creado en base a un caso de estudio llevado a cabo en el contexto del sector textil en redes sociales. Se ha demostrado que efectivamente es de utilidad para el sector textil, sin embargo, se recomienda hacer una nueva validación con empresas que estén directamente relacionadas al sector textil y así obtener una validación más directa, también se recomienda evaluar en otros sectores.Currently, with the advancement of technology and even more so with the arrival of the pandemic, the use of digital platforms has increased. A study presented by the Ecuadorian Chamber of Electronic Commerce for the year 2020 shows that electronic commerce has increased the use of online digital platforms by at least 15 times compared to 2019 with the arrival of the pandemic. Due to this, companies to do market research must look for new sources of information. Therefore, the internet has become an intangible input for any business strategy. A fundamental part of a commercial strategy is to analyze the competition, this analysis in previous years according to the literature was generally carried out through surveys, but with the arrival of digital platforms this method has changed and today the data can be extracted from the web to then implement a Competitive Intelligence (CI) process, which allows a complete analysis to have a competitive advantage. CI comprises several steps, this research addresses all these steps, but focuses mainly on the initial step, data collection and data analysis, which is a fundamental step for CI, where there are currently problems such as: lack of corpus in Spanish specialized for CI, so researchers do not have the facility to implement machine learning models that help them to have a competitive advantage. This research presents a methodology for the creation of a corpus in the Spanish language that allows algorithms to be trained in order to detect competitors in the context of the textile sector. Two main results have been generated: 1) A methodology using text mining techniques (comparative opinion mining and named entity recognition) to build a corpus focused on Competitive Intelligence. 2) A corpus in Spanish, within the domain of social network comments, which serves as a basis for future research related to competitive intelligence, specifically in the detection of competitors in the Spanish language, where the CI was strictly restricted by the lack of a corpus. Finally, the usefulness of the corpus developed has been evaluated through a Dashboard created based on a case study carried out in the context of the textile sector in social networks. It has been shown that it is indeed useful for the textile sector, however, it is recommended to carry out a new validation with companies that are directly related to the textile sector and thus obtain a more direct validation, it is also recommended to evaluate in other sectors.Ingeniero de SistemasCuenc

    Combining granularity-based topic-dependent and topic-independent evidences for opinion detection

    Fouille des opinion, une sous-discipline dans la recherche d'information (IR) et la linguistique computationnelle, fait référence aux techniques de calcul pour l'extraction, la classification, la compréhension et l'évaluation des opinions exprimées par diverses sources de nouvelles en ligne, social commentaires des médias, et tout autre contenu généré par l'utilisateur. Il est également connu par de nombreux autres termes comme trouver l'opinion, la détection d'opinion, l'analyse des sentiments, la classification sentiment, de détection de polarité, etc. Définition dans le contexte plus spécifique et plus simple, fouille des opinion est la tâche de récupération des opinions contre son besoin aussi exprimé par l'utilisateur sous la forme d'une requête. Il y a de nombreux problèmes et défis liés à l'activité fouille des opinion. Dans cette thèse, nous nous concentrons sur quelques problèmes d'analyse d'opinion. L'un des défis majeurs de fouille des opinion est de trouver des opinions concernant spécifiquement le sujet donné (requête). Un document peut contenir des informations sur de nombreux sujets à la fois et il est possible qu'elle contienne opiniâtre texte sur chacun des sujet ou sur seulement quelques-uns. Par conséquent, il devient très important de choisir les segments du document pertinentes à sujet avec leurs opinions correspondantes. Nous abordons ce problème sur deux niveaux de granularité, des phrases et des passages. Dans notre première approche de niveau de phrase, nous utilisons des relations sémantiques de WordNet pour trouver cette association entre sujet et opinion. Dans notre deuxième approche pour le niveau de passage, nous utilisons plus robuste modèle de RI i.e. la language modèle de se concentrer sur ce problème. L'idée de base derrière les deux contributions pour l'association d'opinion-sujet est que si un document contient plus segments textuels (phrases ou passages) opiniâtre et pertinentes à sujet, il est plus opiniâtre qu'un document avec moins segments textuels opiniâtre et pertinentes. La plupart des approches d'apprentissage-machine basée à fouille des opinion sont dépendants du domaine i.e. leurs performances varient d'un domaine à d'autre. D'autre part, une approche indépendant de domaine ou un sujet est plus généralisée et peut maintenir son efficacité dans différents domaines. Cependant, les approches indépendant de domaine souffrent de mauvaises performances en général. C'est un grand défi dans le domaine de fouille des opinion à développer une approche qui est plus efficace et généralisé. Nos contributions de cette thèse incluent le développement d'une approche qui utilise de simples fonctions heuristiques pour trouver des documents opiniâtre. Fouille des opinion basée entité devient très populaire parmi les chercheurs de la communauté IR. Il vise à identifier les entités pertinentes pour un sujet donné et d'en extraire les opinions qui leur sont associées à partir d'un ensemble de documents textuels. Toutefois, l'identification et la détermination de la pertinence des entités est déjà une tâche difficile. Nous proposons un système qui prend en compte à la fois l'information de l'article de nouvelles en cours ainsi que des articles antérieurs pertinents afin de détecter les entités les plus importantes dans les nouvelles actuelles. En plus de cela, nous présentons également notre cadre d'analyse d'opinion et tâches relieés. Ce cadre est basée sur les évidences contents et les évidences sociales de la blogosphère pour les tâches de trouver des opinions, de prévision et d'avis de classement multidimensionnel. Cette contribution d'prématurée pose les bases pour nos travaux futurs. L'évaluation de nos méthodes comprennent l'utilisation de TREC 2006 Blog collection et de TREC Novelty track 2004 collection. La plupart des évaluations ont été réalisées dans le cadre de TREC Blog track.Opinion mining is a sub-discipline within Information Retrieval (IR) and Computational Linguistics. It refers to the computational techniques for extracting, classifying, understanding, and assessing the opinions expressed in various online sources like news articles, social media comments, and other user-generated content. It is also known by many other terms like opinion finding, opinion detection, sentiment analysis, sentiment classification, polarity detection, etc. Defining in more specific and simpler context, opinion mining is the task of retrieving opinions on an issue as expressed by the user in the form of a query. There are many problems and challenges associated with the field of opinion mining. In this thesis, we focus on some major problems of opinion mining