3 research outputs found

    Combining granularity-based topic-dependent and topic-independent evidences for opinion detection

    Get PDF
    Fouille des opinion, une sous-discipline dans la recherche d'information (IR) et la linguistique computationnelle, fait référence aux techniques de calcul pour l'extraction, la classification, la compréhension et l'évaluation des opinions exprimées par diverses sources de nouvelles en ligne, social commentaires des médias, et tout autre contenu généré par l'utilisateur. Il est également connu par de nombreux autres termes comme trouver l'opinion, la détection d'opinion, l'analyse des sentiments, la classification sentiment, de détection de polarité, etc. Définition dans le contexte plus spécifique et plus simple, fouille des opinion est la tâche de récupération des opinions contre son besoin aussi exprimé par l'utilisateur sous la forme d'une requête. Il y a de nombreux problèmes et défis liés à l'activité fouille des opinion. Dans cette thèse, nous nous concentrons sur quelques problèmes d'analyse d'opinion. L'un des défis majeurs de fouille des opinion est de trouver des opinions concernant spécifiquement le sujet donné (requête). Un document peut contenir des informations sur de nombreux sujets à la fois et il est possible qu'elle contienne opiniâtre texte sur chacun des sujet ou sur seulement quelques-uns. Par conséquent, il devient très important de choisir les segments du document pertinentes à sujet avec leurs opinions correspondantes. Nous abordons ce problème sur deux niveaux de granularité, des phrases et des passages. Dans notre première approche de niveau de phrase, nous utilisons des relations sémantiques de WordNet pour trouver cette association entre sujet et opinion. Dans notre deuxième approche pour le niveau de passage, nous utilisons plus robuste modèle de RI i.e. la language modèle de se concentrer sur ce problème. L'idée de base derrière les deux contributions pour l'association d'opinion-sujet est que si un document contient plus segments textuels (phrases ou passages) opiniâtre et pertinentes à sujet, il est plus opiniâtre qu'un document avec moins segments textuels opiniâtre et pertinentes. La plupart des approches d'apprentissage-machine basée à fouille des opinion sont dépendants du domaine i.e. leurs performances varient d'un domaine à d'autre. D'autre part, une approche indépendant de domaine ou un sujet est plus généralisée et peut maintenir son efficacité dans différents domaines. Cependant, les approches indépendant de domaine souffrent de mauvaises performances en général. C'est un grand défi dans le domaine de fouille des opinion à développer une approche qui est plus efficace et généralisé. Nos contributions de cette thèse incluent le développement d'une approche qui utilise de simples fonctions heuristiques pour trouver des documents opiniâtre. Fouille des opinion basée entité devient très populaire parmi les chercheurs de la communauté IR. Il vise à identifier les entités pertinentes pour un sujet donné et d'en extraire les opinions qui leur sont associées à partir d'un ensemble de documents textuels. Toutefois, l'identification et la détermination de la pertinence des entités est déjà une tâche difficile. Nous proposons un système qui prend en compte à la fois l'information de l'article de nouvelles en cours ainsi que des articles antérieurs pertinents afin de détecter les entités les plus importantes dans les nouvelles actuelles. En plus de cela, nous présentons également notre cadre d'analyse d'opinion et tâches relieés. Ce cadre est basée sur les évidences contents et les évidences sociales de la blogosphère pour les tâches de trouver des opinions, de prévision et d'avis de classement multidimensionnel. Cette contribution d'prématurée pose les bases pour nos travaux futurs. L'évaluation de nos méthodes comprennent l'utilisation de TREC 2006 Blog collection et de TREC Novelty track 2004 collection. La plupart des évaluations ont été réalisées dans le cadre de TREC Blog track.Opinion mining is a sub-discipline within Information Retrieval (IR) and Computational Linguistics. It refers to the computational techniques for extracting, classifying, understanding, and assessing the opinions expressed in various online sources like news articles, social media comments, and other user-generated content. It is also known by many other terms like opinion finding, opinion detection, sentiment analysis, sentiment classification, polarity detection, etc. Defining in more specific and simpler context, opinion mining is the task of retrieving opinions on an issue as expressed by the user in the form of a query. There are many problems and challenges associated with the field of opinion mining. In this thesis, we focus on some major problems of opinion mining

    Living analytics methods for the social web

    Get PDF
    [no abstract

    La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle

    Get PDF
    L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI. Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes). Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux.Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function
    corecore