6 research outputs found
Use of Wikipedia Categories in Entity Ranking
Wikipedia is a useful source of knowledge that has many applications in
language processing and knowledge representation. The Wikipedia category graph
can be compared with the class hierarchy in an ontology; it has some
characteristics in common as well as some differences. In this paper, we
present our approach for answering entity ranking queries from the Wikipedia.
In particular, we explore how to make use of Wikipedia categories to improve
entity ranking effectiveness. Our experiments show that using categories of
example entities works significantly better than using loosely defined target
categories
Using Wikipedia Categories and Links in Entity Ranking
This paper describes the participation of the INRIA group in the INEX 2007 XML entity ranking and ad hoc tracks. We developed a system for ranking Wikipedia entities in answer to a query. Our approach utilises the known categories, the link structure of Wikipedia, as well as the link co-occurrences with the examples (when provided) to improve the effectiveness of entity ranking. Our experiments on the training data set demonstrate that the use of categories and the link structure of Wikipedia, together with entity examples, can significantly improve entity retrieval effectiveness. We also use our system for the ad hoc tasks by inferring target categories from the title of the query. The results were worse than when using a full-text search engine, which confirms our hypothesis that ad hoc retrieval and entity retrieval are two different tasks
Mining Meaning from Wikipedia
Wikipedia is a goldmine of information; not just for its many readers, but
also for the growing community of researchers who recognize it as a resource of
exceptional scale and utility. It represents a vast investment of manual effort
and judgment: a huge, constantly evolving tapestry of concepts and relations
that is being applied to a host of tasks.
This article provides a comprehensive description of this work. It focuses on
research that extracts and makes use of the concepts, relations, facts and
descriptions found in Wikipedia, and organizes the work into four broad
categories: applying Wikipedia to natural language processing; using it to
facilitate information retrieval and information extraction; and as a resource
for ontology building. The article addresses how Wikipedia is being used as is,
how it is being improved and adapted, and how it is being combined with other
structures to create entirely new resources. We identify the research groups
and individuals involved, and how their work has developed in the last few
years. We provide a comprehensive list of the open-source software they have
produced.Comment: An extensive survey of re-using information in Wikipedia in natural
language processing, information retrieval and extraction and ontology
building. Accepted for publication in International Journal of Human-Computer
Studie
Combining granularity-based topic-dependent and topic-independent evidences for opinion detection
Fouille des opinion, une sous-discipline dans la recherche d'information (IR) et la linguistique computationnelle, fait rĂ©fĂ©rence aux techniques de calcul pour l'extraction, la classification, la comprĂ©hension et l'Ă©valuation des opinions exprimĂ©es par diverses sources de nouvelles en ligne, social commentaires des mĂ©dias, et tout autre contenu gĂ©nĂ©rĂ© par l'utilisateur. Il est Ă©galement connu par de nombreux autres termes comme trouver l'opinion, la dĂ©tection d'opinion, l'analyse des sentiments, la classification sentiment, de dĂ©tection de polaritĂ©, etc. DĂ©finition dans le contexte plus spĂ©cifique et plus simple, fouille des opinion est la tĂąche de rĂ©cupĂ©ration des opinions contre son besoin aussi exprimĂ© par l'utilisateur sous la forme d'une requĂȘte. Il y a de nombreux problĂšmes et dĂ©fis liĂ©s Ă l'activitĂ© fouille des opinion. Dans cette thĂšse, nous nous concentrons sur quelques problĂšmes d'analyse d'opinion. L'un des dĂ©fis majeurs de fouille des opinion est de trouver des opinions concernant spĂ©cifiquement le sujet donnĂ© (requĂȘte). Un document peut contenir des informations sur de nombreux sujets Ă la fois et il est possible qu'elle contienne opiniĂątre texte sur chacun des sujet ou sur seulement quelques-uns. Par consĂ©quent, il devient trĂšs important de choisir les segments du document pertinentes Ă sujet avec leurs opinions correspondantes. Nous abordons ce problĂšme sur deux niveaux de granularitĂ©, des phrases et des passages. Dans notre premiĂšre approche de niveau de phrase, nous utilisons des relations sĂ©mantiques de WordNet pour trouver cette association entre sujet et opinion. Dans notre deuxiĂšme approche pour le niveau de passage, nous utilisons plus robuste modĂšle de RI i.e. la language modĂšle de se concentrer sur ce problĂšme. L'idĂ©e de base derriĂšre les deux contributions pour l'association d'opinion-sujet est que si un document contient plus segments textuels (phrases ou passages) opiniĂątre et pertinentes Ă sujet, il est plus opiniĂątre qu'un document avec moins segments textuels opiniĂątre et pertinentes. La plupart des approches d'apprentissage-machine basĂ©e Ă fouille des opinion sont dĂ©pendants du domaine i.e. leurs performances varient d'un domaine Ă d'autre. D'autre part, une approche indĂ©pendant de domaine ou un sujet est plus gĂ©nĂ©ralisĂ©e et peut maintenir son efficacitĂ© dans diffĂ©rents domaines. Cependant, les approches indĂ©pendant de domaine souffrent de mauvaises performances en gĂ©nĂ©ral. C'est un grand dĂ©fi dans le domaine de fouille des opinion Ă dĂ©velopper une approche qui est plus efficace et gĂ©nĂ©ralisĂ©. Nos contributions de cette thĂšse incluent le dĂ©veloppement d'une approche qui utilise de simples fonctions heuristiques pour trouver des documents opiniĂątre. Fouille des opinion basĂ©e entitĂ© devient trĂšs populaire parmi les chercheurs de la communautĂ© IR. Il vise Ă identifier les entitĂ©s pertinentes pour un sujet donnĂ© et d'en extraire les opinions qui leur sont associĂ©es Ă partir d'un ensemble de documents textuels. Toutefois, l'identification et la dĂ©termination de la pertinence des entitĂ©s est dĂ©jĂ une tĂąche difficile. Nous proposons un systĂšme qui prend en compte Ă la fois l'information de l'article de nouvelles en cours ainsi que des articles antĂ©rieurs pertinents afin de dĂ©tecter les entitĂ©s les plus importantes dans les nouvelles actuelles. En plus de cela, nous prĂ©sentons Ă©galement notre cadre d'analyse d'opinion et tĂąches relieĂ©s. Ce cadre est basĂ©e sur les Ă©vidences contents et les Ă©vidences sociales de la blogosphĂšre pour les tĂąches de trouver des opinions, de prĂ©vision et d'avis de classement multidimensionnel. Cette contribution d'prĂ©maturĂ©e pose les bases pour nos travaux futurs. L'Ă©valuation de nos mĂ©thodes comprennent l'utilisation de TREC 2006 Blog collection et de TREC Novelty track 2004 collection. La plupart des Ă©valuations ont Ă©tĂ© rĂ©alisĂ©es dans le cadre de TREC Blog track.Opinion mining is a sub-discipline within Information Retrieval (IR) and Computational Linguistics. It refers to the computational techniques for extracting, classifying, understanding, and assessing the opinions expressed in various online sources like news articles, social media comments, and other user-generated content. It is also known by many other terms like opinion finding, opinion detection, sentiment analysis, sentiment classification, polarity detection, etc. Defining in more specific and simpler context, opinion mining is the task of retrieving opinions on an issue as expressed by the user in the form of a query. There are many problems and challenges associated with the field of opinion mining. In this thesis, we focus on some major problems of opinion mining