3 research outputs found

    Approaches to implement and evaluate aggregated search

    Get PDF
    La recherche d'information agrĂ©gĂ©e peut ĂȘtre vue comme un troisiĂšme paradigme de recherche d'information aprĂšs la recherche d'information ordonnĂ©e (ranked retrieval) et la recherche d'information boolĂ©enne (boolean retrieval). Les deux paradigmes les plus explorĂ©s jusqu'Ă  aujourd'hui retournent un ensemble ou une liste ordonnĂ©e de rĂ©sultats. C'est Ă  l'usager de parcourir ces ensembles/listes et d'en extraire l'information nĂ©cessaire qui peut se retrouver dans plusieurs documents. De maniĂšre alternative, la recherche d'information agrĂ©gĂ©e ne s'intĂ©resse pas seulement Ă  l'identification des granules (nuggets) d'information pertinents, mais aussi Ă  l'assemblage d'une rĂ©ponse agrĂ©gĂ©e contenant plusieurs Ă©lĂ©ments. Dans nos travaux, nous analysons les travaux liĂ©s Ă  la recherche d'information agrĂ©gĂ©e selon un schĂ©ma gĂ©nĂ©ral qui comprend 3 parties: dispatching de la requĂȘte, recherche de granules d'information et agrĂ©gation du rĂ©sultat. Les approches existantes sont groupĂ©es autours de plusieurs perspectives gĂ©nĂ©rales telle que la recherche relationnelle, la recherche fĂ©dĂ©rĂ©e, la gĂ©nĂ©ration automatique de texte, etc. Ensuite, nous nous sommes focalisĂ©s sur deux pistes de recherche selon nous les plus prometteuses: (i) la recherche agrĂ©gĂ©e relationnelle et (ii) la recherche agrĂ©gĂ©e inter-verticale. * La recherche agrĂ©gĂ©e relationnelle s'intĂ©resse aux relations entre les granules d'information pertinents qui servent Ă  assembler la rĂ©ponse agrĂ©gĂ©e. En particulier, nous nous sommes intĂ©ressĂ©s Ă  trois types de requĂȘtes notamment: requĂȘte attribut (ex. prĂ©sident de la France, PIB de l'Italie, maire de Glasgow, ...), requĂȘte instance (ex. France, Italie, Glasgow, Nokia e72, ...) et requĂȘte classe (pays, ville française, portable Nokia, ...). Pour ces requĂȘtes qu'on appelle requĂȘtes relationnelles nous avons proposĂ©s trois approches pour permettre la recherche de relations et l'assemblage des rĂ©sultats. Nous avons d'abord mis l'accent sur la recherche d'attributs qui peut aider Ă  rĂ©pondre aux trois types de requĂȘtes. Nous proposons une approche Ă  large Ă©chelle capable de rĂ©pondre Ă  des nombreuses requĂȘtes indĂ©pendamment de la classe d'appartenance. Cette approche permet l'extraction des attributs Ă  partir des tables HTML en tenant compte de la qualitĂ© des tables et de la pertinence des attributs. Les diffĂ©rentes Ă©valuations de performances effectuĂ©es prouvent son efficacitĂ© qui dĂ©passe les mĂ©thodes de l'Ă©tat de l'art. DeuxiĂšmement, nous avons traitĂ© l'agrĂ©gation des rĂ©sultats composĂ©s d'instances et d'attributs. Ce problĂšme est intĂ©ressant pour rĂ©pondre Ă  des requĂȘtes de type classe avec une table contenant des instances (lignes) et des attributs (colonnes). Pour garantir la qualitĂ© du rĂ©sultat, nous proposons des pondĂ©rations sur les instances et les attributs promouvant ainsi les plus reprĂ©sentatifs. Le troisiĂšme problĂšme traitĂ© concerne les instances de la mĂȘme classe (ex. France, Italie, Allemagne, ...). Nous proposons une approche capable d'identifier massivement ces instances en exploitant les listes HTML. Toutes les approches proposĂ©es fonctionnent Ă  l'Ă©chelle Web et sont importantes et complĂ©mentaires pour la recherche agrĂ©gĂ©e relationnelle. Enfin, nous proposons 4 prototypes d'application de recherche agrĂ©gĂ©e relationnelle. Ces derniers peuvent rĂ©pondre des types de requĂȘtes diffĂ©rents avec des rĂ©sultats relationnels. Plus prĂ©cisĂ©ment, ils recherchent et assemblent des attributs, des instances, mais aussi des passages et des images dans des rĂ©sultats agrĂ©gĂ©s. Un exemple est la requĂȘte ``Nokia e72" dont la rĂ©ponse sera composĂ©e d'attributs (ex. prix, poids, autonomie batterie, ...), de passages (ex. description, reviews, ...) et d'images. Les rĂ©sultats sont encourageants et illustrent l'utilitĂ© de la recherche agrĂ©gĂ©e relationnelle. * La recherche agrĂ©gĂ©e inter-verticale s'appuie sur plusieurs moteurs de recherche dits verticaux tel que la recherche d'image, recherche vidĂ©o, recherche Web traditionnelle, etc. Son but principal est d'assembler des rĂ©sultats provenant de toutes ces sources dans une mĂȘme interface pour rĂ©pondre aux besoins des utilisateurs. Les moteurs de recherche majeurs et la communautĂ© scientifique nous offrent dĂ©jĂ  une sĂ©rie d'approches. Notre contribution consiste en une Ă©tude sur l'Ă©valuation et les avantages de ce paradigme. Plus prĂ©cisĂ©ment, nous comparons 4 types d'Ă©tudes qui simulent des situations de recherche sur un total de 100 requĂȘtes et 9 sources diffĂ©rentes. Avec cette Ă©tude, nous avons identifiĂ©s clairement des avantages de la recherche agrĂ©gĂ©e inter-verticale et nous avons pu dĂ©duire de nombreux enjeux sur son Ă©valuation. En particulier, l'Ă©valuation traditionnelle utilisĂ©e en RI, certes la moins rapide, reste la plus rĂ©aliste. Pour conclure, nous avons proposĂ© des diffĂ©rents approches et Ă©tudes sur deux pistes prometteuses de recherche dans le cadre de la recherche d'information agrĂ©gĂ©e. D'une cĂŽtĂ©, nous avons traitĂ© trois problĂšmes importants de la recherche agrĂ©gĂ©e relationnelle qui ont portĂ© Ă  la construction de 4 prototypes d'application avec des rĂ©sultats encourageants. De l'autre cĂŽtĂ©, nous avons mis en place 4 Ă©tudes sur l'intĂ©rĂȘt et l'Ă©valuation de la recherche agrĂ©gĂ©e inter-verticale qui ont permis d'identifier les enjeux d'Ă©valuation et les avantages du paradigme. Comme suite Ă  long terme de ce travail, nous pouvons envisager une recherche d'information qui intĂšgre plus de granules relationnels et plus de multimĂ©dia.Aggregated search or aggregated retrieval can be seen as a third paradigm for information retrieval following the Boolean retrieval paradigm and the ranked retrieval paradigm. In the first two, we are returned respectively sets and ranked lists of search results. It is up to the time-poor user to scroll this set/list, scan within different documents and assemble his/her information need. Alternatively, aggregated search not only aims the identification of relevant information nuggets, but also the assembly of these nuggets into a coherent answer. In this work, we present at first an analysis of related work to aggregated search which is analyzed with a general framework composed of three steps: query dispatching, nugget retrieval and result aggregation. Existing work is listed aside different related domains such as relational search, federated search, question answering, natural language generation, etc. Within the possible research directions, we have then focused on two directions we believe promise the most namely: relational aggregated search and cross-vertical aggregated search. * Relational aggregated search targets relevant information, but also relations between relevant information nuggets which are to be used to assemble reasonably the final answer. In particular, there are three types of queries which would easily benefit from this paradigm: attribute queries (e.g. president of France, GDP of Italy, major of Glasgow, ...), instance queries (e.g. France, Italy, Glasgow, Nokia e72, ...) and class queries (countries, French cities, Nokia mobile phones, ...). We call these queries as relational queries and we tackle with three important problems concerning the information retrieval and aggregation for these types of queries. First, we propose an attribute retrieval approach after arguing that attribute retrieval is one of the crucial problems to be solved. Our approach relies on the HTML tables in the Web. It is capable to identify useful and relevant tables which are used to extract relevant attributes for whatever queries. The different experimental results show that our approach is effective, it can answer many queries with high coverage and it outperforms state of the art techniques. Second, we deal with result aggregation where we are given relevant instances and attributes for a given query. The problem is particularly interesting for class queries where the final answer will be a table with many instances and attributes. To guarantee the quality of the aggregated result, we propose the use of different weights on instances and attributes to promote the most representative and important ones. The third problem we deal with concerns instances of the same class (e.g. France, Germany, Italy ... are all instances of the same class). Here, we propose an approach that can massively extract instances of the same class from HTML lists in the Web. All proposed approaches are applicable at Web-scale and they can play an important role for relational aggregated search. Finally, we propose 4 different prototype applications for relational aggregated search. They can answer different types of queries with relevant and relational information. Precisely, we not only retrieve attributes and their values, but also passages and images which are assembled into a final focused answer. An example is the query ``Nokia e72" which will be answered with attributes (e.g. price, weight, battery life ...), passages (e.g. description, reviews ...) and images. Results are encouraging and they illustrate the utility of relational aggregated search. * The second research direction that we pursued concerns cross-vertical aggregated search, which consists of assembling results from different vertical search engines (e.g. image search, video search, traditional Web search, ...) into one single interface. Here, different approaches exist in both research and industry. Our contribution concerns mostly evaluation and the interest (advantages) of this paradigm. We propose 4 different studies which simulate different search situations. Each study is tested with 100 different queries and 9 vertical sources. Here, we could clearly identify new advantages of this paradigm and we could identify different issues with evaluation setups. In particular, we observe that traditional information retrieval evaluation is not the fastest but it remains the most realistic. To conclude, we propose different studies with respect to two promising research directions. On one hand, we deal with three important problems of relational aggregated search following with real prototype applications with encouraging results. On the other hand, we have investigated on the interest and evaluation of cross-vertical aggregated search. Here, we could clearly identify some of the advantages and evaluation issues. In a long term perspective, we foresee a possible combination of these two kinds of approaches to provide relational and cross-vertical information retrieval incorporating more focus, structure and multimedia in search results

    AccĂšs contextuel Ă  l'information dans un environnement mobile : approche basĂ©e sur l'utilisation d'un profil situationnel de l'utilisateur et d'un profil de localisation des requĂȘtes

    Get PDF
    Le but fondamental de la recherche d'information (RI) contextuelle consiste Ă  combiner des sources d'Ă©vidences issues du contexte de la requĂȘte, du contexte de l'utilisateur et de son environnement dans une mĂȘme infrastructure afin de mieux caractĂ©riser les besoins en information de l'utilisateur et d'amĂ©liorer les rĂ©sultats de recherche. Notre contribution porte sur la conception d'un systĂšme de RI contextuel dans un cadre mobile. Plus spĂ©cifiquement, notre contribution se dĂ©cline en trois principaux points : la modĂ©lisation et construction de profil situationnel de l'utilisateur, la caractĂ©risation de la sensibilitĂ© de la requĂȘte Ă  la localisation de l'utilisateur, ainsi que la dĂ©finition d'un cadre de combinaison de ces Ă©lĂ©ments contextuels pour calculer un score de pertinence multidimensionnelle des documents. Nous nous sommes intĂ©ressĂ©s en premier lieu Ă  exploiter le profil situationnel de l'utilisateur dans un processus d'accĂšs personnalisĂ© Ă  l'information. Le profil situationnel est composĂ© de centres d'intĂ©rĂȘts de l'utilisateur appris pour chaque situation de recherche. Une situation de recherche est caractĂ©risĂ©e par une reprĂ©sentation sĂ©mantique de la localisation et de temps de l'utilisateur lors de sa recherche. Les centres d'intĂ©rĂȘts sont construits en exploitant les documents jugĂ©s pertinents par l'utilisateur et une ontologie gĂ©nĂ©rale. Nous avons proposĂ© d'utiliser l'approche par raisonnement Ă  partir de cas pour sĂ©lectionner le centre d'intĂ©rĂȘt Ă  exploiter pour la personnalisation sur la base de la comparaison de la similaritĂ© des situations de recherche. Le centre d'intĂ©rĂȘt sĂ©lectionnĂ© est utilisĂ© dans le rĂ©-ordonnancement des rĂ©sultats de recherche des requĂȘtes appartenant Ă  une situation de recherche similaire. Nous exploitons ensuite le contexte de la requĂȘte dans un mĂ©canisme de prĂ©diction de la sensibilitĂ© de la requĂȘte Ă  la localisation de l'utilisateur. Notre approche de prĂ©diction de la sensibilitĂ© de la requĂȘte Ă  la localisation se base sur la construction d'un modĂšle de langue de localisation de la requĂȘte. Ce modĂšle nous a servi comme source d'Ă©vidence pour calculer des caractĂ©ristiques pour la classification des requĂȘtes selon leur sensibilitĂ© Ă  la localisation. Nous avons Ă©galement intĂ©grĂ© notre approche de dĂ©tection de la sensibilitĂ© de la la requĂȘte Ă  la localisation dans un processus d'adaptation des rĂ©sultats de recherche selon le type de la requĂȘte. En vue d'intĂ©grer ces deux types d'adaptation dans un SRI contextuel, nous nous sommes proposĂ©s d'appliquer un modĂšle d'agrĂ©gation prioritaire pour la combinaison de pertinence multidimensionnelle pour la RI mobile. Ce modĂšle de pertinence multidimensionnelle prĂ©sente la particularitĂ© d'exploiter deux opĂ©rateurs d'agrĂ©gation prioritaire permettant d'adapter les rĂ©sultats de recherche selon les prĂ©fĂ©rences de l'utilisateur exprimĂ©es sur les critĂšres de pertinence. Vu qu'il n'existe pas de cadre d'Ă©valuation standard d'accĂšs contextuel Ă  l'information, plus particuliĂšrement adaptĂ© au contexte mobile, nous avons proposĂ© des cadres d'Ă©valuation orientĂ©s-contexte basĂ©s sur des approches par "simulation de contexte" et "par Ă©tude journaliĂšre". Nous avons exploitĂ© ces cadres d'Ă©valuation pour valider notre contribution dans le domaine. En particulier, nous avons Ă©valuĂ© expĂ©rimentalement notre approche de personnalisation en utilisant notre profil situationnel en comparaison Ă  un SRI standard, et avons montrĂ© que notre approche est Ă  l'origine d'un gain de performance significatif. Nous avons validĂ© notre approche de dĂ©tection de la sensibilitĂ© de la requĂȘte Ă  la localisation de l'utilisateur sur une collection de requĂȘtes annotĂ©es manuellement issue du \textit{log} de recherche d'AOL, en testant plusieurs classificateurs du domaine et par comparaison Ă  une approche de l'Ă©tat de l'art, et nous avons montrĂ© son efficacitĂ© Ă  amĂ©liorer la performance de la recherche par comparaison Ă  un SRI standard. Nous avons Ă©galement comparĂ© notre cadre de combinaison de pertinence Ă  une approche de combinaison linĂ©aire standard et montrĂ© son efficacitĂ©.Contextual information retrieval aims at combining knowledge about the query context and the user context in the same framework in order to better meet the user information needs. We propose a contextual search approach integrating a query location intent prediction method and a situational user profile modelling approach in order to improve the retrieval effectiveness for mobile search. We propose an approach to personalize search results for mobile users by exploiting both cognitive and spatio temporal context of the user. We propose to model the user on three semantic dimensions : time, location and interests. A case based reasoning approach is adopted to select the appropriate user profile for re-ranking the search results. In order to identify the user intent global, local explicit and local implicit, we exploit the top N search results returned by a general Web search engine to build a location query profile using language models. Two measures namely location Kullback-Leibler Divergence and Kurtosis defined on this profile, allow us to effectively classify the three types of queries. We also propose a multidimensional ranking model based on the standard relevance dimension of topic and the contextual dimensions of interests and location to personalise search results for o mobile user. The peculiarity of our multidimensional ranking lies in a "prioritized combination" of the considered criteria, using the "prioritized scoring" and "prioritized and" operators, which allow flexible personalization of search results according to users' preferences. As there is no standard evaluation protocol for evaluating contextual access retrieval, we have proposed context-oriented evaluation protocols ranging from simulation frameworks to user studies. We have exploited these protocols to evaluate our contributions in the domain and have shown the effectiveness of our approaches
    corecore