Search CORE

3 research outputs found

De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en recherche d'information

Author: Mallak Ihab
Publication venue
Publication date: 11/07/2011
Field of study

Les travaux présentés dans ce mémoire se situent dans le contexte de la recherche d'information. Plus précisément, nous proposons de nouveaux facteurs " centralité, fréquence conceptuelle" permettant à notre sens, de mieux caractériser la dimension sémantique du contenu des textes, allant au-delà des méthodes d'indexation classiques basées exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de différents types de relations telles que -est-une partie-de, liés à, synonymie, domaine, etc.- qui existent entre les mots d'un texte. L'approche que nous avons proposée pour calculer la valeur de nos facteurs est bâtie en trois étapes : (1) Extraction des concepts issus de WordNet1 associés aux termes du document puis désambigüisation de leurs sens, (2) Regroupement des concepts pour former des clusters de concepts (Ces étapes construisent la vue sémantique des documents), (3) A l'intérieur de chaque cluster, chaque terme possède un degré de " centralité ", fonction du nombre de mots du cluster avec lequel il est en relation directe, et une " fréquence conceptuelle " estimée par la somme des fréquences de ces mots. D'une part, nous menons une étude sur des méthodes potentielles basées sur les facteurs proposés pour extraire des vues sémantiques du contenu des textes. L'objectif est de construire des structures de graphes/hiérarchies offrant une vue du contenu sémantique des documents. Ensuite, ces vues seront élaborées à partir de nos nouveaux facteurs, mais aussi de l'utilisation des fréquences d'occurrence, et de la prise en compte de l'importance des mots (en particulier en terme de leur spécificité). Le poids relatif des vues partielles, la fréquence et la spécificité de leurs composants sont d'autant des indications qui devraient permettre d'identifier et de construire des sous-ensembles hiérarchisés de mots (présents dans le texte ou sémantiquement associés à des mots du texte), et de refléter les concepts présents dans le contenu du texte. L'obtention d'une meilleure représentation du contenu sémantique des textes aidera à mieux retrouver les textes pertinents pour une requête donnée, et à donner une vue synthétisée du contenu des textes proposés à l'utilisateur en réponse à sa requête. D'autre part, nous proposons une technique de désambiguïsation du concept basée sur la centralité. En fait, le sens d'un terme est ambigu, il dépend de son contexte d'emploi. Dans notre proposition, nous utilisons l'ontologie de WordNet, qui est précise dans la couverture des sens de termes, où un terme peut être attaché à plusieurs concepts. La méthode proposée consiste à trouver le meilleur concept WordNet permettant de représenter le sens du terme désigné par le texte. Le concept choisi est celui qui a un maximum de relations avec les termes du document, autrement dit, celui qui a une valeur maximale de centralité. L'utilisation d'une méthode de désambiguïsation est une étape inévitable dans une indexation conceptuelle, elle permet de mieux représenter le contenu sémantique d'un document. Enfin, nous utilisons nos facteurs dans le cadre de Recherche d'Information comme de nouveaux facteurs pour mesurer la pertinence d'un document vis-à-vis d'une requête (tâche de RI ad-hoc). L'utilisation de nos facteurs sémantiques est intéressante dans la RI, où nous estimons un degré de relativité entre les termes d'une requête et ceux d'un document indépendamment de leur présence dans ce dernier. Dans ce cadre, nous avons proposé une nouvelle fonction de pondération basée sur la centralité, ainsi que nous avons intégré les nouveaux facteurs à des fonctions connues. Dans les différentes expérimentations menées, nous avons montré que l'intégration de nos facteurs sémantiques ramène une amélioration au niveau de précision dans un moteur de recherche d'information. Tâche prometteuse pour une recherche plus ciblée et plus efficace.The work presented in this paper are in the context of information retrieval. Specifically, we propose new factors "centrality frequebcy conceptual" to our senses, to better characterize the semantic dimension of the text content, going beyond traditional indexing methods based solely on statistics. Theses factors should benefit from the identification of different typesif relationships sich as is-part-of, relating to, synonymy, domain, etc. -between tha words of text

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Accès contextuel à l'information dans un environnement mobile : approche basée sur l'utilisation d'un profil situationnel de l'utilisateur et d'un profil de localisation des requêtes

Author: Ressad-Bouidghaghen Ourdia
Publication venue
Publication date: 12/12/2011
Field of study

Le but fondamental de la recherche d'information (RI) contextuelle consiste à combiner des sources d'évidences issues du contexte de la requête, du contexte de l'utilisateur et de son environnement dans une même infrastructure afin de mieux caractériser les besoins en information de l'utilisateur et d'améliorer les résultats de recherche. Notre contribution porte sur la conception d'un système de RI contextuel dans un cadre mobile. Plus spécifiquement, notre contribution se décline en trois principaux points : la modélisation et construction de profil situationnel de l'utilisateur, la caractérisation de la sensibilité de la requête à la localisation de l'utilisateur, ainsi que la définition d'un cadre de combinaison de ces éléments contextuels pour calculer un score de pertinence multidimensionnelle des documents. Nous nous sommes intéressés en premier lieu à exploiter le profil situationnel de l'utilisateur dans un processus d'accès personnalisé à l'information. Le profil situationnel est composé de centres d'intérêts de l'utilisateur appris pour chaque situation de recherche. Une situation de recherche est caractérisée par une représentation sémantique de la localisation et de temps de l'utilisateur lors de sa recherche. Les centres d'intérêts sont construits en exploitant les documents jugés pertinents par l'utilisateur et une ontologie générale. Nous avons proposé d'utiliser l'approche par raisonnement à partir de cas pour sélectionner le centre d'intérêt à exploiter pour la personnalisation sur la base de la comparaison de la similarité des situations de recherche. Le centre d'intérêt sélectionné est utilisé dans le ré-ordonnancement des résultats de recherche des requêtes appartenant à une situation de recherche similaire. Nous exploitons ensuite le contexte de la requête dans un mécanisme de prédiction de la sensibilité de la requête à la localisation de l'utilisateur. Notre approche de prédiction de la sensibilité de la requête à la localisation se base sur la construction d'un modèle de langue de localisation de la requête. Ce modèle nous a servi comme source d'évidence pour calculer des caractéristiques pour la classification des requêtes selon leur sensibilité à la localisation. Nous avons également intégré notre approche de détection de la sensibilité de la la requête à la localisation dans un processus d'adaptation des résultats de recherche selon le type de la requête. En vue d'intégrer ces deux types d'adaptation dans un SRI contextuel, nous nous sommes proposés d'appliquer un modèle d'agrégation prioritaire pour la combinaison de pertinence multidimensionnelle pour la RI mobile. Ce modèle de pertinence multidimensionnelle présente la particularité d'exploiter deux opérateurs d'agrégation prioritaire permettant d'adapter les résultats de recherche selon les préférences de l'utilisateur exprimées sur les critères de pertinence. Vu qu'il n'existe pas de cadre d'évaluation standard d'accès contextuel à l'information, plus particulièrement adapté au contexte mobile, nous avons proposé des cadres d'évaluation orientés-contexte basés sur des approches par "simulation de contexte" et "par étude journalière". Nous avons exploité ces cadres d'évaluation pour valider notre contribution dans le domaine. En particulier, nous avons évalué expérimentalement notre approche de personnalisation en utilisant notre profil situationnel en comparaison à un SRI standard, et avons montré que notre approche est à l'origine d'un gain de performance significatif. Nous avons validé notre approche de détection de la sensibilité de la requête à la localisation de l'utilisateur sur une collection de requêtes annotées manuellement issue du \textit{log} de recherche d'AOL, en testant plusieurs classificateurs du domaine et par comparaison à une approche de l'état de l'art, et nous avons montré son efficacité à améliorer la performance de la recherche par comparaison à un SRI standard. Nous avons également comparé notre cadre de combinaison de pertinence à une approche de combinaison linéaire standard et montré son efficacité.Contextual information retrieval aims at combining knowledge about the query context and the user context in the same framework in order to better meet the user information needs. We propose a contextual search approach integrating a query location intent prediction method and a situational user profile modelling approach in order to improve the retrieval effectiveness for mobile search. We propose an approach to personalize search results for mobile users by exploiting both cognitive and spatio temporal context of the user. We propose to model the user on three semantic dimensions : time, location and interests. A case based reasoning approach is adopted to select the appropriate user profile for re-ranking the search results. In order to identify the user intent global, local explicit and local implicit, we exploit the top N search results returned by a general Web search engine to build a location query profile using language models. Two measures namely location Kullback-Leibler Divergence and Kurtosis defined on this profile, allow us to effectively classify the three types of queries. We also propose a multidimensional ranking model based on the standard relevance dimension of topic and the contextual dimensions of interests and location to personalise search results for o mobile user. The peculiarity of our multidimensional ranking lies in a "prioritized combination" of the considered criteria, using the "prioritized scoring" and "prioritized and" operators, which allow flexible personalization of search results according to users' preferences. As there is no standard evaluation protocol for evaluating contextual access retrieval, we have proposed context-oriented evaluation protocols ranging from simulation frameworks to user studies. We have exploited these protocols to evaluate our contributions in the domain and have shown the effectiveness of our approaches

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

An approach to knowledge-based query evaluation

Author: Andreasen Troels
Publication venue
Publication date: 01/01/2003
Field of study

Roskilde Universitet