Search CORE

154 research outputs found

SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web

Author: Elayeb Bilel
Publication venue: INPT
Publication date: 26/06/2009
Field of study

La présente thèse de doctorat en informatique propose un modèle pour une recherche d'information intelligente possibiliste des documents Web et son implémentation. Ce modèle est à base de deux Réseaux Petits Mondes Hiérarchiques (RPMH) et d'un Réseau Possibiliste (RP) : Le premier RPMH consiste à structurer les documents retrouvés en zones denses de pages Web thématiquement liées les unes aux autres. Nous faisons ainsi apparaître des nuages denses de pages qui traitent d'un sujet et des sujets connexes (assez similaires sémantiquement) et qui répondent toutes fortement à une requête. Le second RPMH est celui qui consiste à ne pas prendre les mots-clés tels quels mais à considérer une requête comme multiple en ce sens qu'on ne cherche pas seulement le mot-clé dans les pages Web mais aussi les substantifs qui lui sont sémantiquement proches. Les Réseaux Possibilistes combinent les deux RPMH afin d'organiser les documents recherchés selon les préférences de l'utilisateur. En effet, l'originalité du modèle proposé se décline selon les trois volets suivants qui synthétisent nos contributions. Le premier volet s'intéresse au processus itératif de la reformulation sémantique de requêtes. Cette technique est à base de relations de dépendance entre les termes de la requête. Nous évaluons notamment les proximités des mots du dictionnaire français « Le Grand Robert » par rapport aux termes de la requête. Ces proximités sont calculées par le biais de notre approche de recherche des composantes de sens dans un RPMH de dictionnaire de mots par application d'une méthode basée sur le dénombrement des circuits dans le réseau. En fait, l'utilisateur du système proposé choisit le nombre de mots sémantiquement proches qu'il désire ajouter à chaque terme de sa requête originelle pour construire sa requête reformulée sémantiquement. Cette dernière représente la première partie de son profil qu'il propose au système. La seconde partie de son profil est constituée des choix des coefficients de pertinence possibilistes affectés aux entités logiques des documents de la collection. Ainsi, notre système tient compte des profils dynamiques des utilisateurs au fur et à mesure que ces derniers utilisent le système. Ce dernier est caractérisé par son intelligence, son adaptativité, sa flexibilité et sa dynamicité. Le second volet consiste à proposer des relations de dépendance entre les documents recherchés dans un cadre ordinal. Ces relations de dépendance entre ces documents traduisent les liens sémantiques ou statistiques évaluant les distributions des termes communs à des paires ou ensembles de documents. Afin de quantifier ces relations, nous nous sommes basés sur les calculs des proximités entres ces documents par application d'une méthode de dénombrement de circuits dans le RPMH de pages Web. En effet, les documents peuvent ainsi être regroupés dans des classes communes (groupes de documents thématiquement proches). Le troisième volet concerne la définition des relations de dépendance, entre les termes de la requête et les documents recherchés, dans un cadre qualitatif. Les valeurs affectées à ces relations traduisent des ordres partiels de préférence. En fait, la théorie des possibilités offre deux cadres de travail : le cadre qualitatif ou ordinal et le cadre quantitatif. Nous avons proposé notre modèle dans un cadre ordinal. Ainsi, des préférences entre les termes de la requête se sont ajoutées à notre modèle de base. Ces préférences permettent de restituer des documents classés par préférence de pertinence. Nous avons mesuré aussi l'apport de ces facteurs de préférence dans l'augmentation des scores de pertinence des documents contenant ces termes dans le but de pénaliser les scores de pertinence des documents ne les contenant pas. Pour la mise en place de ce modèle nous avons choisi les systèmes multi-agents. L'avantage de l'architecture que nous proposons est qu'elle offre un cadre pour une collaboration entre les différents acteurs et la mise en œuvre de toutes les fonctionnalités du système de recherche d'information (SRI). L'architecture s'accorde parfaitement avec le caractère intelligent possibiliste et permet de bénéficier des capacités de synergie inhérente entre les différentes composantes du modèle proposé. Dans le présent travail, nous avons donc pu mettre en exergue à travers les expérimentations effectuées l'intérêt de faire combiner les deux RPMH via un réseau possibiliste dans un SRI, ce qui permet d'enrichir le niveau d'exploration d'une collection. Ce dernier n'est pas limité aux documents mais l'étend en considérant les requêtes. En effet, la phase de reformulation sémantique de requête permet à l'utilisateur de profiter des autres documents correspondants aux termes sémantiquement proches des termes de la requête originelle. Ces documents peuvent exister dans d'autres classes des thèmes. En conséquence, une reclassification proposée par le système s'avère pertinente afin d'adapter les résultats d'une requête aux nouveaux besoins des utilisateurs. ABSTRACT : This Ph.D. thesis proposes a new model for a multiagent possibilistic Web information retrieval and its implementation. This model is based on two Hierarchical Small-Worlds (HSW) Networks and a Possibilistic Networks (PN): The first HSW consists in structuring the founded documents in dense zones of Web pages which strongly depend on each other. We thus reveal dense clouds of pages which "speak" more or less about the same subject and related subjects (semantically similar) and which all strongly answer user's query. The second HSW consists in considering the query as multiple in the sense that we don't seek only the keyword in the Web pages but also its semantically close substantives. The PN generates the mixing of these two HSW in order to organize the searched documents according to user's preferences. Indeed, the originality of the suggested model is declined according to three following shutters' which synthesize our contributions. The first shutter is interested in the iterative process of query semantic reformulation. This technique is based on relationship dependence between query's terms. We evaluate in particular the semantics proximities between the words of the French dictionary "Le Grand Robert" and query's terms. These proximities are calculated via our approach of research of the semantics components in the HSW of dictionary of words by application of our method of enumeration of circuits in the HSW of dictionary. In fact, the user of the suggested system chooses the number of close words that he desire to add to each word of his initial query to build his semantically reformulated query. This one represents the first part of user's profile which he proposes to the system. The second part of its profile makes up of its choices of the coefficients of relevance possibilistic of the logical entities of the documents of the collection. Thus, our system takes account of the dynamic profiles of its users progressively they use the system, which proves its intelligence, its adaptability, its flexibility and its dynamicity. The second shutter consists in proposing relationship dependence between documents of the collection within an ordinal framework. These relationships dependence between these documents represent the semantic or statistical links evaluating the distributions of the general terms to pairs or sets of documents. In order to quantify these relationships, we are based on the calculations of the proximities between these documents by application of a method enumerating of circuits in the HSW of Web pages. Indeed, the documents can thus be clustered in common classes (groups of close documents). The third shutter is related to the definition of the relationships dependence between query's terms and documents of the collection, within a qualitative framework. The assigned values to these relations translate preferably partial orders. In fact, possibilistic theory offers two working frameworks: the qualitative or ordinal framework and the numerical framework. We proposed our model within an ordinal framework. Thus, we add to our basic model preferences between query's terms. These preferences make it possible to restore documents classified by relevance's preference. We also measured the contribution of these preferably factors in the increase of the relevance's scores of documents containing these terms with an aim of penalizing the relevance's scores of the documents not containing them. For the installation of this model we chose multiagent systems. The advantage of the proposed architecture is that it offers a framework for collaboration between the various actors and the implementation of all the functionalities of the information retrieval system. Architecture agrees perfectly with the possibilistic intelligent character and makes it possible to profit from the capacities of inherent synergy in the suggested model. We thus could put forward, through the carried out experiments, the goal of combining the two HSW via a possibilistic network in an information retrieval system, which makes it possible to enrich the exploration level of a collection. This exploration is not only limited to the documents but it extends by considering also the query. Indeed, the semantic query reformulation phase makes it possible to benefit user from other documents which contain some close terms of the initial query. These documents can exist in other topics classes. Consequently, a reclassification suggested by the system proves its relevance in order to adapt query's results to new user's needs

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Institut National Polytechnique de Toulouse (Theses)

HAL Descartes

Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

Author: Champclaux Yaël
Publication venue: HAL CCSD
Publication date: 04/12/2009
Field of study

The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Modélisation et dérivation de profils utilisateurs à partir de réseaux sociaux : approche à partir de communautés de réseaux k-égocentriques

Author: Tchuente Dieudonné
Publication venue
Publication date: 28/01/2013
Field of study

Dans la plupart des systèmes nécessitant la modélisation de l'utilisateur pour adapter l'information à ses besoins spécifiques, l'utilisateur est représenté avec un profil généralement composé de ses centres d'intérêts. Les centres d'intérêts de l'utilisateur sont construits et enrichis au fil du temps à partir de ses interactions avec le système. De par cette nature évolutive des centres d'intérêts de l'utilisateur, le profil de l'utilisateur ne peut en aucun moment être considéré comme entièrement connu par un système. Cette connaissance partielle du profil de l'utilisateur à tout instant t a pour effet de réduire considérablement les performances des mécanismes d'adaptation de l'information à l'utilisateur lorsque le profil de l'utilisateur ne contient pas (ou contient très peu) les informations nécessaires à leur fonctionnement. Cet inconvénient est particulièrement plus récurrent chez les nouveaux utilisateurs d'un système (instant t=0, problème du démarrage à froid) et chez les utilisateurs peu actifs. Pour répondre à cette problématique, plusieurs travaux ont exploré des sources de données autres que celles produites par l'utilisateur dans le système : utilisateurs au comportement similaire (utilisé dans le filtrage collaboratif) ou données produites par l'utilisateur dans d'autres systèmes (conception de profil utilisateur multi-application et gestion des identités multiples des utilisateurs). Très récemment, avec l'avènement du Web social et l'explosion des réseaux sociaux en ligne, ces derniers sont de plus en plus étudiés comme source externe de données pouvant servir à l'enrichissement du profil de l'utilisateur. Ceci a donné naissance à de nouveaux mécanismes de filtrage social de l'information : systèmes de recherche d'information sociale, systèmes de recommandation sociaux, etc. Les travaux actuels portant sur les mécanismes de filtrage social de l'information démontrent que ce nouveau champ de recherche est très prometteur. Une étude sur les travaux existants nous permet tout de même de noter particulièrement deux faiblesses : d'une part, chacune des approches proposées dans ces travaux reste très spécifique à son domaine d'application (et au mécanisme associé), et d'autre part, ces approches exploitent de manière unilatérale les profils des individus autour de l'utilisateur dans le réseau social. Pour pallier ces deux faiblesses, nos travaux de recherche proposent une démarche méthodique permettant de définir d'une part un modèle social générique de profil de l'utilisateur réutilisable dans plusieurs domaines d'application et par différents mécanismes de filtrage social de l'information, et à proposer d'autre part, une technique permettant de dériver de manière optimale des informations du profil de l'utilisateur à partir de son réseau social. Nous nous appuyons sur des travaux existants en sciences sociales pour proposer une approche d'usage des communautés (plutôt que des individus) autour de l'utilisateur. La portion significative de son réseau social est constituée des individus situés à une distance maximum k de l'utilisateur et des relations entre ces individus (réseau k-égocentrique). A partir de deux évaluations de l'approche proposée, l'une dans le réseau social numérique Facebook, et l'autre dans le réseau de co-auteurs DBLP, nous avons pu démontrer la pertinence de notre approche par rapport aux approches existantes ainsi que l'impact de mesures telles que la centralité de communautés (degré ou proximité par exemple) ou la densité des réseaux k-égocentriques sur la qualité des résultats obtenus. Notre approche ouvre de nombreuses perspectives aux travaux s'intéressant au filtrage social de l'information dans de multiples domaines d'application aussi bien sur le Web (personnalisation de moteurs de recherche, systèmes de recommandation dans le e-commerce, systèmes adaptatifs dans les environnements e-Learning, etc.) que dans les intranets d'entreprise (systèmes d'analyses comportementales dans les réseaux d'abonnés de clients télécoms, détection de comportements anormaux/frauduleux dans les réseaux de clients bancaires, etc.).In most systems that require user modeling to adapt information to each user's specific need, a user is usually represented by a user profile in the form of his interests. These interests are learnt and enriched over time from users interactions with the system. By the evolving nature of user's interests, the user's profile can never be considered fully known by a system. This partial knowledge of the user profile at any time t significantly reduces the performance of adaptive systems, when the user's profile contains no or only some information. This drawback is particularly most recurrent for new users in a system (time t = 0, also called cold start problem) and for less active users. To address this problem, several studies have explored data sources other than those produced by the user in the system: activities of users with similar behavior (e.g. collaborative filtering techniques) or data generated by the user in other systems (e.g., multi-application user's profiles, multiple identities management systems). By the recent advent of Social Web and the explosion of online social networks sites, social networks are more and more studied as an external data source that can be used to enrich users' profiles. This has led to the emergence of new social information filtering techniques (e.g. social information retrieval, social recommender systems). Current studies on social information filtering show that this new research field is very promising. However, much remains to be done to complement and enhance these studies. We particularly address two drawbacks: (i) each existing social information filtering approach is specific in its field scope (and associated mechanisms), (ii) these approaches unilaterally use profiles of individuals around the user in the social network to improve traditional information filtering systems. To overcome these drawbacks in this thesis, we aim at defining a generic social model of users' profiles that can be reusable in many application domains and for several social information filtering mechanisms, and proposing optimal techniques for enriching user's profile from the user's social network. We rely on existing studies in social sciences to propose a communities (rather than individuals) based approach for using individuals around the user in a specific part of his social network, to derive his social profile (profile that contains user's interest derived from his social network). The significant part of the user's social network used in our studies is composed of individuals located at a maximum distance k (in the entire social network) from the user, and relationships between these individuals (k-egocentric network). Two evaluations of the proposed approach based on communities in k-egocentric networks have been conducted in the online social network Facebook and the co-authors network DBLP. They allow us to demonstrate the relevance of the proposal with respect to existing individual based approaches, and the impact of structural measures such as the centrality of communities (degree or proximity) or user's k-egocentric network density, on the quality of results. Our approach opens up many opportunities for future studies in social information filtering and many application domains as well as on the Web (e.g. personalization of search engines, recommender systems in e-commerce, adaptive systems in e-Learning environment) or in Intranets business systems (e.g. behavioral analysis in networks of subscribers telecom customers, detection of abnormal behavior network bank customers, etc.)

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Contribution à la construction d’ontologies et à la recherche d’information : application au domaine médical

Author: Drame Khadim
Publication venue: HAL CCSD
Publication date: 10/12/2014
Field of study

This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimer’s disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimer’s disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighbors’ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise à permettre un accès efficace à des informations pertinentes malgré le volume croissant des données disponibles au format électronique. Pour cela, nous avons étudié l’apport d’une ontologie au sein d’un système de recherche d'information (RI).Nous avons tout d’abord décrit une méthodologie de construction d’ontologies. Ainsi, nous avons proposé une méthode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances à partir de textes et la réutilisation de ressources sémantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs développé une méthode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre méthodologie a permis de créer une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons élaboré des algorithmes pour supporter la RI sémantique guidée par une ontologie. Les concepts issus d’une ontologie ont été utilisés pour décrire automatiquement les documents mais aussi pour reformuler les requêtes. Nous nous sommes intéressés à : 1) l’identification de concepts représentatifs dans des corpus, 2) leur désambiguïsation, 3), leur pondération selon le modèle vectoriel, adapté aux concepts et 4) l’expansion de requêtes. Ces propositions ont permis de mettre en œuvre un portail de RI sémantique dédié à la maladie d’Alzheimer. Par ailleurs, le contenu des documents à indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploité des informations incomplètes pour déterminer les concepts pertinents permettant malgré tout de décrire les documents. Pour cela, nous avons proposé deux méthodes de classification de documents issus d’un large corpus, l’une basée sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sémantique explicite. Ces méthodes ont été évaluées sur de larges collections de documents biomédicaux fournies lors d’un challenge international

Thèses en Ligne

Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

Author: Boubekeur Fatiha
Publication venue: HAL CCSD
Publication date: 01/07/2008
Field of study

This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Définition et évaluation de modèles de recherche d'information collaborative basés sur les compétences de domaine et les rôles des utilisateurs

Author: Soulier Laure
Publication venue: HAL CCSD
Publication date: 01/12/2014
Field of study

The research topic of this document deals with a particular setting of information retrieval (IR), referred to as collaborative information retrieval (CIR), in which a set of multiple collaborators share the same information need. Collaboration is particularly used in case of complex tasks in which an individual user may have insufficient knowledge and may benefit from the expertise/knowledge or complementarity of other collaborators. This multi-user context rises several challenges in terms of search interfaces as well as ranking models, since new paradigms must be considered, namely division of labor, sharing of knowledge and awareness. These paradigms aim at avoiding redundancy between collaborators in order to reach a synergic effect within the collaboration process. Several approaches have been proposed in the literature. First, search interfaces have been oriented towards a user mediation in order to support collaborators' actions through information storage or communication tools. Second, more close to our contributions, previous work focus on the information access issue by designing ranking models adapted to collaborative environments dealing with the challenges of (1) personalizing result set to collaborators, (2) favoring the sharing of knowledge, (3) dividing the labor among collaborators and/or (4) considering particular roles of collaborators within the information seeking process.In this thesis, we focus, more particularly, on two main aspects of the collaboration: - The expertise of collaborators by proposing retrieval models adapted to the domain expertise level of collaborators. The expertise levels might be vertical, in the case of domain expert and novice, or horizontal when collaborators have different subdomain expertise. We, therefore, propose two CIR models on two steps including a document relevance scoring with respect to each role and a document allocation to user roles through the Expectation–Maximization (EM) learning method applied on the document relevance scoring in order to assign documents to the most likely suited user. - The complementarity of collaborators throughout the information seeking process by mining their roles on the assumptions that collaborators might be different and complementary in some skills. We propose two algorithms based either on predefined roles or latent roles which (1) learns about the roles of the collaborators using various search-related features for each individual involved in the search session, and (2) adapts the document ranking to the mined roles of collaborators.Cette thèse traite du domaine particulier de la recherche d'information (RI) appelé RI collaborative (RIC), qui considère un ensemble d'utilisateurs interagissant afin de satisfaire un besoin en information partagé. La collaboration est particulièrement utilisée dans le cas de tâches complexes ou exploratoires pour lesquelles les compétences d'un utilisateur unique peuvent être insuffisantes. La collaboration permet ainsi de rassembler les compétences complémentaires des utilisateurs afin de produire un résultat collectif qui dépasse l’agrégation des résultats individuels.Le contexte multi-utilisateurs ouvre de nombreuses perspectives en termes de support à la collaboration au travers la définition d'interfaces dédiées et de modèles d'ordonnancement basés sur les paradigmes de la collaboration. Ces derniers, dont principalement la division du travail, le partage des connaissances et la conscience de l'environnement collaboratif, doivent être pris en compte afin d'éviter la redondance entre les collaborateurs et de bénéficier de l'effet synergique de la collaboration. Plusieurs approches ont été proposées dans la littérature. En premier lieu, les interfaces de recherche ont été orientées vers des médiations utilisateurs dans le but de proposer un support aux actions des collaborateurs au travers de moyens de communication et de stockage d'information. En deuxième lieu, plus proches de nos travaux, certains auteurs se sont intéressés à la problématique d'accès à l'information en définissant des modèles d'ordonnancement adaptés à l'environnement collaboratif afin de répondre aux enjeux suivants : (1) la personnalisation des ordonnancements aux collaborateurs, (2) l'amélioration du partage des connaissances, (3) la division du travail entre les collaborateurs et/ou (4) la considération des rôles des collaborateurs dans le processus de RI.Dans ce manuscrit, nous nous intéressons particulièrement aux aspects suivants de la collaboration : - L'expertise de domaine des collaborateurs vis-à-vis du sujet du besoin en information partagé en proposant deux modèles d’ordonnancement collaboratifs basés (a) sur une distinction verticale des niveaux d’expertise avec les rôles d’expert et de novice de domaine et (b) une distinction horizontale de l’expertise où un groupe d’experts de sous-domaines collaborent pour répondre à un besoin en information à multiples facettes. Ces deux modèles sont composés de deux étapes principales qui estiment le score de pertinence de chaque document pour chacun des rôles puis alloue le document aux collaborateurs grâce à l'algorithme de la maximisation de l'espérance (EM). L'objectif est d'assigner un document au collaborateur le plus à même de le juger en fonction de son niveau d'expertise.- La complémentarité des utilisateurs lors d'un processus de RIC au travers de méthodes d’apprentissage, en temps réel, des rôles des collaborateurs. Ceci a pour objectif de bénéficier des compétences pour lesquelles ils sont les plus efficaces et d’ordonnancer, ainsi, les documents en fonction des rôles des collaborateurs. Également, deux approches, supervisée et non supervisée, sont proposées permettant respectivement d’apprendre les rôles des collaborateurs en fonction de leurs actions. Ces approches sont basées respectivement sur (a) des rôles prédéfinis dans l’état de l’art et (b) des méta-rôles latents des collaborateurs non prédéfinis

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Actes des 25es journées francophones d'Ingénierie des Connaissances (IC 2014)

Author: Faron Zucker Catherine
Publication venue: Conférence IC
Publication date: 01/05/2014
Field of study

National audienceLes Journées Francophones d'Ingénierie des Connaissances fêtent cette année leurs 25 ans. Cette conférence est le rendez-vous annuel de la communauté française et francophone qui se retrouve pour échanger et réfléchir sur des problèmes de recherche qui se posent en acquisition, représentation et gestion des connaissances. Parmi les vingt et un articles sélectionnés pour publication et présentation à la conférence, un thème fondateur de l'ingénierie des connaissances domine : celui de la modélisation de domaines. Six articles traitent de la conception d'ontologies, trois articles de l'annotation sémantique et du peuplement d'ontologies et deux articles de l'exploitation d'ontologies dans des systèmes à base de connaissances. L'informatique médicale est le domaine d'application privilégié des travaux présentés, que l'on retrouve dans sept articles. L'ingénierie des connaissances accompagne l'essor des technologies du web sémantique, en inventant les modèles, méthodes et outils permettant l'intégration de connaissances et le raisonnement dans des systèmes à base de connaissances sur le web. Ainsi, on retrouve les thèmes de la représentation des connaissances et du raisonnement dans six articles abordant les problématiques du web de données : le liage des données, leur transformation et leur interrogation ; la représentation et la réutilisation de règles sur le web de données ; la programmation d'applications exploitant le web de données. L'essor des sciences et technologies de l'information et de la communication, et notamment des technologies du web, dans l'ensemble de la société engendre des mutations dans les pratiques individuelles et collectives. L'ingénierie des connaissances accompagne cette évolution en plaçant l'utilisateur au cœur des systèmes informatiques, pour l'assister dans le traitement de la masse de données disponibles. Quatre articles sont dédiés aux problématiques du web social : analyse de réseaux sociaux, détection de communautés, folksonomies, personnalisation de recommandations, représentation et prise en compte de points de vue dans la recherche d'information. Deux articles traitent de l'adaptation des systèmes aux utilisateurs et de l'assistance aux utilisateurs et deux autres de l'aide à la prise de décision. Le taux de sélection de cette édition de la conférence est de 50%, avec dix-neuf articles longs et deux articles courts acceptés parmi quarante-deux soumissions. S'y ajoutent une sélection de neuf posters et démonstrations parmi douze soumissions, présentés dans une session dédiée et inclus dans les actes. Enfin, une innovation de cette édition 2014 de la conférence est la programmation d'une session spéciale " Projets et Industrie ", animée par Frédérique Segond (Viseo), à laquelle participeront Laurent Pierre (EDF), Alain Berger (Ardans) et Mylène Leitzelman (Mnemotix). Trois conférencières invitées ouvriront chacune des journées de la conférence que je remercie chaleureusement de leur participation. Nathalie Aussenac-Gilles (IRIT) retracera l'évolution de l'ingénierie des connaissances en France depuis 25 ans, de la pénurie à la surabondance. A sa suite, Frédérique Segond (Viseo) abordera le problème de " l'assouvissement " de la faim de connaissances dans la nouvelle ère des connaissances dans laquelle nous sommes entrés. Enfin, Marie-Laure Mugnier (LIRMM) présentera un nouveau cadre pour l'interrogation de données basée sur une ontologie, fondé sur des règles existentielles

HAL-UNICE

INRIA a CCSD electronic archive server

Personnalisation d'analyses décisionnelles sur des données multidimensionnelles

Author: Jerbi Houssem
Publication venue: HAL CCSD
Publication date: 20/01/2012
Field of study

This thesis investigates OLAP analysis personalization within multidimensional databases. OLAP analyse is modeled through a graph where nodes represent the analysis contexts and graph edges represent the user operations. The analysis context regroups the user query as well as result. It is well described by a specific tree structure that is independent on the visualization structures of data and query languages. We provided a model for user preferences on the multidimensional schema and values. Each preference is associated with a specific analysis context. Based on previous models, we proposed a generic framework that includes two personalization processes. First process, denoted query personalization, aims to enhancing user query with related preferences in order to produce a new one that generates a personalized result. Second personalization process is query recommendation that allows helping user throughout the OLAP data exploration phase. Our recommendation framework supports three recommendation scenarios, i.e., assisting user in query composition, suggesting the forthcoming query, and suggesting alternative queries. Recommendations are built progressively basing on user preferences. In order to implement our framework, we developed a prototype system that supports query personalization and query recommendation processes. We present experimental results showing the efficiency and the effectiveness of our approaches.Le travail présenté dans cette thèse aborde la problématique de la personnalisation des analyses OLAP au sein des bases de données multidimensionnelles. Une analyse OLAP est modélisée par un graphe dont les noeuds représentent les contextes d'analyse et les arcs traduisent les opérations de l'utilisateur. Le contexte d'analyse regroupe la requête et le résultat. Il est décrit par un arbre spécifique qui est indépendant des structures de visualisation des données et des langages de requête. Par ailleurs, nous proposons un modèle de préférences utilisateur exprimées sur le schéma multidimensionnel et sur les valeurs. Chaque préférence est associée à un contexte d'analyse particulier. En nous basant sur ces modèles, nous proposons un cadre générique comportant deux mécanismes de personnalisation. Le premier mécanisme est la personnalisation de requête. Il permet d'enrichir la requête utilisateur à l'aide des préférences correspondantes afin de générer un résultat qui satisfait au mieux aux besoins de l'usager. Le deuxième mécanisme de personnalisation est la recommandation de requêtes qui permet d'assister l'utilisateur tout au long de son exploration des données OLAP. Trois scénarios de recommandation sont définis : l'assistance à la formulation de requête, la proposition de la prochaine requête et la suggestion de requêtes alternatives. Ces recommandations sont construites progressivement à l'aide des préférences de l'utilisateur. Afin valider nos différentes contributions, nous avons développé un prototype qui intègre les mécanismes de personnalisation et de recommandation de requête proposés. Nous présentons les résultats d'expérimentations montrant la performance et l'efficacité de nos approches. Mots-clés: OLAP, analyse décisionnelle, personnalisation de requête, système de recommandation, préférence utilisateur, contexte d'analyse, appariement d'arbres de contexte

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Toulouse Capitole Publications

Toulouse 1 Capitole Publications

Géomatique et géographie de l'environnement. De l'analyse spatiale à la modélisation prospective

Author: Paegelow Martin
Publication venue: HAL CCSD
Publication date: 14/12/2004
Field of study

Le présent mémoire retrace notre parcours géomatique de géographe de l'environnement, en le situant d'abord dans le champ scientifique avant de résumer les principales approches en modélisation et en simulation prospective applicables dans ce domaine. Sur ces bases, nous présentons le modèle géomatique de simulation prospective de l'occupation du sol que nous avons établi, avant de conclure en ouvrant des perspectives de recherches. Dans la première partie, le positionnement scientifique de la géomatique fait l'objet des 2 premiers chapitres qui analysent l'émergence de ce nouveau champ transdisciplinaire et ses relations avec la géographie. La seconde partie est consacrée à la modélisation et à la simulation prospective de dynamiques environnementales. Dans une dernière partie, plus brève, nous concluons ce mémoire en esquissant quelques perspectives. Perspectives de développement des recherches en matière de modélisation d'abord, mais aussi de thématiques environnementales que nous souhaitons approfondir. Enfin sont suggérées quelques pistes sur la valorisation de nos recherches et les nouveaux enjeux de la formation géomatique en géographie. Un second fascicule complète le premier et fait état, outre le curriculum vitae, de nos activités professionnelles et publications

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail