42 research outputs found

    Enrichissement d'un curriculum par recherche sur Internet

    Full text link
    Mémoire numérisé par la Direction des bibliothÚques de l'Université de Montréal

    Typologie des moteurs de recherche sur le WEB, Rapport tĂąche T1.1 du projet SIIRI

    No full text
    L'état des lieux des moteurs de recherche sur le WEB, nous permet de dire que pour l'instant les systèmes proposés sont basés sur des technologie très basiques sans aucun traitement de l'information (langue, termes). Ces systèmes sont plus proches des données brutes que du besoin de l'utilisateur. Ce dernier doit alors faire de gros effort pour trouver une requête capable d'approcher son besoin. Seul les systèmes EuroFerret et Google proposent une approche légèrement plus élevée que les autres systèmes. Nous avons constaté que lorsqu'une version simplifiée de la syntaxe des requêtes était fournie, sa sémantique n'était pas évidente. Nous en concluons que pour réaliser une application frontale à ces systèmes, il est plus sur, quand c'est possible, d'utiliser la syntaxe complète du langage de l'algèbre de Boole. Il est frappant également de constater que la technologie mise en Ɠuvre dans des systèmes date en faite des années 50, c'est à dire des tous débuts des recherches dans le domaine de la recherche d'information. La raison est probablement technique car pour couvrir la masse d'information colossale que représente le Web, ces techniques frustres sont faciles à implanter. Mais c'est aussi un choix technologique car l'exemple du système Google montre que l'on peut s'écarter du système basique booléen et fournir out de même des bons résultats avec une syntaxe des requêtes réduite à une séquence de mots. Notre proposition dans le projet SIRII d'utiliser ces moteurs de recherche comme élément basique à travers une interface d'analyse de la requête prend alors tous son sens : le moteur de recherche est vu comme une simple mais très vaste base de données d'indexation plein texte simple. Le rôle de cette interface sera alors de tirer au mieux partie des spécificités des moteurs que nous avons étudiés dans ce projet

    Aspects actuels des représentations de connaissances par objets et de la classification

    Get PDF
    napoli1997aNational audienceCet article présente certains thÚmes de recherches étudiés par les membres du groupe "Objets et classification" du PRC-IA. Ces thÚmes concernent essentiellement la théorie des systÚmes de représentation de connaissances par objets (RCPO), la révision d'une base de connaissances dans les systÚmes de RCPO, la classification de classes et d'instances, et la mise en oeuvre d'applications, illustrée ici par le systÚme RESYN. Les travaux présentés montrent une certaine continuité avec les préoccupations des membres du groupe depuis qu'il existe. L'article se termine par la présentation d'éléments de définition d'un systÚme de RCPO, et de perspectives de recherches découlant des thÚmes explicités dans l'article

    Un systÚme data mining en ligne pour la maintenance ontologique d'une mémoire corporative DM

    Get PDF
    L'intĂ©gration de la connaissance dans la mĂ©moire corporative (RibiĂšre et Matta, 1998), (Dieng et al., 1998) fait face Ă  l'hĂ©tĂ©rogĂ©nĂ©itĂ© des donnĂ©es (Visser, Jones et al., 1997). L'utilisation de l'ontologie est une approche possible pour surmonter ce problĂšme. Cependant, l'ontologie est une structure de donnĂ©e comme n'importe quelle structure informatique, elle est donc dynamique et Ă©volue dans le temps Ă  cause des conditions dynamiques rĂ©sultant des changements du domaine conceptuel, les changements de conceptualisation, les changements de spĂ©cification, les changements descendants, etc. (Yildiz, 2006). Ces derniĂšres annĂ©es, plusieurs approches ont Ă©tĂ© proposĂ©es pour rĂ©soudre le problĂšme de la maintenance des ontologies. Cependant, la prĂ©cision et le rappel ne permettent pas de satisfaire les besoins des utilisateurs. De plus, ces approches ne prennent pas en compte toute l'information disponible pour prendre une dĂ©cision rĂ©aliste. Pour rĂ©soudre le problĂšme de l'Ă©volution de la connaissance dans les ontologies, nous proposons une approche hybride qui utilise l'apprentissage machine et un processus d'alignement qui contrĂŽle les relations syntaxiques entre les entrĂ©es dans l'ontologie. De plus, des rĂšgles structurelles et des heuristiques sont appliquĂ©es pour amĂ©liorer le degrĂ© de similitude entre les entitĂ©s ontologiques. Ce processus hybride crĂ©e des rĂšgles de correspondance qui dĂ©finissent comment transformer les entrĂ©es dans l'ontologie en dĂ©finissant tous les types d'associations possibles entre les entitĂ©s ontologiques. L'approche d'enrichissement de l'ontologie exploite les techniques de la fouille de donnĂ©es, les techniques du traitement automatique du langage naturel et la recherche d'information pour amĂ©liorer la performance d'apprentissage durant la tĂąche d'enrichissement du domaine conceptuel. L'Ă©valuation des ontologies demeure un problĂšme important et le choix d'une approche appropriĂ©e dĂ©pend des critĂšres utilisĂ©s. Dans notre approche, nous adoptons la vĂ©rification de la cohĂ©rence dĂ©crite dans (Maziar Amirhosseini et al., 2011) et (Abderrazak et al., 2011).\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, Traitement automatique du langage naturel, Apprentissage machine, Recherche d'information, IntĂ©gration, Ontologie, MĂ©moire corporative, Web sĂ©mantique

    SystĂšme de recherche d’information Ă©tendue basĂ© sur une projection multi-espaces

    Get PDF
    Depuis son apparition au dĂ©but des annĂ©es 90, le World Wide Web (WWW ou Web) a offert un accĂšs universel aux connaissances et le monde de l’information a Ă©tĂ© principalement tĂ©moin d’une grande rĂ©volution (la rĂ©volution numĂ©rique). Il est devenu rapidement trĂšs populaire, ce qui a fait de lui la plus grande et vaste base de donnĂ©es et de connaissances existantes grĂące Ă  la quantitĂ© et la diversitĂ© des donnĂ©es qu'il contient. Cependant, l'augmentation et l’évolution considĂ©rables de ces donnĂ©es soulĂšvent d'importants problĂšmes pour les utilisateurs notamment pour l’accĂšs aux documents les plus pertinents Ă  leurs requĂȘtes de recherche. Afin de faire face Ă  cette explosion exponentielle du volume de donnĂ©es et faciliter leur accĂšs par les utilisateurs, diffĂ©rents modĂšles sont proposĂ©s par les systĂšmes de recherche d’information (SRIs) pour la reprĂ©sentation et la recherche des documents web. Les SRIs traditionnels utilisent, pour indexer et rĂ©cupĂ©rer ces documents, des mots-clĂ©s simples qui ne sont pas sĂ©mantiquement liĂ©s. Cela engendre des limites en termes de la pertinence et de la facilitĂ© d'exploration des rĂ©sultats. Pour surmonter ces limites, les techniques existantes enrichissent les documents en intĂ©grant des mots-clĂ©s externes provenant de diffĂ©rentes sources. Cependant, ces systĂšmes souffrent encore de limitations qui sont liĂ©es aux techniques d’exploitation de ces sources d’enrichissement. Lorsque les diffĂ©rentes sources sont utilisĂ©es de telle sorte qu’elles ne peuvent ĂȘtre distinguĂ©es par le systĂšme, cela limite la flexibilitĂ© des modĂšles d'exploration qui peuvent ĂȘtre appliquĂ©s aux rĂ©sultats de recherche retournĂ©s par ce systĂšme. Les utilisateurs se sentent alors perdus devant ces rĂ©sultats, et se retrouvent dans l'obligation de les filtrer manuellement pour sĂ©lectionner l'information pertinente. S’ils veulent aller plus loin, ils doivent reformuler et cibler encore plus leurs requĂȘtes de recherche jusqu'Ă  parvenir aux documents qui rĂ©pondent le mieux Ă  leurs attentes. De cette façon, mĂȘme si les systĂšmes parviennent Ă  retrouver davantage des rĂ©sultats pertinents, leur prĂ©sentation reste problĂ©matique. Afin de cibler la recherche Ă  des besoins d'information plus spĂ©cifiques de l'utilisateur et amĂ©liorer la pertinence et l’exploration de ses rĂ©sultats de recherche, les SRIs avancĂ©s adoptent diffĂ©rentes techniques de personnalisation de donnĂ©es qui supposent que la recherche actuelle d'un utilisateur est directement liĂ©e Ă  son profil et/ou Ă  ses expĂ©riences de navigation/recherche antĂ©rieures. Cependant, cette hypothĂšse ne tient pas dans tous les cas, les besoins de l’utilisateur Ă©voluent au fil du temps et peuvent s’éloigner de ses intĂ©rĂȘts antĂ©rieurs stockĂ©s dans son profil. Dans d’autres cas, le profil de l’utilisateur peut ĂȘtre mal exploitĂ© pour extraire ou infĂ©rer ses nouveaux besoins en information. Ce problĂšme est beaucoup plus accentuĂ© avec les requĂȘtes ambigĂŒes. Lorsque plusieurs centres d’intĂ©rĂȘt auxquels est liĂ©e une requĂȘte ambiguĂ« sont identifiĂ©s dans le profil de l’utilisateur, le systĂšme se voit incapable de sĂ©lectionner les donnĂ©es pertinentes depuis ce profil pour rĂ©pondre Ă  la requĂȘte. Ceci a un impact direct sur la qualitĂ© des rĂ©sultats fournis Ă  cet utilisateur. Afin de remĂ©dier Ă  quelques-unes de ces limitations, nous nous sommes intĂ©ressĂ©s dans ce cadre de cette thĂšse de recherche au dĂ©veloppement de techniques destinĂ©es principalement Ă  l'amĂ©lioration de la pertinence des rĂ©sultats des SRIs actuels et Ă  faciliter l'exploration de grandes collections de documents. Pour ce faire, nous proposons une solution basĂ©e sur un nouveau concept d'indexation et de recherche d'information appelĂ© la projection multi-espaces. Cette proposition repose sur l'exploitation de diffĂ©rentes catĂ©gories d'information sĂ©mantiques et sociales qui permettent d'enrichir l'univers de reprĂ©sentation des documents et des requĂȘtes de recherche en plusieurs dimensions d'interprĂ©tations. L’originalitĂ© de cette reprĂ©sentation est de pouvoir distinguer entre les diffĂ©rentes interprĂ©tations utilisĂ©es pour la description et la recherche des documents. Ceci donne une meilleure visibilitĂ© sur les rĂ©sultats retournĂ©s et aide Ă  apporter une meilleure flexibilitĂ© de recherche et d'exploration, en donnant Ă  l’utilisateur la possibilitĂ© de naviguer une ou plusieurs vues de donnĂ©es qui l’intĂ©ressent le plus. En outre, les univers multidimensionnels de reprĂ©sentation proposĂ©s pour la description des documents et l’interprĂ©tation des requĂȘtes de recherche aident Ă  amĂ©liorer la pertinence des rĂ©sultats de l’utilisateur en offrant une diversitĂ© de recherche/exploration qui aide Ă  rĂ©pondre Ă  ses diffĂ©rents besoins et Ă  ceux des autres diffĂ©rents utilisateurs. Cette Ă©tude exploite diffĂ©rents aspects liĂ©s Ă  la recherche personnalisĂ©e et vise Ă  rĂ©soudre les problĂšmes engendrĂ©s par l’évolution des besoins en information de l’utilisateur. Ainsi, lorsque le profil de cet utilisateur est utilisĂ© par notre systĂšme, une technique est proposĂ©e et employĂ©e pour identifier les intĂ©rĂȘts les plus reprĂ©sentatifs de ses besoins actuels dans son profil. Cette technique se base sur la combinaison de trois facteurs influents, notamment le facteur contextuel, frĂ©quentiel et temporel des donnĂ©es. La capacitĂ© des utilisateurs Ă  interagir, Ă  Ă©changer des idĂ©es et d’opinions, et Ă  former des rĂ©seaux sociaux sur le Web, a amenĂ© les systĂšmes Ă  s’intĂ©resser aux types d’interactions de ces utilisateurs, au niveau d’interaction entre eux ainsi qu’à leurs rĂŽles sociaux dans le systĂšme. Ces informations sociales sont abordĂ©es et intĂ©grĂ©es dans ce travail de recherche. L’impact et la maniĂšre de leur intĂ©gration dans le processus de RI sont Ă©tudiĂ©s pour amĂ©liorer la pertinence des rĂ©sultats. Since its appearance in the early 90's, the World Wide Web (WWW or Web) has provided universal access to knowledge and the world of information has been primarily witness to a great revolution (the digital revolution). It quickly became very popular, making it the largest and most comprehensive database and knowledge base thanks to the amount and diversity of data it contains. However, the considerable increase and evolution of these data raises important problems for users, in particular for accessing the documents most relevant to their search queries. In order to cope with this exponential explosion of data volume and facilitate their access by users, various models are offered by information retrieval systems (IRS) for the representation and retrieval of web documents. Traditional SRIs use simple keywords that are not semantically linked to index and retrieve these documents. This creates limitations in terms of the relevance and ease of exploration of results. To overcome these limitations, existing techniques enrich documents by integrating external keywords from different sources. However, these systems still suffer from limitations that are related to the exploitation techniques of these sources of enrichment. When the different sources are used so that they cannot be distinguished by the system, this limits the flexibility of the exploration models that can be applied to the results returned by this system. Users then feel lost to these results, and find themselves forced to filter them manually to select the relevant information. If they want to go further, they must reformulate and target their search queries even more until they reach the documents that best meet their expectations. In this way, even if the systems manage to find more relevant results, their presentation remains problematic. In order to target research to more user-specific information needs and improve the relevance and exploration of its research findings, advanced SRIs adopt different data personalization techniques that assume that current research of user is directly related to his profile and / or previous browsing / search experiences. However, this assumption does not hold in all cases, the needs of the user evolve over time and can move away from his previous interests stored in his profile. In other cases, the user's profile may be misused to extract or infer new information needs. This problem is much more accentuated with ambiguous queries. When multiple POIs linked to a search query are identified in the user's profile, the system is unable to select the relevant data from that profile to respond to that request. This has a direct impact on the quality of the results provided to this user. In order to overcome some of these limitations, in this research thesis, we have been interested in the development of techniques aimed mainly at improving the relevance of the results of current SRIs and facilitating the exploration of major collections of documents. To do this, we propose a solution based on a new concept and model of indexing and information retrieval called multi-spaces projection. This proposal is based on the exploitation of different categories of semantic and social information that enrich the universe of document representation and search queries in several dimensions of interpretations. The originality of this representation is to be able to distinguish between the different interpretations used for the description and the search for documents. This gives a better visibility on the results returned and helps to provide a greater flexibility of search and exploration, giving the user the ability to navigate one or more views of data that interest him the most. In addition, the proposed multidimensional representation universes for document description and search query interpretation help to improve the relevance of the user's results by providing a diversity of research / exploration that helps meet his diverse needs and those of other different users. This study exploits different aspects that are related to the personalized search and aims to solve the problems caused by the evolution of the information needs of the user. Thus, when the profile of this user is used by our system, a technique is proposed and used to identify the interests most representative of his current needs in his profile. This technique is based on the combination of three influential factors, including the contextual, frequency and temporal factor of the data. The ability of users to interact, exchange ideas and opinions, and form social networks on the Web, has led systems to focus on the types of interactions these users have at the level of interaction between them as well as their social roles in the system. This social information is discussed and integrated into this research work. The impact and how they are integrated into the IR process are studied to improve the relevance of the results

    Étude et modĂ©lisation des connaissances et raisonnement de l'apprenant dans un STI

    Full text link
    ThÚse numérisée par la Direction des bibliothÚques de l'Université de Montréal

    Représentation multi-facette des documents pour leur accÚs sémantique

    Get PDF
    La recherche d'information (RI) est un domaine prĂ©pondĂ©rant dans la vie contemporaine car elle permet de disposer d'Ă©lĂ©ments d'informations qui permettent d'agir et de prendre des dĂ©cisions face Ă  une situation donnĂ©e. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maĂźtrisons pas. La disponibilitĂ© et la pertinence de ces nouvelles informations ont donc une trĂšs grande influence sur la prise de dĂ©cision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots reprĂ©sentatifs des documents afin de permettre leur recherche ultĂ©rieure. Dans ces mĂ©thodes, les documents et les requĂȘtes sont considĂ©rĂ©es comme des sacs de mots, non porteurs de sens. L'une des mĂ©thodes innovantes actuelles est l'indexation et la recherche sĂ©mantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considĂ©rant la sĂ©mantique des Ă©lĂ©ments textuels. Nous nous intĂ©ressons Ă  cet aspect de la RI en considĂ©rant une indexation et une recherche Ă  base d'ontologies de domaine. Les solutions que nous proposons visent Ă  amĂ©liorer la pertinence des rĂ©ponses d'un systĂšme par rapport au thĂšme de la recherche. Le discours contenu dans un document ou dans une requĂȘte ne sont pas les seuls Ă©lĂ©ments Ă  prendre en compte pour espĂ©rer mieux satisfaire l'utilisateur. D'autres Ă©lĂ©ments relatifs au contexte de sa recherche doivent aussi ĂȘtre pris en compte. La granularitĂ© des informations Ă  restituer Ă  l'utilisateur est un autre aspect. Nous nous sommes intĂ©ressĂ©s Ă  ces diffĂ©rents aspects et avons dĂ©veloppĂ© un mĂ©ta-modĂšle de reprĂ©sentation multi-facette des documents en vue de leur accĂšs sĂ©mantique. Dans notre modĂšle, le document est vu selon diffĂ©rentes dimensions dont la structure logique, la structure physique, la sĂ©mantique des contenus ainsi que leurs Ă©volutions dans le temps. Nous avons Ă©galement proposĂ© des mesures de similaritĂ© sĂ©mantique entre concepts et une fonction de similaritĂ© entre les graphes d'annotation des requĂȘtes et ceux des documents. Pour Ă©valuer et valider nos solutions, nous avons instanciĂ© ce modĂšle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons Ă©galement Ă©valuĂ© les rĂ©sultats en termes de rappel/prĂ©cision des fonctions que nous avons proposĂ©es et montrĂ© leur supĂ©rioritĂ© par rapport Ă  l'Ă©tat de l'art.Information retrieval is part of our contemporary life because it helps us to find information which helps us in acting and decision making. Indeed, the objective of any information retrieval task is to learn new facts, new notions. Thus, the availability and relevance of the pieces of new information we access have a high influence on decisions we make. Most of the current search engines use indexes composed of the representative words from the documents; these indexes allow their access when compared to users' queries. These techniques consider documents and queries as bags of words but not the discourse they contain. One of the new methods to face the understanding of user's needs is semantic indexing and retrieval. In this thesis, we consider semantic indexing when based on ontologies that gather the domain knowledge. Matching content is not the only aspects that interest the user when searching for information. We consider other aspects such as the granularity of the elements to retrieve, the meta-data that can be associated with contents and the context in which the search is made. We consider these different aspects and propose a generic model based on a multi-facet representation. The facet related to document content is deeply studied. We made proposition related to semantic retrieval based on graph concepts and suggested a family of concept similarity functions and a graph similarity function that allow to compare graph concepts from documents and from queries. The dynamic aspect of the document collection has also been studied. To validate this model we considered three application domains: e-learning, automobile diagnostic and Braille musical scores. We also evaluate our semantic similarity functions in terms of recall and precision and show their effectiveness

    Analyse des connaissances mises en Ɠuvre dans l’aide Ă  la dĂ©cision en maintenance d'hĂ©licoptĂšres

    Get PDF
    Ce rapport traite d'une Ă©tude rĂ©alisĂ©e dans le cadre du projet de recherche HELIMaintenance. L'objectif du projet HELIMaintenance est d'optimiser la maintenance des hĂ©licoptĂšres en rĂ©duisant les coĂ»ts de maintenance. Le but de ce projet de concevoir un SystĂšme Logistique IntĂ©grĂ© capable d'analyser les donnĂ©es critiques de piĂšces en vol et de piloter l'activitĂ© de l'atelier de maintenance afin de rĂ©duire l'inactivitĂ© de l'hĂ©licoptĂšre. Dans le cadre de ce projet, l'un des workpackages vise Ă  proposer des approches et des outils d'aide Ă  dĂ©cision pour la maintenance d'hĂ©licoptĂšres en vue d'amĂ©liorer la qualitĂ© et les performances de ce processus. L'axe principal de recherche s'appuie sur la gestion des connaissances, le retour d'expĂ©rience, les problĂšmes de satisfaction de contraintes et les diffĂ©rentes façons d'associer ces mĂ©thodes. En raison de l'avancement du projet, notre travail vise Ă  identifier certains cas de maintenance typiques que nous pourrions assister par des outils d'aide Ă  la dĂ©cision en vue d'atteindre les objectifs du workpackage. Afin de rĂ©aliser ce projet, nous avons commencĂ© par faire un Ă©tat de l'art autour des axes de recherche. Ensuite, nous avons informĂ©s les partenaires industriels aux approches d'aide Ă  la dĂ©cision utilisables et nous avons modĂ©lisĂ© le processus de maintenance d'hĂ©licoptĂšres avec le formalisme de modĂ©lisation de processus BPMN (Business Process Modeling Notation). Enfin, nous avons proposĂ© quelques outils d'aide Ă  la dĂ©cision qui pourraient ĂȘtre dĂ©veloppĂ©s pour continuer ce projet

    Proposition d'une approche à base de cas pour la réutilisation des unités de programmes

    Get PDF
    L'amĂ©lioration constante de la qualitĂ© des logiciels et des processus de dĂ©veloppement logiciel est depuis plusieurs dĂ©cennies, au coeur des prĂ©occupations et de nombreux travaux de recherche dans le domaine de l'ingĂ©nierie des systĂšmes d'information. Parmi les multiples solutions proposĂ©es, la rĂ©utilisation apparaĂźt pour bien des chercheurs comme l'une des pistes les plus prometteuses pour la rĂ©duction du coĂ»t de production et l'amĂ©lioration de la qualitĂ© de systĂšmes [MILl 1999]. Plusieurs formes de rĂ©utilisation ont Ă©tĂ© introduites: la rĂ©utilisation des spĂ©cifications, la rĂ©utilisation des composants, la rĂ©utilisation des codes, la rĂ©utilisation des expĂ©riences, etc. [R.P. Diaz, 87], [Kruger 92], [NKambou et al. 2003, 2004]. Le but du projet CIAO-SI est de construire et de maintenir une mĂ©moire d'expĂ©rience pour l'organisation pouvant supporter tout le cycle de dĂ©veloppement. À ce jour, les travaux du projet CIAO-SI [NKambou et al. 2003, 2004] initiĂ© par le Groupe Infotel Inc et le laboratoire GDAC se sont limitĂ©s aux phases d'analyse et de conceptions. Nous nous proposons dans notre travail de recherche d'Ă©tendre la rĂ©flexion Ă  la phase d'implantation ('codage'). Ce volet vise Ă  doter le systĂšme CIAO-SI d'un module permettant de rechercher et d'indexer les unitĂ©s de programmes Ă©prouvĂ©es, validĂ©es et stockĂ©es dans le but de leur rĂ©utilisation pour des nouveaux projets de dĂ©veloppement logiciel. La plupart des outils recensĂ©s utilisent des approches d'indexation qui se limitent Ă  l'aspect descriptif du problĂšme (caractĂ©ristique du problĂšme, le contexte d'Ă©laboration pour filtrer les rĂ©sultats, utilisation des concepts pour dĂ©finir les ontologies) et non Ă  l'intĂ©gration de la solution proposĂ©e; ce qui n'est pas appropriĂ© dans la rĂ©utilisation des codes. Nous avons proposĂ© et implĂ©mentĂ© une approche de rĂ©utilisation des unitĂ©s de programmes basĂ©e sur le CBR et la classification Ă  facettes. L'implantation de cette approche dans le contexte de CIAO-SI, une plateforme de rĂ©utilisation dans les phases en aval de la rĂ©alisation, nous a permis d'obtenir des rĂ©sultats encourageants. Finalement nous avons effectuĂ© une Ă©valuation expĂ©rimentale par la mĂ©thode de Salton et cela nous a permis d'Ă©valuer la pertinence de nos rĂ©sultats. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : RĂ©utilisation des codes, DĂ©veloppement logiciel, Indexation des codes, Ontologie, CIAO-SI, Raisonnement Ă  base de cas

    Contribution à la définition de modÚles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thĂšse adresse deux principaux problĂšmes en recherche d'information : (1) la formalisation automatique des prĂ©fĂ©rences utilisateur, (ou la pondĂ©ration automatique de requĂȘtes) et (2) l'indexation sĂ©mantique. Dans notre premiĂšre contribution, nous proposons une approche de recherche d'information (RI) flexible fondĂ©e sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisĂ© d'une part, pour la reprĂ©sentation graphique de requĂȘtes flexibles exprimant des prĂ©fĂ©rences qualitatives et d'autre part pour l'Ă©valuation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de prĂ©fĂ©rences qualitatives est plus simple et plus intuitive que la formulation de poids numĂ©riques les quantifiant. Cependant, un systĂšme automatisĂ© raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondĂ©ration automatique des requĂȘtes par quantification des CP-Nets correspondants par des valeurs d'utilitĂ©. Cette quantification conduit Ă  un UCP-Net qui correspond Ă  une requĂȘte boolĂ©enne pondĂ©rĂ©e. Une utilisation des CP-Nets est Ă©galement proposĂ©e pour la reprĂ©sentation des documents dans la perspective d'une Ă©valuation flexible des requĂȘtes ainsi pondĂ©reĂ©s. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basĂ©e sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de reprĂ©senter les concepts et les relations conditionnelles entre eux d'une maniĂšre relativement compacte. Les noeuds du CP-Net sont les concepts reprĂ©sentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts rĂ©sultants forment les noeuds du CP-Net. D'autre part, nous proposons d'Ă©tendre et d'utiliser la technique de rĂšgles d'association afin de dĂ©couvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mĂ©canisme d'Ă©valuation des requĂȘtes basĂ© sur l'appariement de graphes (les CP-Nets document et requĂȘte en l'occurrence)
    corecore