797 research outputs found

    Structuration sémantique des documents XML : Expérimentations et évaluation

    Get PDF
    National audienceLa norme XML permet la représentation d'un document selon un découpage logique qui ne reflète généralement pas la sémantique de son contenu. Il serait donc intéressant de compléter la structure logique des documents XML par une structure sémantique. L'objet de cet article est alors d'évaluer l'approche d'extraction de structures sémantiques pour les documents XML que nous effectuons sur un échantillon de documents issus de la collection ImageClef 2010 tout en utilisant le thésaurus MeSH (Medical Subject Headings)

    OBIRS-feedback, une méthode de reformulation utilisant une ontologie de domaine

    Get PDF
    National audienceLes performances d'un système de recherche d'information (SRI) peuvent être dégradées en termes de précision du fait de la difficulté pour des utilisateurs à formuler précisément leurs besoins en information. La reformulation ou l'expansion de requêtes constitue une des réponses à ce problème dans le cadre des SRI. Dans cet article, nous proposons une nouvelle méthode de reformulation de requêtes conceptuelles qui, à partir de documents jugés pertinents par l'utilisateur et d'une ontologie de domaine, cherche un ensemble de concepts maximisant les performances du SRI. Celles-ci sont évaluées, de manière originale, à l'aide d'indicateurs dont une formalisation est proposée. Cette méthode a été évaluée en utilisant notre moteur OBIRS, l'ontologie de domaine MeSH et la collection de tests MuCHMORE

    RELIEFS : un système d'inspiration cognitive pour le filtrage adaptatif de documents textuels

    No full text
    International audienceL'objet de cet article est la présentation d'un nouveau système nommé RELIEFS (pour RELevance Information Extraction Fuzzy System) pour le filtrage adaptatif de documents textuels. Les grands principes de fonctionnement de ce système s'inspirent de mécanismes cognitifs intervenant dans les processus de sélection de l'information. Plus précisément, notre recherche part de l'analyse de modèles de la mémoire sémantique (accès et organisation des connaissances en mémoire) et de modèles qui rendent compte de phénomènes attentionnels (sélection des informations provenant de l'environnement). Des liens forts sont tissés entre ces modèles et des modèles traditionnellement utilisés en RI. Une nouvelle interprétation de la notion de pertinence est proposée. L'analyse nous conduit à extraire un ensemble de mécanismes de base renvoyant aux notions d'activation et de propagation d'activation pour la sélection d'information " pertinentes ". Ces mécanismes sont implémentés et testés avec succès dans la tâche de filtrage adaptatif de TREC9

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Un système de recherche d'information personnalisée basé sur la modélisation multidimensionnelle de l'utilisateur

    Get PDF
    Depuis l'explosion du Web, la Recherche d'Information (RI) s'est vue étendue et les moteurs de recherche sur le Web ont vu le jour. Les méthodes classiques de la RI, surtout destinées à des recherches textuelles simples, se sont retrouvées face à des documents de différents formats et des contenus riches. L'utilisateur, en réponse à cette avancée, est devenu plus exigeant quant aux résultats retournés par les systèmes de RI. La personnalisation tente de répondre à ces exigences en ayant pour objectif principal l'amélioration des résultats retournés à l'utilisateur en fonction de sa perception et de ses intérêts ainsi que de ses préférences. Le présent travail de thèse se situe à la croisée des différents aspects présentés et couvre cette problématique. Elle a pour objectif principal de proposer des solutions nouvelles et efficaces à cette problématique. Pour atteindre cet objectif, un système de personnalisation de la recherche spatiale et sémantique sur le Web et intégrant la modélisation de l'utilisateur, a été proposé. Ce système comprend deux volets : 1/ la modélisation de l'utilisateur ; 2/ la collaboration implicite des utilisateurs à travers la construction d'un réseau de modèles utilisateurs, construit itérativement lors des différentes recherches effectuées en ligne. Un prototype supportant le système proposé a été développé afin d'expérimenter et d'évaluer l'ensemble de la proposition. Ainsi, nous avons effectué un ensemble d'évaluation, dont les principales sont : a) l'évaluation de la qualité du modèle de l'utilisateur ; b) l'évaluation de l'efficacité de la recherche d'information ; c) l évaluation de l'efficacité de la recherche d'information intégrant les informations spatiales ; d) l'évaluation de la recherche exploitant le réseau d'utilisateurs. Les expérimentations menées montrent une amélioration de la personnalisation des résultats présentés par rapport à ceux obtenus par d'autres moteurs de recherche.The web explosion has led Information Retrieval (IR) to be extended and web search engines emergence. The conventional IR methods, usually intended for simple textual searches, faced new documents types and rich and scalable contents. The users, facing these evolutions, ask more for IR systems search results quality. In this context, the personalization main objective is improving results returned to the end user based sing on its perception and its interests and preferences. This thesis context is concerned with these different aspects. Its main objective is to propose new and effective solutions to the personalization problem. To achieve this goal, a spatial and semantic web personalization system integrating implicit user modeling is proposed. This system has two components: 1/ user modeling; /2 implicit users' collaboration through the construction of a users' models network. A system prototype was developed for the evaluation purpose that contains: a) user model quality evaluation; b) information retrieval quality evaluation; c) information retrieval quality evaluation with the spatial user model data; d) information retrieval quality evaluation with the whole user model data and the users' models network. Experiments showed amelioration in the personalized search results compared to a baseline web search.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe

    Get PDF
    Un système de recherche d’information est un ensemble de programmes et de modules qui sert à interfacer avec l’utilisateur, pour prendre et interpréter une requête, faire la recherche dans l’index et retourner un classement des documents sélectionnés à cet utilisateur. Cependant le plus grand challenge de ce système est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la première nous avons proposé une nouvelle approche pour la reformulation des requêtes dans le contexte de la recherche d’information en arabe. Le principe est donc de représenter la requête par un arbre sémantique pondéré pour mieux identifier le besoin d'information de l'utilisateur, dont les nœuds représentent les concepts (synsets) reliés par des relations sémantiques. La construction de cet arbre est réalisée par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les performances du système de recherche d’information. Dans la deuxième contribution, nous avons aussi proposé une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la méthode de la stratégie de Pooling utilisant les moteurs de recherches et l’algorithme Naïve-Bayes de classification par l’apprentissage automatique. Pour l’expérimentation nous avons créé une nouvelle collection de test composée d’une base documentaire de 632 documents et de 165 requêtes avec leurs jugements de pertinence sous plusieurs topics. L’expérimentation a également montré l’efficacité du classificateur Bayésien pour la récupération de pertinences des documents, encore plus, il a réalisé des bonnes performances après l’enrichissement sémantique de la base documentaire par le modèle word2vec
    • …
    corecore