3 research outputs found

    Impact de la structure des documents XML sur le processus d'appariement dans le contexte de la recherche d'information semi-structurée

    Get PDF
    Nos travaux s'inscrivent dans le cadre de la recherche d'information sur documents semi-structurĂ©sde type XML. La recherche d'information structurĂ©e (RIS) a pour objectif de retourner des granules documentaires prĂ©cis rĂ©pondant aux besoins d'information exprimĂ©s par l'utilisateur au travers de requĂȘtes. Ces requĂȘtes permettent de spĂ©cifier, en plus des conditions de contenu, des contraintes structurelles sur la localisation de l'information recherchĂ©e. L'objectif de nos travaux est d'Ă©tudier l'apport de la structure des documents dans le processus d'appariement documents-requĂȘtes. Puisque les contraintes structurelles des requĂȘtes peuvent ĂȘtre reprĂ©sentĂ©es sous la forme d'un arbre et que, parallĂšlement, la structure du document, de nature hiĂ©rarchique, peut elle-mĂȘme utiliser le mĂȘme type de reprĂ©sentation, nous avons proposĂ© plusieurs modĂšles de mesure de la similaritĂ© entre ces deux structures. La mesure de la similaritĂ© entre deux structures arborescentes ayant Ă©tĂ© Ă©tudiĂ©e par le domaine de la thĂ©orie des graphes, nous avons tout d'abord cherchĂ© Ă  adapter les algorithmes de ce domaine Ă  notre problĂ©matique. Suite Ă  une Ă©tude approfondie de ces algorithmes au regard de la RIS, notre choix s'est portĂ© sur la distance d'Ă©dition entre arbres (Tree Edit Distance - TED). Cet algorithme permet, au travers de l'application rĂ©cursive de sĂ©quences de suppression et de substitution, de mesurer le degrĂ© d'isomorphisme (le degrĂ© de similaritĂ©) entre deux arbres. Constatant que ces algorithmes sont coĂ»teux en mĂ©moire et en calcul, nous avons cherchĂ© Ă  en rĂ©duire la complexitĂ© et le temps d'exĂ©cution au travers d'approches de rĂ©sumĂ© et de la mise en place d'un algorithme de TED au coĂ»t de complexitĂ© plus bas. Etant donnĂ© que la TED est normalement utilisĂ©e avec des coĂ»ts d'opĂ©ration fixes peut adaptĂ©s Ă  notre problĂ©matique, nous en avons Ă©galement proposĂ© de nouveaux basĂ©s sur la distance dans le graphe formĂ© par la grammaire des documents : la DTD. Notre deuxiĂšme proposition se base sur les ModĂšles de Langue. En recherche d'information, ces derniers sont utilisĂ©s afin de mesurer la pertinence au travers de la probabilitĂ© qu'un terme de la requĂȘte soit gĂ©nĂ©rĂ© par un document. Nous avons utilisĂ©s les ModĂšles de Langue pour mesurer, non pas la probabilitĂ© de pertinence du contenu, mais celle de la structure. Afin de former un vocabulaire document et requĂȘte Ă  mĂȘme d'ĂȘtre utilisĂ© par notre modĂšle de langue structurel nous avons utilisĂ© une technique de relaxation pondĂ©rĂ©e (la relaxation est le relĂąchement des contraintes). Nous avons Ă©galement proposĂ© une mĂ©thode pour apparier le contenu des documents et celui des requĂȘtes. L'appariement seul des structures Ă©tant insuffisant dans une problĂ©matique de recherche d'information : la pertinence d'un granule documentaire est jugĂ©e en prioritĂ© sur la pertinence de l'information textuelle qu'il contient. De ce fait, nous avons proposĂ© une approche de mesure de la pertinence de ce contenu. Notre mĂ©thode utilise la structure de l'arbre afin d'opĂ©rer une propagation de la pertinence du texte en prenant en compte l'environnement des Ă©lĂ©ments traversĂ©s ainsi que le contexte global du document. Nos diffĂ©rents modĂšles ont Ă©tĂ© expĂ©rimentĂ©s sur deux tĂąches de la campagne d'Ă©valuation de rĂ©fĂ©rence de notre domaine : Initiative for XML Retrieval. Cette campagne a pour but de permettre l'Ă©valuation de systĂšmes de recherche d'information XML dans un cadre normalisĂ©e et comporte plusieurs tĂąches fournissant des corpus, des mesures d'Ă©valuation, des requĂȘtes, et des jugements de pertinence. Nous avons Ă  ce propos participĂ© Ă  cette campagne en 2011.Pour nos expĂ©rimentations, les tĂąches que nous avons choisi d'utiliser sont : * La tĂąche SSCAS d'INEX 2005 qui utilise une collection d'articles scientifiques d'IEEE. Cette collection est orientĂ©e texte dans la mesure oĂč la structure exprimĂ©e dans les documents qu'elle contient est similaire Ă  celle d'un livre (paragraphe, sections). * La tĂąche Datacentric d'INEX 2010 dont la collection est extraite d'IMDB. Cette collection est orientĂ©e donnĂ©es dans la mesure oĂč les termes des documents sont trĂšs spĂ©cifiques et peu redondants et que la structure est porteuse de sens. Nos diffĂ©rentes expĂ©rimentations nous ont permis de montrer que le choix de la mĂ©thode d'appariement dĂ©pend de la collection considĂ©rĂ©e. Dans le cadre d'une collection orientĂ© texte, la structure peut ĂȘtre prise en compte de maniĂšre non stricte et plusieurs sous-arbres extraits du document peuvent ĂȘtre utilisĂ©s simultanĂ©ment pour Ă©valuer la similaritĂ© structurelle. Inversement, dans le cadre d'une collection orientĂ©e donnĂ©e, la prise en compte stricte de la structure est nĂ©cessaire. Etant donnĂ© que les Ă©lĂ©ments recherchĂ©s portent une sĂ©mantique, il est alors important de dĂ©tecter quelle partie du document est Ă  priori pertinente. La structure Ă  apparier doit ĂȘtre la plus prĂ©cise et minimale possible. Enfin, nos approches de mesures de la similaritĂ© structurelle se sont montrĂ©es performantes et ont amĂ©liorĂ© la pertinence des rĂ©sultats retournĂ©s par rapport Ă  l'Ă©tat de l'art, Ă  partir du moment oĂč la nature de la collection a Ă©tĂ© prise en compte dans la sĂ©lection des arbres structurels en entrĂ©e.The work presented in this PhD thesis concerns structured information retrieval and focuses on XML documents. Structured information retrieval (SIR) aims at returning to users document parts (instead of whole documents) relevant to their needs. Those needs are expressed by queries that can contain content conditions as well as structural constraints which are used to specify the location of the needed information. In this work, we are interested in the use of document structure in the retrieval process. We propose some approaches to evaluate the document-query structural similarity. Both query structural constraints and document structures can be represented as trees. Based on this observation we propose two models which aim at matching these tree structures. As tree matching is historically linked with graph theory, our first proposition is based on an adaptation of a solution from the graph theory. After conducting an in depth study of the existing graph theory algorithms, we choose to use Tree Edit Distance (TED), which measures isomorphism (tree similarity) as the minimal set of remove and replace operations to turn one tree to another. As the main drawback of TED algorithms is their time and space complexity, which impacts the overall matching runtime, we propose two ways to overcome these issues. First we propose a TED algorithm having a minimal space complexity overall. Secondly, as runtime is dependent on the input tree cardinality (size) we propose several summarization techniques. Finally, since TED is usually used to assess relatively similar trees and as TED efficiency strongly relies on its costs, we propose a novel way, based on the DTD of documents, to compute these costs. Our second proposition is based on language models which are considered as very effective IR models. Traditionally, they are use to assess the content similarity through the probability of a document model (build upon document terms) to generate the query. We take a different approach based purely on structure and consider the document and query vocabulary as a set of transitions between document structure labels. To build these vocabularies, we propose to extract and weight all the structural relationships through a relaxation process. Finally, as relevance of the returned search results is first assessed based on the content, we propose a content evaluation process which uses the document tree structure to propagate relevance: the relevance of a node is evaluated thanks to its leaves as well as with the document context and neighbour nodes content relevance. In order to validate our models we conduct some experiments on two data-sets from the reference evaluation campaign of our domain: Initiative for XML retrieval (INEX). INEX tracks provide documents collections, metrics and relevance judgments which can be used to assess and compare SIR models. The tracks we use are: * The INEX 2005 SSCAS track whose associated documents are scientific papers extracted from IEEE. We consider this collection to be text-oriented as the structure used is similar to the one we can find in a book. * The INEX 2010 Datacentric track which uses a set of documents extracted from the Internet Movie Database (IMDB) website. This collection is data-oriented as document terms are very specific while the structure carries semantic meaning. Our various experiments show that the matching strategy strongly relies on the document structure type. In text-oriented collections, the structure can be considered as non-strict and several subtrees can be simultaneously used to assess the relevance. On the opposite, structure from documents regarded as data-centered should be used as strictly as possible. The reason is that as elements labels carry semantic, documents structures contain relevant and useful information that the content does not necessarily provide. Finally, our structural similarity approaches improve relevance of the returned results compared to state-of-the-art approaches, as long as the collection nature is considered when extracting the input trees for the structural matching process

    Indexation et interrogation de pages web décomposées en blocs visuels

    Get PDF
    Cette thĂšse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modĂšle : BlockWeb, qui s'appuie sur une dĂ©composition de pages Web en une hiĂ©rarchie de blocs visuels. Ce modĂšle prend en compte, l'importance visuelle de chaque bloc et la permĂ©abilitĂ© des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette dĂ©composition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation Ă  une granularitĂ© plus fine que la page : les blocs les plus similaires Ă  une requĂȘte peuvent ĂȘtre renvoyĂ©s Ă  la place de la page complĂšte. Une page est reprĂ©sentĂ©e sous forme d'un graphe acyclique orientĂ© dont chaque nƓud est associĂ© Ă  un bloc et Ă©tiquetĂ© par l'importance de ce bloc et chaque arc est Ă©tiquetĂ© la permĂ©abilitĂ© du bloc cible au bloc source. Afin de construire ce graphe Ă  partir de la reprĂ©sentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de rĂšgles Ă  la façon de XSLT. Nous avons expĂ©rimentĂ© notre modĂšle sur deux applications distinctes : la recherche du meilleur point d'entrĂ©e sur un corpus d'articles de journaux Ă©lectroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en prĂ©sentons les rĂ©sultats.This thesis is about indexing and querying Web pages. We propose a new model called BlockWeb, based on the decomposition of Web pages into a hierarchy of visual blocks. This model takes in account the visual importance of each block as well as the permeability of block's content to their neighbor blocks on the page. Splitting up a page into blocks has several advantages in terms of indexing and querying. It allows to query the system with a finer granularity than the whole page: the most similar blocks to the query can be returned instead of the whole page. A page is modeled as a directed acyclic graph, the IP graph, where each node is associated with a block and is labeled by the coefficient of importance of this block and each arc is labeled by the coefficient of permeability of the target node content to the source node content. In order to build this graph from the bloc tree representation of a page, we propose a new language : XIML (acronym for XML Indexing Management Language), a rule based language like XSLT. The model has been assessed on two distinct dataset: finding the best entry point in a dataset of electronic newspaper articles, and images indexing and querying in a dataset drawn from web pages of the ImagEval 2006 campaign. We present the results of these experiments.AIX-MARSEILLE3-Bib. Ă©lec. (130559903) / SudocSudocFranceF

    ModÚle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés

    Get PDF
    Structural information contained in semi-structured documents can be used to focus on relevant information. The aim of Information Retrieval System is then to retrieve relevant information units instead of whole documents. We propose here the XFIRM model (XML Flexible Information Retrieval model), which is based on: (i) a generic data representation model, allowing the modelling of documents having heterogeneous structures; (ii) a flexible query language that allows the expression of users needs according to many precision degrees, by expressing (or not) conditions on the documents structure; (iii) a retrieval model based on a relevance propagation method, which aims at finding the most exhaustive and specific information units answering the query. The interest of our propositions has been shown thanks to the prototype we developedLa nature de sources d'information Ă©volue, et les documents numĂ©riques traditionnels plats ne contenant que du texte s'enrichissent d'information structurelle et multimĂ©dia. Cette Ă©volution est accĂ©lĂ©rĂ©e par l'expansion du Web, et les documents semi-structurĂ©s de type XML (eXtensible Markup Language) tendent Ă  former la majoritĂ© des documents numĂ©riques mis Ă  disposition des utilisateurs. Le dĂ©veloppement d'outils automatisĂ©s permettant un accĂšs efficace Ă  ce nouveau type d'information numĂ©rique apparaĂźt comme une nĂ©cessitĂ©. Afin de valoriser au mieux l'ensemble des informations disponibles, les mĂ©thodes existantes de Recherche d'Information (RI) doivent ĂȘtre adaptĂ©es. L'information structurelle des documents peut en effet servir Ă  affiner le concept de granule documentaire. Le but pour les SystĂšmes de Recherche d'Information (SRI) est alors de retrouver des unitĂ©s d'information (et non plus de documents) pertinentes Ă  des requĂȘtes utilisateur. Afin de rĂ©pondre Ă  cette problĂ©matique fondamentale, de nouveaux modĂšles prenant en compte l'information structurelle des documents, tant au niveau de l'indexation, de l'interrogation que de la recherche doivent ĂȘtre construits. L'objectif de nos travaux est de proposer un modĂšle permettant d'effectuer des recherches flexibles dans des corpus de document semi-structurĂ©s. Ceci nous a conduit Ă  proposer le modĂšle XFIRM (XML Flexible Information Retrieval Model ) reposant sur : (i) Un modĂšle de reprĂ©sentation des donnĂ©es gĂ©nĂ©rique, permettant de modĂ©liser des documents possĂ©dant des structures diffĂ©rentes ; (ii) Un langage de requĂȘte flexible, permettant Ă  l'utilisateur d'exprimer son besoin selon divers degrĂ©s de prĂ©cision, en exprimant ou non des conditions sur la structure des documents ; (iii) Un modĂšle de recherche basĂ©e sur une mĂ©thode de propagation de la pertinence. Ce modĂšle a pour but de trouver les unitĂ©s d'information les plus exhaustives et spĂ©cifiques rĂ©pondant Ă  une requĂȘte utilisateur, que celle-ci contienne ou non des conditions de structure. Les documents semi-structurĂ©s peuvent ĂȘtre reprĂ©sentĂ©s sous forme arborescente, et le but est alors de trouver les sous-arbres de taille minimale rĂ©pondant Ă  la requĂȘte. Les recherches sur le contenu seul des documents sont effectuĂ©es en prenant en compte les importances diverses des feuilles des sous-arbres, et en plaçant ces derniers dans leur contexte, c'est Ă  dire, en tenant compte de la pertinence du document. Les recherches portant Ă  la fois sur le contenu et la structure des documents sont effectuĂ©es grĂące Ă  plusieurs propagations de pertinence dans l'arbre du document, et ce afin d'effectuer une correspondance vague entre l'arbre du document et l'arbre de la requĂȘte. L'Ă©valuation de notre modĂšle, grĂące au prototype que nous avons dĂ©veloppĂ©, montre l'intĂ©rĂȘt de nos propositions, que ce soit pour effectuer des recherches sur le contenu seul des documents que sur le contenu et la structure
    corecore