Search CORE

3 research outputs found

Indexation et interrogation de pages web décomposées en blocs visuels

Author: BRUNO Emmanuel
FAESSEL Nicolas
LE MAITRE Jacques
Publication venue
Publication date: 01/01/2011
Field of study

Cette thèse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modèle : BlockWeb, qui s'appuie sur une décomposition de pages Web en une hiérarchie de blocs visuels. Ce modèle prend en compte, l'importance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette décomposition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête peuvent être renvoyés à la place de la page complète. Une page est représentée sous forme d'un graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par l'importance de ce bloc et chaque arc est étiqueté la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de règles à la façon de XSLT. Nous avons expérimenté notre modèle sur deux applications distinctes : la recherche du meilleur point d'entrée sur un corpus d'articles de journaux électroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en présentons les résultats.This thesis is about indexing and querying Web pages. We propose a new model called BlockWeb, based on the decomposition of Web pages into a hierarchy of visual blocks. This model takes in account the visual importance of each block as well as the permeability of block's content to their neighbor blocks on the page. Splitting up a page into blocks has several advantages in terms of indexing and querying. It allows to query the system with a finer granularity than the whole page: the most similar blocks to the query can be returned instead of the whole page. A page is modeled as a directed acyclic graph, the IP graph, where each node is associated with a block and is labeled by the coefficient of importance of this block and each arc is labeled by the coefficient of permeability of the target node content to the source node content. In order to build this graph from the bloc tree representation of a page, we propose a new language : XIML (acronym for XML Indexing Management Language), a rule based language like XSLT. The model has been assessed on two distinct dataset: finding the best entry point in a dataset of electronic newspaper articles, and images indexing and querying in a dataset drawn from web pages of the ImagEval 2006 campaign. We present the results of these experiments.AIX-MARSEILLE3-Bib. élec. (130559903) / SudocSudocFranceF

OpenGrey Repository

Représentation multi-facette des documents pour leur accès sémantique

Author: Ralalason Bachelin
Publication venue
Publication date: 30/09/2010
Field of study

La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.Information retrieval is part of our contemporary life because it helps us to find information which helps us in acting and decision making. Indeed, the objective of any information retrieval task is to learn new facts, new notions. Thus, the availability and relevance of the pieces of new information we access have a high influence on decisions we make. Most of the current search engines use indexes composed of the representative words from the documents; these indexes allow their access when compared to users' queries. These techniques consider documents and queries as bags of words but not the discourse they contain. One of the new methods to face the understanding of user's needs is semantic indexing and retrieval. In this thesis, we consider semantic indexing when based on ontologies that gather the domain knowledge. Matching content is not the only aspects that interest the user when searching for information. We consider other aspects such as the granularity of the elements to retrieve, the meta-data that can be associated with contents and the context in which the search is made. We consider these different aspects and propose a generic model based on a multi-facet representation. The facet related to document content is deeply studied. We made proposition related to semantic retrieval based on graph concepts and suggested a family of concept similarity functions and a graph similarity function that allow to compare graph concepts from documents and from queries. The dynamic aspect of the document collection has also been studied. To validate this model we considered three application domains: e-learning, automobile diagnostic and Braille musical scores. We also evaluate our semantic similarity functions in terms of recall and precision and show their effectiveness

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Recherche intelligente d'informations géographiques à partir des toponymes, des métadonnées et d'une ontologie : application aux forêts du Bassin congolais

Author: Massala Marius
Publication venue: HAL CCSD
Publication date: 25/01/2013
Field of study

Classified as tropical forests, the forests of the Congo basin is a huge of ecological sanctuary worthy of conservation that is second only to the Amazon in South America. States funded the development of big budget, combined with rapid urbanization and population growth, accompanied environmental problems are acute. It is in this context that our thesis comes. Our objective was to propose a methodology that aims to establish a mechanism for finding information on the internet for the countries of this region. The use of metadata, and ontology names appeared as one of the potential ways that can help in solving problems in the dynamic followed by space objects and efficient access to their information resources. Unlike other models, we propose that binds the spatiotemporal objects with those of their names and allows the description of information resources based on keywords from the ontology and the index of names.Classées parmi les forêts tropicales, les forêts du bassin du Congo constituent un immense sanctuaire écologique digne de conservation que l'on classe juste derrière l'Amazonie en Amérique du sud. Le développement des États financé à grands budget, conjugué à l'urbanisation galopante et à l'augmentation de la population, s'accompagnent de problèmes environnementaux qui se posent avec acuité. C'est dans ce contexte que s'inscrivent nos travaux de thèse. Notre objectif a été de proposer une méthodologie qui vise à mettre en place un mécanisme de recherche des informations via internet pour les pays de cette région. L'utilisation des métadonnées, des toponymes et d'une ontologie a paru l'une des pistes potentielles pouvant aider à la résolution des problèmes rencontrés dans le suivi de la dynamique des objets spatiaux ainsi que l'accès efficace à des ressources informationnelles. A la différence des autres modèles, celui que nous proposons lie la dynamique spatio-temporelle des objets à celle de leurs toponymes et permet la description des ressources informationnelles à partir de mots clé provenant de l'ontologie et de l'index des toponymes

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail