Documents multi-structurés : De la modélisation vers l\u27exploitation

Abstract

La structuration multiple des documents pose différents types de problématiques. Parmi celles-ci la représentation des ces documents ainsi que leurs exploitations notamment dans un contexte de recherche d\u27information. Le problème principal réside dans le fait qu\u27il n\u27existe pas un formalisme standardisé permettant de matérialiser de manière appropriée et pérenne un document possédant plusieurs structures. Les travaux de recherche que nous avons mené au cours de cette thèse nous ont conduit à définir un modèle spécifique pour la représentation de ce type de documents. Le modèle MSDM (Multi-Structured Document Model) que nous proposons se veut un modèle générique intégrant des caractéristiques spécifiques aux documents multi-structurés tout en étant facilement exploitable. Partant de ce modèle nous avons proposé un formalisme, basé sur XML, appelé MultiX permettant la sérialisation de ces documents. Nous avons étudié l\u27exploitation de ces documents dans le contexte de la recherche d\u27information. Pour interroger efficacement les documents multi-structurés au format MultiX, nous avons développé une extension du langage XQuery sous forme d\u27une bibliothèque de fonctions spécifiques. Ces fonctions permettent une exploitation plus efficace et plus facile des documents MultiX. Pour valider nos propositions nous avons implémenté un framework offrant des possibilités de création d\u27analyse et de manipulation de documents multi-structurés

    Similar works

    Full text

    thumbnail-image

    Available Versions