174 research outputs found

    Indexation et interrogation de pages web décomposées en blocs visuels

    Get PDF
    Cette thèse porte sur l'indexation et l'interrogation de pages Web. Dans ce cadre, nous proposons un nouveau modèle : BlockWeb, qui s'appuie sur une décomposition de pages Web en une hiérarchie de blocs visuels. Ce modèle prend en compte, l'importance visuelle de chaque bloc et la perméabilité des blocs au contenu de leurs blocs voisins dans la page. Les avantages de cette décomposition sont multiples en terme d'indexation et d'interrogation. Elle permet notamment d'effectuer une interrogation à une granularité plus fine que la page : les blocs les plus similaires à une requête peuvent être renvoyés à la place de la page complète. Une page est représentée sous forme d'un graphe acyclique orienté dont chaque nœud est associé à un bloc et étiqueté par l'importance de ce bloc et chaque arc est étiqueté la perméabilité du bloc cible au bloc source. Afin de construire ce graphe à partir de la représentation en arbre de blocs d'une page, nous proposons un nouveau langage : XIML (acronyme de XML Indexing Management Language), qui est un langage de règles à la façon de XSLT. Nous avons expérimenté notre modèle sur deux applications distinctes : la recherche du meilleur point d'entrée sur un corpus d'articles de journaux électroniques et l'indexation et la recherche d'images sur un corpus de la campagne d'ImagEval 2006. Nous en présentons les résultats.This thesis is about indexing and querying Web pages. We propose a new model called BlockWeb, based on the decomposition of Web pages into a hierarchy of visual blocks. This model takes in account the visual importance of each block as well as the permeability of block's content to their neighbor blocks on the page. Splitting up a page into blocks has several advantages in terms of indexing and querying. It allows to query the system with a finer granularity than the whole page: the most similar blocks to the query can be returned instead of the whole page. A page is modeled as a directed acyclic graph, the IP graph, where each node is associated with a block and is labeled by the coefficient of importance of this block and each arc is labeled by the coefficient of permeability of the target node content to the source node content. In order to build this graph from the bloc tree representation of a page, we propose a new language : XIML (acronym for XML Indexing Management Language), a rule based language like XSLT. The model has been assessed on two distinct dataset: finding the best entry point in a dataset of electronic newspaper articles, and images indexing and querying in a dataset drawn from web pages of the ImagEval 2006 campaign. We present the results of these experiments.AIX-MARSEILLE3-Bib. élec. (130559903) / SudocSudocFranceF

    Usagers & Recherche d'Information

    Get PDF
    La recherche d'information est confrontée à une variété de plus en plus importante tant en termes d'usagers, de tâches à remplir, d'outils.... Face à cette hétérogénéité de nombreux travaux, s'attachent à améliorer la recherche d'information par le biais d'approches adaptatives, de systèmes de recommandation... Mes travaux s'inscrivent dans ce cadre et apportent un éclairage essentiellement porté sur l'usager et ses activités et plus particulièrement sur la recherche d'information. Les résultats correspondent à 3 angles d'investigation nous permettant d'aborder cette problématique de l'hétérogénéité en Recherche d'Information

    Contribution à la gestion des données géographiques : Modélisation et interrogation par croquis

    Get PDF
    The Geographic Information Systems (GIS) require special needs to manage their content because they handle data structures are complex and heterogeneous. Such data are often difficult to describe in conventional queries or predicates are based on attributes. The freehand sketches (sketch) is a form of presentation that day was used to visualize, share and save the graphic information. It seems to be easily adaptable to present and examine a flexible GIS dataLes Systèmes d'Information Géographiques (SIG) réclament des besoins particuliers de gestion de leur contenu, parce qu'ils manipulent des données dont les structures sont complexes et hétérogènes. Ces données sont souvent difficiles à décrire par des requêtes classiques ou des prédicats basés sur des attributs. Le croquis à main levée (sketch) est une veille forme de présentation qui a été employée pour visualiser, échanger et enregistrer l'information graphique. Il semble être ainsi facilement adaptable pour présenter et interroger d'une manière flexible les données des SI

    Métadonnées et XML : des standards efficients de l’environnement numérique

    Get PDF
    Prépublication de « Métadonnées et XML : des standards efficients de l’environnement numérique » paru dans le vol 12/2007 de la revue "Ingénierie des systèmes d\u27information"

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    Structuration sématique de documents XML centres-documents

    Get PDF
    La numérisation des documents et le développement des technologies Internet ont engendré une augmentation permanente du nombre de documents et de types de documents disponibles. Face à cette masse documentaire, XML (eXtensible Markup Language) s’est imposé comme format standard de structuration et d’échange de documents. Ainsi, un nombre de plus en plus important de documents devient disponible sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-textes. Les documents XML orienté-données sont constitués d’un ensemble d’éléments généralement courts et précis et sont similaires aux données relationnelles. Nous constatons que les balises utilisées pour ce type de documents décrivent généralement d’une manière précise le contenu, et offrent la sémantique basique nécessaire à la description de l’information (Exemples de balises : Article, Client, Quantité, Prix). A contrario, les documents XML orienté-textes sont riches en texte et utilisent des balises qui reflètent la plupart du temps un découpage (structurel) logique (exemples de balises : Contenu, Section, Paragraphe). Malheureusement, ces balises n’ont qu’une très pauvre vocation sémantique. Partant de cette constatation, le développement d’approches supportées par des outils automatisés permettant de décrire la sémantique des documents XML orientés-textes devient un besoin urgent, voire une nécessité pour certains usages. Dans ce contexte, nous proposons une approche de structuration sémantique des documents XML à partir de leurs structures logiques et de leurs contenus. Elle construit une arborescence de concepts. Cette approche de structuration sémantique passe par quatre phases : 1) Extraction des termes des contenus des documents en utilisant des techniques de recherche d’information ; 2) Détermination d’une taxonomie1 qui sera affectée au document, c’est-à-dire celle qui correspond au mieux à sa sémantique (cette étape se base sur une démarche de pondération d’un ensemble de taxonomies candidates) ; 3) Affectation, à chaque élément feuille de la structure logique du document, du concept le plus significatif à partir de la taxonomie retenue ; 4) Inférence de concepts aux éléments non feuilles du document. Notre approche de structuration sémantique des documents se base sur l’indexation sémantique et diffère des autres travaux par : 1) Le choix d’une taxonomie appropriée pour chaque document, il s’agit de déterminer la taxonomie qui décrit au mieux la sémantique du document, et 2) La pondération des concepts extraits de manière à donner plus d’importance aux concepts les plus spécifiques car nous partons du constat suivant : plus le niveau auquel se situe le concept est bas dans la hiérarchie, plus l’information qu’il apporte est fine et ciblée. Pour exploiter ces structures sémantiques, nous avons étendu le méta-modèle d’entrepôts de documents pour assurer leur stockage. De plus, nous avons introduit le concept de métadocument afin de permettre l’interrogation de ces structures sémantiques. Enfin, pour évaluer nos propositions, nous avons mené un ensemble d’expérimentations sur la collection de documents XML ImageCLEFMed 2010 en utilisant la ressource sémantique MeSH (NML's Medical Subject Headings). Les résultats obtenus montrent que l’algorithme de pondération des concepts des taxonomies qui a été proposé permet de sélectionner avec précision la taxonomie pertinente pour un document donné et, en conséquence, les concepts pertinents à affecter aux éléments feuilles de la structure sémantique de ce document.Le résumé en anglais n'a pas été communiqué par l'auteur

    La contribution des SIG à la connaissance et à la gestion de l'environnement littoral

    Get PDF
    Ce dossier d'Habilitation à Diriger des Recherches comprend trois volumes :- Un résumé du parcours scientifique, présenté sous la forme d'un rapport d'activité, incluant les actions d'enseignement et la liste des productions bibliographiques,- Un recueil des publications les plus représentatives, présenté par thématique,- Une synthèse concernant la contribution des SIG à la connaissance et à la gestion de l'environnement littoral. Les éléments présentés dans cette synthèse sont les suivants.En 1992, la seconde Conférence des Nations Unies pour l'Environnement et le Développement (CNUED, Rio) mettait l'accent sur la dimension planétaire de nombreux phénomènes écologiques et sur la nécessité d'en accroître la connaissance, d'améliorer la gestion des ressources et d'assurer la protection de l'environnement notamment contre les risques naturels et technologiques. Les zones côtières étaient alors reconnues comme des espaces extrêmement sensibles où les effets perturbateurs de l'homme sont parfois irréversibles, à l'image des pays en voie de développement où les littoraux subissent depuis quelques années un accroissement rapide de la population provoquant des mutations territoriales de grande ampleur. Cette conférence réaffirmait de ce fait l'intérêt du concept de « gestion intégrée des zones côtières » proposé au début des années 1970 par la Convention de Ramsar et l'US Coastal Zone Management Act, qui exprime le besoin d'agir collectivement sur les processus naturels et anthropiques susceptibles de menacer le maintien durable de la qualité de l'environnement et des activités qui s'y déroulent.Mais comment gérer cet espace complexe sans une connaissance approfondie de son fonctionnement et de son évolution ? C'est à ce niveau que la contribution des scientifiques peut s'exprimer. En effet, le fonctionnement de la zone côtière repose sur une multitude de variables physiques, naturelles et socio-économiques en interaction, agissant sur une gamme scalaire et temporelle relativement large et dont la compréhension implique de multiples compétences scientifiques. Ce contexte pluridisciplinaire ne facilite pas la production d'une vision synthétique des processus, puisque les disciplines académiques fournissent souvent des points de vue différents d'une même réalité. De plus, il nécessite la mise en œuvre de méthodes et d'outils technologiques adaptés au stockage, à l'analyse et à la représentation de données de source et de nature diverses. L'ensemble de ces contraintes pourrait être en partie à l'origine de l'intérêt tardif de la communauté scientifique pour les zones côtières. En effet, il ne s'est développé qu'à partir des années 1980, comme l'atteste la mise en place de programmes et de réseaux de recherche nationaux et internationaux. Cependant, malgré des résultats scientifiques importants notamment sur l'approche théorique de la gestion de la zone côtière, la difficulté à développer l'ouverture pluridisciplinaire nécessaire persiste. La complexité des processus en cause, l'éparpillement des compétences et des données dans un vaste champ disciplinaire et dans de multiples institutions, en sont en grande partie responsables. Si on se réfère à l'expérience internationale dans ce domaine, il semble acquis que les avancées les plus significatives concernant la prise en compte des conditions écologiques se sont notamment appuyées sur les systèmes d'information géographique (SIG). Outils scientifiques et techniques, ils établissent un lien tangible entre les différents compartiments du système étudié et synthétisent l'ensemble des progrès conceptuels et techniques réalisé dans le domaine de l'information géographique. Par leurs capacités de stockage, d'analyse et de représentation de l'information spatialisée, ils concourent à améliorer la connaissance du fonctionnement global des écosystèmes et contribuent aux réflexions des décideurs. Utilisés en synergie avec la télédétection et la géodésie spatiale, actuellement en plein essor, ils peuvent offrir un certain nombre d'atouts dans trois domaines d'application : l'aménagement et la gestion des territoires, l'appui à la recherche et au développement, et la planification des activités. Néanmoins, il apparaît après une décennie d'utilisation dans différents domaines d'application que les conditions du succès de leur mise en œuvre sont dépendantes non seulement de paramètres techniques et économiques, mais aussi sociaux, organisationnels et spatiaux. La première partie de cette synthèse pose le contexte géographique et méthodologique dans lequel s'inscrivent les applications géomatiques développées en mer d'Iroise et pour lesquelles des perspectives de recherche sont envisagées. Elle aborde différentes notions et propose un état de l'art concernant l'environnement littoral, les principes de gestion intégrée des zones côtières et les systèmes d'information géographique. L'environnement littoral est présenté dans ses limites géographiques et ses composantes thématiques comme un espace sensible et complexe où différents paramètres interférent, justifiant l'intérêt d'une multitude d'acteurs. L'attrait des sociétés humaines pour cet espace d'une grande richesse entraîne une pression sur la ressource et des conflits d'usage que la gestion intégrée de la zone côtière se propose de résoudre. Ce concept qui s'est développé depuis les années 1970 s'exprime par différentes actions politiques et scientifiques. Néanmoins, il apparaît que cet intérêt récent d'une communauté internationale composite se traduit par des visions et des approches différentes qu'il est parfois difficile de concilier dans le contexte pluridisciplinaire inhérent à la mise en œuvre d'un projet de gestion intégrée. C'est à ce niveau que l'utilisation des méthodes géomatiques peut contribuer à développer une approche territoriale et écosystémique de la zone côtière.Les systèmes d'information géographique sont présentés selon différents points de vue qui leur attribuent communément un rôle déterminant dans la gestion, l'analyse et la représentation de l'information géographique et dans l'aide à la décision qu'ils peuvent procurer. Leurs apports aux sciences environnementales et comme support à la gestion des territoires sont discutés. S'ils produisent des résultats intéressants dans différents domaines, il apparaît qu'ils sont encore peu utilisés sur le littoral et encore moins dans des projets finalisés basés sur des approches pluridisciplinaires. La seconde partie de ce mémoire décrit les composantes et les applications d'un SIG consacré aux espaces littoraux de la mer d'Iroise, développé depuis une dizaine d'années dans un laboratoire universitaire. Il est mis en œuvre avec deux objectifs complémentaires. Le premier est de contribuer aux recherches menées sur le fonctionnement et l'évolution d'un écosystème complexe, et le second est de procurer aux gestionnaires des éléments concrets permettant de faciliter leurs prises de décision. Ce système d'information géographique offre une plate-forme d'informations géospatiales suffisamment riche des points de vue thématique, temporel et scalaire, pour permettre la mise en œuvre de diverses applications scientifiques en relation étroite avec des objectifs de gestion de l'environnement. Afin d'illustrer les possibilités du système, trois applications menées selon une approche écosystémique sont présentées. L'analyse des changements d'occupation et d'utilisation des sols d'une île habitée est réalisée selon les perspectives scientifiques du programme international « Land Use and Land Cover Changes » de l'IGBP (International Geosphere Biosphere Program). Elle synthétise les changements territoriaux intervenus depuis 1844 sur l'île d'Ouessant, met en évidence le rôle actuel d'une activité traditionnelle, l'élevage du mouton, dans l'entretien des milieux semi-naturels et propose des scénarios prospectifs d'évolution de la végétation en relation avec différentes hypothèses de développement du cheptel ovin. Concernant l'étude des dynamiques de la végétation des îlots marins protégés, la démarche vise à proposer une méthode d'évaluation des changements du tapis végétal afin de procurer un outil synthétique aux gestionnaires, pouvant servir à l'élaboration de comparaisons entre différents sites d'un réseau d'espaces protégés, au niveau national. Les résultats acquis sur un ensemble représentatif d'îlots marins en réserve, mettent spatialement en évidence les changements intervenus en une décennie, en relation avec différents facteurs anthropo-zoogènes, et fournissent une évaluation synthétique des dynamiques en cours, à l'échelle du réseau.L'habitat d'une espèce marine d'intérêt patrimonial est étudié dans le cadre du projet européen « Tursiops, réseau atlantique des grands dauphins côtiers ». En dépit du peu d'informations environnementales disponibles, la recherche menée en mer d'Iroise permet de préciser les caractéristiques physiques du domaine vital des animaux, de réaliser une synthèse de la morphologie des fonds sous-marins susceptibles d'expliquer la distribution des groupes résidant et de proposer une approche par modélisation de l'habitat potentiel. Au vu des résultats présentés, la démarche géomatique entreprise au sujet de la mer d'Iroise paraît fructueuse tant dans le domaine de la connaissance du fonctionnement et de l'évolution de l'écosystème que dans celui de l'aide à la gestion de la zone côtière. Néanmoins, il apparaît que l'utilisation du système est limitée sur certaines problématiques du fait de l'indisponibilité de nombreuses données et de méthodes d'analyse peu adaptées à l'étude de certains processus environnementaux. La troisième partie de ce mémoire dresse un constat critique de l'apport et des limites du SIG mis en place en termes d'état des connaissances, d'analyse des processus et d'aide à la gestion. Les nouvelles méthodes géomatiques d'acquisition de données à haute résolution spatiale ainsi que le couplage des systèmes d'information géographique avec des plates-formes de modélisation sont présentés comme des perspectives méthodologiques prometteuses en vue du suivi à long terme et de la représentation des processus dynamiques. Ces méthodologies seront appliquées aux recherches en cours sur la zone côtière finistérienne. En outre, il apparaît que le SIG mis en œuvre, s'il veut répondre aux objectifs de compréhension du fonctionnement de l'écosystème et d'aide à la gestion intégrée, fixés au préalable, doit s'intégrer à un outil pluridisciplinaire fondé sur des méthodes complémentaires. Dans un tel dispositif, la télédétection permettrait d'alimenter les bases d'information géographique par des variables pertinentes, relatives notamment au milieu marin, en complément des échantillons acquis in situ et des bases de données existantes. Celles-ci seraient utilisées pour calibrer et valider les modèles qui seraient utilisés pour explorer la dynamique de l'écosystème et quantifier les processus en intégrant une large part des interactions entre les différents facteurs. En permettant leur organisation en un système cohérent, le SIG offrirait les moyens de coupler efficacement les données acquises par ces différentes méthodes et fournirait des outils d'analyse spatiale et de représentation. Enfin, des interfaces et des modules spécialisés d'aide à la décision compléteraient le système de manière à en faciliter l'accès à différents niveaux d'utilisation et à le rendre opérationnel dans le contexte d'une gestion intégrée de la zone côtière finistérienne.Concernant l'environnement littoral de la mer d'Iroise, la nécessité de disposer d'un outil fédérateur susceptible de rassembler différentes composantes du système et donc des compétences et des points de vue variés, ainsi que des méthodes d'analyse et de représentation efficaces est apparue voici une dizaine d'années. A cette époque, les méthodes géospatiales de fourniture et de traitement de données telles que les SIG, la télédétection, l'analyse spatiale, la modélisation s'imposaient comme un formidable potentiel pour l'étude des changements par leur capacité à fournir des éléments de réflexion et de synthèse. L'appropriation de cette nouvelle technologie par les géographes s'est fondée sur des bases théoriques rigoureuses, originales et somme toute attractives pour un bon nombre d'acteurs, praticiens ou théoriciens de l'environnement s'intéressant aux problématiques d'une zone côtière exemplaire, de par ses caractéristiques et ses évolutions. La problématique globale s'est donc nourrie d'approches spécifiques illustrant quelques facettes de la complexité de la zone côtière. La démarche écosystémique qu'elles sous-tendent s'inscrit dans une triple perspective spatiale, temporelle et pluridisciplinaire. Si ces deux premières composantes relèvent sans aucun doute de la pratique traditionnelle en Sciences Humaines, la connotation pluridisciplinaire des recherches menées est plus actuelle. De fait, l'évolution de la pratique scientifique combinée à l'étude d'un espace complexe d'interfaces géographiques implique nécessairement de positionner la réflexion aux marges de différentes disciplines qui deviennent alors complémentaires. On atteint ainsi une conception transversale de la recherche, aux limites des champs académiques traditionnels, où les Sciences de l'Homme et de la Société peuvent occuper une place à part entière aux côtés des Sciences de la Vie, des Sciences de l'Univers et des Sciences de l'Information et de la Communication

    Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe

    Get PDF
    Un système de recherche d’information est un ensemble de programmes et de modules qui sert à interfacer avec l’utilisateur, pour prendre et interpréter une requête, faire la recherche dans l’index et retourner un classement des documents sélectionnés à cet utilisateur. Cependant le plus grand challenge de ce système est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la première nous avons proposé une nouvelle approche pour la reformulation des requêtes dans le contexte de la recherche d’information en arabe. Le principe est donc de représenter la requête par un arbre sémantique pondéré pour mieux identifier le besoin d'information de l'utilisateur, dont les nœuds représentent les concepts (synsets) reliés par des relations sémantiques. La construction de cet arbre est réalisée par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les performances du système de recherche d’information. Dans la deuxième contribution, nous avons aussi proposé une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la méthode de la stratégie de Pooling utilisant les moteurs de recherches et l’algorithme Naïve-Bayes de classification par l’apprentissage automatique. Pour l’expérimentation nous avons créé une nouvelle collection de test composée d’une base documentaire de 632 documents et de 165 requêtes avec leurs jugements de pertinence sous plusieurs topics. L’expérimentation a également montré l’efficacité du classificateur Bayésien pour la récupération de pertinences des documents, encore plus, il a réalisé des bonnes performances après l’enrichissement sémantique de la base documentaire par le modèle word2vec
    • …
    corecore