Méthodologie de matching à Large échelle pour des schémas XML

SELLAMI, Sana

Méthodologie de matching à Large échelle pour des schémas XML

Authors: Sana SELLAMI
Publication date: 30 November 2009
Publisher: INSA de Lyon

Abstract

De l\u27intégration des schémas de bases de données jusqu\u27à l\u27alignement d\u27ontologies, la problématique qui a suscité le plus de points ardus à résoudre cette dernière décennie est la recherche des correspondances. Nous nous intéressons plus particulièrement au matching. Le matching est un processus qui vise à identifier et découvrir les correspondances sémantiques entre différents formats de données tels que les schémas, les ontologies, Cependant, dès que l\u27on passe à un contexte à large échelle, plusieurs problèmes se posent tels que . les problèmes d\u27efficacité en termes de temps d\u27exécution et de qualité des résultats. L\u27objectif de notre travail est de relever le challenge du matching à grande échelle. En particulier, nous proposons une méthodologie de matching à large échelle, basée sur une approche hybride et structurée en trois phases (pré-matching, matching et post-matching), qui vise à optimiser le matching en s\u27appuyant notamment sur une phase préalable de prétraitement. Ce prétraitement se base sur des techniques d\u27analyse, de traitement linguistique des éléments des schémas et une approche de décomposition des schémas. La décomposition est une approche holistique qui consiste à diviser les schémas en sous schémas tout en identifiant ceux qui sont linguistiquement similaires. L\u27utilisation d\u27une telle approche nécessite des techniques qui passent à l\u27échelle et qui permettent un traitement d\u27un grand nombre de données en une seule fois. La méthodologie proposée est supportée par une plateforme nommée PLASMA (Platform for LArge Schema MAtching) que nous avons développée pour des besoins d\u27évaluation et d\u27expérimentations. Nous avons pu ainsi démontrer grâce aux expérimentations réalisées que notre système offre des résultats fiables pour des schémas très volumineux et que grâce à la méthodologie mise au point, nous avons réussi à améliorer les performances du matching en temps d\u27exécution