Méthodologie de matching à large échelle pour des schémas XML

Abstract

Nowadays, the Information Technology domains (semantic web, deep web, e-business, digital libraries, life science, biology, etc) abound with a large variety of DB schemas, XML schemas or ontologies stored in many heterogeneous databases and information sources. Thereby, a hard problem has been brought up: solving the semantic heterogeneity in the large and perform the integration of such heterogeneous collections of schemas and ontologies. Matching techniques are solutions to automatically find correspondences between these schemas/ontologies in order to allow their integration in information systems. More precisely, matching is an operation that takes as input (e.g XML schemas, ontologies, relational database schemas) and returns the semantic similarity values of their elements. In this context, a major challenge that is still largely to be tackled is to scale up semantic matching according to two facets: a large number of schemas to be aligned or matched and very large schemas. While the former is primarily addressed in the database area, the latter has been addressed by researchers in schema and ontology matching. Based on this observation, we propose a new scalable methodology for schema matching. Our methodology supports ii) a hybrid approach trying to address the two facets based on the combination of pair-wise and holistic strategies and is deployed in three phases (pre-matching, matching and post-matching; ii) a decomposition strategy to divide large XML schemas into small ones using tree mining technique. Our methodology has been evaluated and implemented in PLASMA (Platform for LArge Schema MAtching) prototype specifically developed to this aim. Our experiments on real world schemas show that PLASMA offers a good quality of matching and the proposed decomposition approach improves the performance of schema matching.De l’intégration des schémas de bases de données jusqu’à l’alignement d’ontologies, la problématique qui a suscité le plus de points ardus à résoudre cette dernière décennie est la recherche des correspondances. Nous nous intéressons plus particulièrement au matching. Le matching est un processus qui vise à identifier et découvrir les correspondances sémantiques entre différents formats de données tels que les schémas, les ontologies,… Cependant, dès que l’on passe à un contexte à large échelle, plusieurs problèmes se posent tels que . les problèmes d'efficacité en termes de temps d'exécution et de qualité des résultats. L’objectif de notre travail est de relever le challenge du matching à grande échelle. En particulier, nous proposons une méthodologie de matching à large échelle, basée sur une approche hybride et structurée en trois phases (pré-matching, matching et post-matching), qui vise à optimiser le matching en s’appuyant notamment sur une phase préalable de prétraitement. Ce prétraitement se base sur des techniques d’analyse, de traitement linguistique des éléments des schémas et une approche de décomposition des schémas. La décomposition est une approche holistique qui consiste à diviser les schémas en sous schémas tout en identifiant ceux qui sont linguistiquement similaires. L’utilisation d’une telle approche nécessite des techniques qui passent à l’échelle et qui permettent un traitement d’un grand nombre de données en une seule fois. La méthodologie proposée est supportée par une plateforme nommée PLASMA (Platform for LArge Schema MAtching) que nous avons développée pour des besoins d’évaluation et d’expérimentations. Nous avons pu ainsi démontrer grâce aux expérimentations réalisées que notre système offre des résultats fiables pour des schémas très volumineux et que grâce à la méthodologie mise au point, nous avons réussi à améliorer les performances du matching en temps d’exécution

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 01/11/2023