L’alignement des schémas hétérogènes : approche basée sur des embeddings

Abstract

Les espaces de données tels que les lacs de données, reposent généralement sur plusieurs jeux de données («datasets») provenant de différentes sources de données hétérogènes impliquant différents schémas qui doivent cohabiter. Pour interroger ces espaces de données on se retrouve alors face à différents schémas posant des problèmes de redondance et de complémentarité des données. La difficulté dans ce cadre est de gérer de façon dynamique cet ensemble de schéma hétérogène voire dynamique permettant malgré tout de retrouver les données pertinentes en réponse à un besoin d'analyse. Dans ce cadre, notre objectif est d'étudier particulièrement l'alignement automatique des différents schémas. Notre proposition repose sur des méthodes de plongements sémantiques (« embeddings» en anglais) afin d'identifier les alignements pertinents

    Similar works