19 research outputs found

    DOREMUS : un graphe d’œuvres musicales interconnectées

    Get PDF
    International audienc

    DOREMUS: A graph of linked musical works

    No full text

    Linking heterogeneous open data : application to the musical domain

    No full text
    This thesis is part of the ANR DOREMUS project. We are interested in the catalogs of three cultural institutions: BNF (Bibliothèque Nationale de France), Philharmonie de Paris and Radio France, containing detailed descriptions about music works. These institutions have adopted the Semantic Web technologies with the aim of making these data accessible to all and linked.The links creation becomes particularly difficult considering the high heterogeneity between the descriptions of the same entity. In this thesis, our main objective is to propose a generic data linking approach, dealing with certain challenges, for a concrete application on DOREMUS data. We focus on three major challenges: (1) reducing the tool configuration effort, (2) coping with different kinds of data heterogeneities across datasets and (3) dealing with datasets containing blocks of highly similar instances. Some of the existing linking approaches often require the user intervention during the linking process to configure some parameters. This may be a costly task for theuser who may not be an expert in the domain. Therefore, one of the researchquestions that arises is how to reduce human intervention as much as possible inthe process of data linking. Moreover, the data can show various heterogeneitiesthat a linking tool has to deal with. The descriptions can be expressed in differentnatural languages, with different vocabularies or with different values. The comparison can be complicated due to the variations according to three dimensions: value-based, ontological and logical. Another challenge is the distinction between highly similar but not equivalent resource descriptions. In their presence, most of the existing tools are reduced in efficiency generating false positive matches. In this perspective, some approaches have been proposed to identify a set of discriminative properties called keys. Very often, such approaches discover a very large number of keys. The question that arises is whether all keys can discover the same pairs of equivalent instances, or ifsome are more meaningful than others. No approach provides a strategy to classify the keys generated according to their effectiveness to discover the correct links.We developed Legato — a generic tool for automatic heterogeneous data linking.It is based on instance profiling to represent each resource as a textual documentof literals dealing with a variety of data heterogeneities. It implementsa filtering step of so-called problematic properties allowing to clean the data ofthe noise likely to make the comparison task difficult. To address the problem ofsimilar but distinct resources, Legato implements a key ranking algorithm calledRANKey.Des milliers d'œuvres musicales sont décrites dans des catalogues des institutions culturelles, dont le rôle est de stocker toutes les créations musicales à travers le catalogage et de les diffuser auprès du grand public. Cette thèse s’inscrit dans le cadre du projet ANR DOREMUS -DOnnées en REutilisation pour la Musique en fonction des USages- qui vise à explorer les métadonnées des catalogues de trois grandes institutions culturelles : Bibliothèque Nationale de France (BNF), Philharmonie de Paris et Radio France afin qu'elles puissent communiquer entre elles et être mieux utilisées par les différents publics. Dans cette thèse, nous nous intéressons aux liens dits d’identité, exprimant une équivalence entre deux ressources différentes décrivant la même entité du monde réel. Notre objectif principal est de proposer une approche de liage générique, traitant certains challenges, avec comme cas concret d’utilisation les données de DOREMUS.Dans cette thèse, nous nous focalisons sur trois principaux challenges : (1) réduire la configuration manuelle de l’outil de liage, (2) faire face à différents types d’hétérogénéité entre les descriptions, et (3) Supprimer l’ambiguïté entre les ressources très similaires dans leur descriptions mais qui ne sont pas équivalentes. Certaines approches de liage demandent souvent l’intervention de l’utilisateur pour configurer certains paramètres. Ceci peut s’avérer être une tâche coûteuse pour l’utilisateur qui peut ne pas être expert du domaine. Par conséquent, une des questions de recherche que nous nous posons est comment réduire autant que possible l’intervention humaine dans le processus de liage des données. De plus, les descriptions des ressources peuvent présenter diverses hétérogénéités qu’un outil doit savoir gérer. Par ailleurs, les descriptions peuvent être exprimées dans différentes langues naturelles, avec des vocabulaires différents ou encore avec des valeurs différentes. La comparaison peut alors s’avérer très difficile en raison des variations selon trois dimensions : basées sur les valeurs, ontologiques et logiques. Dans cette thèse, nous analysons les aspects d’hétérogénéité les plus récurrents en identifiant un ensemble de techniques qui peuvent leur être appliquées. Un autre défi est la distinction entre des descriptions de ressources fortement similaires mais non équivalentes. En leur présence, la plupart des outils existants se voient diminuer leur efficacité en terme de qualité, en générant beaucoup de faux positifs. Dans cette optique, certaines approches ont été proposées pour identifier un ensemble de propriétés discriminatives appelées des clefs. De telles approches découvrent un très grand nombre de clés. La question qui se pose est de savoir si toutes les clés permettent de découvrir les mêmes paires d’instances équivalentes, ou si certaines sont plus significatives que d'autres. Aucune approche ne fournit de stratégie pour classer les clefs générées en fonction de leur efficacité à découvrir les bons liens. Afin d’assurer des alignements de qualité, nous avons proposé dans ce travail une nouvelle approche de liage de données visant à relever les défis décrits ci-dessus.Un outil de liage automatique de données hétérogènes, nommé Legato, qui répond aux challenges évoqués précédemment a été développé. Il est basé sur la notion de profile d’instance représentant chaque ressource comme un document textuel de littéraux gérant une variété d’hétérogénéités de données sans l’intervention de l’utilisateur. Legato implémente également une étape de filtrage de propriétés dites problématiques permettant de nettoyer les données du bruit susceptible de rendre la tâche de comparaison difficile. Pour pallier au problème de distinction entre les ressources similaires dans leur description, Legato implémente un algorithme basé sur la sélection et le ranking des clefs afin d’améliorer considérablement la précision au niveau des liens générés

    DOREMUS : un graphe d’œuvres musicales interconnectées

    No full text

    DOREMUS: Doing reusable musical data

    No full text

    Liage de données ouvertes et hétérogènes : application au domaine musical

    No full text
    Des milliers d'œuvres musicales sont décrites dans des catalogues des institutions culturelles, dont le rôle est de stocker toutes les créations musicales à travers le catalogage et de les diffuser auprès du grand public. Cette thèse s’inscrit dans le cadre du projet ANR DOREMUS -DOnnées en REutilisation pour la Musique en fonction des USages- qui vise à explorer les métadonnées des catalogues de trois grandes institutions culturelles : Bibliothèque Nationale de France (BNF), Philharmonie de Paris et Radio France afin qu'elles puissent communiquer entre elles et être mieux utilisées par les différents publics. Dans cette thèse, nous nous intéressons aux liens dits d’identité, exprimant une équivalence entre deux ressources différentes décrivant la même entité du monde réel. Notre objectif principal est de proposer une approche de liage générique, traitant certains challenges, avec comme cas concret d’utilisation les données de DOREMUS.Dans cette thèse, nous nous focalisons sur trois principaux challenges : (1) réduire la configuration manuelle de l’outil de liage, (2) faire face à différents types d’hétérogénéité entre les descriptions, et (3) Supprimer l’ambiguïté entre les ressources très similaires dans leur descriptions mais qui ne sont pas équivalentes. Certaines approches de liage demandent souvent l’intervention de l’utilisateur pour configurer certains paramètres. Ceci peut s’avérer être une tâche coûteuse pour l’utilisateur qui peut ne pas être expert du domaine. Par conséquent, une des questions de recherche que nous nous posons est comment réduire autant que possible l’intervention humaine dans le processus de liage des données. De plus, les descriptions des ressources peuvent présenter diverses hétérogénéités qu’un outil doit savoir gérer. Par ailleurs, les descriptions peuvent être exprimées dans différentes langues naturelles, avec des vocabulaires différents ou encore avec des valeurs différentes. La comparaison peut alors s’avérer très difficile en raison des variations selon trois dimensions : basées sur les valeurs, ontologiques et logiques. Dans cette thèse, nous analysons les aspects d’hétérogénéité les plus récurrents en identifiant un ensemble de techniques qui peuvent leur être appliquées. Un autre défi est la distinction entre des descriptions de ressources fortement similaires mais non équivalentes. En leur présence, la plupart des outils existants se voient diminuer leur efficacité en terme de qualité, en générant beaucoup de faux positifs. Dans cette optique, certaines approches ont été proposées pour identifier un ensemble de propriétés discriminatives appelées des clefs. De telles approches découvrent un très grand nombre de clés. La question qui se pose est de savoir si toutes les clés permettent de découvrir les mêmes paires d’instances équivalentes, ou si certaines sont plus significatives que d'autres. Aucune approche ne fournit de stratégie pour classer les clefs générées en fonction de leur efficacité à découvrir les bons liens. Afin d’assurer des alignements de qualité, nous avons proposé dans ce travail une nouvelle approche de liage de données visant à relever les défis décrits ci-dessus.Un outil de liage automatique de données hétérogènes, nommé Legato, qui répond aux challenges évoqués précédemment a été développé. Il est basé sur la notion de profile d’instance représentant chaque ressource comme un document textuel de littéraux gérant une variété d’hétérogénéités de données sans l’intervention de l’utilisateur. Legato implémente également une étape de filtrage de propriétés dites problématiques permettant de nettoyer les données du bruit susceptible de rendre la tâche de comparaison difficile. Pour pallier au problème de distinction entre les ressources similaires dans leur description, Legato implémente un algorithme basé sur la sélection et le ranking des clefs afin d’améliorer considérablement la précision au niveau des liens générés.This thesis is part of the ANR DOREMUS project. We are interested in the catalogs of three cultural institutions: BNF (Bibliothèque Nationale de France), Philharmonie de Paris and Radio France, containing detailed descriptions about music works. These institutions have adopted the Semantic Web technologies with the aim of making these data accessible to all and linked.The links creation becomes particularly difficult considering the high heterogeneity between the descriptions of the same entity. In this thesis, our main objective is to propose a generic data linking approach, dealing with certain challenges, for a concrete application on DOREMUS data. We focus on three major challenges: (1) reducing the tool configuration effort, (2) coping with different kinds of data heterogeneities across datasets and (3) dealing with datasets containing blocks of highly similar instances. Some of the existing linking approaches often require the user intervention during the linking process to configure some parameters. This may be a costly task for theuser who may not be an expert in the domain. Therefore, one of the researchquestions that arises is how to reduce human intervention as much as possible inthe process of data linking. Moreover, the data can show various heterogeneitiesthat a linking tool has to deal with. The descriptions can be expressed in differentnatural languages, with different vocabularies or with different values. The comparison can be complicated due to the variations according to three dimensions: value-based, ontological and logical. Another challenge is the distinction between highly similar but not equivalent resource descriptions. In their presence, most of the existing tools are reduced in efficiency generating false positive matches. In this perspective, some approaches have been proposed to identify a set of discriminative properties called keys. Very often, such approaches discover a very large number of keys. The question that arises is whether all keys can discover the same pairs of equivalent instances, or ifsome are more meaningful than others. No approach provides a strategy to classify the keys generated according to their effectiveness to discover the correct links.We developed Legato — a generic tool for automatic heterogeneous data linking.It is based on instance profiling to represent each resource as a textual documentof literals dealing with a variety of data heterogeneities. It implementsa filtering step of so-called problematic properties allowing to clean the data ofthe noise likely to make the comparison task difficult. To address the problem ofsimilar but distinct resources, Legato implements a key ranking algorithm calledRANKey

    A survey on web data linking

    No full text
    International audienceData are being published continuously on the web in a decentralized manner leading to a web of heterogeneous data. Given the large amount of published data, access to relevant information becomes difficult, hence the need to interconnect these data.In this paper, we propose a survey on approaches and tools addressing the data linking problem. The particularity of this survey is that we consider the linking processes as a pipeline composed of pre-processing, main matching and post-processing phases and we review the different techniques applied on each of these three steps in service of the global linking task. The actual task of linking two data instances is certainly at the core of this process; however, what happens before and what happens after this task is performed, is of crucial importance for the effectiveness and the efficiency of a data linking tool. One of the important contributions of this paper lies in the organization of the approaches and tools in a (pseudo-) taxonomy, with respect to the three major steps of the matching process (pre-processing, data matching and post-processing), splitting them further into several categories according to the tasks that each approach adresses and finally – according to the techniques that are applied. We additionally consider a fourth, multi-step category of methods – those that act on more than one step of the matching process (they can be found on multiple leaves of our taxonomy). Finally, we describe and compare different state-of-the-art approaches and tools according to a set of criteria.Les données sont publiées en continu sur le web et ce de manière décentralisée condui-sant à un web de données hétérogènes. Au vu de l'énorme quantité de données publiées et de leur hétérogénéïté, se pose la difficulté d'accéder efficacement à l'information pertinente d'où la nécessité d'interconnecter ces données. Dans cet article, nous proposons un état de l'art des méthodes et outils traitant du problème de liage de données. La particularité de cette étude est que nous considérons le processus de liage comme un pipeline composé de trois phases: (i) pré-traitement, (ii) appariement d'instances de données et (iii) post-traitement. La tâche proprement dite d'appariement d'instances de données est certainement au coeur de ce processus. Cependant, ce qui se passe avant et ce qui se passe après cette tâche est d'une importance cruciale pour l'efficacité d'un outil de liage de données. Parmi les contributions importantes de cet article il y a la proposition d'une organisation des approches et outils dans une (pseudo-) taxonomie, en fonction des trois grandes étapes du processus. Cette classification comprend plusieurs catégories en fonction des tâches que chaque approche utilise et selon les techniques qui y sont appliquées. Nous considérons par ailleurs une quatrième catégorie de méthodes ap-pelée multi-étapes comprenant les méthodes agissant sur plus d'une étape du processus de liage (ces méthodes peuvent être trouvées sur plusieurs feuilles de notre taxonomie). Enfin, nous pro-posons également une analyse comparative selon plusieurs critères des différentes approches et outils existants dans ce domain

    A survey on web data linking

    No full text

    Towards Linked Data Extraction From Tweets

    No full text
    [Notes_IRSTEA]Quinzieme Conference Internationale Francophone sur l'Extraction et la Gestion des Connaissances, EGC 2015 - 15th International French-Speaking Conference on Knowledge Extraction and Management, EGC 2015 [Departement_IRSTEA]Territoires [TR1_IRSTEA]SYNERGIE [Axe_IRSTEA]TETIS-SISOInternational audienceMillions of Twitter users post messages every day to communicate with other users in real time information about events that occur in their environment. Most of the studies on the content of tweets have focused on the detection of emerging topics. However, to the best of our knowledge, no approach has been proposed to create a knowledge base and enrich it automatically with information coming from tweets. The solution that we propose is composed of four main phases: topic identification, tweets classification, automatic summariza-tion and creation of an RDF triplestore. The proposed approach is implemented in a system covering the entire sequence of processing steps from the collection of tweets written in English language (based on both trusted and crowd sources) to the creation of an RDF dataset anchored in DBpedia's namespace

    Improving (Re-) Usability of Musical Datasets: An Overview of the DOREMUS Project

    Get PDF
    Das DOREMUS Projekt strebt eine bessere Beschreibung von Musik an, indem es Daten dreier französicher Institutionen untersucht und zusammenführt. Der vorliegende Artikel gibt einen Überblick über das auf FRBRoo basierende Datenmodell, das die automatische Umwandlung und Verlinkung von Daten ermöglicht. Er stellt Prototypen vor, wie die Daten nach den Bedürfnissen der Webnutzer verarbeitet werden können.DOREMUS works on a better description of music by building new tools to link and explore the data of three French institutions. This paper gives an overview of the data model based on FRBRoo, explains the conversion and linking processes using linked data technologies and presents the prototypes created to consume the data according to the web users’ needs
    corecore