98 research outputs found
Multi-Source Model and Architecture for Quality Negotiation and Integration of Biological Data
International audienc
Contributions to Quality-Aware Online Query Processing
International audienceFor non-collaborative data sources, quality-aware query processing is difficult to achieve because the sources generally do not export data quality indicators. This paper presents a prospective work on the declaration of metadata describing data quality and on the adaptation of query processing for taking into account constraints on the quality of data and finding dynamically the best trade-off between the cost of the query and the quality of the result
ADVISU : interactive visualization of anomalies and dependencies from massive scientific datasets
Démonstration de LogicielIn this demo, we present ADVISU (Anomaly and Dependency VISUalization), a powerful interactive system for visual analytics from massive datasets. ADVISU efficiently computes different types of dependencies (FDs, CFDs) and detects data anomalies from databases of large size, i.e., up to several thousands of attributes and millions of records. Real-time and scalable computational methods have been implemented in ADVISU to ensure interactivity and the demonstration is intended to show how these methods scale up for realworld massive scientific datasets in astrophysical and oceanographic application domains. ADVISU provides the users informative and interactive graphical interfaces for visualizing data dependencies and anomalies. It enables the analysis to be refined interactively while recomputing the dependencies and anomalies in user selected subspaces with good performance
Documents, données et méta-données : une approche mixte pour un système de veille
International audienceMots clefs : sources d'information, informations textuelles, données structurées, méta-données, analyse et conception d'un système de veille Keywords: information sources, textual information, structured data, metadata, watch system modeling and design Palabras clave : fuentes de información, información textual, datos estructurados, méta datos, métodos de diseño y diseño de los sistemas de vigilancia Résumé L'exploitation de grandes masses documentaires pour l'élaboration d'un dossier de veille technique nécessite la mise en oeuvre d'un système d'information adapté à la compilation de données multisources. Le retour d'expérience sur l'utilisation du système de veille SILURE au Centre Technique des Systèmes Navals, système présenté dans nos précédentes contributions [Gra97,BG98], nous conduit à étendre la modélisation initiale pour une meilleure prise en compte du contexte documentaire d'où sont extraites les données sélectionnées. L'originalité de cette double approche (« orientée donnée » et « orientée document ») repose sur l'emploi de méta-données relatives à la qualité des données stockées et à celle de leurs sources (intérêt, fiabilité, complétude, fraîcheur). L'exploitation combinée de ces méta-données permet notamment d'affecter les priorités de traitement sur une collection de documents qui va, par une structuration sélective semi-automatique, assurer l'alimentation en données factuelles et référentielles de la base au coeur du système de gestion des informations du domaine ciblé par la démarche de veille
A quality-aware spatial data warehouse for querying hydroecological data
International audienceAddressing data quality issues in information systems remains a challenging task. Many approaches only tackle this issue at the extract, transform and load steps. Here we define a comprehensive method to gain greater insight into data quality characteristics within data warehouse. Our novel architecture was implemented for an hydroecological case study where massive French watercourse sampling data are collected. The method models and makes effective use of spatial, thematic and temporal accuracy, consistency and completeness for multidimensional data in order to offer analysts a âdata qualityâ oriented framework. The results obtained in experiments carried out on the Saône River dataset demonstrated the relevance of our approac
Annotation et recommandation collaboratives de documents selon leur qualité
International audienc
Nettoyage des données XML : combien ça coûte ?
National audienceL'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d'un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préalable de détection des différents types de pollutions. Pour valider notre modèle, nous avons choisi de polluer artificiellement une collection de données XML avec l'ensemble des types d'erreurs possibles (erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées, censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des opérations nécessaires au nettoyage des données afin de proposer des stratégies de réparation ciblées et économes. Les expérimentations en cours ne sont pas rapportées dans cet article
Renseigner la qualité des connaissances par la fusion d’indicateurs sur la qualité des données.
International audienc
ML-Based Knowledge Graph Curation: Current Solutions and Challenges
International audienc
- …