34 research outputs found

    RQL : un langage " à la SQL " pour découvrir des règles à partir des données

    Get PDF
    National audienceRQL (pour Rule Query Language) est un langage de requêtes " à la SQL " qui étend et généralise les dépendances fonctionnelles 1 à de nouvelles catégories de règles. RQL apporte aux analystes de données un outil pratique pour découvrir les implications logiques entre attributs d'une base de données. Ces implications peuvent mettre en évidence des problèmes de qualité de données ou de nouvelles corrélations inattendues entre les attributs. Le traitement de ces requêtes RQL est basé sur une technique de réécriture qui délègue un maximum de calculs au SGBD sous-jacent. Cette contribution vise à renforcer le lien entre la fouille de données et les bases de données et de faciliter l'utilisation de techniques de fouille par des analystes ou des étudiants habitués au SQL

    Open-source DBMS for data historization and impact of flash memories

    No full text
    L'archivage de données industrielles est un problème complexe : il s'agit de stocker un grand nombre de données sur plusieurs décennies, tout en supportant la charge des insertions temps réel et des requêtes d'extraction et d'analyse. Pour ce type d'application, des produits « de niche » se sont spécialisés pour ce segment du marché : les progiciels d'historisation. Il s'agit de solutions propriétaires avec des coûts de licence de l'ordre de plusieurs dizaines de milliers d'euros, et dont le fonctionnement interne n'est pas dévoilé. Nous avons donc dans un premier temps mis en évidence les spécificités de ces progiciels d'historisation, tant au niveau des fonctionnalités que des performances. Néanmoins, l'archivage de données industrielles peut s'appliquer à des contexte très différents. L'IGCBox par exemple est un mini PC industriel utilisant MySQL pour l'archivage à court terme des données de production des centrales hydrauliques d'EDF. Ce matériel présente quelques spécificités, la principale étant son système de mémoire non volatile basé uniquement sur la technologie flash, pour sa fiabilité importante en milieu industriel et sa faible consommation d'énergie. Les SGBD possèdent pour des raisons historiques de nombreuses optimisations spécifiques aux disques durs, et le manque d'optimisation adaptée aux mémoires flash peut dégrader significativement les performances. Le choix de ce type de mémoire a donc eu des répercussions notables sur les performances pour l'insertion, avec une dégradation importante par rapport aux disques durs. Nous avons donc proposé Chronos, un SGBD dédié à l'historisation de données sur mémoires flash. Pour cela, nous avons en particulier identifié un algorithme d'écriture « quasi-séquentiel » efficace pour accéder à la mémoire, ainsi que des mécanismes de bufferisation et de mise à jour d'index optimisés pour les charges typiques de l'historisation. Les résultats expérimentaux montrent un gain significatif pour les insertions par rapport à des solutions équivalentes, d'un facteur 20 à 54. Chronos est donc une solution compétitive lorsque les insertions correspondent à une proportion importante de la charge soumise au SGBD. En particulier pour les charges typiques des IGCBox, Chronos se distingue en proposant des performances globales améliorées d'un facteur 4 à 18 par rapport aux autres solutions.Archiving industrial data is a complex issue: a large volume of data has to be stored for several decades while meeting performance requirements for real-time insertions, along with retrieval and analysis queries. For these applications, niche products have specialized in this market segment: data historians. Data historians are proprietary solutions, with license fees of tens of thousands of dollars, and whose internal mechanisms are not documented. Therefore, we first emphasized data historian specificities, with regards to functionalities as much as performance. However, archiving industrial data can occur in very different contexts. IGCBoxes for example are industrial mini PCs using MySQL for short-term data archiving in hydroelectric power stations at EDF. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory, for its reliability in an industrial environment and its low energy consumption. For historical reasons, DBMS include many hard disk drive-oriented optimizations, and the lack of adjustment for flash memories can significantly decrease performance. This type of memory thus had notable consequences on insert performance, with a substantial drop compared with hard disk drives. We therefore designed Chronos, a DBMS for historization data management on flash memories. For that purpose, we especially identified an efficient “quasi-sequential” write pattern on flash memories, along with buffer and index management techniques optimized for historization typical workloads. Experimental results demonstrate improved performance for insertions over different solutions, by a factor of 20 to 54. Chronos is therefore competitive when insertions make up an extensive part of the workload. For instance, Chronos stands out with the typical workload of IGCBoxes, with global performance improved by a factor of 4 to 18 compared with other solutions

    SGBD open-source pour historisation de données et impact des mémoires flash

    No full text
    Archiving industrial data is a complex issue: a large volume of data has to be stored for several decades while meeting performance requirements for real-time insertions, along with retrieval and analysis queries. For these applications, niche products have specialized in this market segment: data historians. Data historians are proprietary solutions, with license fees of tens of thousands of dollars, and whose internal mechanisms are not documented. Therefore, we first emphasized data historian specificities, with regards to functionalities as much as performance. However, archiving industrial data can occur in very different contexts. IGCBoxes for example are industrial mini PCs using MySQL for short-term data archiving in hydroelectric power stations at EDF. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory, for its reliability in an industrial environment and its low energy consumption. For historical reasons, DBMS include many hard disk drive-oriented optimizations, and the lack of adjustment for flash memories can significantly decrease performance. This type of memory thus had notable consequences on insert performance, with a substantial drop compared with hard disk drives. We therefore designed Chronos, a DBMS for historization data management on flash memories. For that purpose, we especially identified an efficient “quasi-sequential” write pattern on flash memories, along with buffer and index management techniques optimized for historization typical workloads. Experimental results demonstrate improved performance for insertions over different solutions, by a factor of 20 to 54. Chronos is therefore competitive when insertions make up an extensive part of the workload. For instance, Chronos stands out with the typical workload of IGCBoxes, with global performance improved by a factor of 4 to 18 compared with other solutions.L'archivage de données industrielles est un problème complexe : il s'agit de stocker un grand nombre de données sur plusieurs décennies, tout en supportant la charge des insertions temps réel et des requêtes d'extraction et d'analyse. Pour ce type d'application, des produits « de niche » se sont spécialisés pour ce segment du marché : les progiciels d'historisation. Il s'agit de solutions propriétaires avec des coûts de licence de l'ordre de plusieurs dizaines de milliers d'euros, et dont le fonctionnement interne n'est pas dévoilé. Nous avons donc dans un premier temps mis en évidence les spécificités de ces progiciels d'historisation, tant au niveau des fonctionnalités que des performances. Néanmoins, l'archivage de données industrielles peut s'appliquer à des contexte très différents. L'IGCBox par exemple est un mini PC industriel utilisant MySQL pour l'archivage à court terme des données de production des centrales hydrauliques d'EDF. Ce matériel présente quelques spécificités, la principale étant son système de mémoire non volatile basé uniquement sur la technologie flash, pour sa fiabilité importante en milieu industriel et sa faible consommation d'énergie. Les SGBD possèdent pour des raisons historiques de nombreuses optimisations spécifiques aux disques durs, et le manque d'optimisation adaptée aux mémoires flash peut dégrader significativement les performances. Le choix de ce type de mémoire a donc eu des répercussions notables sur les performances pour l'insertion, avec une dégradation importante par rapport aux disques durs. Nous avons donc proposé Chronos, un SGBD dédié à l'historisation de données sur mémoires flash. Pour cela, nous avons en particulier identifié un algorithme d'écriture « quasi-séquentiel » efficace pour accéder à la mémoire, ainsi que des mécanismes de bufferisation et de mise à jour d'index optimisés pour les charges typiques de l'historisation. Les résultats expérimentaux montrent un gain significatif pour les insertions par rapport à des solutions équivalentes, d'un facteur 20 à 54. Chronos est donc une solution compétitive lorsque les insertions correspondent à une proportion importante de la charge soumise au SGBD. En particulier pour les charges typiques des IGCBox, Chronos se distingue en proposant des performances globales améliorées d'un facteur 4 à 18 par rapport aux autres solutions

    Clustering to the Fewest Clusters Under Intra-Cluster Dissimilarity Constraints

    No full text
    International audienceThis paper introduces the equiwide clustering problem, where valid partitions must satisfy intra-cluster dissimilarity constraints. Unlike most existing clustering algorithms, equiwide clustering relies neither on density nor on a predefined number of expected classes, but on a dissimilarity threshold. Its main goal is to ensure an upper bound on the error induced by ultimately replacing any object with its cluster representative. Under this constraint, we then primarily focus on minimizing the number of clusters, along with potential sub-objectives. We argue that equiwide clustering is a sound clustering problem, and discuss its relationship with other optimization problems, existing and novel implementations as well as approximation strategies. We review and evaluate suitable clustering algorithms to identify trade-offs between the various practical solutions for this clustering problem

    Development of a Dust Violation Control Tool from Plant Data

    No full text
    Mining is an equipment-intensive industry that utilizes machinery both in production and mineral processing. As an essential part of sustainable development, mining is subject to environmental management from many aspects. The decision-making process integrated into all stages of mining has to be based on reliable data. Available technology enables to track and monitor the production stages in mining by using various sensors and systems. Data related to mining and mineral processing activities have different characteristics and therefore might be handled in different IT infrastructures. However, the integration of these different data infrastructures is of key importance for management. Mineral processing plant equipment is potentially a data source of process type of data, unique by its volume and frequency. Analyzing process type of data, such as sensors, is a challenging task for engineers that work in a dynamic work environment. Belt conveyors located in the mineral processing plants transport material between different stages such as crushing and grinding which are monitored by sensor systems. The data collected by these sensors is commonly visualized on SCADA screens and can provide real-time data about the operation. This study focuses on the available sensor data of belt conveyors in a mineral processing plant with an aim to manage the dust generated during material transportation. The belt conveyors and the water spraying systems are equipped with tags that provide data for daily management. A data integration tool was developed to create an alarm system to track whether the dust suppression systems were active during material was conveyed in the mineral processing plant. As a result, violations of dust suppression were identified, and the alarm system was integrated into the environmental management system of the operation

    Chronos: a NoSQL system on flash memory for industrial process data

    No full text
    International audienceWithin Électricité de France (EDF) hydroelectric power stations, IGCBoxes are industrial mini PCs dedicated to industrial process data archiv-ing. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory due to environmental constraints. This type of memory had notable consequences on data acquisition performance, with a substantial drop compared with hard disk drives. In this setting, we have designed Chronos, an open-source NoSQL system for sensor data management on flash memories. Chronos includes an efficient quasi-sequential write pattern along with an index management technique adapted for process data management. As a result, Chronos supports a higher velocity for inserted data, with acquisition rates improved by a factor of 20 to 54 over different solutions, therefore solving a practical bottleneck for EDF

    Data Historians in the Data Management Landscape

    No full text
    International audienceAt EDF, a leading energy company, process data produced in power stations are archived both to comply with legal archiving requirements and to perform various analysis applications. Such data consist of timestamped measurements, retrieved for the most part from process data acquisition systems. After archival, past and current values are used for various applications, including device monitoring, maintenance assistance, decision support, statistics publication, etc.Large amounts of data are generated in these power stations, and aggregated in soft real-time (without operational deadlines) at the plant level by local servers. For this long-term data archiving, EDF relies on data historians (like InfoPlus.21, PI or Wonderware Historian) for years. This is also true for other energy companies worldwide and, in general, industry based on automated processes.In this paper, we aim at answering a simple, yet not so easy, question: how can data historians be placed in the data management landscape, from classical RDBMSs to NoSQL systems? To answer this question, we first give an overview of data historians, then discuss benchmarking these particular systems. Although many benchmarks are defined for conventional database management systems, none of them are appropriate for data historians. To establish a first objective basis for comparison, we therefore propose a simple benchmark inspired by EDF use cases, and give experimental results for data historians and DBMSs

    Chronos: a NoSQL system on flash memory for industrial process data

    No full text
    International audienceWithin Électricité de France (EDF) hydroelectric power stations, IGCBoxes are industrial mini PCs dedicated to industrial process data archiv-ing. These equipments expose distinctive features, mainly on their storage system based exclusively on flash memory due to environmental constraints. This type of memory had notable consequences on data acquisition performance, with a substantial drop compared with hard disk drives. In this setting, we have designed Chronos, an open-source NoSQL system for sensor data management on flash memories. Chronos includes an efficient quasi-sequential write pattern along with an index management technique adapted for process data management. As a result, Chronos supports a higher velocity for inserted data, with acquisition rates improved by a factor of 20 to 54 over different solutions, therefore solving a practical bottleneck for EDF

    Positionnement des progiciels d'historisation parmi les solutions de gestion de données

    No full text
    National audiencePour gérer les données de ses systèmes de production d'électricité, EDF a fait le choix de systèmes dédiés à ce cas d'application : les progiciels d'historisation. Ces produits « de niche » ont évolué en parallèle des autres systèmes de gestion de données, en se spécialisant pour ce segment du marché. Dans cet article, nous cherchons à répondre à la question suivante : comment se positionnent les progiciels d'historisation de données parmi les systèmes de gestion de données ? Pour cela, nous examinons les différences avec trois autres catégories de systèmes : SGBDR, systèmes de gestion de flux de données et systèmes NoSQL ; puis définissons un benchmark dérivé du contexte industriel d'EDF

    RQL: An SQL-like Query Language for Discovering Meaningful Rules (demo)

    No full text
    International audienceto d
    corecore