71 research outputs found

    A Spatial-based KDD Process to Better Understand the Spatiotemporal Phenomena

    Get PDF
    International audienceIn this paper, we present a knowledge discovery process ap- plied to hydrological data. To achieve this objective, we combine succes- sive methods to extract knowledge on data collected at stations located along several rivers. Firstly, data is pre processed in order to obtain different spatial proximities. Later, we apply two algorithms to extract spatiotemporal patterns and compare them. Such elements can be used to assess spatialized indicators to assist the interpretation of ecological and rivers monitoring pressure data

    Finding Relevant Sequences With The Least Temporal Contradiction Measure: Application to Hydrological Data

    Get PDF
    International audienceIn this paper, we present a knowledge discovery process applied to hydrological data. To achieve this objective, we apply an algorithm to extract sequential patterns on data collected at stations located along several rivers. The data is pre-processed in order to obtain different spatial proximities and the number of patterns is estimated to highlight the influence of defined spatial relationship. We provide an objective measure of assessment, called the least temporal contradiction, to help the expert in discovering new knowledge. Such elements can be used to assess spatialized indicators to assist the interpretation of ecological and rivers monitoring pressure data

    Vers des solutions adaptatives et génériques pour l'extraction de motifs intéressants dans les données

    Get PDF
    The discovery of frequent patterns is one of the problems in data mining. To better understand the influence of the data on the algorithms, we present an experimental study of data sets commonly used by the community. This study lead to a new classification of data based on edge: stable and consistent with the performance of algorithms. Despite the large number of studies and a theoretical framework for extracting interesting patterns problems, the use of these algorithms for solving problems "equivalent" is uncommon and remains difficult. Given these limitations, we propose a generic algorithm for discovering interesting patterns borders, called ABS (Adaptive Search borders), dynamically adapting its strategy to data. In addition, a generic component library C + + has been proposed to facilitate the development of software solutions for this family of problemsLa découverte de motifs fréquents est un des problèmes en fouille de données. Afin de mieux comprendre l'influence des données sur les algorithmes, nous présentons une étude expérimentale des jeux de données communément utilisés par la communauté. Cette étude permet d'aboutir à une nouvelle classification des données en fonction des bordures : stable et en accord avec les performances des algorithmes. Malgré le grand nombre de travaux et un cadre théorique des problèmes d'extraction de motifs intéressants, l'utilisation de ces algorithmes pour résoudre des problèmes "équivalents" est peu répandue et reste délicate. Face à ces limites, nous proposons un algorithme générique de découverte des bordures des motifs intéressants, appelé ABS (Adaptive borders Search), adaptant dynamiquement sa stratégie en fonction des données. De plus, une librairie générique de composants C++ a été proposée pour faciliter le développement de solutions logicielles pour cette famille de problèmes

    Techniques de fouille de données pour la rééecriture de requêtes en présence de contraintes de valeurs

    No full text
    National audienceThis paper addresses the problem of query rewriting using views in presence of value constraints. These constraints restrict the values of a given attribute. To solve this problem we follow an hybrid approach that uses (i) the setting of the description logics to study the theoritical properties of the problem and, (ii) data mining techniques to get scalable algorithmic solutions that help solving our rewriting problem. This work is motivated by a real application that aims at providing a scalable integration system for querying agricultural data sources.Cet article traite du problème de la réécriture de requêtes en termes de vues en présence de contraintes de valeurs. Ces contraintes spécifient l'ensemble des valeurs permises pour un attribut donné. Pour résoudre ce problème, nous proposons une approche hybride qui utilise (i) le cadre formel des logiques de description pour étudier les propriétés théoriques du problème et (ii) les techniques de fouilles de données pour fournir des solutions algorithmiques efficaces en pratique pour calculer les réécritures engendrées par les contraintes de valeurs. Ce travail se situe dans le cadre d'un projet visant à mettre en place un système d'intégration pour des sources de données agricoles hétérogènes et distribuées

    Vers des solutions adaptatives et génériques pour l'extraction de motifs intéressants dans les données

    No full text
    La découverte de motifs fréquents est un des problèmes en fouille de données. Afin de mieux comprendre l'influence des données sur les algorithmes, nous présentons une étude expérimentale des jeux de données communément utilisés par la communauté. Cette étude permet d'aboutir à une nouvelle classification des données en fonction des bordures : stable et en accord avec les performances des algorithmes. Malgré le grand nombre de travaux et un cadre théorique des problèmes d'extraction de motifs intéressants, l'utilisation de ces algorithmes pour résoudre des problèmes "équivalents" est peu répandue et reste délicate. Face à ces limites, nous proposons un algorithme générique de découverte des bordures des motifs intéressants, appelé ABS (Adaptive borders Search), adaptant dynamiquement sa stratégie en fonction des données. De plus, une librairie générique de composants C++ a été proposée pour faciliter le développement de solutions logicielles pour cette famille de problèmesCLERMONT FD-BCIU Sci.et Tech. (630142101) / SudocSudocFranceF

    Visualisation de motifs spatiaux dans un SIG

    No full text
    National audienceno abstrac

    Vers la génération de jeux de données synthétiques réalistes pour les motifs fréquents

    No full text
    National audienceEn fouille de données et plus particulièrement pour les problèmes de motifs fréquents, les algorithmes sont toujours évalués sur des jeux de données afin de montrer leur faisabilité en pratique. Le succès ou l'échec des algorithmes peut parfois s'expliquer par rapport aux caractéristiques des données, par exemple données denses ou éparses. Ces jeux de données peuvent être synthétiques, i.e. générés de façon automatique ou provenir d'applications réelles offrant ainsi un gage d'applicabilité. Paradoxalement, il n'est pas rare que les données synthétiques ne correspondent jamais à des données réelles et inversement, que les données réelles ne puissent pas être représentées par des données synthétiques. Dans ce contexte, c'est la validité même des campagnes de tests qui est posée.Dans ce papier, nous proposons de générer des jeux de données synthétiques "réalistes" au sens où ils peuvent s'approcher des caractéristiques de n'importe quel jeu de données réel. Pour le problème des motifs fréquents, nous choisissons de définir la "signature" d'un jeu de données par la distribution des bordures positive et négative. A partir d'une structuration fine de l'ordre colex, une proposition théorique est faite permettant d'éloigner la bordure positive de la bordure négative d'une certaine valeur.Ainsi, un algorithme a pu être conçu puis a été implémenté et testé sur des jeux de données réels confirmant les résultats théoriques. L'intérêt est clairement de pouvoir envisager de véritables campagnes de tests d'algorithmes en s'affranchissant des données réelles
    • …
    corecore