Vers la génération de jeux de données synthétiques réalistes pour les motifs fréquents

Abstract

National audienceEn fouille de données et plus particulièrement pour les problèmes de motifs fréquents, les algorithmes sont toujours évalués sur des jeux de données afin de montrer leur faisabilité en pratique. Le succès ou l'échec des algorithmes peut parfois s'expliquer par rapport aux caractéristiques des données, par exemple données denses ou éparses. Ces jeux de données peuvent être synthétiques, i.e. générés de façon automatique ou provenir d'applications réelles offrant ainsi un gage d'applicabilité. Paradoxalement, il n'est pas rare que les données synthétiques ne correspondent jamais à des données réelles et inversement, que les données réelles ne puissent pas être représentées par des données synthétiques. Dans ce contexte, c'est la validité même des campagnes de tests qui est posée.Dans ce papier, nous proposons de générer des jeux de données synthétiques "réalistes" au sens où ils peuvent s'approcher des caractéristiques de n'importe quel jeu de données réel. Pour le problème des motifs fréquents, nous choisissons de définir la "signature" d'un jeu de données par la distribution des bordures positive et négative. A partir d'une structuration fine de l'ordre colex, une proposition théorique est faite permettant d'éloigner la bordure positive de la bordure négative d'une certaine valeur.Ainsi, un algorithme a pu être conçu puis a été implémenté et testé sur des jeux de données réels confirmant les résultats théoriques. L'intérêt est clairement de pouvoir envisager de véritables campagnes de tests d'algorithmes en s'affranchissant des données réelles

    Similar works