Search CORE

30 research outputs found

Constraint-based mining of closed patterns in noisy nary relations

Author: CERF Loïc
Publication venue: INSA de Lyon
Publication date: 17/09/2010
Field of study

Les jeux de données décrivant des objets par des propriétés Booléennes sont des relations binaires, cest à dire des matrices 0/1. dans une telle relation, un ensemble fermé est un sous-ensemble maximal dobjets partageant le même sous-ensemble maximal de propriétés. Lextraction de ces motifs, satisfaisant des contraintes de pertinences définies par lutilisateur, a été étudiée en profondeur. Néanmoins, beaucoup de jeux de données sont des relations n-aires, cest à dire des tenseurs 0/1. réduire leur analyse à deux dimensions revient à en ignorer dautres qui sont potentiellement intéressantes. Par ailleurs, la présence de bruit dans les jeux de données réelles conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition dun ensemble fermé aux relations de plus grande arité et à la tolérance au bruit. Au contraire, généraliser leur extraction est très difficile. Notre extracteur parcourt lespace des motifs candidats dune façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraints spécifiques à la fouille de graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficace que les algorithmes existants, pourtant plus restreints dans leurs applications. Malgré ces résultats, une approche exhaustive ne peut souvent pas, en un temps raisonnable, lister des motifs tolérants beaucoup de bruit. Dans ce cas, compléter lextraction avec une agglomération hiérarchique des motifs permet darriver à ses fins

Thèses de l'INSA de Lyon

Fouille Sous Contraintes de Motifs Fermés dans des Relations n-aires Bruitées

Author: Cerf Loïc
Publication venue: HAL CCSD
Publication date: 09/07/2010
Field of study

The datasets describing objects with Boolean properties are binary relations, i.e., 0/1 matrices. In such a relation, a closed itemset a maximal subset of objects sharing the same maximal subset of properties. Efficiently extracting every closed itemset satisfying user-defined relevancy constraints has been extensively studied. Nevertheless, many datasets are n-ary relations, i.e., 0/1 tensors. Reducing their analysis to two dimensions is ignoring potentially interesting additional dimensions. Moreover, the presence of noise in most real-life datasets leads to the fragmentation of the patterns to discover. Generalizing the definition of a closed itemset to make it suit relations of higher arity and tolerate some noise is straightforward. On the contrary, generalizing their extraction is very hard. Our extractor browses the candidate pattern space in an original way that does not favor any dimension. This search can be guided by a very broad class of relevancy constraints the patterns must satisfy. In particular, this thesis studies constraints to specifically mine dynamic graphs. Our extractor is orders of magnitude faster than known competitors, though limited in their applications. Despite these results, such an exhaustive approach often cannot, in a reasonable time, list patterns tolerating much noise. In this case, complementing the extraction with a hierarchical agglomeration of the patterns allows to achieve one's aims.Les jeux de données décrivant des objets par des propriétés Booléennes sont des relations binaires, c'est à dire des matrices 0/1. Dans une telle relation, un ensemble fermé est un sous-ensemble maximal d'objets partageant le même sous-ensemble maximal de propriétés. L'extraction de ces motifs, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Néanmoins, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à en ignorer d'autres qui sont potentiellement intéressantes. Par ailleurs, la présence de bruit dans les jeux de données réelles conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé aux relations de plus grande arité et à la tolérance au bruit. Au contraire, généraliser leur extraction est très difficile. Notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiques à la fouille de graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficace que les algorithmes existants, pourtant plus restreints dans leurs applications. Malgré ces résultats, une approche exhaustive ne peut souvent pas, en un temps raisonnable, lister des motifs tolérants beaucoup de bruit. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs permet d'arriver à ses fins

Thèses en Ligne

INRIA a CCSD electronic archive server

HAL

Hal-Diderot

Fouille sous contraintes de motifs fermés dans des relations n-aires bruitées

Author: BOULICAUT Jean-François
CERF Loïc
Publication venue: Doc'INSA, Villeurbanne
Publication date: 01/01/2010
Field of study

Les processus de découverte de connaissances nouvelles peuvent être fondés sur des motifs locaux extraits de grands jeux de données. Concevoir des algorithmes de fouille de données efficaces pour calculer des collections de motifs pertinents est un domaine actif de recherche. Beaucoup de jeux de données enregistrent si des objets présentent ou non certaines propriétés; par exemple si un produit est acheté par un client ou si un gène est sur exprimé dans un échantillon biologique. Ces jeux de données sont des relations binaires et peuvent être représentés par des matrices 0/1. Dans de telles matrices, un ensemble fermé est un rectangle maximal de '1's modulo des permutations arbitraires des lignes (objets) et des colonnes (propriétés). Ainsi, chaque ensemble fermé sous tend la découverte d'un sous ensemble maximal d'objets partageant le même sous ensemble maximal de propriétés. L'extraction efficace de tous les ensembles fermés, satisfaisant des contraintes de pertinences définies par l'utilisateur, a été étudiée en profondeur. Malgré son succès dans de nombreux domaines applicatifs, ce cadre de travail se révèle souvent trop étroit. Tout d'abord, beaucoup de jeux de données sont des relations n-aires, c'est à dire des tenseurs 0/1. Réduire leur analyse à deux dimensions revient à ignorer des dimensions additionnelles potentiellement intéressantes; par exemple où un client achète un produit (analyse spatiale) ou quand l'expression d'un gène est mesurée (analyse cinétique). La présence de bruit dans la plupart des jeux de données réelles est un second problème qui conduit à la fragmentation des motifs à découvrir. On généralise facilement la définition d'un ensemble fermé pour la rendre applicable à des relations de plus grande arité et tolérante au bruit (hyper rectangle maximal avec une borne supérieure de '0's tolérés par hyperplan). Au contraire, généraliser leur extraction est très difficile. En effet, les algorithmes classiques exploitent une propriété mathématique (la connexion de Galois) des ensembles fermés qu'aucune des deux généralisations ne préserve. C'est pourquoi notre extracteur parcourt l'espace des motifs candidats d'une façon originale qui ne favorise aucune dimension. Cette recherche peut être guidée par une très grande classe de contraintes de pertinence que les motifs doivent satisfaire. En particulier, cette thèse étudie des contraintes spécifiquement conçues pour la fouille de quasi cliques presque persistantes dans des graphes dynamiques. Notre extracteur est plusieurs ordres de grandeurs plus efficaces que les algorithmes existants se restreignant à la fouille de motifs exacts dans des relations ternaires ou à la fouille de motifs tolérants aux erreurs dans des relations binaires. Malgré ces résultats, une telle approche exhaustive ne peut souvent pas, en un temps raisonnable, tolérer tout le bruit contenu dans le jeu de données. Dans ce cas, compléter l'extraction avec une agglomération hiérarchique des motifs (qui ne tolèrent pas suffisamment de bruit) améliore la qualité des collections de motifs renvoyées.Useful knowledge discovery processes can be based on patterns extracted from large datasets. Designing efficient data mining algorithms to compute collections of relevant patterns is an active research domain. Many datasets record whether some properties hold for some objects, e. g., whether an item is bought by a customer or whether a gene is over-expressed in a biological sample. Such datasets are binary relations and can be represented as 0/1 matrices. In such matrices, a closed itemset is a maximal rectangle of 1 s modulo arbitrary permutations of the lines (objects) and the columns (properties). Thus, every closed itemset supports the discovery of a maximal subset of objects sharing the same maximal subset of properties. Efficiently extracting every closed itemset satisfying user-defined relevancy constraints has been extensively studied. Despite its success across many application domains, this framework often turns out to be too narrow. First of all, many datasets are n-ary relations, i. e., 0/1 tensors. Reducing their analysis to two dimensions is ignoring potentially interesting additional dimensions, e. g., where a customer buys an item (localized analysis) or when a gene expression is measured (kinetic analysis). The presence of noise in most real-life datasets is a second issue, which leads to the fragmentation of the patterns to discover. Generalizing the definition of a closed itemset to make it suit relations of higher arity and tolerate some noise is straightforward (maximal hyper-rectangle with an upper bound of 0 s tolerated per hyper-plan). On the contrary, generalizing their extraction is very hard. Indeed, classical algorithms exploit a mathematical property (the Galois connection) of the closed itemsets that none of the two generalizations preserve. That is why our extractor browses the candidate pattern space in an original way that does not favor any dimension. This search can be guided by a very broad class of relevancy constraints the patterns must satisfy. In particular, this thesis studies constraints specifically designed for mining almost-persistent cliques in dynamic graphs. Our extractor is orders of magnitude faster than known competitors focusing on exact patterns in ternary relations or on noise-tolerant patterns in binary relations. Despite these results, such an exhaustive approach often cannot, in a reasonable time, tolerate as much noise as the dataset contains. In this case, complementing the extraction with a hierarchical agglomeration of the (insufficiently noise-tolerant) patterns increases the quality of the returned collection of patterns.VILLEURBANNE-DOC'INSA LYON (692662301) / SudocSudocFranceF

OpenGrey Repository

Extraction de motifs fermés dans des relations n-aires bruitées

Author: Besson Jérémy
Boulicaut Jean-François
Cerf Loïc
Publication venue: Cepadues
Publication date: 27/01/2009
Field of study

National audienceL'extraction de motifs fermés (ou concepts formels) dans des relations binaires s'est révélée utile dans de multiples applications. En fait, dans de nombreux cas, la relation à fouiller apparait naturellement comme étant une relation n-aire (n>2) par ailleurs bruitée (nécessité d'une tolÃ©rance aux exceptions). Ces deux problèmes ont été étudiés récemment de façon indépendante. Nous étudions ici la combinaison de ces deux fonctionnalités. Des expériences conduites sur plusieurs jeux de données synthétiques démontrent l'utilité de notre proposition, notamment en présence de relations très bruitées et/ou de grande arité

HAL

Agglomerating Local Patterns Hierarchically with ALPHA

Author: Jean-françois Boulicaut
Loïc Cerf
Pierre-nicolas Mougel
Publication venue
Publication date: 01/01/2009
Field of study

To increase the relevancy of local patterns discovered from noisy relations, it makes sense to formalize error-tolerance. Our starting point is to address the limitations of state-ofthe-art methods for this purpose. Some extractors perform an exhaustive search w.r.t. a declarative specification of error-tolerance. Nevertheless, their computational complexity prevents the discovery of large relevant patterns. Alpha is a 3-step method that (1) computes complete collections of closed patterns, possibly error-tolerant ones, from arbitrary n-ary relations, (2) enlarges them by hierarchical agglomeration, and (3) selects the relevant agglomerated patterns

Closed Patterns Meet n-ary Relations

Author: CÉLINE ROBARDET
JEAN-FRANÇOIS BOULICAUT
JÉRÉMY BESSON
Loïc Cerf
Publication venue
Publication date: 01/01/2009
Field of study

Set pattern discovery from binary relations has been extensively studied during the last decade. In particular, many complete and efficient algorithms for frequent closed set mining are now available. Generalizing such a task to n-ary relations (n ≥ 2) appears as a timely challenge. It may be important for many applications, for example, when adding the time dimension to the popular objects × features binary case. The generality of the task (no assumption being made on the relation arity or on the size of its attribute domains) makes it computationally challenging. We introduce an algorithm called DATA-PEELER. From an n-ary relation, it extracts all closed n-sets satisfying given piecewise (anti) monotonic constraints. This new class of constraints generalizes both monotonic and antimonotonic constraints. Considering the special case of ternary relations, DATA-PEELER outperforms the state-of-the-art algorithms CUBEMINER and TRIAS by orders of magnitude. These good performances must be granted to a new clever enumeration strategy allowing to efficiently enforce the closeness property. The relevance of the extracted closed n-sets is assessed on real-life 3-and 4-ary relations. Beyond natural 3-or 4-ary relations, expanding a relation with an additional attribute can help in enforcing rather abstract constraints such as the robustness with respect to binarization. Furthermore, a collection of closed n-sets is shown to be an excellent starting poin

CiteSeerX

Discovering Relevant Cross-Graph Cliques in Dynamic Networks

Author: Boulicaut Jean-François
Cerf Loïc
Nguyen Tran Bao Nhan
Publication venue: Springer, Heidelberg
Publication date: 14/09/2009
Field of study

International audienceSeveral algorithms, namely Cube Miner, Trias, and Data-Peeler, have been recently proposed to mine closed patterns in ternary relations. We consider here the specific context where a ternary relation denotes the value of a graph adjacency matrix at different timestamps. Then, we discuss the constraint-based extraction of patterns in such dynamic graphs. We formalize the concept of delta-contiguous closed 3-clique and we discuss the availability of a complete algorithm for mining them. It is based on a specialization of the enumeration strategy implemented in Data-Peeler. Indeed, clique relevancy can be specified by means of a conjunction of constraints which can be efficiently exploited. The added-value of our strategy is assessed on a real dataset about a public bicycle renting system. The raw data encode the relationships between the renting stations during one year. The extracted delta-contiguous closed 3-cliques are shown to be consistent with our domain knowledge on the considered city

HAL