226 research outputs found

    Un cadre théorique pour la gestion de grandes bases de motifs

    No full text
    National audienceLes algorithmes de fouille de données sont maintenant capables de traiter de grands volumes de données mais les utilisateurs sont souvent submergés par la quantité de motifs générés. En outre, dans certains cas, que ce soit pour des raisons de confidentialité ou de coûts, les utilisateurs peuvent ne pas avoir accès directement aux données et ne disposer que des motifs. Les utilisateurs n'ont plus alors la possibilité d'approfondir à partir des données initiales le processus de fouille de façon à extraire des motifs plus spécifiques. Pour remédier à cette situation, une solution consiste à gérer les motifs. Ainsi, dans cet article, nous présentons un cadre théorique permettant à un utilisateur de manipuler, en post-traitement, une collection de motifs préalablement extraite. Nous proposons de représenter la collection sous la forme d'un graphe qu'un utilisateur pourra ensuite exploiter à l'aide d'opérateurs algébriques pour y retrouver des motifs ou en chercher de nouveaux

    Expansion de la représentation succincte des générateurs minimaux

    Get PDF
    L'évolution rapide des techniques de génération et de stockage de données a permis à de nombreux organismes la création de bases de données volumineuses, pour stocker l'information nécessaire à leurs activités. Ces bases de données qui deviennent de plus en plus importantes sont réellement peu exploitées, alors qu'elles cachent des connaissances potentiellement utiles pour l'organisation. L'extraction de ces informations enfouies dans ces masses de données est traitée par la fouille de données ("Data Mining"). Ce projet de mémoire traite plus particulièrement le problème d'extraction des informations sous forme de règles d'associations. Le problème de la pertinence et de l'utilité des règles extraites est un problème majeur de l'extraction des règles d'associations. Ce problème est lié au nombre important de règles extraites et à la présence d'une forte proportion de règles redondantes. Nombreuses techniques de réduction de la famille de règles ont été publiées. Dans ce contexte, les résultats obtenus par l'analyse formelle des concepts (AFC) ont permis de définir un sous-ensemble de l'ensemble des règles d'associations valides appelés bases informatives. La génération de ces bases informatives se fait par une extraction efficace des itemsets fermés fréquents et leurs générateurs minimaux associés. Les générateurs minimaux composent les prémisses minimales de ces règles alors que leurs fermetures composent les conclusions maximales de ces règles. Cependant un survol de la littérature montre que les générateurs minimaux composant l'antécédent et la conséquence de ces bases, contiennent encore de la redondance. Une représentation réduite de ces générateurs minimaux est utile pour révéler la relation d'équivalence parmi les générateurs minimaux. Une étude a été menée dernièrement dans ce sens dans laquelle l'algorithme DSFS_MINER a été proposé et validé, permettant l'extraction d'une représentation succincte sans perte d'informations des générateurs minimaux. Notre contribution dans ce projet réside d'une part, dans l'étude et l'expérimentation d'approches de représentations succinctes des générateurs minimaux, et d'autre part, dans la proposition d'un algorithme d'expansion permettant la dérivation de tous les générateurs minimaux afin de constituer la famille entière des générateurs minimaux du contexte d'extraction.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : Data Mining, Règles d'associations, Analyse formelle des concepts, Générateurs minimaux, Itemset fermés, Générateur minimal, Représentation succincte des générateurs minimaux

    Algorithmique de l'alignement structure-séquence d'ARN (une approche générale et paramétrée)

    Get PDF
    L'alignement de macromolécules biologiques comme les protéines, l'ADN ou encore l'ARN est une problématique biologique et bio-informatique qui a pour but de révéler une partie des mystères du fonctionnement des cellules, constituants des êtres vivants. Les ARN non-codant sont des macromolécules intervenant dans le métabolisme de tout être vivant et les deux problématiques majeurs les concernant sont: la prédiction de leur structure pour mieux comprendre leur fonctionnement et leur détection dans des bases de données ou des génomes. L'une des approches: l'alignement structure-séquence d'ARN, répond à ces deux problématiques. Le problème d'alignement structure-séquence consiste à aligner une structure connue d'un premier ARN avec la séquence d'un deuxième ARN.La structure est représentée sous la forme d'un graphe ou de façon équivalente sous la forme d'une séquence arc-annotées et la séquence représente la suite des nucléotides de l'ARN.Pour résoudre ce problème, nous cherchons à optimiser l'alignement selon une fonction de coût. C'est donc un problème d'optimisation, qui malheureusement se révèle NP-Difficile.En conséquence différents travaux définissent des classes d'instances réduites pour lesquelles ils proposent des algorithmes spécifiques mais à complexités polynomiales.Les travaux de ma thèse unifient et la généralisent les approches précédentes par la construction d'un algorithme à complexité paramétrée non spécifique à une classe d'instances. En utilisant cet algorithme, il est possible de résoudre le problème d'alignement structure-séquence pour toutes les instances possibles, et aussi efficacement que les précédentes approches sur leur domaine de résolution respectif. Cet algorithme utilise une technique empruntée à la théorie des graphes: la décomposition arborescente, c'est-à-dire qu'il transforme la structure donnée en une décomposition arborescente et c'est ensuite cette décomposition qui est alignée avec la séquence donnée. L'alignement entre une décomposition arborescente et une séquence se fait par programmation dynamique.Sa mise en place a nécessité une reformulation du problème ainsi qu'une modification importante de l'utilisation classique de la programmation dynamique pour les décompositions arborescentes. Au final, cela conduit à un algorithme paramétré dont le paramètre est entièrement lié à la décomposition arborescente. La construction des décompositions arborescentes pour lesquelles l'alignement s'effectuera plus le efficacement possible est malheureusement un problème lui aussi NP-Difficile. Néanmoins, nous avons créé une heuristique de construction de décompositions adaptée aux structures d'ARN.Nous avons alors défini des nouvelles classes de structures pour lesquelles notre algorithme (décomposition et alignement) possède une faible complexité. Ces classes incluent notamment toutes les autres classes précédemment définies et la complexité de notre algorithme est au moins aussi faible que celles des algorithmes spécifiques sur leurs classes de structures respectives. Ces classes de structures représentent la majorité des structures connues et contiennent de nombreux éléments importants jusqu'alors non pris en compte (tel que les motifs tertiaires d'ARN). Le problème de l'alignement structure-séquence tente de répondre aux problématiques de prédictions de structures et de recherche d'ARN. Néanmoins, la qualité des résultats obtenus par sa résolution dépendent de la fonction de coût utilisée. Durant ma thèse j'ai commencé la mise place de la construction par apprentissage d'une nouvelle fonction de coût, adaptée aux nouvelles classes de structures que nous avons défini. Enfin de par la nature de l'algorithme, le travail réalisé permet des améliorations non négligeables, en terme de qualité des résultats et de rapidité de calcul comme la recherche de solution sous-optimales ou l'utilisation de l'algorithme au sein d'heuristiques dérivées d'heuristiques classiques.The alignment of biological macromolecules such as proteins, DNA or RNA is a biological and bio-informatics problematic which aims to reveal some of the mysteries of how cells works. The non-coding RNA are involved in the metabolism of all living beings. The two major issues concerning them are: the prediction of their structure to better understand their function and their detection in databases or genomes. One approach, the structure-sequence alignment of RNA, addresses these two issues. The work done during my thesis provides some constructive elements on this problem and led me to call the graph algorithmic for its resolution. The alignment problem is to align a structure of a first RNA with the sequence of a second RNA. The structure on the first RNA is represented as a graph or equivalently as an arc-annotated sequence and the sequence represents the nucleotide sequence of the second RNA.To solve this problem, we aim to compute a minimal cost alignment, according to a given cost function. So, this is an optimization problem, which turns out to be NP-hard.Accordingly, different works define several reduced structure classes for which they propose specific algorithms but with polynomial complexity. The work of my thesis unifies and generalizes previous approaches by the construction of a unique (not class specific) parameterized algorithm. Using this algorithm, it is possible to solve the problem of structure-sequence alignment for all possible instances, and as effectively as previous approaches in their respective field of resolution.This algorithm uses a technique from graph theory: the tree decomposition, that is to say, it transforms the given structure into a tree-decomposition and the decomposition is then aligned with the sequence. The alignment between a tree-decomposition and a sequence is done by dynamic programming. Its implementation requires a reformulation of the problem as well as a substantial modifications to the conventional use of dynamic programming for tree decompositions. This leads to an algorithm whose parameter is entirely related to the tree-decomposition.The construction of tree decompositions for which the alignment is the most effective is unfortunately a NP-Hard problem. Nevertheless, we have developed a heuristic construction of decompositions adapted to RNA structures. We then defined new structure classes which extend existing ones without degrading the complexity of the alignment but which can represent the majority of known structures containing many important elements that had not be taken into account previously (such as RNA tertiary motifs).The sequence-structure alignment problem attempts to answer the problem of prediction of structures and RNA research. However, the quality of the results obtained by its resolution depends on the cost function. During my PhD I started to define new cost functions adapted to the new structure classes by a machine learning approach. Finally, the work allows significant improvements in terms of quality of results and computation. For example the approach directly allows the search for sub-optimal solutions or its use within heuristics derived from traditional heuristic methods.PARIS11-SCD-Bib. électronique (914719901) / SudocSudocFranceF

    Preuves de non réalisabilité et filtrage de domaines pour les problèmes de satisfaction de contraintes : application à la confection d'horaires

    Get PDF
    Contexte global -- Objectifs de cette thèse -- Organisation de la thèse -- Notions préliminaires -- Problèmes de coloration de graphes -- Les problèmes de sastisfaction de contraintes -- Problème SAT de satisfaisabilité booléenne -- Programmation par contraintes -- Sous-ensembles incohérents irréductibles -- Revue de la littérature concernant l'extraction d'IIS dans les CSP, la résolution du problème SAT et l'extraction d'IIS pour le problème SAT -- Détection de sous-ensembles incohérents dans des CSP -- Le problème SAT et sa résolution -- Utilisation d'heuristiques pour trouver des sous-ensembles incohérents minimaux pour le problème SAT -- Algorithmes de détection d'IIS -- Autres procédures -- Algorithme tabou pour Max WSAT -- Détails d'implémentation -- Résultats expérimentaux -- Revue de la littérature concernant le filtrage de contraintes globales de CSP -- Algorithme de filtrage pour la contrainte AllDifferent -- Algorithme de filtrage de domaines pour la contrainte SomeDifferent -- Autres travaux concernant le filtrage de contraintes globales -- Algorithme de filtrage pour la contrainte SomeDifferent -- Description de l'algorithme de filtrage -- Résultats expérimentaux -- Revue de la littérature concernant le problème de confection d'horaires pour le personnel navigant aérien -- Les méthodes de résolution du PBS -- Détection de sous-ensembles incohérents minimaux dans le problème de confection d'horaires pour le personnel navigant aérien -- Algorithmes de détection de sous-ensembles incohérents minimaux -- Algorithme tabou -- Algorithme exact de vérification des sous-problèmes incohérents -- Résultats expérimentaux -- Méthodes de recherche locale

    Constructions par greffe, combinatoire analytique et génération analytique

    Get PDF
    Analytic combinatorics is a field which consist in applying methods from complex ana- lysis to combinatorial classes in order to obtain results on their asymptotic properties. We use for that specifications, which are a way to formalise the (often recursive) structure of the objects. In this thesis, we mainly devote ourselves to find new specifications for some combinatorial classes, in order to then apply more effective enumerative or random sampling methods. Indeed, for one combinatorial class several different specifications, based on different decompositions, may exist, making the classical methods - of asymptotic enu- meration or random sampling - more or less adapted. The first set of presented results focuses on Rémy’s algorithm and its underlying holonomic specification, based on a grafting operator. We develop a new and more efficient random sampler of binary trees and a random sampler of Motzkin trees based on the same principle. We then address some question relative to the study of subclasses of λ-terms. Finally, we present two other sets of results, on automatic specification of trees where occurrences of a given pattern are marked and on the asymptotic behaviour and the random sampling of digitally convex polyominoes. In every case, the new specifications give access to methods which could not be applied previously and lead to numerous new results.La combinatoire analytique est un domaine qui consiste à appliquer des méthodes issues de l’analyse complexe à des classes combinatoires afin d’obtenir des résultats sur leurs propriétés asymptotiques. On utilise pour cela des spécifications, qui sont une manière de formaliser la structure (souvent récursive) des objets. Dans cette thèse, nous nous attachons principalement à trouver des nouvelles spécifications pour certaines classes combinatoires, afin de pouvoir ensuite y appliquer des méthodes efficaces d’énumération ou de génération aléatoire. En effet, pour une même classe combinatoire il peut exister différentes spécifications, basées sur des décompositions différentes, rendant les méthodes classiques d’énumération asymptotique et de génération aléatoire plus ou moins adaptées. Le premier volet de résultats présentés concerne l’algorithme de Rémy et la spécification holonome qui y est sous-jacente, basée sur un opérateur de greffe. On y développe un nouvel algorithme, plus efficace, de génération aléatoire d’arbres binaires et un générateur aléatoire d’arbres de Motzkin basé sur le même principe. Nous abordons ensuite des questions relatives à l’étude de sous-classes de λ-termes. Enfin, nous présentons deux autres ensembles de résultats, sur la spécification automatique d’arbres où les occurrences d’un motif donné sont marquées et sur le comportement asymptotique et la génération aléatoire de polyominos digitalement convexes. Dans tous les cas, les nouvelles spécifications obtenues donnent accès à des méthodes qui ne pouvaient pas être utilisées jusque là et nous permettent d’obtenir de nombreux nouveaux résultats

    Fouille de données par extraction de motifs graduels : contextualisation et enrichissement

    Get PDF
    This thesis's works belongs to the framework of knowledge extraction and data mining applied to numerical or fuzzy data in order to extract linguistic summaries in the form of gradual itemsets: the latter express correlation between attribute values of the form « the more the temperature increases, the more the pressure increases ». Our goal is to contextualize and enrich these gradual itemsets by proposing different types of additional information so as to increase their quality and provide a better interpretation. We propose four types of new itemsets: first of all, reinforced gradual itemsets, in the case of fuzzy data, perform a contextualization by integrating additional attributes linguistically introduced by the expression « all the more ». They can be illustrated by the example « the more the temperature decreases, the more the volume of air decreases, all the more its density increases ». Reinforcement is interpreted as increased validity of the gradual itemset. In addition, we study the extension of the concept of reinforcement to association rules, discussing their possible interpretations and showing their limited contribution. We then propose to process the contradictory itemsets that arise for example in the case of simultaneous extraction of « the more the temperature increases, the more the humidity increases » and « the more the temperature increases, the less the humidity decreases ». To manage these contradictions, we define a constrained variant of the gradual itemset support, which, in particular, does not only depend on the considered itemset, but also on its potential contradictors. We also propose two extraction methods: the first one consists in filtering, after all itemsets have been generated, and the second one integrates the filtering process within the generation step. We introduce characterized gradual itemsets, defined by adding a clause linguistically introduced by the expression « especially if » that can be illustrated by a sentence such as « the more the temperature decreases, the more the humidity decreases, especially if the temperature varies in [0, 10] °C »: the additional clause precise value ranges on which the validity of the itemset is increased. We formalize the quality of this enrichment as a trade-off between two constraints imposed to identified interval, namely a high validity and a high size, as well as an extension taking into account the data density. We propose a method to automatically extract characterized gradual based on appropriate mathematical morphology tools and the definition of an appropriate filter and transcription.Les travaux de cette thèse s'inscrivent dans le cadre de l'extraction de connaissances et de la fouille de données appliquée à des bases de données numériques ou floues afin d'extraire des résumés linguistiques sous la forme de motifs graduels exprimant des corrélations de co-variations des valeurs des attributs, de la forme « plus la température augmente, plus la pression augmente ». Notre objectif est de les contextualiser et de les enrichir en proposant différents types de compléments d'information afin d'augmenter leur qualité et leur apporter une meilleure interprétation. Nous proposons quatre formes de nouveaux motifs : nous avons tout d'abord étudié les motifs dits « renforcés », qui effectuent, dans le cas de données floues, une contextualisation par intégration d'attributs complémentaires, ajoutant des clauses introduites linguistiquement par l'expression « d'autant plus que ». Ils peuvent être illustrés par l'exemple « plus la température diminue, plus le volume de l'air diminue, d'autant plus que sa densité augmente ». Ce renforcement est interprété comme validité accrue des motifs graduels. Nous nous sommes également intéressées à la transposition de la notion de renforcement aux règles d'association classiques en discutant de leurs interprétations possibles et nous montrons leur apport limité. Nous proposons ensuite de traiter le problème des motifs graduels contradictoires rencontré par exemple lors de l'extraction simultanée des deux motifs « plus la température augmente, plus l'humidité augmente » et « plus la température augmente, plus l'humidité diminue ». Pour gérer ces contradictions, nous proposons une définition contrainte du support d'un motif graduel, qui, en particulier, ne dépend pas uniquement du motif considéré, mais aussi de ses contradicteurs potentiels. Nous proposons également deux méthodes d'extraction, respectivement basées sur un filtrage a posteriori et sur l'intégration de la contrainte du nouveau support dans le processus de génération. Nous introduisons également les motifs graduels caractérisés, définis par l'ajout d'une clause linguistiquement introduite par l'expression « surtout si » comme par exemple « plus la température diminue, plus l'humidité diminue, surtout si la température varie dans [0, 10] °C » : la clause additionnelle précise des plages de valeurs sur lesquelles la validité des motifs est accrue. Nous formalisons la qualité de cet enrichissement comme un compromis entre deux contraintes imposées à l'intervalle identifié, portant sur sa taille et sa validité, ainsi qu'une extension tenant compte de la densité des données.Nous proposons une méthode d'extraction automatique basée sur des outils de morphologie mathématique et la définition d'un filtre approprié et transcription

    Virtualisation d'interfaces matérielles : proposition, implémentation et évaluation d'un nouveau paradigme d'interactions humain-machine

    Get PDF
    RÉSUMÉ En acquérant de nouvelles fonctions, les machines environnantes ont vu leur interface se complexifier. Cette évolution rapide et non-contrôlée a mené à des interactions humainmachine moins performantes, forçant deux courants de pensées à émerger. Puisant dans l’informatique pervasive, le premier a favorisé le développement de machines intelligentes, en les augmentant de multiples senseurs pour automatiser la plupart de leurs fonctionnalités, afin de décharger leur interface et limiter les interactions humainmachine aux actions strictement essentielles. Le deuxième s’est concentré, entre autres, sur la formulation de philosophies de design (design centré sur l’utilisateur, conception pour tous, interfaces unifiées…) et sur l’élaboration de méthodes d’évaluation (cognitive walkthrough, évaluations heuristiques…), afin de simplifier et de standardiser ces interfaces. Bien que ces recherches ont et continuent de façonner le monde des interfaces humain-machine tel que nous le connaissons, il nous reste encore beaucoup de progrès à faire pour offrir, à chaque utilisateur et dans un marché de masse, des interfaces optimales et minimales, répondant spécifiquement à leurs besoins, à leurs modèles mentaux et à leurs préférences individuels.----------ABSTRACT As machines acquired new capabilities, their interfaces ultimately became more complex. This unrestrained and rapid evolution led to problematic man-machine interactions, forcing two currents of thought to emerge. Drawing upon pervasive computing, the first moved towards intelligent machines, using multiple sensors to automate most of their functionalities, to streamline their interfaces and to limit manmachine interactions to essential actions. The second focused, among other concepts, on design philosophies (user-centered design, design for all, unified interfaces…) and evaluation methods (cognitive walkthrough, heuristic evaluations…), in a quest to simplify and standardize these interfaces. While such research shaped and continues to shape the world of man-machine interfaces as we know it, we are still far from offering, in a mass-market environment, ideal and minimal interfaces, tailored to a user’s specific and individual needs, mental models and preferences
    corecore