69 research outputs found

    Sur le consensus en catégorisation libre

    Get PDF
    À partir de jugements individuels sous forme de catégories (un profil de partitions sur un ensemble X), on cherche à établir des catégories collectives, ici appelées concepts. Nous comparons deux approches combinatoires. La première consiste à calculer une partition consensus, la médiane du profil, c’est-à-dire la partition de X dont la somme des distances aux jugements individuels est minimum ; les concepts sont alors les classes de cette partition consensus. La seconde commence par calculer une distance D sur X, basée sur le profil, et à construire un Xarbre associé à D ; les concepts sont alors certains sous-arbres de cet X-arbre. Nous cherchons à comparer ces deux approches, à mesurer leur congruence, en particulier, dans quelle mesure les classes de la partition consensus, sont des sous-arbres du X-arbre et réciproquement.Starting from individual judgments given as categories (i.e., a profile of partitions on an item set X), we attempt to establish a collective partitioning of the items. For that task, we compare two combinatorial approaches. The first one allows us to calculate a consensus partition, namely the median partition of the profile, which is the partition of X whose sum of distances to the individual partitions is minimal. Then, the collective classes are the classes of this partition. The second one consists in calculating, first, a distance D on X based on the profile and then in building an X-tree associated to D. The collective classes are then some of its subtrees. We compare these two approaches and more specifically study the extent to which they produce the same decision as a set of collective classes

    Vainqueurs de Kemeny et tournois difficiles

    Get PDF
    In this paper, we deal with the computation of median orders of weighted tournaments. First, we present improvements of a branch and bound method in order to speed up the enumeration of median orders. Then, for the hard tournaments for which these improvements are not sufficient, we study two ways to reduce the tournament by deleting vertices which appear as poor candidates.Dans cet article, on s'intéresse à la détermination des ordres médians des tournois valués. On propose d'une part des améliorations d'une méthode arborescente permettant de limiter le nombre de nÏuds et donc d'accélérer l'énumération des ordres médians. D'autre part, pour les tournois difficiles qui restent incalculables, on propose de réduire le tournoi en éliminant certains candidats

    Partitions optimisées selon différents critères : évaluation et comparaison

    Get PDF
    In this article, we study and compare partitionning methods applied to a distance matrix. Given the maximum number of classes and a criterion, we build one partition optimizing this criterion for each number of classes varying from 2 to this maximum. All the studied criteria lead to NP-hard problems. The general algorithm combines optimization and metaheuristic technics to build sub-optimal solutions. Several ways to evaluate the quality of the classes and to compare partitions corresponding to different criteria are proposed. They allow to chose the best partition fitting a distance matrix and, simulating several types of metric, to designate the criterion providing generally the best results.Dans cet article, nous étudions et comparons des méthodes de partitionnement d'un ensemble d'éléments muni d'une distance, méthodes qui opèrent à partir de cette seule donnée. On cherche à construire une partition à nombre de classes fixé qui optimise un critère (séparation, diamètre ou inertie). Les méthodes étudiées fonctionnent sur le même principe : le nombre maximum de classes étant fixé, on construit une partition pour chaque valeur du nombre de classes variant de 2 au maximum. Tous les critères étudiés conduisent à des problèmes d'optimisation NP-difficiles. L'algorithme général combine des méthodes de descente et des métaheuristiques pour construire des partitions sous-optimales. Plusieurs façons d'évaluer la qualité des classes et de comparer ces partitions sont proposées ; elles sont indépendantes du critère optimisé et des cardinaux des classes. Elles permettent de choisir la partition la plus compatible avec une distance donnée. Par simulation de plusieurs types de distance (euclidienne, booléenne, ou distance d'arbre) on étudie les critères qui donnent en moyenne les meilleurs résultats

    ModClust: a Cytoscape plugin for modularity-based clustering of networks

    Get PDF
    National audienceLarge networks such as protein-protein interaction networks are usually extremely difficult to understand as a whole. We developed ModClust, a Cytoscape plugin for modularity-based clustering of large networks. The aim of this plugin is first to establish classes of high density edges. It also allows to understand the relations between these classes, and how they are assembled within the whole graph. It can be used to predict new protein functions. It implements two novel algorithms: FT and TFit. Their results are compared both on random graphs and on benchmarks where the optimal partition is known. RÉSUMÉ. Les grands graphes, comme les réseaux d'interaction protéine-protéine, sont d'une manière générale difficiles à analyser. Nous avons développé un plugin pour le logiciel Cy-toscape, appelé ModClust, effectuant du partitionnement de graphes par optimisation de la modularité. L'objectif de ce plugin est de comprendre quelles sont les relations entre classes et comment ces dernières sont assemblées dans le graphe. Il nous aide finalement à prédire de nouvelles fonctions protéiques. Deux nouveaux algorithmes, FT et TFit, sont implémentés. Leurs résultats sont comparés sur des graphes aléatoires et sur des benchmarks dont on connait les partitions optimales

    Clustering proteins from interaction networks for the prediction of cellular functions

    Get PDF
    BACKGROUND: Developing reliable and efficient strategies allowing to infer a function to yet uncharacterized proteins based on interaction networks is of crucial interest in the current context of high-throughput data generation. In this paper, we develop a new algorithm for clustering vertices of a protein-protein interaction network using a density function, providing disjoint classes. RESULTS: Applied to the yeast interaction network, the classes obtained appear to be biological significant. The partitions are then used to make functional predictions for uncharacterized yeast proteins, using an annotation procedure that takes into account the binary interactions between proteins inside the classes. We show that this procedure is able to enhance the performances with respect to previous approaches. Finally, we propose a new annotation for 37 previously uncharacterized yeast proteins. CONCLUSION: We believe that our results represent a significant improvement for the inference of cellular functions, that can be applied to other organism as well as to other type of interaction graph, such as genetic interactions

    Classes empiétantes dans un graphe et application aux interactions entre protéines

    No full text
    URL des Cahiers : https://halshs.archives-ouvertes.fr/CAHIERS-MSECahiers de la MSE 2005.32 - Série Bleue - ISSN : 1624-0340In this paper, we study a method of classification by density in an unweighted graph. We search some areas with a high density of edges, that can be overlapping (we don't try to obtain a partition but some intrinsic classes). The method consists of two steps; first we determine the cores of the classes by means of a local density function and then we extend these cores by their neighbourhoods following a criterion on the density of the classes. Finally, the method is applied on a protein-protein interaction network, with the aim of predicting unknown cellular functions of some proteins.Dans cet article, on étudie une méthode de classification reposant sur une recherche de zones denses en arêtes dans un graphe non pondéré. On ne cherche pas à faire un partitionnement mais à extraire des classes intrinsèques aux données, qui pourront donc être empiétantes. La méthode proposée est ensuite appliquée à un graphe d'interactions entre protéines, les classes mises en évidence pouvant permettre aux biologistes de prédire les fonctions cellulaires de certaines protéines

    Approximation par arbres d'une distance partielle

    Get PDF
    In tree clustering, we try to approximate a given dissimilarity matrice by a tree distance. In some cases, especially when comparing biological séquences, some dissimilarity values cannot be evaluated and we get some partial dissimilarity with undefined values. In that case one can develop a sequential method to reconstruct a valued tree or evaluate the missing values using a tree model. This paper introduces two methods of this kind and compare them simulating noisy partial tree dissimilarities.En classification par arbre, on cherche à ajuster une dissimilarité donnée par une distance d'arbre. Mais bien souvent, surtout par comparaison de séquences biologiques, les valeurs obtenues sont peu fiables, voire indéterminées. On a alors une distance partielle qui n'est pas définie pour toute paire. Dans ce cas, on peut soit développer une méthode spécifique qui n'utilise que les valeurs disponibles, soit estimer les valeurs manquantes et utiliser une méthode classique pour reconstruire l'arbre. Cet article présente deux méthodes de ce type et les compare à l'aide de simulations sur des distances d'arbre partielles et bruitées

    About the largest subtree common to several X-trees

    Get PDF
    Étant donnés plusieursX-arbres, ou arbres phylogénétiques, sur le même ensembleX, nous cherchons à construire un plus grand sous-ensembleY⊂Xtel que les arbres partiels induits surYsoient identiques d’un point de vue topologique, c’est-à-dire indépendamment des longueurs des arêtes. Ce problème, connu sous le nom de MAST (Maximum Agreement SubTree), est NP-Difficile, dans le cas général, dès que le nombre deX-arbres est supérieur à 2. Nous présentons un algorithme approché qui construit un arbre partiel commun maximal. Il est facilement programmable et suffisamment efficace sur une centaine deX-arbres connectant une centaine d’éléments pour évaluer la taille moyenne d’un sous-arbre commun à desX-arbres indépendants. La distribution observée permet d’estimer la taille critique d’un sous-arbre commun et de mesurer la congruence de plusieurs arbres évolutifs.Given severalX-trees or unrooted phylogenetic trees on the same set of taxaX, we look for a largest subsetY⊂Xsuch that al l the partial trees reduced byYare topologically identical. This common subtree is called a MAST for Maximum Agreement SubTree. The problem has polynomial complexity when there are only two trees but generally it is NP-hard for more than two. We introduce a polynomial approximation algorithm for the multiple case, which is easy to implement, very efficient and which produces a maximal common subtree. It begins with the computation of an upper bound for its size and designates elements inXthat cannot belong to a common subtree of a given size. Simulations on random and real data have shown that this heuristic often provides an optimal solution as soon as the number of trees is larger than 5. Then, we develop a statistical study to evaluate the average size of a MAST corresponding to independent trees. The computed distribution allows to estimate the critical size of a MAST to reveal some congruence between trees

    Functional classification of proteins for the prediction of cellular function from a protein-protein interaction network

    Get PDF
    We here describe PRODISTIN, a new computational method allowing the functional clustering of proteins on the basis of protein-protein interaction data. This method, assessed biologically and statistically, enabled us to classify 11% of the Saccharomyces cerevisiae proteome into several groups, the majority of which contained proteins involved in the same biological process(es), and to predict a cellular function for many otherwise uncharacterized proteins
    • …
    corecore