31 research outputs found

    Solving non-uniqueness in agglomerative hierarchical clustering using multidendrograms

    Full text link
    In agglomerative hierarchical clustering, pair-group methods suffer from a problem of non-uniqueness when two or more distances between different clusters coincide during the amalgamation process. The traditional approach for solving this drawback has been to take any arbitrary criterion in order to break ties between distances, which results in different hierarchical classifications depending on the criterion followed. In this article we propose a variable-group algorithm that consists in grouping more than two clusters at the same time when ties occur. We give a tree representation for the results of the algorithm, which we call a multidendrogram, as well as a generalization of the Lance and Williams' formula which enables the implementation of the algorithm in a recursive way.Comment: Free Software for Agglomerative Hierarchical Clustering using Multidendrograms available at http://deim.urv.cat/~sgomez/multidendrograms.ph

    mdendro: An R package for extended agglomerative hierarchical clustering

    Full text link
    "mdendro" is an R package that provides a comprehensive collection of linkage methods for agglomerative hierarchical clustering on a matrix of proximity data (distances or similarities), returning a multifurcated dendrogram or multidendrogram. Multidendrograms can group more than two clusters at the same time, solving the nonuniqueness problem that arises when there are ties in the data. This problem causes that different binary dendrograms are possible depending both on the order of the input data and on the criterion used to break ties. Weighted and unweighted versions of the most common linkage methods are included in the package, which also implements two parametric linkage methods. In addition, package "mdendro" provides five descriptive measures to analyze the resulting dendrograms: cophenetic correlation coefficient, space distortion ratio, agglomerative coefficient, chaining coefficient and tree balance.Comment: 24 pages, 11 figures. Software available at CRAN (https://cran.r-project.org/package=mdendro) and Github (https://sergio-gomez.github.io/mdendro/

    Mesoscopic descriptions of complex networks

    Get PDF
    [spa] El objetivo de la presente tesis es el estudio de las subestructuras que aparecen a un nivel de resolución mesoscópico en las redes complejas. Dichas subestructuras, que en el campo de las redes complejas son denominadas comunidades, intentan agrupar los nodos de una red de manera que los nodos que forman parte de una misma comunidad estén más conectados entre ellos que con el resto de nodos de la red. La importada del análisis de estas estructuras radica en que nos permiten comprender mejor las redes complejas dándonos información sobre la funcionalidad de las comunidades que las componen. Hemos llevado a cabo el estudio de estas estructuras mesoscópicas utilizando la información topológica de las redes, y en cuanto a los métodos empleados éstos se pueden agrupar en dos grandes familias conocidas habitualmente como clustering jerárquico y clustering modular. Dentro de la primera familia de métodos nos hemos fijado en la existencia de un problema de no unicidad en el clustering jerárquico aglomerativo, y hemos propuesto una solución a dicho problema basada en el uso de una nueva herramienta de clasificación que denominamos multidendrograma. A continuación, hemos aplicado el resultado de una clasificación jerárquica para resolver un problema dentro de las redes complejas financieras. Más concretamente, hemos aprovechado una partición en clusters para resolver de manera más eficiente el problema de optimizar una cartera de valores. Por lo que respecta a la segunda familia de métodos de clustering estudiados, ésta se basa en la optimización de una función objetivo llamada modularidad El inconveniente que presenta la optimización de la modularidad es su elevado coste computacional, la cual cosa nos ha llevado a idear una reducción analítica del tamaño de las redes complejas de manera que se conserva toda la información necesaria en la red original de cara a hallar la estructura de comunidades que optimice la modularidad. A continuación hemos podido utilizar dicha simplificación de los cálculos en el análisis de toda la mesoescala topológica de las redes complejas. Dicho mesoescala la hemos estudiado añadiendo un mismo valor a todos los nodos de una red que mide su resistencia a formar parte de comunidades, La optimización de la modularidad para estas nuevas instancias de la red original obtenidas a partir de unos valores de resistencia acotados analíticamente, nos permite analizar la mesoescala topológica de las redes. Por último, hemos propuesto una generalización de la función de modularidad donde los bloques constituyentes ya no son solamente arcos sino que pueden ser distintos tipos de motifs. Esto nos permite obtener descripciones más generales de grupos de nodos que incluyen como caso particular a las comunidades

    Graph Analysis Using a GPU-based Parallel Algorithm: Quantum Clustering

    Full text link
    The article introduces a new method for applying Quantum Clustering to graph structures. Quantum Clustering (QC) is a novel density-based unsupervised learning method that determines cluster centers by constructing a potential function. In this method, we use the Graph Gradient Descent algorithm to find the centers of clusters. GPU parallelization is utilized for computing potential values. We also conducted experiments on five widely used datasets and evaluated using four indicators. The results show superior performance of the method. Finally, we discuss the influence of σ\sigma on the experimental results

    A Clustering Perspective of the Collatz Conjecture

    Get PDF
    This manuscript focuses on one of the most famous open problems in mathematics, namely the Collatz conjecture. The first part of the paper is devoted to describe the problem, providing a historical introduction to it, as well as giving some intuitive arguments of why is it hard from the mathematical point of view. The second part is dedicated to the visualization of behaviors of the Collatz iteration function and the analysis of the resultsThe work of D. Cao Labora was partially supported by grant number MTM2016-75140-P (AEI/FEDER, UE)S

    cDNA Sequence and Fab Crystal Structure of HL4E10, a Hamster IgG Lambda Light Chain Antibody Stimulatory for γδ T Cells

    Get PDF
    Hamsters are widely used to generate monoclonal antibodies against mouse, rat, and human antigens, but sequence and structural information for hamster immunoglobulins is sparse. To our knowledge, only three hamster IgG sequences have been published, all of which use kappa light chains, and no three-dimensional structure of a hamster antibody has been reported. We generated antibody HL4E10 as a probe to identify novel costimulatory molecules on the surface of γδ T cells which lack the traditional αβ T cell co-receptors CD4, CD8, and the costimulatory molecule CD28. HL4E10 binding to γδ T cell, surface-expressed, Junctional Adhesion Molecule-Like (JAML) protein leads to potent costimulation via activation of MAP kinase pathways and cytokine production, resulting in cell proliferation. The cDNA sequence of HL4E10 is the first example of a hamster lambda light chain and only the second known complete hamster heavy chain sequence. The crystal structure of the HL4E10 Fab at 2.95 Å resolution reveals a rigid combining site with pockets faceted by solvent-exposed tyrosine residues, which are structurally optimized for JAML binding. The characterization of HL4E10 thus comprises a valuable addition to the spartan database of hamster immunoglobulin genes and structures. As the HL4E10 antibody is uniquely costimulatory for γδ T cells, humanized versions thereof may be of clinical relevance in treating γδ T cell dysfunction-associated diseases, such as chronic non-healing wounds and cancer

    In silico modeling of chemical and biological interactions at different scales

    Get PDF
    En les últimes dècades, molts països han imposat regulacions sobre els efectes potencials de les substàncies químiques envers la salut humana i els criteris mediambientals. A més a més, tenint en compte el temps necessari per a les proves d’avaluació dels efectes de gran nombre de productes químics i el seu cost ha produït un ràpid augment en el nombre de models computacionals, que relacionen l'estructura de les substàncies químiques amb la seva activitat biològica. Actualment existeixen els models de relació estructura-activitat (SAR) per a productes químics, utilitzant un enfocament similar s’ha desenvolupat un nou model i generat conjunts d'alertes metabòliques que es puguin utilitzar juntament amb els mètodes Q(SAR). Aquest treball presenta regles SAR per a la predicció de mutagenicitat in vitro, juntament amb alertes metabòliques per a la predicció in vivo. Permetent, obtenir una idea preliminar sobre si un producte químic exhibeix el mateix comportament mutagènic in vitro i in vivo. Entre els compostos químics, les nanopartícules, també s'estan utilitzant cada cop més a través de diferents classes de productes usats pels consumidors. En un context fisiològic, la corona de les proteïnes constitueix la interfície entre les nanopartícules i les cèl·lules. En aquest treball, s'han utilitzat les propietats fisicoquímiques de la corona de les proteïnes per tal de desenvolupar un model capaç de predir l'associació cel·lular. Finalment, aquesta tesi es centra en el tema de la resistència als fàrmacs en els bacteris, que s'ha convertit en un assumpte d'interès global. Amb l'augment de la resistència dels bacteris als antibiòtics, és important disposar d'informació sobre la resposta que les noves proteïnes bacterianes tindrien sobre els antibiòtics actualment disponibles. Pel qual, en aquest treball s'ha desenvolupat un mètode d'alineació lliure per millorar la classificació en perfils de resistència de les proteïnes bacterianes, en base a les seves propietats fisicoquímiques.En las últimas décadas, muchos países han impuesto regulaciones sobre los efectos potenciales de las sustancias químicas con respecto a la salud humana y a criterios medio ambientales. Además, el tiempo necesario para las pruebas de evaluación de los efectos de un gran número de productos químicos y su coste ha producido un rápido aumento en el número de modelos computacionales que relacionan la estructura de las sustancias químicas con su actividad biológica. Actualmente existen los modelos de relación estructura-actividad (SAR) para productos químicos, utilizando un enfoque similar se ha desarrollado un nuevo modelo para generar conjuntos de alertas metabólicas que puedan utilizarse junto con los métodos Q(SAR). Este trabajo presenta reglas SAR para la predicción de mutagenicidad in vitro, junto con alertas metabólicas para la predicción también in vivo. Permitiendo, además, obtener una idea preliminar de si un producto químico exhibe el mismo comportamiento mutagénico in vitro e in vivo. Entre los compuestos químicos, las nanopartículas, también se están utilizando cada vez más en diferentes clases de productos usados por los consumidores. En términos fisiológicos, la corona de las proteínas constituye la interfaz entre las nanopartículas y las células. En este trabajo se ha desarrollado un modelo con las propiedades físico-químicas de la corona de las proteínas para predecir la asociación celular. Por último, esta tesis se centra en el tema de la resistencia a los fármacos en las bacterias, que se ha convertido en un asunto de interés global. Con el aumento de la resistencia de las bacterias a los antibióticos, es importante disponer información sobre la respuesta que las nuevas proteínas bacterianas tendrán sobre los antibióticos actualmente disponibles. Por esto se ha desarrollado un método de alineación libre para mejorar la clasificación en perfiles de resistencia de las proteínas bacterianas en base a sus propiedades físico-químicas.In the past decades, government, society and industry at large have taken keen interest in the impact at different scales that exposure to chemicals has on humans and environment. Many countries governments have imposed regulations as per which it has become important to establish the potential effects of these chemical entities with respect to human health and environmental endpoints. Given the time taken by traditional tests, costs and large number of chemicals to be evaluated, there has been a rapid growth in the number of computational models that link the structure of chemicals to their biological activity. To extend the basis of knowledge that currently exists in Structure Activity Relationship (SAR) models for chemicals, a similar approach was used to develop a new model and generate sets of metabolic triggers which can be used together with Q(SAR) methods. This thesis presents SAR rules for prediction of mutagenicity in vitro, along with metabolic triggers for prediction of mutagenicity in vitro and in vivo. Along with chemical compounds, nanoparticles are also being used increasingly across different classes of consumers’ products. Since, in physiological context, the protein corona constitutes the interface between the nanoparticle and cells, it plays a fundamental role in nanoparticle-cell association. In this thesis, the physicochemical properties of protein corona were used to develop a model to predict cell association. Lastly, this thesis focuses on the topic of drug resistance in bacteria, which has become a matter of global concern. With bacteria growing resistant to antibiotics at a faster pace than discovery of new antibiotics, information on the response that new bacterial proteins would have to the currently available antibiotics, based on their similarity with the known antibiotic-resistant proteins is necessary. An alignment-free method was developed to improve the resistance profile classification of bacterial proteins based on their physicochemical properties

    ISCoDe: A framework for interest similarity-based community detection in social networks

    Full text link
    Abstract—This paper proposes a framework for node clus-tering in computerized social networks according to common interests. Communities in such networks are mainly formed by user selection, which may be based on various factors such as acquaintance, social status, educational background. However, such selection may result in groups that have a low degree of similarity. The proposed framework could improve the effective-ness of these social networks by constructing clusters of nodes with higher interest similarity, and thus maximize the benefit that users extract from their participation. The framework is based on methods for detecting communities over weighted graphs, where graph edge weights are defined based on measures of similarity between nodes ’ interests in certain thematic areas. The capacity of these measures to enhance the sensitivity and resolution of community detection is evaluated with concrete benchmark scenarios over synthetic networks. We also use the framework to assess the level of common interests among sample users of a popular online social application. Our results confirm that clusters formed by user selection have low degrees of similarity; our framework could, hence, be valuable in forming communities with higher coherence of interests. I
    corecore