6,418 research outputs found

    Structural alphabets derived from attractors in conformational space

    Get PDF
    Background: The hierarchical and partially redundant nature of protein structures justifies the definition of frequently occurring conformations of short fragments as 'states'. Collections of selected representatives for these states define Structural Alphabets, describing the most typical local conformations within protein structures. These alphabets form a bridge between the string-oriented methods of sequence analysis and the coordinate-oriented methods of protein structure analysis.Results: A Structural Alphabet has been derived by clustering all four-residue fragments of a high-resolution subset of the protein data bank and extracting the high-density states as representative conformational states. Each fragment is uniquely defined by a set of three independent angles corresponding to its degrees of freedom, capturing in simple and intuitive terms the properties of the conformational space. The fragments of the Structural Alphabet are equivalent to the conformational attractors and therefore yield a most informative encoding of proteins. Proteins can be reconstructed within the experimental uncertainty in structure determination and ensembles of structures can be encoded with accuracy and robustness.Conclusions: The density-based Structural Alphabet provides a novel tool to describe local conformations and it is specifically suitable for application in studies of protein dynamics. © 2010 Pandini et al; licensee BioMed Central Ltd

    Contributions to the problem of cluster analysis

    Get PDF
    Dada una muestra aleatoria generada por una mezcla de distribuciones, el objetivo del análisis de conglomerados es partir la muestra en grupos homogéneos en relación a las poblaciones que los han generado. Algoritmos como kmeans y mclust resuelven el problema de conglomerados en el espacio original. Un enfoque alternativo es reducir primero la dimensión de los datos proyectando la muestra en un espacio de dimensión menor, e identificar los grupos en este subespacio. De esta forma, la maldición de la dimensión puede evitarse, pero hay que asegurarse de que los datos proyectados preservan la estructura de conglomerados de la muestra original. En este contexto, los métodos de búsqueda de proyecciones tienen como objetivo encontrar direcciones, o subespacios de baja dimensión, que muestren las vistas más interesantes de los datos (Friedman and Tukey, 1974; Friedman, 1987). Reducir la dimensión de la muestra es efectivo ya que no toda la información de los datos está ligada a la estructura de grupos de la muestra. Con la reducción se pretende eliminar la información no relevante, y quedarse con un espacio de dimensión menor donde el problema de conglomerados sea más fácil de resolver. Para ello hace falta un procedimiento que mantenga la información clave de los grupos. En este contexto, Peña and Prieto (2001) demuestran que las direcciones que minimizan y maximizan la kurtosis tienen propiedades óptimas para visualizar los grupos, y proponen un algoritmo de conglomerados que proyecta los datos en ambos tipos de direcciones y asigna las observaciones a los grupos en consonancia con los huecos encontrados en éstas. En el capítulo 1 de la tesis el concepto de kurtosis se revisa en detalle. El coeficiente de kurtosis univariante y las distintas interpretaciones que se le han dado en la literatura son analizadas. También estudiamos de que maneras puede definirse la kurtosis en una muestra multivariante y exploramos sus propiedades para detectar grupos. En el Capítulo 2 estudiamos las propiedades de una matriz de kurtosis y proponemos un subconjunto de sus vectores propios como direcciones interesantes para revelar la posible estructura de grupos de los datos. Esta idea es una extensión al caso multivariante del algoritmo propuesto en Peña and Prieto (2001). La ventaja de usar los vectores propios de una matriz para especificar el subespacio de interés radica en que no es necesario usar un algoritmo de optimización para encontrarlo, como ocurre en Peña and Prieto (2001). Por otra parte, ante una mezcla de distribuciones elípticas con matrices de covarianzas proporcionales, demostramos que un subconjunto de vectores propios de la matriz coincide con el subespacio lineal discriminante de Fisher. Los vectores propios de la matriz de kurtosis estimada son estimadores consistentes de este subespacio, y su calculo es fácil de implementar y computacionalmente eficiente. La matriz, por tanto, proporciona una forma de reducir la dimensión de los datos en vistas a resolver el problema de conglomerados en un subespacio de dimensión menor. Siguiendo la discusión en el Capítulo 2, en el capítulo 3 estudiamos matrices alternativas de kurtosis basadas en modificaciones locales de los datos, con la intención de mejorar los resultados obtenidos con los vectores propios de la matriz de kurtosis estudiada en el Capítulo 2. Mediante la sustitución de las observaciones de la muestra por la media de sus vecinos, las matrices de covarianzas de las componentes de la mezcla de distribuciones se contraen, dando un rol predominante a la variabilidad entre grupos en la descomposición de la matriz de kurtosis. En particular, se demuestra que las propiedades de separación de los vectores propios de la nueva matriz de kurtosis son mejores en el sentido que la modificación de las observaciones propuesta produce medias estandarizadas más alejadas entre sí que las de las observaciones originales. El Capítulo 4 propone algunas ideas en relación a la identificación de grupos no lineales en un espacio de baja dimensión, proyectando en direcciones aleatorias solamente las observaciones contenidas en un entorno local definido a partir de la dirección. Estas direcciones pueden ser entendidas como direcciones recortadas, y permiten detectar formas específicas que los algoritmos de conglomerados tradicionales con buenos resultados en baja dimensión no detectan con facilidad. El algoritmo sugerido está pensado para usarse una vez la dimensión del espacio de los datos ha sido reducida. Finalmente, en el Capítulo 5 proponemos un algoritmo de conglomerados no paramétrico basado en medianas locales. Cada observación es sustituida por su mediana local, moviéndose de esta manera hacia los picos y lejos de los valles de la distribución. Este proceso es repetido iterativamente hasta que cada observación converge a un punto fijo. El resultado es un partición de la muestra basado en donde convergen las secuencias de medianas locales. El algoritmo determina el número de grupos y la partición de las observaciones dada la proporción de vecinos. Una versión rápida del algoritmo, donde solamente se trata un subconjunto de las observaciones, también se proporciona. En el caso univariante, se demuestra la convergencia de cada observación al punto fijo más próximo, así como la existencia y unicidad de un punto fijo en un entorno de cada moda de la distribución

    k-Nearest Neighbour Classifiers: 2nd Edition (with Python examples)

    Get PDF
    Perhaps the most straightforward classifier in the arsenal or machine learning techniques is the Nearest Neighbour Classifier -- classification is achieved by identifying the nearest neighbours to a query example and using those neighbours to determine the class of the query. This approach to classification is of particular importance because issues of poor run-time performance is not such a problem these days with the computational power that is available. This paper presents an overview of techniques for Nearest Neighbour classification focusing on; mechanisms for assessing similarity (distance), computational issues in identifying nearest neighbours and mechanisms for reducing the dimension of the data. This paper is the second edition of a paper previously published as a technical report. Sections on similarity measures for time-series, retrieval speed-up and intrinsic dimensionality have been added. An Appendix is included providing access to Python code for the key methods.Comment: 22 pages, 15 figures: An updated edition of an older tutorial on kN
    corecore