12 research outputs found

    Dimension reduction for linear separation with curvilinear distances

    Get PDF
    Any high dimensional data in its original raw form may contain obviously classifiable clusters which are difficult to identify given the high-dimension representation. In reducing the dimensions it may be possible to perform a simple classification technique to extract this cluster information whilst retaining the overall topology of the data set. The supervised method presented here takes a high dimension data set consisting of multiple clusters and employs curvilinear distance as a relation between points, projecting in a lower dimension according to this relationship. This representation allows for linear separation of the non-separable high dimensional cluster data and the classification to a cluster of any successive unseen data point extracted from the same higher dimension

    A methodology to compare dimensionality reduction algorithms in terms of loss of quality

    Get PDF
    Dimensionality Reduction (DR) is attracting more attention these days as a result of the increasing need to handle huge amounts of data effectively. DR methods allow the number of initial features to be reduced considerably until a set of them is found that allows the original properties of the data to be kept. However, their use entails an inherent loss of quality that is likely to affect the understanding of the data, in terms of data analysis. This loss of quality could be determinant when selecting a DR method, because of the nature of each method. In this paper, we propose a methodology that allows different DR methods to be analyzed and compared as regards the loss of quality produced by them. This methodology makes use of the concept of preservation of geometry (quality assessment criteria) to assess the loss of quality. Experiments have been carried out by using the most well-known DR algorithms and quality assessment criteria, based on the literature. These experiments have been applied on 12 real-world datasets. Results obtained so far show that it is possible to establish a method to select the most appropriate DR method, in terms of minimum loss of quality. Experiments have also highlighted some interesting relationships between the quality assessment criteria. Finally, the methodology allows the appropriate choice of dimensionality for reducing data to be established, whilst giving rise to a minimum loss of quality

    MEDVIR: 3D visual interface applied to gene profile analisys.

    Get PDF
    The origins for this work arise in response to the increasing need for biologists and doctors to obtain tools for visual analysis of data. When dealing with multidimensional data, such as medical data, the traditional data mining techniques can be a tedious and complex task, even to some medical experts. Therefore, it is necessary to develop useful visualization techniques that can complement the expert’s criterion, and at the same time visually stimulate and make easier the process of obtaining knowledge from a dataset. Thus, the process of interpretation and understanding of the data can be greatly enriched. Multidimensionality is inherent to any medical data, requiring a time-consuming effort to get a clinical useful outcome. Unfortunately, both clinicians and biologists are not trained in managing more than four dimensions. Specifically, we were aimed to design a 3D visual interface for gene profile analysis easy in order to be used both by medical and biologist experts. In this way, a new analysis method is proposed: MedVir. This is a simple and intuitive analysis mechanism based on the visualization of any multidimensional medical data in a three dimensional space that allows interaction with experts in order to collaborate and enrich this representation. In other words, MedVir makes a powerful reduction in data dimensionality in order to represent the original information into a three dimensional environment. The experts can interact with the data and draw conclusions in a visual and quickly way

    Data integration, pathway analysis and mining for systems biology

    Get PDF
    Post-genomic molecular biology embodies high-throughput experimental techniques and hence is a data-rich field. The goal of this thesis is to develop bioinformatics methods to utilise publicly available data in order to produce knowledge and to aid mining of newly generated data. As an example of knowledge or hypothesis generation, consider function prediction of biological molecules. Assignment of protein function is a non-trivial task owing to the fact that the same protein may be involved in different biological processes, depending on the state of the biological system and protein localisation. The function of a gene or a gene product may be provided as a textual description in a gene or protein annotation database. Such textual descriptions lack in providing the contextual meaning of the gene function. Therefore, we need ways to represent the meaning in a formal way. Here we apply data integration approach to provide rich representation that enables context-sensitive mining of biological data in terms of integrated networks and conceptual spaces. Context-sensitive gene function annotation follows naturally from this framework, as a particular application. Next, knowledge that is already publicly available can be used to aid mining of new experimental data. We developed an integrative bioinformatics method that utilises publicly available knowledge of protein-protein interactions, metabolic networks and transcriptional regulatory networks to analyse transcriptomics data and predict altered biological processes. We applied this method to a study of dynamic response of Saccharomyces cerevisiae to oxidative stress. The application of our method revealed dynamically altered biological functions in response to oxidative stress, which were validated by comprehensive in vivo metabolomics experiments. The results provided in this thesis indicate that integration of heterogeneous biological data facilitates advanced mining of the data. The methods can be applied for gaining insight into functions of genes, gene products and other molecules, as well as for offering functional interpretation to transcriptomics and metabolomics experiments

    Fixtureless geometric inspection of nonrigid parts using "generalized numerical inspection fixture"

    Get PDF
    Free-form nonrigid parts form the substance of today’s automotive and aerospace industries. These parts have different shapes in free state due to their dimensional and geometric variations, gravity and residual strains. For the geometric inspection of such compliant parts, special inspection fixtures, in combination with coordinate measuring systems (CMM) and/or optical data acquisition devices (scanners) are used. This inevitably causes additional costs and delays that result in a lack of competitiveness in the industry. The goal of this thesis is to facilitate the dimensional and geometrical inspection of flexible components from a point cloud without using a jig or secondary conformation operation. More specifically, we aim to develop a methodology to localize and quantify the profile defects in the case of thin shells which are typical to the aerospace and automotive industries. The presented methodology is based on the fact that the interpoint geodesic distance between any two points of a shape remains unchangeable during an isometric deformation. This study elaborates on the theory and general methods for the metrology of nonrigid parts. We have developed a Generalized Numerical Inspection Fixture (GNIF), a robust methodology which merges existing technologies in metric and computational geometry, nonlinear dimensionality reduction techniques, and finite element methods to introduce a general approach to the fixtureless geometrical inspection of nonrigid parts

    Metodología de visualización de datos utilizando métodos espectrales y basados en divergencias para la reducción interactiva de la dimensión

    Get PDF
    Las tareas de reconocimiento de patrones aplican métodos que evolucionan de manera equivalente al crecimiento de los datos, alcanzando métricas eficientes en términos de optimización y rendimiento computacional aplicado a exploración, selección y representación de datos. No obstante, los resultados brindados por dichos métodos y herramientas podrían resultar ambiguos y/o abstractos para el usuario, haciendo que su aplicación sea compleja, aun mas si no cuentan con un conocimiento previo de los datos. Tener un conocimiento a priori garantiza en el mayor de los casos la correcta selección del modelo, así como también algoritmos y métodos adecuados. Sin embargo, en datos masivos, donde este conocimiento es escaso y poco factible, los procesos de interpretación podrían ser arduos para los usuarios, especialmente, para aquellos usuarios no expertos. En consecuencia, han surgido diversos problemas que debe enfrentar el reconocimiento de patrones, entre los más importantes se encuentran: La reducción de dimensión, la interacción con grandes volúmenes de información, la interpretación y la visualización de los datos. Lo anterior puede enmarcar conceptos de controlabilidad e interacción que son propiedades, en su mayoría, ausentes en las investigaciones típicas dentro del campo de reducción de dimensión. Esta tesis presenta un nuevo enfoque de visualización de datos, basada en la mezcla interactiva de resultados de los métodos de reducción de dimensional dad (RD). Tal mezcla es una suma ponderada, cuyos factores de ponderación son definidos por el usuario a través de una interfaz visual e intuitiva. Además, el espacio de representación de baja dimensión producida por métodos de (RD) se representan gráficamente mediante diagramas de dispersión alimentados a través de una visualización de datos interactiva controlada. Para ello, se calculan las distancias entre pares por similitud y se emplean para definir el grafico a representar en el diagrama de dispersión..

    Metodología de visualización de datos utilizando métodos espectrales y basados en divergencias para la reducción interactiva de la dimensión

    Get PDF
    Las tareas de reconocimiento de patrones aplican métodos que evolucionan de manera equivalente al crecimiento de los datos, alcanzando métricas eficientes en términos de optimización y rendimiento computacional aplicado a exploración, selección y representación de datos. No obstante, los resultados brindados por dichos métodos y herramientas podrían resultar ambiguos y/o abstractos para el usuario, haciendo que su aplicación sea compleja, aun mas si no cuentan con un conocimiento previo de los datos. Tener un conocimiento a priori garantiza en el mayor de los casos la correcta selección del modelo, así como también algoritmos y métodos adecuados. Sin embargo, en datos masivos, donde este conocimiento es escaso y poco factible, los procesos de interpretación podrían ser arduos para los usuarios, especialmente, para aquellos usuarios no expertos. En consecuencia, han surgido diversos problemas que debe enfrentar el reconocimiento de patrones, entre los más importantes se encuentran: La reducción de dimensión, la interacción con grandes volúmenes de información, la interpretación y la visualización de los datos. Lo anterior puede enmarcar conceptos de controlabilidad e interacción que son propiedades, en su mayoría, ausentes en las investigaciones típicas dentro del campo de reducción de dimensión. Esta tesis presenta un nuevo enfoque de visualización de datos, basada en la mezcla interactiva de resultados de los métodos de reducción de dimensional dad (RD). Tal mezcla es una suma ponderada, cuyos factores de ponderación son definidos por el usuario a través de una interfaz visual e intuitiva. Además, el espacio de representación de baja dimensión producida por métodos de (RD) se representan gráficamente mediante diagramas de dispersión alimentados a través de una visualización de datos interactiva controlada. Para ello, se calculan las distancias entre pares por similitud y se emplean para definir el grafico a representar en el diagrama de dispersión..

    Relevant data representation by a Kernel-based framework

    Get PDF
    Nowadays, the analysis of a large amount of data has emerged as an issue of great interest taking increasing place in the scientific community, especially in automation, signal processing, pattern recognition, and machine learning. In this sense, the identification, description, classification, visualization, and clustering of events or patterns are important problems for engineering developments and scientific issues, such as biology, medicine, economy, artificial vision, artificial intelligence, and industrial production. Nonetheless, it is difficult to interpret the available information due to its complexity and a large amount of obtained features. In addition, the analysis of the input data requires the development of methodologies that allow to reveal the relevant behaviors of the studied process, particularly, when such signals contain hidden structures varying over a given domain, e.g., space and/or time. When the analyzed signal contains such kind of properties, directly applying signal processing and machine learning procedures without considering a suitable model that deals with both the statistical distribution and the data structure, can lead in unstable performance results. Regarding this, kernel functions appear as an alternative approach to address the aforementioned issues by providing flexible mathematical tools that allow enhancing data representation for supporting signal processing and machine learning systems. Moreover, kernelbased methods are powerful tools for developing better-performing solutions by adapting the kernel to a given problem, instead of learning data relationships from explicit raw vector representations. However, building suitable kernels requires some user prior knowledge about input data, which is not available in most of the practical cases. Furthermore, using the definitions of traditional kernel methods directly, possess a challenging estimation problem that often leads to strong simplifications that restrict the kind of representation that we can use on the data. In this study, we propose a data representation framework based on kernel methods to learn automatically relevant sample relationships in learning systems. Namely, the proposed framework is divided into five kernel-based approaches, which aim to compute relevant data representations by adapting them according to both the imposed sample relationships constraints and the learning scenario (unsupervised or supervised task). First, we develop a kernel-based representation approach that allows revealing the main input sample relations by including relevant data structures using graph-based sparse constraints. Thus, salient data structures are highlighted aiming to favor further unsupervised clustering stages. This approach can be viewed as a graph pruning strategy within a spectral clustering framework which allows enhancing both the local and global data consistencies for a given input similarity matrix. Second, we introduce a kernel-based representation methodology that captures meaningful data relations in terms of their statistical distribution. Thus, an information theoretic learning (ITL) based penalty function is introduced to estimate a kernel-based similarity that maximizes the whole information potential variability. So, we seek for a reproducing kernel Hilbert space (RKHS) that spans the widest information force magnitudes among data points to support further clustering stages. Third, an entropy-like functional on positive definite matrices based on Renyi’s definition is adapted to develop a kernel-based representation approach which considers the statistical distribution and the salient data structures. Thereby, relevant input patterns are highlighted in unsupervised learning tasks. Particularly, the introduced approach is tested as a tool to encode relevant local and global input data relationships in dimensional reduction applications. Fourth, a supervised kernel-based representation is introduced via a metric learning procedure in RKHS that takes advantage of the user-prior knowledge, when available, regarding the studied learning task. Such an approach incorporates the proposed ITL-based kernel functional estimation strategy to adapt automatically the relevant representation using both the supervised information and the input data statistical distribution. As a result, relevant sample dependencies are highlighted by weighting the input features that mostly encode the supervised learning task. Finally, a new generalized kernel-based measure is proposed by taking advantage of different RKHSs. In this way, relevant dependencies are highlighted automatically by considering the input data domain-varying behavior and the user-prior knowledge (supervised information) when available. The proposed measure is an extension of the well-known crosscorrentropy function based on Hilbert space embeddings. Throughout the study, the proposed kernel-based framework is applied to biosignal and image data as an alternative to support aided diagnosis systems and image-based object analysis. Indeed, the introduced kernel-based framework improve, in most of the cases, unsupervised and supervised learning performances, aiding researchers in their quest to process and to favor the understanding of complex dataResumen: Hoy en día, el análisis de datos se ha convertido en un tema de gran interés para la comunidad científica, especialmente en campos como la automatización, el procesamiento de señales, el reconocimiento de patrones y el aprendizaje de máquina. En este sentido, la identificación, descripción, clasificación, visualización, y la agrupación de eventos o patrones son problemas importantes para desarrollos de ingeniería y cuestiones científicas, tales como: la biología, la medicina, la economía, la visión artificial, la inteligencia artificial y la producción industrial. No obstante, es difícil interpretar la información disponible debido a su complejidad y la gran cantidad de características obtenidas. Además, el análisis de los datos de entrada requiere del desarrollo de metodologías que permitan revelar los comportamientos relevantes del proceso estudiado, en particular, cuando tales señales contienen estructuras ocultas que varían sobre un dominio dado, por ejemplo, el espacio y/o el tiempo. Cuando la señal analizada contiene este tipo de propiedades, los rendimientos pueden ser inestables si se aplican directamente técnicas de procesamiento de señales y aprendizaje automático sin tener en cuenta la distribución estadística y la estructura de datos. Al respecto, las funciones núcleo (kernel) aparecen como un enfoque alternativo para abordar las limitantes antes mencionadas, proporcionando herramientas matemáticas flexibles que mejoran la representación de los datos de entrada. Por otra parte, los métodos basados en funciones núcleo son herramientas poderosas para el desarrollo de soluciones de mejor rendimiento mediante la adaptación del núcleo de acuerdo al problema en estudio. Sin embargo, la construcción de funciones núcleo apropiadas requieren del conocimiento previo por parte del usuario sobre los datos de entrada, el cual no está disponible en la mayoría de los casos prácticos. Por otra parte, a menudo la estimación de las funciones núcleo conllevan sesgos el modelo, siendo necesario apelar a simplificaciones matemáticas que no siempre son acordes con la realidad. En este estudio, se propone un marco de representación basado en métodos núcleo para resaltar relaciones relevantes entre los datos de forma automática en sistema de aprendizaje de máquina. A saber, el marco propuesto consta de cinco enfoques núcleo, en aras de adaptar la representación de acuerdo a las relaciones impuestas sobre las muestras y sobre el escenario de aprendizaje (sin/con supervisión). En primer lugar, se desarrolla un enfoque de representación núcleo que permite revelar las principales relaciones entre muestras de entrada mediante la inclusión de estructuras relevantes utilizando restricciones basadas en modelado por grafos. Por lo tanto, las estructuras de datos más sobresalientes se destacan con el objetivo de favorecer etapas posteriores de agrupamiento no supervisado. Este enfoque puede ser visto como una estrategia de depuración de grafos dentro de un marco de agrupamiento espectral que permite mejorar las consistencias locales y globales de los datos En segundo lugar, presentamos una metodología de representación núcleo que captura relaciones significativas entre muestras en términos de su distribución estadística. De este modo, se introduce una función de costo basada en aprendizaje por teoría de la información para estimar una similitud que maximice la variabilidad del potencial de información de los datos de entrada. Así, se busca un espacio de Hilbert generado por el núcleo que contenga altas fuerzas de información entre los puntos para favorecer el agrupamiento entre los mismos. En tercer lugar, se propone un esquema de representación que incluye un funcional de entropía para matrices definidas positivas a partir de la definición de Renyi. En este sentido, se pretenden incluir la distribución estadística de las muestras y sus estructuras relevantes. Por consiguiente, los patrones de entrada pertinentes se destacan en tareas de aprendizaje sin supervisión. En particular, el enfoque introducido se prueba como una herramienta para codificar las relaciones locales y globales de los datos en tareas de reducción de dimensión. En cuarto lugar, se introduce una metodología de representación núcleo supervisada a través de un aprendizaje de métrica en el espacio de Hilbert generado por una función núcleo en aras de aprovechar el conocimiento previo del usuario con respecto a la tarea de aprendizaje. Este enfoque incorpora un funcional por teoría de información que permite adaptar automáticamente la representación utilizando tanto información supervisada y la distribución estadística de los datos de entrada. Como resultado, las dependencias entre las muestras se resaltan mediante la ponderación de las características de entrada que codifican la tarea de aprendizaje supervisado. Por último, se propone una nueva medida núcleo mediante el aprovechamiento de diferentes espacios de representación. De este modo, las dependencias más relevantes entre las muestras se resaltan automáticamente considerando el dominio de interés de los datos de entrada y el conocimiento previo del usuario (información supervisada). La medida propuesta es una extensión de la función de cross-correntropia a partir de inmersiones en espacios de Hilbert. A lo largo del estudio, el esquema propuesto se valida sobre datos relacionados con bioseñales e imágenes como una alternativa para apoyar sistemas de apoyo diagnóstico y análisis objetivo basado en imágenes. De hecho, el marco introducido permite mejorar, en la mayoría de los casos, el rendimiento de sistemas de aprendizaje supervisado y no supervisado, favoreciendo la precisión de la tarea y la interpretabilidad de los datosDoctorad

    Neuromuscular modularity and behavioral correlates of motor control

    Get PDF
    Thesis (Ph. D.)--Massachusetts Institute of Technology, Dept. of Brain and Cognitive Sciences, 2006.Includes bibliographical references (p. 259-276).I studied organizational principles that may subserve the control and learning of forelimb movements. Among these principles, I focused on muscular coordination patterns, motor cortical excitability, and sensorimotor interactions. I found that muscle activity in grasping and reaching behaviors could be reconstructed by linear combinations of a small number of time-varying muscle synergies, each fit with coefficients unique to the behavior. However, the generalization of these synergies between behavioral conditions was limited, in part by the sensitivity of the extraction algorithm to stereotyped muscular relations within contrasted conditions. In reaching studies designed to assist or resist different movement directions, I found a gradual change in the structure, as well as recruitment, of synergies. When a perturbation was targeted to the activity within a single muscle, I found a transient, relative suppression of this muscle in response to descending motor commands. In other motor cortical microstimulation experiments, I confirmed that long-train microstimulation is able to evoke complex, convergent movements. Even during highly-trained reaching movements, I found that there was relatively little invariance of the muscular patterns in relation to kinematic variables coding for the hand's displacement and velocity.(cont.) In two studies examining the kinematic consequences of modulating cortical excitability, I either infused tissue plasminogen activator into monkey cortex or applied transcranial magnetic stimulation to human cortex, either while or before each adapted to a clockwise force field. In both cases basal motor performance was spared, but each manipulation appeared to be associated with disruptions of subjects' ability to retain, improve, or recall recent adaptations. Among other human studies, I investigated the interaction of dynamic adaptation and sequence learning, and found that simultaneous acquisition of a force field and a sequence does not impair performance on either but may have enabled subjects to tune in to, and chunk, their movements. I found that motor consolidation may be dependent on the more effortful learning enabled by catch-trial interruptions of practice on a novel condition. Finally, I used functional imaging and manual cutaneous stimulation to show that the hemodynamic response was biased according to receptor density but generally non-somatotopic and distributed throughout sensorimotor cortex.by Simon Alexander Overduin.Ph.D
    corecore