4 research outputs found

    TriSig: Assessing the statistical significance of triclusters

    Full text link
    Tensor data analysis allows researchers to uncover novel patterns and relationships that cannot be obtained from matrix data alone. The information inferred from the patterns provides valuable insights into disease progression, bioproduction processes, weather fluctuations, and group dynamics. However, spurious and redundant patterns hamper this process. This work aims at proposing a statistical frame to assess the probability of patterns in tensor data to deviate from null expectations, extending well-established principles for assessing the statistical significance of patterns in matrix data. A comprehensive discussion on binomial testing for false positive discoveries is entailed at the light of: variable dependencies, temporal dependencies and misalignments, and \textit{p}-value corrections under the Benjamini-Hochberg procedure. Results gathered from the application of state-of-the-art triclustering algorithms over distinct real-world case studies in biochemical and biotechnological domains confer validity to the proposed statistical frame while revealing vulnerabilities of some triclustering searches. The proposed assessment can be incorporated into existing triclustering algorithms to mitigate false positive/spurious discoveries and further prune the search space, reducing their computational complexity. Availability: The code is freely available at https://github.com/JupitersMight/TriSig under the MIT license

    Técnicas big data para el procesamiento de flujos de datos masivos en tiempo real

    Get PDF
    Programa de Doctorado en Biotecnología, Ingeniería y Tecnología QuímicaLínea de Investigación: Ingeniería, Ciencia de Datos y BioinformáticaClave Programa: DBICódigo Línea: 111Machine learning techniques have become one of the most demanded resources by companies due to the large volume of data that surrounds us in these days. The main objective of these technologies is to solve complex problems in an automated way using data. One of the current perspectives of machine learning is the analysis of continuous flows of data or data streaming. This approach is increasingly requested by enterprises as a result of the large number of information sources producing time-indexed data at high frequency, such as sensors, Internet of Things devices, social networks, etc. However, nowadays, research is more focused on the study of historical data than on data received in streaming. One of the main reasons for this is the enormous challenge that this type of data presents for the modeling of machine learning algorithms. This Doctoral Thesis is presented in the form of a compendium of publications with a total of 10 scientific contributions in International Conferences and journals with high impact index in the Journal Citation Reports (JCR). The research developed during the PhD Program focuses on the study and analysis of real-time or streaming data through the development of new machine learning algorithms. Machine learning algorithms for real-time data consist of a different type of modeling than the traditional one, where the model is updated online to provide accurate responses in the shortest possible time. The main objective of this Doctoral Thesis is the contribution of research value to the scientific community through three new machine learning algorithms. These algorithms are big data techniques and two of them work with online or streaming data. In this way, contributions are made to the development of one of the current trends in Artificial Intelligence. With this purpose, algorithms are developed for descriptive and predictive tasks, i.e., unsupervised and supervised learning, respectively. Their common idea is the discovery of patterns in the data. The first technique developed during the dissertation is a triclustering algorithm to produce three-dimensional data clusters in offline or batch mode. This big data algorithm is called bigTriGen. In a general way, an evolutionary metaheuristic is used to search for groups of data with similar patterns. The model uses genetic operators such as selection, crossover, mutation or evaluation operators at each iteration. The goal of the bigTriGen is to optimize the evaluation function to achieve triclusters of the highest possible quality. It is used as the basis for the second technique implemented during the Doctoral Thesis. The second algorithm focuses on the creation of groups over three-dimensional data received in real-time or in streaming. It is called STriGen. Streaming modeling is carried out starting from an offline or batch model using historical data. As soon as this model is created, it starts receiving data in real-time. The model is updated in an online or streaming manner to adapt to new streaming patterns. In this way, the STriGen is able to detect concept drifts and incorporate them into the model as quickly as possible, thus producing triclusters in real-time and of good quality. The last algorithm developed in this dissertation follows a supervised learning approach for time series forecasting in real-time. It is called StreamWNN. A model is created with historical data based on the k-nearest neighbor or KNN algorithm. Once the model is created, data starts to be received in real-time. The algorithm provides real-time predictions of future data, keeping the model always updated in an incremental way and incorporating streaming patterns identified as novelties. The StreamWNN also identifies anomalous data in real-time allowing this feature to be used as a security measure during its application. The developed algorithms have been evaluated with real data from devices and sensors. These new techniques have demonstrated to be very useful, providing meaningful triclusters and accurate predictions in real time.Universidad Pablo de Olavide de Sevilla. Departamento de Deporte e informátic

    Mejora de métodos de análisis de datos con aplicación en datos biomédicos

    Get PDF
    Programa de Doctorado en Biotecnología, Ingeniería y Tecnología QuímicaLínea de Investigación: Ingeniería, Ciencia de Datos y BioinformáticaClave Programa: DBICódigo Línea: 111Hoy en día, el volumen de datos está creciendo con rapidez en una multitud de campos científicos como, por ejemplo, el campo biomédico. Con el aumento continuo del tamaño de las bases de datos, muchos enfoques tradicionales para el análisis de datos biológicos y biomédicos tienen como importante desafío el analizar esta gran cantidad de datos dentro de un tiempo razonable. Por este motivo, es evidente la necesidad de desarrollar nuevos métodos computacionales que puedan soportar el volumen, la variedad, la velocidad y la veracidad que caracterizan a estos tipos de datos. Las técnicas de aprendizaje automático y, más concretamente, las técnicas de Biclustering, se han convertido en una herramienta esencial para el análisis de este tipo de datos en cualquier tipo de estudio. Las nuevas características que definen los tipos de datos citados anteriormente, así como las decisiones incorrectas a la hora de gestionar los recursos computacionales hardware y software, hacen que las técnicas de Biclustering no sean aún eficientes a pesar de haber realizado grandes avances durante los últimos años para acelerar su rendimiento computacional. Por otro lado, cuanto mayor sea el volumen de datos, mayor será el número de posibles soluciones. Por lo que, desde la perspectiva del usuario final, realizar un análisis o validación de una cantidad ingente de soluciones biológicas se vuelve extremadamente desafiante. Esta tesis presenta tres principales aportaciones denominadas biGO, gBiBit y gMSR. biGO es una herramienta web de análisis de enriquecimiento de genes que permite obtener y mejorar el conocimiento biológico útil a partir de un conjunto de biclusters de entrada. Una de las mejoras de conocimiento biológico útil radica en que a través de un análisis visual, en forma de grafo interactivo, podemos determinar conexiones funcionales no sólo a nivel de términos biológicos de un mismo bicluster, sino, conocer las interconexiones funcionales entre los múltiples biclusters que intervienen en el experimento. El segundo trabajo denominado gBiBit es un algoritmo de Biclustering que ha sido diseñado para utilizar al máximo los recursos computacionales que ofrece un clúster de dispositivos GPU. El uso de dispositivos GPU ofrece una mejora sustancial del rendimiento computacional, pero, por su tecnología, no garantiza que puedan procesar grandes conjuntos de datos. El algoritmo que se presenta en esta tesis ha elaborado una metodología que no sólo permite ofrecer resultados en un tiempo razonable sino que es capaz de procesar grandes conjuntos de datos superando las limitaciones de estos dispositivos y que en otros trabajos sí que se ven representados. gMSR es una versión de la medida de proximidad MSR y que utiliza un clúster de dispositivos GPU para acelerar el rendimiento computacional de la medida original y ser capaz de validar la bondad de una cantidad ingente de biclusters. Hasta donde sabemos, esta tecnología aún no ha sido utilizada en ninguna técnica de validación de biclusters. Gracias a los trabajos propuestos, esta tesis doctoral aporta a la comunidad científica un mayor conocimiento sobre cómo los métodos computacionales deben adaptarse para permitir generar sus resultados en un tiempo razonable a partir de grandes conjuntos de datos biomédicos. Por otro lado, existen tecnologías de computación de alto rendimiento (HPC) que hasta ahora únicamente fueron utilizados para acelerar el rendimiento computacional de estos métodos computacionales como, por ejemplo, los dispositivos GPU. En esta tesis doctoral, se demuestra cómo los dispositivos GPU pueden ser igualmente utilizados para que los métodos computacionales puedan estos grandes conjuntos de datos biomédicos.Universidad Pablo de Olavide de Sevilla. Departamento de Deporte e Informátic
    corecore