1,193 research outputs found

    Machine Learning and Integrative Analysis of Biomedical Big Data.

    Get PDF
    Recent developments in high-throughput technologies have accelerated the accumulation of massive amounts of omics data from multiple sources: genome, epigenome, transcriptome, proteome, metabolome, etc. Traditionally, data from each source (e.g., genome) is analyzed in isolation using statistical and machine learning (ML) methods. Integrative analysis of multi-omics and clinical data is key to new biomedical discoveries and advancements in precision medicine. However, data integration poses new computational challenges as well as exacerbates the ones associated with single-omics studies. Specialized computational approaches are required to effectively and efficiently perform integrative analysis of biomedical data acquired from diverse modalities. In this review, we discuss state-of-the-art ML-based approaches for tackling five specific computational challenges associated with integrative analysis: curse of dimensionality, data heterogeneity, missing data, class imbalance and scalability issues

    Multiple Imputation Ensembles (MIE) for dealing with missing data

    Get PDF
    Missing data is a significant issue in many real-world datasets, yet there are no robust methods for dealing with it appropriately. In this paper, we propose a robust approach to dealing with missing data in classification problems: Multiple Imputation Ensembles (MIE). Our method integrates two approaches: multiple imputation and ensemble methods and compares two types of ensembles: bagging and stacking. We also propose a robust experimental set-up using 20 benchmark datasets from the UCI machine learning repository. For each dataset, we introduce increasing amounts of data Missing Completely at Random. Firstly, we use a number of single/multiple imputation methods to recover the missing values and then ensemble a number of different classifiers built on the imputed data. We assess the quality of the imputation by using dissimilarity measures. We also evaluate the MIE performance by comparing classification accuracy on the complete and imputed data. Furthermore, we use the accuracy of simple imputation as a benchmark for comparison. We find that our proposed approach combining multiple imputation with ensemble techniques outperform others, particularly as missing data increases

    Dropout Model Evaluation in MOOCs

    Full text link
    The field of learning analytics needs to adopt a more rigorous approach for predictive model evaluation that matches the complex practice of model-building. In this work, we present a procedure to statistically test hypotheses about model performance which goes beyond the state-of-the-practice in the community to analyze both algorithms and feature extraction methods from raw data. We apply this method to a series of algorithms and feature sets derived from a large sample of Massive Open Online Courses (MOOCs). While a complete comparison of all potential modeling approaches is beyond the scope of this paper, we show that this approach reveals a large gap in dropout prediction performance between forum-, assignment-, and clickstream-based feature extraction methods, where the latter is significantly better than the former two, which are in turn indistinguishable from one another. This work has methodological implications for evaluating predictive or AI-based models of student success, and practical implications for the design and targeting of at-risk student models and interventions

    Binary similarity measures and mass-difference network analysis as effective tools in metabolomics data analysis

    Get PDF
    Tese de mestrado em Bioquímica (Bioquímica Médica), Universidade de Lisboa, Faculdade de Ciências, 2020A metabolómica é um campo emergente na biologia de sistemas que visa realizar uma análise global do metaboloma de um sistema biológico ao identificar e quantificar todos os seus metabolitos. Devido à alta diversidade na concentração, estrutura e caraterísticas químicas dos metabolitos, esta é uma tarefa complexa que requer a utilização de metodologias de alta resolução como espetrometria de massa (MS, Mass Spectrometry) ou ressonância magnética nuclear (NMR, Nuclear Magnetic Resonance). Apesar destes métodos não identificarem todos os metabolitos presentes num sistema (devido a limitações na gama dinâmica dos instrumentos utilizados e a preferência de cada abordagem para certos tipos de metabolitos), estes oferecem uma visão aproximada do metaboloma completo. A complexidade dos dados obtidos requerem primeiro um pré-processamento e depois um pré tratamento adequados para extrair a informação presente. Assim, ambas estas etapas são cruciais no fluxo normal de trabalho em metabolómica e, como tal, devem ser ponderados e escolhidos cuidadosamente. Sendo que muitos factores afectam significativamente o metaboloma de um sistema biológico, dados de metabolómica têm sido usados com sucesso na discriminação de amostras de diferentes sistemas e para a identificação de metabolitos chave que suportam esta discriminação, através de variados métodos estatísticos. O pré-processamento gera um conjunto de dados 2D com caraterísticas (normalmente picos m/z em análise MS) num eixo e amostras no outro. Na formação destes dados surgem valores em falta – amostras que não têm caraterísticas presentes noutras amostras. Sendo que diversos métodos estatísticos não suportam a existência de valores em falta, são aplicados métodos de filtração de picos para reduzir o número destes; seguidos da aplicação de um método de imputação dos valores em falta que restam após filtração. A análise de dados procede com a aplicação de pré-tratamentos que podem ser divididos em três sub-categorias – normalizações (incluído às vezes no pré-processamento), transformações e scaling. Uma combinação de métodos destas categorias é utilizado para extrair e destacar a variação biológica significativa entre as amostras. Contudo, todos estes métodos tradicionais destacam os padrões de intensidades entre as caraterísticas em detrimento de outras informações importantes no contexto da metabolómica como a presença e ausência destas nas amostras. Um possível problema desta utilização para a análise de dados de metabolómica é a intensidade ter uma variabilidade elevada mesmo entre amostras do mesmo grupo. Esta variabilidade aumenta ainda mais quando analisadas em lotes experimentais diferentes, instrumentos diferentes com preparação de amostras diferentes, métodos ou parâmetros de pré processamento diferentes, entre outros, originando uma baixa reprodutibilidade dos dados. A dificuldade da identificação estrutural inequívoca dos metabolitos chave na discriminação de grupos coloca-se como outro problema na análise de dados. O objetivo deste trabalho foi desenvolver duas novas abordagens para a análise computacional de dados de metabolómica, no contexto da caraterização e discriminação de amostras biológicas. Estes tratamentos descartam a informação de sinais da intensidade predominantemente utilizada pelos métodos de tratamento estabelecidos, de forma a evitar a elevada variabilidade desta, concentrando-se noutros aspectos dos dados, o que deve oferecer uma nova perspetiva sobre estes. Como parte deste desenvolvimento, uma avaliação sistemática da performance destes tratamentos para um set seleccionado de conjuntos de dados de MS de alta resolução foi outro objetivo principal do trabalho. Três combinações de métodos de pré-tratamento tradicionais foram comparadas na análise de resultados: 1) Pareto scaling; 2) Normalização por uma caraterística de referência e Pareto scaling; 3) Normalização, transformação logarítmica generalizada e Pareto scaling. Foram utilizados dois conjuntos de dados metabolómica de videira (Vitis) contendo 3 réplicas de 11 variedades cada – um obtido por electrospray em modo negativo de ionização (ESI- ) e outro em modo positivo de ionização (ESI+ ) – e um conjunto de dados de 3 réplicas de 5 estirpes de leveduras, utilizando ou a lista de picos m/z ou fórmulas atribuídas aos picos (quando possível) como caraterísticas. Semelhança binária (BinSim, Binary Similarity) é a primeira abordagem desenvolvida, sendo baseada no conceito de considerar exclusivamente a ocorrência de características espectrais. A ideia é que o conjunto de metabolitos identificados por métodos de alta resolução é caraterístico dos diferentes sistemas e pode ser utilizado para os discriminar, conseguindo obter resultados mais consistentes devido à menor variabilidade da identificação de metabolitos em relação à informação dos sinais de intensidade (descartada). Este método consiste na construção de um vector binário para cada amostra que codifica a presença de uma caraterística como 1 e ausência como 0 que pode ser usado para transformar os dados antes da aplicação de métodos estatísticos para caraterizar e classificar amostras. A simplicidade deste método encontra-se no facto de que necessita (e até prefere) pouca filtração de picos e de que salta a escolha dos métodos de imputação de valores em falta e combinação de normalizações, transformações e scaling a usar, acelerando a análise de dados. Utilizando métodos de agrupamento de amostras (não supervisionados) e modelos de classificação (supervisionados), a qualidade da discriminação das amostras nos seus respetivos grupos em dados transformados com BinSim foi consistentemente semelhante ou ligeiramente melhor do que quando tratados com tratamentos baseados em intensidade, levando, quase sempre, à melhor ou segunda melhor discriminação (dos 4 tratamentos comparados). Uma discriminação perfeita foi atingida nos dados da levedura em todos os métodos estatísticos usados; nos dados da videira, métodos não supervisionados agruparam corretamente cerca de metade dos grupos e os métodos de classificação supervisionados (Random Forest e Partial Least Squares - Discrimination Analysis, PLS-DA) previram com cerca de 80% de precisão os grupos das amostras. Para observar se esta discriminação era obtida por informação menos usada pelos métodos tradicionais, retirou-se os 2% de caraterísticas consideradas mais importantes para construir os modelos de classificação de Random Forest e de PLS-DA dos dados tratados das diferentes formas. Este conjunto de caraterísticas importantes nos dados tratados com o BinSim é muito distinto, tendo um grande número de caraterísticas apenas presentes neste (73,5% em média) em comparação com os conjuntos obtidos dos modelos construídos de dados tratados de forma diferente. Além disso, estas apareciam num pequeno número de grupos (em comparação com os restantes casos), ou seja, eram caraterísticas com muitos valores em falta e que, por isso, são muitas vezes filtradas. Nas caraterísticas importantes para construir modelos Random Forest nos dados da levedura, esta tendência foi mais acentuada com características importantes a aparecerem predominantemente apenas num grupo, ou seja, a atuarem como biomarcadores desse grupo nos dados estudados. Conclui-se, então, que a informação obtida por este tratamento é distinta em relação aos outros tratamentos baseados em intensidade no fluxo de trabalho da metabolómica. A segunda abordagem consiste em construir uma rede de diferença de massas (MDiN, Mass Difference Network) para cada amostra de um conjunto de dados e discriminar estas pela comparação das suas caraterísticas. MDiN foi um conceito originalmente desenvolvido por Breitling et al. que usa a lista de massas de dados de metabolómica como vértices/nós na rede e um conjunto de diferença de massas que estabelece arestas entre os vértices com diferenças que se enquadram nesse conjunto. Cada diferença de massa (MDB, Mass-Difference-based Building block) corresponde a uma diferença na fórmula elementar de um metabolito após a ocorrência de uma reação bioquímica comum (enzimática ou não enzimática). Assim, para cada amostra, forma-se uma rede semelhante, conceptualmente, às redes metabólicas mas gerada apenas pela informação do conjunto de dados. Cada rede tem a informação das possíveis transformações biologicamente significativas entre os metabolitos presentes que podem ocorrer num contexto biológico, enfatizando, a presença destas interações sobre a intensidade de cada caraterística. Apesar da complexidade, as redes construídas podem ser analisadas e comparadas de inúmeras formas diferentes, mostrando ter uma grande versatilidade no modo como podem ser usadas, sendo esta a principal vantagem do método. As redes construídas foram analisadas por diferentes métodos de análise de redes: focadas na centralidade dos nós (grau, intermediação e proximidade), ou nas caraterísticas globais das redes como no número de vezes que cada MDB foi usada para estabelecer arestas e na topologia da rede (usando o GCD-11, Graphlet Correlation Distance using 11 graphlet orbits). Comparando os resultados das análises por variados métodos estatísticos, a análise da centralidade dos nós, especificamente do grau, permitiu a melhor discriminação das amostras nos seus grupos. Resultados indicaram que a análise de cada nó pelas suas possíveis interações permite uma discriminação dos grupos semelhante à alcançada quando os dados são tratados com os tratamentos tradicionais mencionados anteriormente. Contudo, a análise das caraterísticas globais das redes deu indicações que poderá demonstrar diferenças importantes e biologicamente significativas gerais do metabolismo ao nível da proeminência de diferentes tipos de reações no sistema. Conclui-se, então, que ambas as abordagens são viáveis na análise de dados de metabolómica, extraindo informação que pode ser utilizada para discriminar as amostras dos conjuntos de dados. A sua diferente perspetiva também permite que sejam usados numa análise que complemente a de outros tratamentos. Ainda mais, como estes tratamentos enfatizam informação com menos variabilidade do que a intensidade, têm um grande potencial na análise de múltiplos conjuntos de dados obtidos com diferentes instrumentos, laboratórios, entre outras hipóteses dos mesmos grupos biológicos, abrindo portas para estudos futuros que se possam focar na viabilidade destas estratégias neste contexto.Metabolomics is an emerging field in systems biology that aims to perform a comprehensive analysis of a biological system’s metabolome by identifying and quantifying all its metabolites. Due to their high diversity in concentration, structure and chemical characteristics, this is an extremely complex task which requires high resolution methodologies such as mass spectrometry (MS) or nuclear magnetic resonance (NMR) to provide an approximated overview of the metabolome. These analyses also generate complex data, which, in turn, requires first suitable pre-processing and then pre-treatment to be properly analysed – crucial steps in the workflow that must be pondered and carefully applied. Since there are many factors that significantly affect the metabolome, metabolomics data obtained from different sources and conditions has successfully been used to discriminate samples of biological systems and to find key metabolites supporting that discrimination. The pre-processing of the data generates a 2D-dataset with features (usually m/z peaks for MS analysis) on one axis and samples on the other. Subsequent data analysis aims to extract and highlight the significant biological variation between samples over the background variation in the data. Traditional data analysis in metabolomics focuses primarily on the comparison of intensity of the features in the samples rather than on information such as their presence/absence in each sample. However, a major problem of this analysis is the high variability of the intensity data between different samples (even of the same biological system) when analysed in different experimental batches, instruments, pre-processed with different methods or parameters, etc., which leads to a low level of reproducibility. Another bottleneck is the unambiguous structural identification of the metabolites that can be key in discriminating between the studied systems. The aim of this work was to develop two new approaches for the computational analysis of metabolomics data, in the context of profiling and discrimination of biological samples. As part of this development, a systematic evaluation of their performance when compared to more established methods for selected high-resolution MS datasets was also a major goal. The first approach is based on the concept of considering only the occurrence of spectral features to construct a binary sample vector encoding feature presence as 1 and absence as 0. The use of such data encoding, followed by the adoption of binary metrics of sample distance, can be used as a pre-treatment method to transform data before the application of unsupervised and supervised methods related to profiling and classification. While using such pre-treatment, called Binary Similarity (BinSim) effectively discards information contained in the metabolite signal intensities, the resulting data has less variability than intensity data and more consistent results on the discrimination of biological systems can be obtained. Furthermore, BinSim greatly simplifies the analysis by skipping most of the peak filtering, and the choice of the missing value imputation, normalization and scaling methods to use. The performance of statistical methods in discriminating the datasets transformed with BinSim was consistently as good as or slightly better than datasets treated with different combinations of traditional, intensity-based, pre-treatments. In the former, features that appeared in one (biomarker like) or a few of the groups were the most important to build discriminant classifiers, which was markedly different from those computed from datasets treated in traditional ways, emphasizing the new perspective that BinSim offers. The second approach is based on the construction of a Mass-Difference Network (MDiN) for each sample, using masses as nodes and a set of mass differences derived from common biochemical reactions to establish edges. The information in the network is the possible transformations between the identified metabolites that could happen in a biological context. Results from different network analysis on sample MDiNs were compared using statistical methods to discriminate the samples into their respective groups. Analysis that focused on node centrality measures, especially their degree, allowed a better discrimination of the samples compared to analysis focused on global network characteristics and was on par with the discrimination achieved in the same datasets treated with more established intensity-based methods, while offering the versatility of other network analysis methods on the sample MDiNs to complement the discrimination

    On the role of pre and post-processing in environmental data mining

    Get PDF
    The quality of discovered knowledge is highly depending on data quality. Unfortunately real data use to contain noise, uncertainty, errors, redundancies or even irrelevant information. The more complex is the reality to be analyzed, the higher the risk of getting low quality data. Knowledge Discovery from Databases (KDD) offers a global framework to prepare data in the right form to perform correct analyses. On the other hand, the quality of decisions taken upon KDD results, depend not only on the quality of the results themselves, but on the capacity of the system to communicate those results in an understandable form. Environmental systems are particularly complex and environmental users particularly require clarity in their results. In this paper some details about how this can be achieved are provided. The role of the pre and post processing in the whole process of Knowledge Discovery in environmental systems is discussed

    Predictive Modelling Approach to Data-Driven Computational Preventive Medicine

    Get PDF
    This thesis contributes novel predictive modelling approaches to data-driven computational preventive medicine and offers an alternative framework to statistical analysis in preventive medicine research. In the early parts of this research, this thesis presents research by proposing a synergy of machine learning methods for detecting patterns and developing inexpensive predictive models from healthcare data to classify the potential occurrence of adverse health events. In particular, the data-driven methodology is founded upon a heuristic-systematic assessment of several machine-learning methods, data preprocessing techniques, models’ training estimation and optimisation, and performance evaluation, yielding a novel computational data-driven framework, Octopus. Midway through this research, this thesis advances research in preventive medicine and data mining by proposing several new extensions in data preparation and preprocessing. It offers new recommendations for data quality assessment checks, a novel multimethod imputation (MMI) process for missing data mitigation, a novel imbalanced resampling approach, and minority pattern reconstruction (MPR) led by information theory. This thesis also extends the area of model performance evaluation with a novel classification performance ranking metric called XDistance. In particular, the experimental results show that building predictive models with the methods guided by our new framework (Octopus) yields domain experts' approval of the new reliable models’ performance. Also, performing the data quality checks and applying the MMI process led healthcare practitioners to outweigh predictive reliability over interpretability. The application of MPR and its hybrid resampling strategies led to better performances in line with experts' success criteria than the traditional imbalanced data resampling techniques. Finally, the use of the XDistance performance ranking metric was found to be more effective in ranking several classifiers' performances while offering an indication of class bias, unlike existing performance metrics The overall contributions of this thesis can be summarised as follow. First, several data mining techniques were thoroughly assessed to formulate the new Octopus framework to produce new reliable classifiers. In addition, we offer a further understanding of the impact of newly engineered features, the physical activity index (PAI) and biological effective dose (BED). Second, the newly developed methods within the new framework. Finally, the newly accepted developed predictive models help detect adverse health events, namely, visceral fat-associated diseases and advanced breast cancer radiotherapy toxicity side effects. These contributions could be used to guide future theories, experiments and healthcare interventions in preventive medicine and data mining

    Machine Learning Methods To Identify Hidden Phenotypes In The Electronic Health Record

    Get PDF
    The widespread adoption of Electronic Health Records (EHRs) means an unprecedented amount of patient treatment and outcome data is available to researchers. Research is a tertiary priority in the EHR, where the priorities are patient care and billing. Because of this, the data is not standardized or formatted in a manner easily adapted to machine learning approaches. Data may be missing for a large variety of reasons ranging from individual input styles to differences in clinical decision making, for example, which lab tests to issue. Few patients are annotated at a research quality, limiting sample size and presenting a moving gold standard. Patient progression over time is key to understanding many diseases but many machine learning algorithms require a snapshot, at a single time point, to create a usable vector form. In this dissertation, we develop new machine learning methods and computational workflows to extract hidden phenotypes from the Electronic Health Record (EHR). In Part 1, we use a semi-supervised deep learning approach to compensate for the low number of research quality labels present in the EHR. In Part 2, we examine and provide recommendations for characterizing and managing the large amount of missing data inherent to EHR data. In Part 3, we present an adversarial approach to generate synthetic data that closely resembles the original data while protecting subject privacy. We also introduce a workflow to enable reproducible research even when data cannot be shared. In Part 4, we introduce a novel strategy to first extract sequential data from the EHR and then demonstrate the ability to model these sequences with deep learning
    corecore