10 research outputs found

    Random walks on mutual microRNA-target gene interaction network improve the prediction of disease-associated microRNAs

    Get PDF
    Background: MicroRNAs (miRNAs) have been shown to play an important role in pathological initiation, progression and maintenance. Because identification in the laboratory of disease-related miRNAs is not straightforward, numerous network-based methods have been developed to predict novel miRNAs in silico. Homogeneous networks (in which every node is a miRNA) based on the targets shared between miRNAs have been widely used to predict their role in disease phenotypes. Although such homogeneous networks can predict potential disease-associated miRNAs, they do not consider the roles of the target genes of the miRNAs. Here, we introduce a novel method based on a heterogeneous network that not only considers miRNAs but also the corresponding target genes in the network model. Results: Instead of constructing homogeneous miRNA networks, we built heterogeneous miRNA networks consisting of both miRNAs and their target genes, using databases of known miRNA-target gene interactions. In addition, as recent studies demonstrated reciprocal regulatory relations between miRNAs and their target genes, we considered these heterogeneous miRNA networks to be undirected, assuming mutual miRNA-target interactions. Next, we introduced a novel method (RWRMTN) operating on these mutual heterogeneous miRNA networks to rank candidate disease-related miRNAs using a random walk with restart (RWR) based algorithm. Using both known disease-associated miRNAs and their target genes as seed nodes, the method can identify additional miRNAs involved in the disease phenotype. Experiments indicated that RWRMTN outperformed two existing state-of-the-art methods: RWRMDA, a network-based method that also uses a RWR on homogeneous (rather than heterogeneous) miRNA networks, and RLSMDA, a machine learning-based method. Interestingly, we could relate this performance gain to the emergence of "disease modules" in the heterogeneous miRNA networks used as input for the algorithm. Moreover, we could demonstrate that RWRMTN is stable, performing well when using both experimentally validated and predicted miRNA-target gene interaction data for network construction. Finally, using RWRMTN, we identified 76 novel miRNAs associated with 23 disease phenotypes which were present in a recent database of known disease-miRNA associations. Conclusions: Summarizing, using random walks on mutual miRNA-target networks improves the prediction of novel disease-associated miRNAs because of the existence of "disease modules" in these networks

    Network propagation for GWAS analysis:a practical guide to leveraging molecular networks for disease gene discovery

    Get PDF
    MOTIVATION: Genome-wide association studies (GWAS) have enabled large-scale analysis of the role of genetic variants in human disease. Despite impressive methodological advances, subsequent clinical interpretation and application remains challenging when GWAS suffer from a lack of statistical power. In recent years, however, the use of information diffusion algorithms with molecular networks has led to fruitful insights on disease genes.RESULTS: We present an overview of the design choices and pitfalls that prove crucial in the application of network propagation methods to GWAS summary statistics. We highlight general trends from the literature, and present benchmark experiments to expand on these insights selecting as case study three diseases and five molecular networks. We verify that the use of gene-level scores based on GWAS P-values offers advantages over the selection of a set of 'seed' disease genes not weighted by the associated P-values if the GWAS summary statistics are of sufficient quality. Beyond that, the size and the density of the networks prove to be important factors for consideration. Finally, we explore several ensemble methods and show that combining multiple networks may improve the network propagation approach.</p

    Network propagation for GWAS analysis:a practical guide to leveraging molecular networks for disease gene discovery

    Get PDF
    MOTIVATION: Genome-wide association studies (GWAS) have enabled large-scale analysis of the role of genetic variants in human disease. Despite impressive methodological advances, subsequent clinical interpretation and application remains challenging when GWAS suffer from a lack of statistical power. In recent years, however, the use of information diffusion algorithms with molecular networks has led to fruitful insights on disease genes.RESULTS: We present an overview of the design choices and pitfalls that prove crucial in the application of network propagation methods to GWAS summary statistics. We highlight general trends from the literature, and present benchmark experiments to expand on these insights selecting as case study three diseases and five molecular networks. We verify that the use of gene-level scores based on GWAS P-values offers advantages over the selection of a set of 'seed' disease genes not weighted by the associated P-values if the GWAS summary statistics are of sufficient quality. Beyond that, the size and the density of the networks prove to be important factors for consideration. Finally, we explore several ensemble methods and show that combining multiple networks may improve the network propagation approach.</p

    Methods, tools, and computational environment for network-based analysis of biological data

    Get PDF
    Cancer currently affects more than 18 million persons world-wide annually. It is a leading cause of death and so far, only 60% cure rate can be reached within the most developed health care systems. The nature of cancer has been a mystery for centuries, until discoveries during recent decades shed light on the underlying molecular events. This depended on the progress in understanding cell and tissue biology, developments of molecular technologies and of -omics technologies. Cancer has then emerged as a highly heterogeneous disease, however with some very basic mechanistic features common to all cancers. To deal with the complexity of causes and consequences of pathological changes in the molecular machinery, methods and tools of network analysis can be helpful. Complexity of this task requires easy-to-use tools, which allow researchers and clinicians with no background in computer science to perform network analysis. Paper I describes a web-based framework for network enrichment analysis (NEA), using previously developed algorithm and code. The developed platform introduces functionality for a researcher to use data pre-downloaded from various popular databases as well as own data, perform NEA and obtain statistical estimations, export results in different formats for publications or further use in research pipeline. Paper II presents development of another web server, which provided vast opportunities for exploration and integrated analysis of multiple public cancer datasets that describe in vitro and in vivo sample collections. The web server linked molecular data at the single gene level, phenotype and pharmacological response variables, as well as pathway level variables calculated with NEA and connected to the framework presented in Paper I. Researchers can use the platform for creating multivariate models based on raw or pre-processed data from various sources, visualize created models, estimate their performance and compare them, export models for further usage in own research environments. Paper III demonstrates NEAdriver, a practical application of NEA to probabilistic evaluation of driver roles of mutations reported in ten cancer cohorts. NEAdriver results are compared with cancer gene sets produced by other, both network analysis and network-free methods. The paper demonstrated ability of NEA to be used directly for discovering novel driver genes as well as being used in combination with other methods. In order to demonstrate benefits of using NEA, some rare cancer types and types with low mutation burden were used. Paper IV is a manuscript evaluating performance of most representative methods of network analysis across methods’ parameters, functional ontologies and network versions. This study emphasizes discovery of novel functional associations for known genes, as opposed to previous tests dominated by a few “gold standard” genes which were well characterized previously. We performed the analysis in the context of various topological properties of networks, pathways of interest, and genes. It employed both existing, widely used topological metrics and a number of novel ones developed for this analysis

    Development of a machine learning-based pipeline able to predict genes associated with diseases and cell processes using interpretable network embeddings

    Get PDF
    Tese de Mestrado, Bioinformática e Biologia Computacional, 2022, Universidade de Lisboa, Faculdade de CiênciasA revolução tecnológica no mundo da sequenciação observada nas últimas duas décadas levou a um grande aumento no número de proteínas conhecidas. Porém, este aumento não foi correspondido com o aumento no seu número de anotações proteicas, em particular acerca do seu envolvimento em processos celulares e doenças. Atualmente, apenas cerca de 25% das proteínas humanas é conhecida por ter uma associação a uma doença. A lenta expansão de conhecimento destas associações deve-se essencialmente às técnicas experimentais necessárias para as descobrir, como por exemplo, estudos de ligação genética e genome-wide association studies, uma vez que falham quando aplicados a doenças heterogéneas, ou produzem números elevados de falsos positivos, respetivamente. Isto leva a um complexo processo de validação de resultados, que inevitavelmente desacelera o processo de anotação. O desenvolvimento de métodos capazes de produzir um número mais restrito de candidatos surge então como uma necessidade para a mais eficaz descoberta de associações, com vários tipos de métodos computacionais a terem sido desenvolvidos nas últimas décadas. Uma fração destes métodos foca-se no uso de redes. Os mecanismos de processos celulares e doenças surgem da coordenação de múltiplas proteínas que interagem fisicamente, formando módulos de doenças e de processos celulares numa rede de interações biológicas. As redes biológicas podem ser representadas sob a forma de grafos, objectos matemáticos que representam como um conjunto de entidades interage entre si. Os grafos são formados por um conjuntos de nós (ou vértices), ligados entre si por arestas, permitindo a fácil representação e análise de redes, como as de interação de proteínas. Estas redes podem então ser exploradas de forma a encontrar padrões de interação que caracterizem as proteínas que fazem parte de um determinado módulo, de modo a mais tarde expandir este conhecimento e encontrar novas proteínas candidatas que possam eventualmente estar associadas a esse mesmo módulo e ser experimentalmente validadas. A deteção dos padrões que caracterizam as proteínas associadas a cada módulo depende do uso de métricas capazes de discriminar as relações de interesse que cada proteína apresenta, podendo estas métricas ir desde a medição da distância de cada proteína ao módulo, ao uso de métodos mais complexos de difusão, tais como Random Walks with Restart. Muitos dos algoritmos já desenvolvidos focam-se no uso de métricas de proximidade, como o Closeness, que mede a centralidade de um determinado nó na rede, ou realizando um teste hipergeométrico de modo a analisar o enriquecimento de um nó em ligações com nós do módulo de interesse. A maioria dos algoritmos disponíveis na literatura baseia-se apenas na informação dada pela relação de cada nó com os nós do módulo em estudo, com uma minoria destes algoritmos a usar informação adicional de doenças fenotipicamente semelhantes. O mapeamento do interactoma humano ainda está por concluir, e, portanto, as redes de interação proteica usadas estão incompletas, faltando nós e arestas aos grafos contruídos. Para além disso, os processos de deteção de associações estão expostos à presença de falsos positivos. Tanto a incompletude das redes da interação como a presença de falsos positivos são fatores que podem afetar em larga escala as previsões de algoritmos que apenas se baseiam no próprio módulo, dificultando então o processo de seleção de novos candidatos. Será, portanto, interessante o desenvolvimento de um algoritmo capaz de usar uma maior fração dos dados ao seu dispor, sem depender do uso de informação, como a semelhança fenotípica, que permita uma maior precisão aquando da previsão de novos candidatos, mas também uma maior robustez sob a presença de alterações na rede de interação ou de anotações incorretas. Neste trabalho, é então proposto o desenvolvimento de um novo algoritmo para a previsão de novos candidatos associados com doenças ou processos celulares designado de Gene Annotation Prediction using Module-based Interpretable Network Embeddings (GAP-MINE). A maior contribuição deste algoritmo é o uso de network embeddings facilmente interpretáveis num contexto biológico. Network embeddings, são vetores usados para explicar a relação de cada nó da rede com os restantes através de um espaço multidimensional. Estes podem ser adaptados ao contexto de nosso problema, e assim explicar a relação que cada nó tem com cada módulo, criando, portanto, uma representação multidimensional que pode ser usada para descobrir os padrões que caracterizam as proteínas associadas a um determinado módulo, usando informação adicional contida no restante vetor. Para além disso, ao exprimirem a relação de cada nó com os diferentes módulos, estes vetores permitem uma melhor interpretação dos resultados, uma vez que permitem a análise dos módulos escolhidos. O algoritmo desenvolvido é composto por 6 passos que podem ser facilmente adaptados consoante a natureza do problema. Primeiramente, a rede de interação proteica foi construída utilizando as interações disponíveis na bases de dados APID e HuRI, juntamente com as anotações de associação de proteínas a processos e doenças, provenientes das bases de dados REACTOME e DisGeNET, respetivamente. A rede criada apresenta um total de 17 204 nós, ligados por 260 960 arestas. Foram criados três tipos de módulos: um de processos celulares, num total de 429, e dois do doença, que variam consoante a conectividade do módulo em si, porém tendo origem nos mesmo dados, totalizando um total de 203 aquando da utilização de módulos conectados, e de 301 aquando da utilização de módulos mais dispersos na rede. Cinco diferentes métricas foram, de seguida, aplicadas à rede (Hypergeometric Test, Closeness, Betweenness, Fraction Betweenness e Random Walks with Restart) sendo modificadas das suas formas normais de forma a explicar como cada nó se relaciona com os nós associados a um determinado módulo. Ao serem aplicadas aos diferentes módulos, é então formado um embedding para cada nó de dimensão igual ao número de módulos presentes na rede, resultando na matriz de embeddings de N vs. M dimensões, onde N é o número de nós da rede e M o número de módulos. À matriz é depois aplicado um passo de seleção, onde, para a classificação de um determinado módulo são selecionados os módulos que mais contribuem para a discriminação das proteínas associadas e não associadas ao mesmo. Tendo os módulos mais relevantes selecionados, os embeddings são fornecidos a um modelo de regressão logística, um algoritmo de classificação, que é treinado e otimizado com uma validação cruzada de 10 passos. Este algoritmo de classificação é depois avaliado usando um conjunto de teste, e aplicado para a totalidade dos dados de modo a prever as novas associações. Por fim, as associações previstas são validadas através comparação dos termos da Gene Ontology e da Human Phenotype Ontology (este último exclusivamente aplicado a proteínas de doença) em comum com os termos enriquecidos das proteínas do módulo alvo, e pela procura do identificador da proteína e do nome do módulo em títulos e resumos da literatura. O algoritmo GAP-MINE foi primeiramente comparado com um modelo padrão que apenas utiliza os valores obtidos para o módulo que se pretende classificar. Verificou-se que as Random Walks with Restart são as melhores métricas a ser usadas para a previsão de novas proteínas associadas aos módulos, obtendo valores medianos de F-Measure acima de 0.9 utilizando tanto o nosso algoritmo, como os modelos padrão. Comparando o nosso algoritmo com os modelos padrão, foi possível observar que foram obtidos resultados significativamente melhores em 2 dos 3 tipos de módulos aquando da utilização de tanto as Random Walks with Restart, como do Closeness como métricas, obtendo, no entanto, piores resultados usando Betweenness e Fraction Betweenness. Analisando as Random Walks with Restart em pormenor, foi possível verificar que a melhoria dos resultados obtidos se deveu a um aumento da precisão em todos os módulos, à custa de capturar um menor número de positivos. O mesmo comportamento foi verificado em testes feitos onde a rede utilizada foi alterada para simular casos de falta de informação ou da inclusão de falsos positivos. A combinação GAP-MINE com Random Walks with Restart foi também comparada com outros algoritmos já estabelecidos (GenePANDA, Raw e MaxLink), tendo sido observado que o nosso algoritmo é capaz de obter resultados significativamente melhores do que qualquer um dos três algoritmos. De forma geral, as previsões feitas pelo nosso algoritmo mostram-se enriquecidas em termos relevantes e relacionados com ostermos associados aos diferentes processos e doenças, tendo também sido possível verificar a presença na literatura de algumas das novas associações. Concluindo, o nosso algoritmo mostra-se ser uma alternativa capaz de prever novas associações entre proteínas e processos celulares/doenças, com uma melhoria de precisão, o que deverá facilitar o processo de validação experimental, e acelerar a descoberta de novas associações.The rapid growth of genomic sequences has expanded the number of known proteins, however, their annotation mapping to known diseases and cell processes is still trailing. Protein mapping relies on experimental methods, such as linkage mapping studies, that are both expensive and time-consuming, so computational methods have emerged as alternatives for candidate prioritization. Network-based algorithms are one kind of algorithm that has been developed for this purpose. Diseases and cell processes are resultant of the coordination of multiple physically interacting proteins, thus, biological networks can be used to search for new proteins that frequently interact with other disease or process associated proteins. Although several algorithms have been developed to tackle this problem, most of them do not use the full extent of available information within the network for their predictions, only relying on the known proteins associated with the disease/cell process of interest, or only using additional information from phenotypically similar diseases. Here we propose GAP-MINE, a network-based algorithm with module-based interpretable embeddings, that uses additional modules to improve the prediction of new gene annotations. GAP-MINE is an adaptable algorithm with diverse possibilities in each of its several steps, such as the use of different classification algorithms or different protein interaction networks. We applied GAP-MINE in the discovery of newly associated genes for a total of 429 processes and 301 diseases. Using Random Walks with Restart as the scoring function, GAP-MINE shows median F-Measure scores consistently above 0.9. Compared to baseline and literature algorithms, GAP-MINE not only shows significantly better results but is also more precise and robust to the addition of noise, with its candidates showing biologically relevant annotations. GAP-MINE is therefore a suitable algorithm for gene annotation prediction and could be used to narrow down the number of genes to validate experimentally

    Identifying disease-associated genes based on artificial intelligence

    Get PDF
    Identifying disease-gene associations can help improve the understanding of disease mechanisms, which has a variety of applications, such as early diagnosis and drug development. Although experimental techniques, such as linkage analysis, genome-wide association studies (GWAS), have identified a large number of associations, identifying disease genes is still challenging since experimental methods are usually time-consuming and expensive. To solve these issues, computational methods are proposed to predict disease-gene associations. Based on the characteristics of existing computational algorithms in the literature, we can roughly divide them into three categories: network-based methods, machine learning-based methods, and other methods. No matter what models are used to predict disease genes, the proper integration of multi-level biological data is the key to improving prediction accuracy. This thesis addresses some limitations of the existing computational algorithms, and integrates multi-level data via artificial intelligence techniques. The thesis starts with a comprehensive review of computational methods, databases, and evaluation methods used in predicting disease-gene associations, followed by one network-based method and four machine learning-based methods. The first chapter introduces the background information, objectives of the studies and structure of the thesis. After that, a comprehensive review is provided in the second chapter to discuss the existing algorithms as well as the databases and evaluation methods used in existing studies. Having the objectives and future directions, the thesis then presents five computational methods for predicting disease-gene associations. The first method proposed in Chapter 3 considers the issue of non-disease gene selection. A shortest path-based strategy is used to select reliable non-disease genes from a disease gene network and a differential network. The selected genes are then used by a network-energy model to improve its performance. The second method proposed in Chapter 4 constructs sample-based networks for case samples and uses them to predict disease genes. This strategy improves the quality of protein-protein interaction (PPI) networks, which further improves the prediction accuracy. Chapter 5 presents a generic model which applies multimodal deep belief nets (DBN) to fuse different types of data. Network embeddings extracted from PPI networks and gene ontology (GO) data are fused with the multimodal DBN to obtain cross-modality representations. Chapter 6 presents another deep learning model which uses a convolutional neural network (CNN) to integrate gene similarities with other types of data. Finally, the fifth method proposed in Chapter 7 is a nonnegative matrix factorization (NMF)-based method. This method maps diseases and genes onto a lower-dimensional manifold, and the geodesic distance between diseases and genes are used to predict their associations. The method can predict disease genes even if the disease under consideration has no known associated genes. In summary, this thesis has proposed several artificial intelligence-based computational algorithms to address the typical issues existing in computational algorithms. Experimental results have shown that the proposed methods can improve the accuracy of disease-gene prediction
    corecore