8 research outputs found

    A guided network propagation approach to identify disease genes that combines prior and new information

    Full text link
    A major challenge in biomedical data science is to identify the causal genes underlying complex genetic diseases. Despite the massive influx of genome sequencing data, identifying disease-relevant genes remains difficult as individuals with the same disease may share very few, if any, genetic variants. Protein-protein interaction networks provide a means to tackle this heterogeneity, as genes causing the same disease tend to be proximal within networks. Previously, network propagation approaches have spread signal across the network from either known disease genes or genes that are newly putatively implicated in the disease (e.g., found to be mutated in exome studies or linked via genome-wide association studies). Here we introduce a general framework that considers both sources of data within a network context. Specifically, we use prior knowledge of disease-associated genes to guide random walks initiated from genes that are newly identified as perhaps disease-relevant. In large-scale testing across 24 cancer types, we demonstrate that our approach for integrating both prior and new information not only better identifies cancer driver genes than using either source of information alone but also readily outperforms other state-of-the-art network-based approaches. To demonstrate the versatility of our approach, we also apply it to genome-wide association data to identify genes functionally relevant for several complex diseases. Overall, our work suggests that guided network propagation approaches that utilize both prior and new data are a powerful means to identify disease genes.Comment: RECOMB202

    Advances in computational methods for identifying cancer driver genes

    Get PDF
    Cancer driver genes (CDGs) are crucial in cancer prevention, diagnosis and treatment. This study employed computational methods for identifying CDGs, categorizing them into four groups. The major frameworks for each of these four categories were summarized. Additionally, we systematically gathered data from public databases and biological networks, and we elaborated on computational methods for identifying CDGs using the aforementioned databases. Further, we summarized the algorithms, mainly involving statistics and machine learning, used for identifying CDGs. Notably, the performances of nine typical identification methods for eight types of cancer were compared to analyze the applicability areas of these methods. Finally, we discussed the challenges and prospects associated with methods for identifying CDGs. The present study revealed that the network-based algorithms and machine learning-based methods demonstrated superior performance

    Network Approaches to the Study of Genomic Variation in Cancer

    Get PDF
    Advances in genomic sequencing technologies opened the door for a wider study of cancer etiology. By analyzing datasets with thousands of exomes (or genomes), researchers gained a better understanding of the genomic alterations that confer a selective advantage towards cancerous growth. A predominant narrative in the field has been based on a dichotomy of alterations that confer a strong selective advantage, called cancer drivers, and the bulk of other alterations assumed to have a neutral effect, called passengers. Yet, a series of studies questioned this narrative and assigned potential roles to passengers, be it in terms of facilitating tumorigenesis or countering the effect of drivers. Consequently, the passenger mutational landscape received a higher level of attention in attempt to prioritize the possible effects of its alterations and to identify new therapeutic targets. In this dissertation, we introduce interpretable network approaches to the study of genomic variation in cancer. We rely on two types of networks, namely functional biological networks and artificial neural nets. In the first chapter, we describe a propagation method that prioritizes 230 infrequently mutated genes with respect to their potential contribution to cancer development. In the second chapter, we further transcend the driver-passenger dichotomy and demonstrate a gradient of cancer relevance across human genes. In the last two chapters, we present methods that simplify neural network models to render them more interpretable with a focus on functional genomic applications in cancer and beyond

    Discovery of tissue specific network properties associated with cancer driver genes

    Get PDF
    Tese de Mestrado em Bioquímica, Faculdade de Ciências, Universidade de Lisboa, 2022Using the notion of disease modules, network medicine has effectively identified diseaseassociated genes in recent years. In biological networks, genes linked to a particular illness tend to interact closely [1]. These networks allow both physical and functional connections between biomolecules to be identified, resulting in a map of cell components and processes that constitute biological systems [2]. Not all disease-associated genes, however, have a major impact on disease phenotype. The discovery of important genes able to produce or change disease phenotype paves the path to new therapies and a personalized medicine strategy. Recent research has found that biological network topological features per se may accurately predict perturbation effects in a dynamical model of the system with a 65-80% accuracy [3, 4]. Biological networks differ depending on whatever tissue or cell type is being studied. As a result, each gene's topological features and ability to impact the system may alter [5]. The main goal of this thesis is to discover network topological parameters associated with influential cancer driver genes using context specific networks. In order to achieve this, we evaluated local network features around each driver gene across multiple tissue specific networks, including tissues that are affected in the disease and others where the gene perturbation has no significant effect. We aimed to identify topological parameters and its characteristics contributing to the cancer driver gene’s influential role. The results of this dissertation point out that several topological parameters can be used to determine cancer “driver” genes. We found that these genes have higher values of topological parameters, such as Degree or Closeness, in tissues where they tend to cause cancer. We also found that this difference is present in oncogenes and tumor suppressor genes. Another factor that we found to influence the value of topological parameters is the number of tissues in which these genes cause the disease. There is an increasing trend of topological parameter values with the increase of the number of tissues in which they cause cancer. Together, these results support the significant association of topological parameters like the Degree with the influential role of a driver gene in cancer.Usando a noção de módulos de doença, a medicina de redes identificou eficazmente nos últimos anos genes associados a doenças. Nas redes biológicas, os genes ligados a uma determinada doença tendem a interagir proximamente [1] . Essas redes permitem que conexões físicas e funcionais entre biomoléculas sejam identificadas, resultando num mapa de componentes celulares e processos que constituem sistemas biológicos [2]. Nem todos os genes associados à doença, no entanto, têm um grande impacto no fenótipo da doença. A descoberta de genes importantes capazes de produzir ou alterar o fenótipo da doença abre caminho para novas terapias e uma estratégia de medicina personalizada. Pesquisas recentes descobriram que as características topológicas da rede biológica podem prever com precisão os efeitos de perturbação num modelo dinâmico do sistema com uma precisão de 65-80% [3, 4]. As redes biológicas diferem dependendo do tipo de tecido ou célula estudado. Como resultado, as características topológicas de cada gene e a capacidade de impactar o sistema podem ser alteradas [5]. O principal objetivo desta dissertação é descobrir parâmetros topológicos de rede associados a genes promotores de cancro usando redes específicas de tecido. Para conseguir isso, avaliamos as características da rede local em torno de cada gene promotor em várias redes específicas de tecidos, incluindo tecidos afetados pela doença e outros onde a perturbação do gene não tem efeito significativo. Deste modo, podemos identificar parâmetros topológicos e as características que contribuem para o papel influente dos genes promotores do cancro. Para atingir os nossos objetivos, começámos por construir e otimizar as nossas redes específicas de tecidos. Cada rede específica de tecido foi construída usando quatro bases de dados diferentes de interações proteína-proteína, vias de sinalização e fatores de transcrição. Tentámos quatro métodos diferentes de construir as redes, incluindo o uso do filtro de níveis de expressão génica acima de 0,1 e 5 transcritos por milhão em cada tecido. Construímos também uma matriz associando os genes promotores de cancro (retirados de uma base de dados online de genes promotores de cancro) aos tecidos onde provocam a doença. Cada gene promotor foi inserido em seis categorias diferentes de acordo com o número de tecidos onde provocam cancro, sendo a categoria seis aquela que inclui os genes que provocam a doença em seis ou mais tecidos. Começámos por comparar os valores dos parâmetros topológicos dos genes em tecidos onde estes provocam a doença versus os seus valores em tecidos onde não a provocam. Esses valores também foram comparados com uma lista de genes associados ao cancro (retirados de uma base de dados online de genes associados a doenças), mas não promotores de cancro, e uma lista de genes não associados a nenhuma doença. Este estudo foi feito sobre os quatro diferentes métodos de construção de rede. Continuámos o estudo observando como os parâmetros topológicos mostraram diferenças ao nível do tecido. Analisámos em cada tecido os valores dos parâmetros topológicos dos genes promotores que causam a doença num determinado tecido versus os valores dos genes que não causam doença naquele tecido. Depois de comparar os valores dos parâmetros topológicos usando todos os genes promotores juntos num grupo global, queríamos verificar se a diferença entre os valores destes nos tecidos onde causam cancro versus os valores nos tecidos onde não provocam a doença, também estava presente dentro das categorias do número de tecidos onde os genes promotores causam cancro e como esses valores aumentam ou diminuem ao longo dessas categorias. Avaliamos em seguida o impacto combinado dos valores dos parâmetros topológicos (selecionando o parâmetro topológico “Degree”) de genes promotores de cancro em tecidos onde causam doença versus onde não causam e também a diferença entre estes ao longo das seis diferentes categorias de número de tecidos onde provocam cancro, usando um Modelo Linear Generalizado (GLM) para avaliar a interação desses fatores. Da base de dados de onde retiramos a lista de genes promotores de cancro, também retiramos uma lista de oncogenes e genes supressores de tumor que usámos para avaliar também as diferenças dos valores dos seus parâmetros topológicos nos tecidos onde causam cancro versus os tecidos onde não causam. A fim de avaliar outras variáveis que possam ter impacto para além dos parâmetros topológicos e que possam também diferir dependendo do número de tecidos onde os genes “drivers” causam a doença, usamos os dados da base de dados de onde retiramos os genes promotores que incluíam informações sobre o número de interações que cada gene promotor estabelece com diferentes miRNA e sobre o número de complexos proteicos que estes genes integram. Também avaliamos o impacto da expressão génica nas diferentes categorias de número de tecidos. Por fim, enriquecemos funcionalmente os genes promotores de cancro, usando dois métodos diferentes. No primeiro método usamos os genes que tinham uma diferença topológica maior (para este estudo usamos apenas o parâmetro topológico “Degree”) entre os tecidos onde causam ou não cancro. Classificamos cada gene como positivo, negativo e não significativo com base na diferença entre o valor médio do “Degree” nos tecidos onde causam cancro versus o valor nos tecidos onde não causam. O segundo método foi o enriquecimento dos diferentes genes promotores de cancro de acordo com o número de tecidos que causam cancro. Fizemos esse estudo usando as diferentes categorias de número de tecidos. Globalmente, os nossos resultados sugerem que os valores dos parâmetros topológicos (por exemplo, “Degree“ e “Closeness”) tendem a ser maiores nos tecidos em que os genes promoteres de cancro provocam a doença ( “Tissue Drivers”), seguidos pelos valores dos genes de cancro que são não promotores de cancro mas estão associados ao desenvolvimento da doença (“Disease Genes”), os valores dos genes promotores de cancro nos tecidos onde não causam cancro (“NonTissueDrivers”) e por último, com os menores valores de parâmetros topológicos, os genes que não estão associados a qualquer doença. A diferença entre os valores dos parâmetros topológicos nos “TissueDrivers” versus “NonTissueDrivers” é estatisticamente significativa na maioria dos parâmetros topológicos testados e nos diferentes métodos de rede utilizados, exceto no método “JustHuRiTPM5Zminmax” (usando apenas a base de dados Huri). Quando analisámos em cada tecido os valores dos parâmetros topológicos, pudemos ver que os valores de “Degree” tendem a ser maiores nos genes promotores de cancro que causam cancro naquele tecido em comparação com os genes promotores que não provocam cancro nesse tecido. Essa diferença é estatisticamente significativa em muitos dos tecidos analisados. Em relação a como os valores dos parâmetros topológicos se comportam ao longo das diferentes categorias associadas ao número de tecidos em que os genes promotores causam cancro, descobrimos que nos genes promotores de cancro que causam doença em apenas em um e dois tecidos, o valor do “Degree” nos tecidos onde causam cancro é menor que o valor apresentado nos tecidos onde não causam cancro. Observamos a tendência inversa nos genes promotores que causam cancro em seis ou mais tecidos (o valor do “Degree” é maior nos tecidos onde causam cancro). Observamos também que o valor do “Degree” aumenta gradativamente ao longo do número da categoria de tecidos, atingindo o valor mais alto na categoria seis (constituída por genes promotores que provocam cancro em seis ou mais tecidos). No modelo linear generalizado (GLM), pudemos ver o efeito combinado da variável tipo de tecido (onde o gene promotor provoca ou não cancro, mostrando uma diferença estatisticamente significativa entre estas duas situações) e da variável número de tecidos onde os genes promotores provocam cancro (mostrando também uma valor estatisticamente significativo entre as diferentes categorias). A interação entre esses dois fatores também foi estatisticamente significativa. Também pudemos observar valores de “Degree” estatisticamente diferentes entre os genes promotores supressores de tumor nos tecidos que causam cancro (com valores mais altos) e os valores nos tecidos onde não causam. Vimos também a mesma diferença nos Oncogenes, mas com menor significância. Os valores do “Degree” nos genes Supressores de Tumores foram inferiores aos valores do “Degree” apresentados pelos Oncogenes. Pudemos igualmente ver uma clara tendência de correlação entre o aumento do número de tecidos com o aumento do número de complexos que os genes promotores de cancro integram. O mesmo comportamento foi observado em relação ao número de miRNAs com os quais os genes promotores interagem. Em relação à expressão do mRNA ao longo das categorias de número de tecidos, pudemos ver uma diferença estatisticamente significativa nas categorias dois e três entre os valores dos genes promotores(em relação ao parâmetro topológico “Degree”) nos tecidos onde causam cancro versus onde não causam. Finalmente, no estudo de enriquecimento de funções pudemos ver que os processos biológicos, funções moleculares e componentes celulares que obtivemos enriquecidos usando o método das diferentes categorias de número de tecidos estão muito mais relacionados com os processos de cancro baseados na literatura (“hallmarks of cancer”). Não conseguimos encontrar uma divisão muito clara entre funções biológicas enriquecidas que tiveram uma diferença de z-score do “Degree” acima de 1 e aqueles com diferença abaixo de -1. Não encontramos nenhum processo de enriquecimento funcional relevante em nenhum desses dois grupos de genes e que de alguma forma os pudesse distinguir entre si. Os resultados desta dissertação apontam para que vários parâmetros topológicos possam estar associados a genes promotores de cancro. Verificámos que estes genes têm valores de parâmetros topológicos, como o Degree ou Closeness, mais elevados nos tecidos onde tendencionalmente provocam cancro. Verificámos também que esta diferença está presente nos oncogenes e nos genes supressores de tumor. Outro fator que verificamos influenciar o valor dos parâmetros topológicos, é o número de tecidos em que estes genes provocam a doença. Há uma tendência crescente do valor topológico com um número de tecidos em que provocam cancro

    Network-Based Coverage of Mutational Profiles Reveals Cancer Genes

    No full text
    A central goal in cancer genomics is to identify the somatic alterations that underpin tumor initiation and progression. While commonly mutated cancer genes are readily identifiable, those that are rarely mutated across samples are difficult to distinguish from the large numbers of other infrequently mutated genes. We introduce a method, nCOP, that considers per-individual mutational profiles within the context of protein-protein interaction networks in order to identify small connected subnetworks of genes that, while not individually frequently mutated, comprise pathways that are altered across (i.e., “cover”) a large fraction of individuals. By analyzing 6,038 samples across 24 different cancer types, we demonstrate that nCOP is highly effective in identifying cancer genes, including those with low mutation frequencies. Overall, our work demonstrates that combining per-individual mutational information with interaction networks is a powerful approach for tackling the mutational heterogeneity observed across cancers
    corecore