304 research outputs found

    ChiPPI: a novel method for mapping chimeric protein–protein interactions uncovers selection principles of protein fusion events in cancer

    Get PDF
    Fusion proteins, comprising peptides deriving from the translation of two parental genes, are produced in cancer by chromosomal aberrations. The expressed fusion protein incorporates domains of both parental proteins. Using a methodology that treats discrete protein domains as binding sites for specific domains of interacting proteins, we have cataloged the protein interaction networks for 11 528 cancer fusions (ChiTaRS-3.1). Here, we present our novel method, chimeric protein–protein interactions (ChiPPI) that uses the domain–domain co-occurrence scores in order to identify preserved interactors of chimeric proteins. Mapping the influence of fusion proteins on cell metabolism and pathways reveals that ChiPPI networks often lose tumor suppressor proteins and gain oncoproteins. Furthermore, fusions often induce novel connections between non-interactors skewing interaction networks and signaling pathways. We compared fusion protein PPI networks in leukemia/lymphoma, sarcoma and solid tumors finding distinct enrichment patterns for each disease type. While certain pathways are enriched in all three diseases (Wnt, Notch and TGF β), there are distinct patterns for leukemia (EGFR signaling, DNA replication and CCKR signaling), for sarcoma (p53 pathway and CCKR signaling) and solid tumors (FGFR and EGFR signaling). Thus, the ChiPPI method represents a comprehensive tool for studying the anomaly of skewed cellular networks produced by fusion proteins in cancer.This work is funded by the Project Retos BFU2015-71241-R of the Spanish Ministry of Economy, Industry and Competitiveness (MEIC), co-funded by European Regional Development Fund (ERDF) and by the Project PT13/0001/0030, Instituto de Salud Carlos III (ISCIII), Strategic Action in Health, co-funded by European Regional Development Fund (ERDF). The work of MFM is supported by the Israel Cancer Association (ICA) fund, the work of ST is supported by the VaTaT Postdoctoral Fellowship for excellent students [22351, 20027, 26912]. AV is supported by the Joint BSC-CRG-IRB Programme in Computational Biology. Funding for open access charge: ICA [e-cancer-diagnosis].Peer ReviewedPostprint (published version

    Graphlet-adjacencies provide complementary views on the functional organisation of the cell and cancer mechanisms

    Get PDF
    Recent biotechnological advances have led to a wealth of biological network data. Topo- logical analysis of these networks (i.e., the analysis of their structure) has led to break- throughs in biology and medicine. The state-of-the-art topological node and network descriptors are based on graphlets, induced connected subgraphs of different shapes (e.g., paths, triangles). However, current graphlet-based methods ignore neighbourhood infor- mation (i.e., what nodes are connected). Therefore, to capture topology and connectivity information simultaneously, I introduce graphlet adjacency, which considers two nodes adjacent based on their frequency of co-occurrence on a given graphlet. I use graphlet adjacency to generalise spectral methods and apply these on molecular networks. I show that, depending on the chosen graphlet, graphlet spectral clustering uncovers clusters en- riched in different biological functions, and graphlet diffusion of gene mutation scores predicts different sets of cancer driver genes. This demonstrates that graphlet adjacency captures topology-function and topology-disease relationships in molecular networks. To further detail these relationships, I take a pathway-focused approach. To enable this investigation, I introduce graphlet eigencentrality to compute the importance of a gene in a pathway either from the local pathway perspective or from the global network perspective. I show that pathways are best described by the graphlet adjacencies that capture the importance of their functionally critical genes. I also show that cancer driver genes characteristically perform hub roles between pathways. Given the latter finding, I hypothesise that cancer pathways should be identified by changes in their pathway-pathway relationships. Within this context, I propose pathway- driven non-negative matrix tri-factorisation (PNMTF), which fuses molecular network data and pathway annotations to learn an embedding space that captures the organisation of a network as a composition of subnetworks. In this space, I measure the functional importance of a pathway or gene in the cell and its functional disruption in cancer. I apply this method to predict genes and the pathways involved in four major cancers. By using graphlet-adjacency, I can exploit the tendency of cancer-related genes to perform hub roles to improve the prediction accuracy

    Discovery of tissue specific network properties associated with cancer driver genes

    Get PDF
    Tese de Mestrado em Bioquímica, Faculdade de Ciências, Universidade de Lisboa, 2022Using the notion of disease modules, network medicine has effectively identified diseaseassociated genes in recent years. In biological networks, genes linked to a particular illness tend to interact closely [1]. These networks allow both physical and functional connections between biomolecules to be identified, resulting in a map of cell components and processes that constitute biological systems [2]. Not all disease-associated genes, however, have a major impact on disease phenotype. The discovery of important genes able to produce or change disease phenotype paves the path to new therapies and a personalized medicine strategy. Recent research has found that biological network topological features per se may accurately predict perturbation effects in a dynamical model of the system with a 65-80% accuracy [3, 4]. Biological networks differ depending on whatever tissue or cell type is being studied. As a result, each gene's topological features and ability to impact the system may alter [5]. The main goal of this thesis is to discover network topological parameters associated with influential cancer driver genes using context specific networks. In order to achieve this, we evaluated local network features around each driver gene across multiple tissue specific networks, including tissues that are affected in the disease and others where the gene perturbation has no significant effect. We aimed to identify topological parameters and its characteristics contributing to the cancer driver gene’s influential role. The results of this dissertation point out that several topological parameters can be used to determine cancer “driver” genes. We found that these genes have higher values of topological parameters, such as Degree or Closeness, in tissues where they tend to cause cancer. We also found that this difference is present in oncogenes and tumor suppressor genes. Another factor that we found to influence the value of topological parameters is the number of tissues in which these genes cause the disease. There is an increasing trend of topological parameter values with the increase of the number of tissues in which they cause cancer. Together, these results support the significant association of topological parameters like the Degree with the influential role of a driver gene in cancer.Usando a noção de módulos de doença, a medicina de redes identificou eficazmente nos últimos anos genes associados a doenças. Nas redes biológicas, os genes ligados a uma determinada doença tendem a interagir proximamente [1] . Essas redes permitem que conexões físicas e funcionais entre biomoléculas sejam identificadas, resultando num mapa de componentes celulares e processos que constituem sistemas biológicos [2]. Nem todos os genes associados à doença, no entanto, têm um grande impacto no fenótipo da doença. A descoberta de genes importantes capazes de produzir ou alterar o fenótipo da doença abre caminho para novas terapias e uma estratégia de medicina personalizada. Pesquisas recentes descobriram que as características topológicas da rede biológica podem prever com precisão os efeitos de perturbação num modelo dinâmico do sistema com uma precisão de 65-80% [3, 4]. As redes biológicas diferem dependendo do tipo de tecido ou célula estudado. Como resultado, as características topológicas de cada gene e a capacidade de impactar o sistema podem ser alteradas [5]. O principal objetivo desta dissertação é descobrir parâmetros topológicos de rede associados a genes promotores de cancro usando redes específicas de tecido. Para conseguir isso, avaliamos as características da rede local em torno de cada gene promotor em várias redes específicas de tecidos, incluindo tecidos afetados pela doença e outros onde a perturbação do gene não tem efeito significativo. Deste modo, podemos identificar parâmetros topológicos e as características que contribuem para o papel influente dos genes promotores do cancro. Para atingir os nossos objetivos, começámos por construir e otimizar as nossas redes específicas de tecidos. Cada rede específica de tecido foi construída usando quatro bases de dados diferentes de interações proteína-proteína, vias de sinalização e fatores de transcrição. Tentámos quatro métodos diferentes de construir as redes, incluindo o uso do filtro de níveis de expressão génica acima de 0,1 e 5 transcritos por milhão em cada tecido. Construímos também uma matriz associando os genes promotores de cancro (retirados de uma base de dados online de genes promotores de cancro) aos tecidos onde provocam a doença. Cada gene promotor foi inserido em seis categorias diferentes de acordo com o número de tecidos onde provocam cancro, sendo a categoria seis aquela que inclui os genes que provocam a doença em seis ou mais tecidos. Começámos por comparar os valores dos parâmetros topológicos dos genes em tecidos onde estes provocam a doença versus os seus valores em tecidos onde não a provocam. Esses valores também foram comparados com uma lista de genes associados ao cancro (retirados de uma base de dados online de genes associados a doenças), mas não promotores de cancro, e uma lista de genes não associados a nenhuma doença. Este estudo foi feito sobre os quatro diferentes métodos de construção de rede. Continuámos o estudo observando como os parâmetros topológicos mostraram diferenças ao nível do tecido. Analisámos em cada tecido os valores dos parâmetros topológicos dos genes promotores que causam a doença num determinado tecido versus os valores dos genes que não causam doença naquele tecido. Depois de comparar os valores dos parâmetros topológicos usando todos os genes promotores juntos num grupo global, queríamos verificar se a diferença entre os valores destes nos tecidos onde causam cancro versus os valores nos tecidos onde não provocam a doença, também estava presente dentro das categorias do número de tecidos onde os genes promotores causam cancro e como esses valores aumentam ou diminuem ao longo dessas categorias. Avaliamos em seguida o impacto combinado dos valores dos parâmetros topológicos (selecionando o parâmetro topológico “Degree”) de genes promotores de cancro em tecidos onde causam doença versus onde não causam e também a diferença entre estes ao longo das seis diferentes categorias de número de tecidos onde provocam cancro, usando um Modelo Linear Generalizado (GLM) para avaliar a interação desses fatores. Da base de dados de onde retiramos a lista de genes promotores de cancro, também retiramos uma lista de oncogenes e genes supressores de tumor que usámos para avaliar também as diferenças dos valores dos seus parâmetros topológicos nos tecidos onde causam cancro versus os tecidos onde não causam. A fim de avaliar outras variáveis que possam ter impacto para além dos parâmetros topológicos e que possam também diferir dependendo do número de tecidos onde os genes “drivers” causam a doença, usamos os dados da base de dados de onde retiramos os genes promotores que incluíam informações sobre o número de interações que cada gene promotor estabelece com diferentes miRNA e sobre o número de complexos proteicos que estes genes integram. Também avaliamos o impacto da expressão génica nas diferentes categorias de número de tecidos. Por fim, enriquecemos funcionalmente os genes promotores de cancro, usando dois métodos diferentes. No primeiro método usamos os genes que tinham uma diferença topológica maior (para este estudo usamos apenas o parâmetro topológico “Degree”) entre os tecidos onde causam ou não cancro. Classificamos cada gene como positivo, negativo e não significativo com base na diferença entre o valor médio do “Degree” nos tecidos onde causam cancro versus o valor nos tecidos onde não causam. O segundo método foi o enriquecimento dos diferentes genes promotores de cancro de acordo com o número de tecidos que causam cancro. Fizemos esse estudo usando as diferentes categorias de número de tecidos. Globalmente, os nossos resultados sugerem que os valores dos parâmetros topológicos (por exemplo, “Degree“ e “Closeness”) tendem a ser maiores nos tecidos em que os genes promoteres de cancro provocam a doença ( “Tissue Drivers”), seguidos pelos valores dos genes de cancro que são não promotores de cancro mas estão associados ao desenvolvimento da doença (“Disease Genes”), os valores dos genes promotores de cancro nos tecidos onde não causam cancro (“NonTissueDrivers”) e por último, com os menores valores de parâmetros topológicos, os genes que não estão associados a qualquer doença. A diferença entre os valores dos parâmetros topológicos nos “TissueDrivers” versus “NonTissueDrivers” é estatisticamente significativa na maioria dos parâmetros topológicos testados e nos diferentes métodos de rede utilizados, exceto no método “JustHuRiTPM5Zminmax” (usando apenas a base de dados Huri). Quando analisámos em cada tecido os valores dos parâmetros topológicos, pudemos ver que os valores de “Degree” tendem a ser maiores nos genes promotores de cancro que causam cancro naquele tecido em comparação com os genes promotores que não provocam cancro nesse tecido. Essa diferença é estatisticamente significativa em muitos dos tecidos analisados. Em relação a como os valores dos parâmetros topológicos se comportam ao longo das diferentes categorias associadas ao número de tecidos em que os genes promotores causam cancro, descobrimos que nos genes promotores de cancro que causam doença em apenas em um e dois tecidos, o valor do “Degree” nos tecidos onde causam cancro é menor que o valor apresentado nos tecidos onde não causam cancro. Observamos a tendência inversa nos genes promotores que causam cancro em seis ou mais tecidos (o valor do “Degree” é maior nos tecidos onde causam cancro). Observamos também que o valor do “Degree” aumenta gradativamente ao longo do número da categoria de tecidos, atingindo o valor mais alto na categoria seis (constituída por genes promotores que provocam cancro em seis ou mais tecidos). No modelo linear generalizado (GLM), pudemos ver o efeito combinado da variável tipo de tecido (onde o gene promotor provoca ou não cancro, mostrando uma diferença estatisticamente significativa entre estas duas situações) e da variável número de tecidos onde os genes promotores provocam cancro (mostrando também uma valor estatisticamente significativo entre as diferentes categorias). A interação entre esses dois fatores também foi estatisticamente significativa. Também pudemos observar valores de “Degree” estatisticamente diferentes entre os genes promotores supressores de tumor nos tecidos que causam cancro (com valores mais altos) e os valores nos tecidos onde não causam. Vimos também a mesma diferença nos Oncogenes, mas com menor significância. Os valores do “Degree” nos genes Supressores de Tumores foram inferiores aos valores do “Degree” apresentados pelos Oncogenes. Pudemos igualmente ver uma clara tendência de correlação entre o aumento do número de tecidos com o aumento do número de complexos que os genes promotores de cancro integram. O mesmo comportamento foi observado em relação ao número de miRNAs com os quais os genes promotores interagem. Em relação à expressão do mRNA ao longo das categorias de número de tecidos, pudemos ver uma diferença estatisticamente significativa nas categorias dois e três entre os valores dos genes promotores(em relação ao parâmetro topológico “Degree”) nos tecidos onde causam cancro versus onde não causam. Finalmente, no estudo de enriquecimento de funções pudemos ver que os processos biológicos, funções moleculares e componentes celulares que obtivemos enriquecidos usando o método das diferentes categorias de número de tecidos estão muito mais relacionados com os processos de cancro baseados na literatura (“hallmarks of cancer”). Não conseguimos encontrar uma divisão muito clara entre funções biológicas enriquecidas que tiveram uma diferença de z-score do “Degree” acima de 1 e aqueles com diferença abaixo de -1. Não encontramos nenhum processo de enriquecimento funcional relevante em nenhum desses dois grupos de genes e que de alguma forma os pudesse distinguir entre si. Os resultados desta dissertação apontam para que vários parâmetros topológicos possam estar associados a genes promotores de cancro. Verificámos que estes genes têm valores de parâmetros topológicos, como o Degree ou Closeness, mais elevados nos tecidos onde tendencionalmente provocam cancro. Verificámos também que esta diferença está presente nos oncogenes e nos genes supressores de tumor. Outro fator que verificamos influenciar o valor dos parâmetros topológicos, é o número de tecidos em que estes genes provocam a doença. Há uma tendência crescente do valor topológico com um número de tecidos em que provocam cancro

    Neighbours of cancer-related proteins have key influence on pathogenesis and could increase the drug target space for anticancer therapies

    Get PDF
    Even targeted chemotherapies against solid cancers show a moderate success increasing the need to novel targeting strategies. To address this problem, we designed a systems-level approach investigating the neighbourhood of mutated or differentially expressed cancer-related proteins in four major solid cancers (colon, breast, liver and lung). Using signalling and protein–protein interaction network resources integrated with mutational and expression datasets, we analysed the properties of the direct and indirect interactors (first and second neighbours) of cancer-related proteins, not found previously related to the given cancer type. We found that first neighbours have at least as high degree, betweenness centrality and clustering coefficient as cancer-related proteins themselves, indicating a previously unknown central network position. We identified a complementary strategy for mutated and differentially expressed proteins, where the affect of differentially expressed proteins having smaller network centrality is compensated with high centrality first neighbours. These first neighbours can be considered as key, so far hidden, components in cancer rewiring, with similar importance as mutated proteins. These observations strikingly suggest targeting first neighbours as a novel strategy for disrupting cancer-specific networks. Remarkably, our survey revealed 223 marketed drugs already targeting first neighbour proteins but applied mostly outside oncology, providing a potential list for drug repurposing against solid cancers. For the very central first neighbours, whose direct targeting would cause several side effects, we suggest a cancer-mimicking strategy by targeting their interactors (second neighbours of cancer-related proteins, having a central protein affecting position, similarly to the cancer-related proteins). Hence, we propose to include first neighbours to network medicine based approaches for (but not limited to) anticancer therapies

    Performance Assessment of the Network Reconstruction Approaches on Various Interactomes

    Get PDF
    Beyond the list of molecules, there is a necessity to collectively consider multiple sets of omic data and to reconstruct the connections between the molecules. Especially, pathway reconstruction is crucial to understanding disease biology because abnormal cellular signaling may be pathological. The main challenge is how to integrate the data together in an accurate way. In this study, we aim to comparatively analyze the performance of a set of network reconstruction algorithms on multiple reference interactomes. We first explored several human protein interactomes, including PathwayCommons, OmniPath, HIPPIE, iRefWeb, STRING, and ConsensusPathDB. The comparison is based on the coverage of each interactome in terms of cancer driver proteins, structural information of protein interactions, and the bias toward well-studied proteins. We next used these interactomes to evaluate the performance of network reconstruction algorithms including all-pair shortest path, heat diffusion with flux, personalized PageRank with flux, and prize-collecting Steiner forest (PCSF) approaches. Each approach has its own merits and weaknesses. Among them, PCSF had the most balanced performance in terms of precision and recall scores when 28 pathways from NetPath were reconstructed using the listed algorithms. Additionally, the reference interactome affects the performance of the network reconstruction approaches. The coverage and disease- or tissue-specificity of each interactome may vary, which may result in differences in the reconstructed networks

    Topology of molecular interaction networks

    Get PDF
    Abstract Molecular interactions are often represented as network models which have become the common language of many areas of biology. Graphs serve as convenient mathematical representations of network models and have themselves become objects of study. Their topology has been intensively researched over the last decade after evidence was found that they share underlying design principles with many other types of networks. Initial studies suggested that molecular interaction network topology is related to biological function and evolution. However, further whole-network analyses did not lead to a unified view on what this relation may look like, with conclusions highly dependent on the type of molecular interactions considered and the metrics used to study them. It is unclear whether global network topology drives function, as suggested by some researchers, or whether it is simply a byproduct of evolution or even an artefact of representing complex molecular interaction networks as graphs. Nevertheless, network biology has progressed significantly over the last years. We review the literature, focusing on two major developments. First, realizing that molecular interaction networks can be naturally decomposed into subsystems (such as modules and pathways), topology is increasingly studied locally rather than globally. Second, there is a move from a descriptive approach to a predictive one: rather than correlating biological network 1 topology to generic properties such as robustness, it is used to predict specific functions or phenotypes. Taken together, this change in focus from globally descriptive to locally predictive points to new avenues of research. In particular, multi-scale approaches are developments promising to drive the study of molecular interaction networks further
    corecore