304 research outputs found
ChiPPI: a novel method for mapping chimeric protein–protein interactions uncovers selection principles of protein fusion events in cancer
Fusion proteins, comprising peptides deriving from the translation of two parental genes, are produced in cancer by chromosomal aberrations. The expressed fusion protein incorporates domains of both parental proteins. Using a methodology that treats discrete protein domains as binding sites for specific domains of interacting proteins, we have cataloged the protein interaction networks for 11 528 cancer fusions (ChiTaRS-3.1). Here, we present our novel method, chimeric protein–protein interactions (ChiPPI) that uses the domain–domain co-occurrence scores in order to identify preserved interactors of chimeric proteins. Mapping the influence of fusion proteins on cell metabolism and pathways reveals that ChiPPI networks often lose tumor suppressor proteins and gain oncoproteins. Furthermore, fusions often induce novel connections between non-interactors skewing interaction networks and signaling pathways. We compared fusion protein PPI networks in leukemia/lymphoma, sarcoma and solid tumors finding distinct enrichment patterns for each disease type. While certain pathways are enriched in all three diseases (Wnt, Notch and TGF β), there are distinct patterns for leukemia (EGFR signaling, DNA replication and CCKR signaling), for sarcoma (p53 pathway and CCKR signaling) and solid tumors (FGFR and EGFR signaling). Thus, the ChiPPI method represents a comprehensive tool for studying the anomaly of skewed cellular networks produced by fusion proteins in cancer.This work is funded by the Project Retos BFU2015-71241-R of the Spanish Ministry of Economy, Industry and Competitiveness (MEIC), co-funded by European Regional
Development Fund (ERDF) and by the Project
PT13/0001/0030, Instituto de Salud Carlos III (ISCIII), Strategic Action in Health, co-funded by European Regional Development Fund (ERDF). The work of MFM is supported by the Israel Cancer Association (ICA) fund, the
work of ST is supported by the VaTaT Postdoctoral Fellowship for excellent students [22351, 20027, 26912]. AV is supported by the Joint BSC-CRG-IRB Programme in Computational Biology. Funding for open access charge: ICA [e-cancer-diagnosis].Peer ReviewedPostprint (published version
Graphlet-adjacencies provide complementary views on the functional organisation of the cell and cancer mechanisms
Recent biotechnological advances have led to a wealth of biological network data. Topo- logical analysis of these networks (i.e., the analysis of their structure) has led to break- throughs in biology and medicine. The state-of-the-art topological node and network descriptors are based on graphlets, induced connected subgraphs of different shapes (e.g., paths, triangles). However, current graphlet-based methods ignore neighbourhood infor- mation (i.e., what nodes are connected). Therefore, to capture topology and connectivity information simultaneously, I introduce graphlet adjacency, which considers two nodes adjacent based on their frequency of co-occurrence on a given graphlet. I use graphlet adjacency to generalise spectral methods and apply these on molecular networks. I show that, depending on the chosen graphlet, graphlet spectral clustering uncovers clusters en- riched in different biological functions, and graphlet diffusion of gene mutation scores predicts different sets of cancer driver genes. This demonstrates that graphlet adjacency captures topology-function and topology-disease relationships in molecular networks.
To further detail these relationships, I take a pathway-focused approach. To enable this investigation, I introduce graphlet eigencentrality to compute the importance of a gene in a pathway either from the local pathway perspective or from the global network perspective. I show that pathways are best described by the graphlet adjacencies that capture the importance of their functionally critical genes. I also show that cancer driver genes characteristically perform hub roles between pathways.
Given the latter finding, I hypothesise that cancer pathways should be identified by changes in their pathway-pathway relationships. Within this context, I propose pathway- driven non-negative matrix tri-factorisation (PNMTF), which fuses molecular network data and pathway annotations to learn an embedding space that captures the organisation of a network as a composition of subnetworks. In this space, I measure the functional importance of a pathway or gene in the cell and its functional disruption in cancer. I apply this method to predict genes and the pathways involved in four major cancers. By using graphlet-adjacency, I can exploit the tendency of cancer-related genes to perform hub roles to improve the prediction accuracy
Discovery of tissue specific network properties associated with cancer driver genes
Tese de Mestrado em Bioquímica, Faculdade de Ciências, Universidade de Lisboa, 2022Using the notion of disease modules, network medicine has effectively identified diseaseassociated genes in recent years. In biological networks, genes linked to a particular illness tend to
interact closely [1]. These networks allow both physical and functional connections between
biomolecules to be identified, resulting in a map of cell components and processes that constitute
biological systems [2]. Not all disease-associated genes, however, have a major impact on disease
phenotype.
The discovery of important genes able to produce or change disease phenotype paves the path
to new therapies and a personalized medicine strategy. Recent research has found that biological
network topological features per se may accurately predict perturbation effects in a dynamical model of
the system with a 65-80% accuracy [3, 4].
Biological networks differ depending on whatever tissue or cell type is being studied. As a
result, each gene's topological features and ability to impact the system may alter [5].
The main goal of this thesis is to discover network topological parameters associated with
influential cancer driver genes using context specific networks. In order to achieve this, we evaluated
local network features around each driver gene across multiple tissue specific networks, including
tissues that are affected in the disease and others where the gene perturbation has no significant effect.
We aimed to identify topological parameters and its characteristics contributing to the cancer driver
gene’s influential role.
The results of this dissertation point out that several topological parameters can be used to
determine cancer “driver” genes. We found that these genes have higher values of topological
parameters, such as Degree or Closeness, in tissues where they tend to cause cancer. We also found that
this difference is present in oncogenes and tumor suppressor genes. Another factor that we found to
influence the value of topological parameters is the number of tissues in which these genes cause the
disease. There is an increasing trend of topological parameter values with the increase of the number of
tissues in which they cause cancer. Together, these results support the significant association of
topological parameters like the Degree with the influential role of a driver gene in cancer.Usando a noção de módulos de doença, a medicina de redes identificou eficazmente nos últimos
anos genes associados a doenças. Nas redes biológicas, os genes ligados a uma determinada doença
tendem a interagir proximamente [1] . Essas redes permitem que conexões físicas e funcionais entre
biomoléculas sejam identificadas, resultando num mapa de componentes celulares e processos que
constituem sistemas biológicos [2]. Nem todos os genes associados à doença, no entanto, têm um grande
impacto no fenótipo da doença.
A descoberta de genes importantes capazes de produzir ou alterar o fenótipo da doença abre
caminho para novas terapias e uma estratégia de medicina personalizada. Pesquisas recentes
descobriram que as características topológicas da rede biológica podem prever com precisão os efeitos
de perturbação num modelo dinâmico do sistema com uma precisão de 65-80% [3, 4].
As redes biológicas diferem dependendo do tipo de tecido ou célula estudado. Como resultado,
as características topológicas de cada gene e a capacidade de impactar o sistema podem ser alteradas
[5].
O principal objetivo desta dissertação é descobrir parâmetros topológicos de rede associados a
genes promotores de cancro usando redes específicas de tecido. Para conseguir isso, avaliamos as
características da rede local em torno de cada gene promotor em várias redes específicas de tecidos,
incluindo tecidos afetados pela doença e outros onde a perturbação do gene não tem efeito significativo.
Deste modo, podemos identificar parâmetros topológicos e as características que contribuem para o
papel influente dos genes promotores do cancro.
Para atingir os nossos objetivos, começámos por construir e otimizar as nossas redes específicas
de tecidos. Cada rede específica de tecido foi construída usando quatro bases de dados diferentes de
interações proteína-proteína, vias de sinalização e fatores de transcrição. Tentámos quatro métodos
diferentes de construir as redes, incluindo o uso do filtro de níveis de expressão génica acima de 0,1 e 5
transcritos por milhão em cada tecido. Construímos também uma matriz associando os genes promotores
de cancro (retirados de uma base de dados online de genes promotores de cancro) aos tecidos onde
provocam a doença. Cada gene promotor foi inserido em seis categorias diferentes de acordo com o
número de tecidos onde provocam cancro, sendo a categoria seis aquela que inclui os genes que
provocam a doença em seis ou mais tecidos. Começámos por comparar os valores dos parâmetros
topológicos dos genes em tecidos onde estes provocam a doença versus os seus valores em tecidos onde
não a provocam. Esses valores também foram comparados com uma lista de genes associados ao cancro
(retirados de uma base de dados online de genes associados a doenças), mas não promotores de cancro,
e uma lista de genes não associados a nenhuma doença. Este estudo foi feito sobre os quatro diferentes
métodos de construção de rede. Continuámos o estudo observando como os parâmetros topológicos mostraram diferenças ao nível do tecido. Analisámos em cada tecido os valores dos parâmetros
topológicos dos genes promotores que causam a doença num determinado tecido versus os valores dos
genes que não causam doença naquele tecido. Depois de comparar os valores dos parâmetros
topológicos usando todos os genes promotores juntos num grupo global, queríamos verificar se a
diferença entre os valores destes nos tecidos onde causam cancro versus os valores nos tecidos onde não
provocam a doença, também estava presente dentro das categorias do número de tecidos onde os genes
promotores causam cancro e como esses valores aumentam ou diminuem ao longo dessas categorias.
Avaliamos em seguida o impacto combinado dos valores dos parâmetros topológicos (selecionando o
parâmetro topológico “Degree”) de genes promotores de cancro em tecidos onde causam doença versus
onde não causam e também a diferença entre estes ao longo das seis diferentes categorias de número de
tecidos onde provocam cancro, usando um Modelo Linear Generalizado (GLM) para avaliar a interação
desses fatores.
Da base de dados de onde retiramos a lista de genes promotores de cancro, também retiramos
uma lista de oncogenes e genes supressores de tumor que usámos para avaliar também as diferenças dos
valores dos seus parâmetros topológicos nos tecidos onde causam cancro versus os tecidos onde não
causam. A fim de avaliar outras variáveis que possam ter impacto para além dos parâmetros topológicos
e que possam também diferir dependendo do número de tecidos onde os genes “drivers” causam a
doença, usamos os dados da base de dados de onde retiramos os genes promotores que incluíam
informações sobre o número de interações que cada gene promotor estabelece com diferentes miRNA e
sobre o número de complexos proteicos que estes genes integram. Também avaliamos o impacto da
expressão génica nas diferentes categorias de número de tecidos. Por fim, enriquecemos funcionalmente
os genes promotores de cancro, usando dois métodos diferentes. No primeiro método usamos os genes
que tinham uma diferença topológica maior (para este estudo usamos apenas o parâmetro topológico
“Degree”) entre os tecidos onde causam ou não cancro. Classificamos cada gene como positivo,
negativo e não significativo com base na diferença entre o valor médio do “Degree” nos tecidos onde
causam cancro versus o valor nos tecidos onde não causam. O segundo método foi o enriquecimento
dos diferentes genes promotores de cancro de acordo com o número de tecidos que causam cancro.
Fizemos esse estudo usando as diferentes categorias de número de tecidos.
Globalmente, os nossos resultados sugerem que os valores dos parâmetros topológicos (por
exemplo, “Degree“ e “Closeness”) tendem a ser maiores nos tecidos em que os genes promoteres de
cancro provocam a doença ( “Tissue Drivers”), seguidos pelos valores dos genes de cancro que são não
promotores de cancro mas estão associados ao desenvolvimento da doença (“Disease Genes”), os
valores dos genes promotores de cancro nos tecidos onde não causam cancro (“NonTissueDrivers”) e
por último, com os menores valores de parâmetros topológicos, os genes que não estão associados a
qualquer doença. A diferença entre os valores dos parâmetros topológicos nos “TissueDrivers” versus
“NonTissueDrivers” é estatisticamente significativa na maioria dos parâmetros topológicos testados e
nos diferentes métodos de rede utilizados, exceto no método “JustHuRiTPM5Zminmax” (usando apenas a base de dados Huri). Quando analisámos em cada tecido os valores dos parâmetros topológicos,
pudemos ver que os valores de “Degree” tendem a ser maiores nos genes promotores de cancro que
causam cancro naquele tecido em comparação com os genes promotores que não provocam cancro nesse
tecido. Essa diferença é estatisticamente significativa em muitos dos tecidos analisados.
Em relação a como os valores dos parâmetros topológicos se comportam ao longo das diferentes
categorias associadas ao número de tecidos em que os genes promotores causam cancro, descobrimos
que nos genes promotores de cancro que causam doença em apenas em um e dois tecidos, o valor do
“Degree” nos tecidos onde causam cancro é menor que o valor apresentado nos tecidos onde não causam
cancro. Observamos a tendência inversa nos genes promotores que causam cancro em seis ou mais
tecidos (o valor do “Degree” é maior nos tecidos onde causam cancro). Observamos também que o valor
do “Degree” aumenta gradativamente ao longo do número da categoria de tecidos, atingindo o valor
mais alto na categoria seis (constituída por genes promotores que provocam cancro em seis ou mais
tecidos).
No modelo linear generalizado (GLM), pudemos ver o efeito combinado da variável tipo de
tecido (onde o gene promotor provoca ou não cancro, mostrando uma diferença estatisticamente
significativa entre estas duas situações) e da variável número de tecidos onde os genes promotores
provocam cancro (mostrando também uma valor estatisticamente significativo entre as diferentes
categorias). A interação entre esses dois fatores também foi estatisticamente significativa.
Também pudemos observar valores de “Degree” estatisticamente diferentes entre os genes
promotores supressores de tumor nos tecidos que causam cancro (com valores mais altos) e os valores
nos tecidos onde não causam. Vimos também a mesma diferença nos Oncogenes, mas com menor
significância. Os valores do “Degree” nos genes Supressores de Tumores foram inferiores aos valores
do “Degree” apresentados pelos Oncogenes.
Pudemos igualmente ver uma clara tendência de correlação entre o aumento do número de
tecidos com o aumento do número de complexos que os genes promotores de cancro integram. O mesmo
comportamento foi observado em relação ao número de miRNAs com os quais os genes promotores
interagem.
Em relação à expressão do mRNA ao longo das categorias de número de tecidos, pudemos ver
uma diferença estatisticamente significativa nas categorias dois e três entre os valores dos genes
promotores(em relação ao parâmetro topológico “Degree”) nos tecidos onde causam cancro versus onde
não causam.
Finalmente, no estudo de enriquecimento de funções pudemos ver que os processos biológicos,
funções moleculares e componentes celulares que obtivemos enriquecidos usando o método das
diferentes categorias de número de tecidos estão muito mais relacionados com os processos de cancro
baseados na literatura (“hallmarks of cancer”). Não conseguimos encontrar uma divisão muito clara
entre funções biológicas enriquecidas que tiveram uma diferença de z-score do “Degree” acima de 1 e aqueles com diferença abaixo de -1. Não encontramos nenhum processo de enriquecimento funcional
relevante em nenhum desses dois grupos de genes e que de alguma forma os pudesse distinguir entre si.
Os resultados desta dissertação apontam para que vários parâmetros topológicos possam estar
associados a genes promotores de cancro. Verificámos que estes genes têm valores de parâmetros
topológicos, como o Degree ou Closeness, mais elevados nos tecidos onde tendencionalmente provocam
cancro. Verificámos também que esta diferença está presente nos oncogenes e nos genes supressores de
tumor. Outro fator que verificamos influenciar o valor dos parâmetros topológicos, é o número de
tecidos em que estes genes provocam a doença. Há uma tendência crescente do valor topológico com
um número de tecidos em que provocam cancro
Neighbours of cancer-related proteins have key influence on pathogenesis and could increase the drug target space for anticancer therapies
Even targeted chemotherapies against solid cancers show a moderate success increasing the need to novel targeting strategies. To address this problem, we designed a systems-level approach investigating the neighbourhood of mutated or differentially expressed cancer-related proteins in four major solid cancers (colon, breast, liver and lung). Using signalling and protein–protein interaction network resources integrated with mutational and expression datasets, we analysed the properties of the direct and indirect interactors (first and second neighbours) of cancer-related proteins, not found previously related to the given cancer type. We found that first neighbours have at least as high degree, betweenness centrality and clustering coefficient as cancer-related proteins themselves, indicating a previously unknown central network position. We identified a complementary strategy for mutated and differentially expressed proteins, where the affect of differentially expressed proteins having smaller network centrality is compensated with high centrality first neighbours. These first neighbours can be considered as key, so far hidden, components in cancer rewiring, with similar importance as mutated proteins. These observations strikingly suggest targeting first neighbours as a novel strategy for disrupting cancer-specific networks. Remarkably, our survey revealed 223 marketed drugs already targeting first neighbour proteins but applied mostly outside oncology, providing a potential list for drug repurposing against solid cancers. For the very central first neighbours, whose direct targeting would cause several side effects, we suggest a cancer-mimicking strategy by targeting their interactors (second neighbours of cancer-related proteins, having a central protein affecting position, similarly to the cancer-related proteins). Hence, we propose to include first neighbours to network medicine based approaches for (but not limited to) anticancer therapies
Performance Assessment of the Network Reconstruction Approaches on Various Interactomes
Beyond the list of molecules, there is a necessity to collectively consider multiple sets of omic data and to reconstruct the connections between the molecules. Especially, pathway reconstruction is crucial to understanding disease biology because abnormal cellular signaling may be pathological. The main challenge is how to integrate the data together in an accurate way. In this study, we aim to comparatively analyze the performance of a set of network reconstruction algorithms on multiple reference interactomes. We first explored several human protein interactomes, including PathwayCommons, OmniPath, HIPPIE, iRefWeb, STRING, and ConsensusPathDB. The comparison is based on the coverage of each interactome in terms of cancer driver proteins, structural information of protein interactions, and the bias toward well-studied proteins. We next used these interactomes to evaluate the performance of network reconstruction algorithms including all-pair shortest path, heat diffusion with flux, personalized PageRank with flux, and prize-collecting Steiner forest (PCSF) approaches. Each approach has its own merits and weaknesses. Among them, PCSF had the most balanced performance in terms of precision and recall scores when 28 pathways from NetPath were reconstructed using the listed algorithms. Additionally, the reference interactome affects the performance of the network reconstruction approaches. The coverage and disease- or tissue-specificity of each interactome may vary, which may result in differences in the reconstructed networks
Topology of molecular interaction networks
Abstract Molecular interactions are often represented as network models which have become the common language of many areas of biology. Graphs serve as convenient mathematical representations of network models and have themselves become objects of study. Their topology has been intensively researched over the last decade after evidence was found that they share underlying design principles with many other types of networks. Initial studies suggested that molecular interaction network topology is related to biological function and evolution. However, further whole-network analyses did not lead to a unified view on what this relation may look like, with conclusions highly dependent on the type of molecular interactions considered and the metrics used to study them. It is unclear whether global network topology drives function, as suggested by some researchers, or whether it is simply a byproduct of evolution or even an artefact of representing complex molecular interaction networks as graphs. Nevertheless, network biology has progressed significantly over the last years. We review the literature, focusing on two major developments. First, realizing that molecular interaction networks can be naturally decomposed into subsystems (such as modules and pathways), topology is increasingly studied locally rather than globally. Second, there is a move from a descriptive approach to a predictive one: rather than correlating biological network 1 topology to generic properties such as robustness, it is used to predict specific functions or phenotypes. Taken together, this change in focus from globally descriptive to locally predictive points to new avenues of research. In particular, multi-scale approaches are developments promising to drive the study of molecular interaction networks further
- …