11 research outputs found
Recommended from our members
Tissue Specificity of Human Disease Module
Genes carrying mutations associated with genetic diseases are present in all human cells; yet, clinical manifestations of genetic diseases are usually highly tissue-specific. Although some disease genes are expressed only in selected tissues, the expression patterns of disease genes alone cannot explain the observed tissue specificity of human diseases. Here we hypothesize that for a disease to manifest itself in a particular tissue, a whole functional subnetwork of genes (disease module) needs to be expressed in that tissue. Driven by this hypothesis, we conducted a systematic study of the expression patterns of disease genes within the human interactome. We find that genes expressed in a specific tissue tend to be localized in the same neighborhood of the interactome. By contrast, genes expressed in different tissues are segregated in distinct network neighborhoods. Most important, we show that it is the integrity and the completeness of the expression of the disease module that determines disease manifestation in selected tissues. This approach allows us to construct a disease-tissue network that confirms known and predicts unexpected disease-tissue associations
A reference map of the human binary protein interactome.
Global insights into cellular organization and genome function require comprehensive understanding of the interactome networks that mediate genotype-phenotype relationships(1,2). Here we present a human 'all-by-all' reference interactome map of human binary protein interactions, or 'HuRI'. With approximately 53,000 protein-protein interactions, HuRI has approximately four times as many such interactions as there are high-quality curated interactions from small-scale studies. The integration of HuRI with genome(3), transcriptome(4) and proteome(5) data enables cellular function to be studied within most physiological or pathological cellular contexts. We demonstrate the utility of HuRI in identifying the specific subcellular roles of protein-protein interactions. Inferred tissue-specific networks reveal general principles for the formation of cellular context-specific functions and elucidate potential molecular mechanisms that might underlie tissue-specific phenotypes of Mendelian diseases. HuRI is a systematic proteome-wide reference that links genomic variation to phenotypic outcomes
Comparative analysis of human tissue interactomes reveals factors leading to tissue-specific manifestation of hereditary diseases.
An open question in human genetics is what underlies the tissue-specific manifestation of hereditary diseases, which are caused by genomic aberrations that are present in cells across the human body. Here we analyzed this phenomenon for over 300 hereditary diseases by using comparative network analysis. We created an extensive resource of protein expression and interactions in 16 main human tissues, by integrating recent data of gene and protein expression across tissues with data of protein-protein interactions (PPIs). The resulting tissue interaction networks (interactomes) shared a large fraction of their proteins and PPIs, and only a small fraction of them were tissue-specific. Applying this resource to hereditary diseases, we first show that most of the disease-causing genes are widely expressed across tissues, yet, enigmatically, cause disease phenotypes in few tissues only. Upon testing for factors that could lead to tissue-specific vulnerability, we find that disease-causing genes tend to have elevated transcript levels and increased number of tissue-specific PPIs in their disease tissues compared to unaffected tissues. We demonstrate through several examples that these tissue-specific PPIs can highlight disease mechanisms, and thus, owing to their small number, provide a powerful filter for interrogating disease etiologies. As two thirds of the hereditary diseases are associated with these factors, comparative tissue analysis offers a meaningful and efficient framework for enhancing the understanding of the molecular basis of hereditary diseases
B cell metabolic screening in primary antibody-deficiency identifies succination as an inflammatory immuno-metabolic pathology
Cellular metabolic pathway usage and immune cell function are intimately interlinked. Whether screening metabolic activity of defined immune cell subsets has clinical value, or is effective in guiding discovery of molecular immune pathology, has not been previously explored.
Here we prospectively screened glycolysis (extracellular acidification rates – ECAR) and mitochondrial respiration (oxygen consumption rates – OCR) in B cells of healthy subjects (n=15) and patients with primary antibody deficiency (PAD, n = 14). Mean ECAR values were similar in both cohorts, whereas – counterintuitively – mean OCR values were higher in PAD patients. The highest OCR values grouped three study participants with primary polyclonal B cell lymphocytosis (PPBL), a condition characterized by expansion of marginal zone (MZ)-like B cells. Guided by this B cell hyper-respiration phenotype, whole exome sequencing identified rare germline mutations in subunit A of the succinate dehydrogenase (SDHA) gene in these three patients. Functional assays pinpointed SDHA gain-of-function driving fumarate accumulation, which increased succination of several proteins – including KEAP1. Succination of KEAP1 promotes accumulation of the transcription factor Nrf-2, and inhibition of Nrf-2 established that the inflammatory output of MZ-like B cells from PPBL patients was Nrf-2 dependent.
Our study identifies pathologic retrograde signaling as a novel mechanism underlying immune dysregulation in PAD. Specifically, in MZ-like B cells of the PPBL patients enrolled in this study, SDHA-driven accumulation of fumarate engaged retrograde signaling via KEAP1–Nrf-2 to drive transcription of inflammatory cytokines. OCR screening of a clinically justified cell population thus helped to uncover a novel molecular disease mechanisms and pinpointed new therapeutic targets
Discovery of tissue specific network properties associated with cancer driver genes
Tese de Mestrado em Bioquímica, Faculdade de Ciências, Universidade de Lisboa, 2022Using the notion of disease modules, network medicine has effectively identified diseaseassociated genes in recent years. In biological networks, genes linked to a particular illness tend to
interact closely [1]. These networks allow both physical and functional connections between
biomolecules to be identified, resulting in a map of cell components and processes that constitute
biological systems [2]. Not all disease-associated genes, however, have a major impact on disease
phenotype.
The discovery of important genes able to produce or change disease phenotype paves the path
to new therapies and a personalized medicine strategy. Recent research has found that biological
network topological features per se may accurately predict perturbation effects in a dynamical model of
the system with a 65-80% accuracy [3, 4].
Biological networks differ depending on whatever tissue or cell type is being studied. As a
result, each gene's topological features and ability to impact the system may alter [5].
The main goal of this thesis is to discover network topological parameters associated with
influential cancer driver genes using context specific networks. In order to achieve this, we evaluated
local network features around each driver gene across multiple tissue specific networks, including
tissues that are affected in the disease and others where the gene perturbation has no significant effect.
We aimed to identify topological parameters and its characteristics contributing to the cancer driver
gene’s influential role.
The results of this dissertation point out that several topological parameters can be used to
determine cancer “driver” genes. We found that these genes have higher values of topological
parameters, such as Degree or Closeness, in tissues where they tend to cause cancer. We also found that
this difference is present in oncogenes and tumor suppressor genes. Another factor that we found to
influence the value of topological parameters is the number of tissues in which these genes cause the
disease. There is an increasing trend of topological parameter values with the increase of the number of
tissues in which they cause cancer. Together, these results support the significant association of
topological parameters like the Degree with the influential role of a driver gene in cancer.Usando a noção de módulos de doença, a medicina de redes identificou eficazmente nos últimos
anos genes associados a doenças. Nas redes biológicas, os genes ligados a uma determinada doença
tendem a interagir proximamente [1] . Essas redes permitem que conexões físicas e funcionais entre
biomoléculas sejam identificadas, resultando num mapa de componentes celulares e processos que
constituem sistemas biológicos [2]. Nem todos os genes associados à doença, no entanto, têm um grande
impacto no fenótipo da doença.
A descoberta de genes importantes capazes de produzir ou alterar o fenótipo da doença abre
caminho para novas terapias e uma estratégia de medicina personalizada. Pesquisas recentes
descobriram que as características topológicas da rede biológica podem prever com precisão os efeitos
de perturbação num modelo dinâmico do sistema com uma precisão de 65-80% [3, 4].
As redes biológicas diferem dependendo do tipo de tecido ou célula estudado. Como resultado,
as características topológicas de cada gene e a capacidade de impactar o sistema podem ser alteradas
[5].
O principal objetivo desta dissertação é descobrir parâmetros topológicos de rede associados a
genes promotores de cancro usando redes específicas de tecido. Para conseguir isso, avaliamos as
características da rede local em torno de cada gene promotor em várias redes específicas de tecidos,
incluindo tecidos afetados pela doença e outros onde a perturbação do gene não tem efeito significativo.
Deste modo, podemos identificar parâmetros topológicos e as características que contribuem para o
papel influente dos genes promotores do cancro.
Para atingir os nossos objetivos, começámos por construir e otimizar as nossas redes específicas
de tecidos. Cada rede específica de tecido foi construída usando quatro bases de dados diferentes de
interações proteína-proteína, vias de sinalização e fatores de transcrição. Tentámos quatro métodos
diferentes de construir as redes, incluindo o uso do filtro de níveis de expressão génica acima de 0,1 e 5
transcritos por milhão em cada tecido. Construímos também uma matriz associando os genes promotores
de cancro (retirados de uma base de dados online de genes promotores de cancro) aos tecidos onde
provocam a doença. Cada gene promotor foi inserido em seis categorias diferentes de acordo com o
número de tecidos onde provocam cancro, sendo a categoria seis aquela que inclui os genes que
provocam a doença em seis ou mais tecidos. Começámos por comparar os valores dos parâmetros
topológicos dos genes em tecidos onde estes provocam a doença versus os seus valores em tecidos onde
não a provocam. Esses valores também foram comparados com uma lista de genes associados ao cancro
(retirados de uma base de dados online de genes associados a doenças), mas não promotores de cancro,
e uma lista de genes não associados a nenhuma doença. Este estudo foi feito sobre os quatro diferentes
métodos de construção de rede. Continuámos o estudo observando como os parâmetros topológicos mostraram diferenças ao nível do tecido. Analisámos em cada tecido os valores dos parâmetros
topológicos dos genes promotores que causam a doença num determinado tecido versus os valores dos
genes que não causam doença naquele tecido. Depois de comparar os valores dos parâmetros
topológicos usando todos os genes promotores juntos num grupo global, queríamos verificar se a
diferença entre os valores destes nos tecidos onde causam cancro versus os valores nos tecidos onde não
provocam a doença, também estava presente dentro das categorias do número de tecidos onde os genes
promotores causam cancro e como esses valores aumentam ou diminuem ao longo dessas categorias.
Avaliamos em seguida o impacto combinado dos valores dos parâmetros topológicos (selecionando o
parâmetro topológico “Degree”) de genes promotores de cancro em tecidos onde causam doença versus
onde não causam e também a diferença entre estes ao longo das seis diferentes categorias de número de
tecidos onde provocam cancro, usando um Modelo Linear Generalizado (GLM) para avaliar a interação
desses fatores.
Da base de dados de onde retiramos a lista de genes promotores de cancro, também retiramos
uma lista de oncogenes e genes supressores de tumor que usámos para avaliar também as diferenças dos
valores dos seus parâmetros topológicos nos tecidos onde causam cancro versus os tecidos onde não
causam. A fim de avaliar outras variáveis que possam ter impacto para além dos parâmetros topológicos
e que possam também diferir dependendo do número de tecidos onde os genes “drivers” causam a
doença, usamos os dados da base de dados de onde retiramos os genes promotores que incluíam
informações sobre o número de interações que cada gene promotor estabelece com diferentes miRNA e
sobre o número de complexos proteicos que estes genes integram. Também avaliamos o impacto da
expressão génica nas diferentes categorias de número de tecidos. Por fim, enriquecemos funcionalmente
os genes promotores de cancro, usando dois métodos diferentes. No primeiro método usamos os genes
que tinham uma diferença topológica maior (para este estudo usamos apenas o parâmetro topológico
“Degree”) entre os tecidos onde causam ou não cancro. Classificamos cada gene como positivo,
negativo e não significativo com base na diferença entre o valor médio do “Degree” nos tecidos onde
causam cancro versus o valor nos tecidos onde não causam. O segundo método foi o enriquecimento
dos diferentes genes promotores de cancro de acordo com o número de tecidos que causam cancro.
Fizemos esse estudo usando as diferentes categorias de número de tecidos.
Globalmente, os nossos resultados sugerem que os valores dos parâmetros topológicos (por
exemplo, “Degree“ e “Closeness”) tendem a ser maiores nos tecidos em que os genes promoteres de
cancro provocam a doença ( “Tissue Drivers”), seguidos pelos valores dos genes de cancro que são não
promotores de cancro mas estão associados ao desenvolvimento da doença (“Disease Genes”), os
valores dos genes promotores de cancro nos tecidos onde não causam cancro (“NonTissueDrivers”) e
por último, com os menores valores de parâmetros topológicos, os genes que não estão associados a
qualquer doença. A diferença entre os valores dos parâmetros topológicos nos “TissueDrivers” versus
“NonTissueDrivers” é estatisticamente significativa na maioria dos parâmetros topológicos testados e
nos diferentes métodos de rede utilizados, exceto no método “JustHuRiTPM5Zminmax” (usando apenas a base de dados Huri). Quando analisámos em cada tecido os valores dos parâmetros topológicos,
pudemos ver que os valores de “Degree” tendem a ser maiores nos genes promotores de cancro que
causam cancro naquele tecido em comparação com os genes promotores que não provocam cancro nesse
tecido. Essa diferença é estatisticamente significativa em muitos dos tecidos analisados.
Em relação a como os valores dos parâmetros topológicos se comportam ao longo das diferentes
categorias associadas ao número de tecidos em que os genes promotores causam cancro, descobrimos
que nos genes promotores de cancro que causam doença em apenas em um e dois tecidos, o valor do
“Degree” nos tecidos onde causam cancro é menor que o valor apresentado nos tecidos onde não causam
cancro. Observamos a tendência inversa nos genes promotores que causam cancro em seis ou mais
tecidos (o valor do “Degree” é maior nos tecidos onde causam cancro). Observamos também que o valor
do “Degree” aumenta gradativamente ao longo do número da categoria de tecidos, atingindo o valor
mais alto na categoria seis (constituída por genes promotores que provocam cancro em seis ou mais
tecidos).
No modelo linear generalizado (GLM), pudemos ver o efeito combinado da variável tipo de
tecido (onde o gene promotor provoca ou não cancro, mostrando uma diferença estatisticamente
significativa entre estas duas situações) e da variável número de tecidos onde os genes promotores
provocam cancro (mostrando também uma valor estatisticamente significativo entre as diferentes
categorias). A interação entre esses dois fatores também foi estatisticamente significativa.
Também pudemos observar valores de “Degree” estatisticamente diferentes entre os genes
promotores supressores de tumor nos tecidos que causam cancro (com valores mais altos) e os valores
nos tecidos onde não causam. Vimos também a mesma diferença nos Oncogenes, mas com menor
significância. Os valores do “Degree” nos genes Supressores de Tumores foram inferiores aos valores
do “Degree” apresentados pelos Oncogenes.
Pudemos igualmente ver uma clara tendência de correlação entre o aumento do número de
tecidos com o aumento do número de complexos que os genes promotores de cancro integram. O mesmo
comportamento foi observado em relação ao número de miRNAs com os quais os genes promotores
interagem.
Em relação à expressão do mRNA ao longo das categorias de número de tecidos, pudemos ver
uma diferença estatisticamente significativa nas categorias dois e três entre os valores dos genes
promotores(em relação ao parâmetro topológico “Degree”) nos tecidos onde causam cancro versus onde
não causam.
Finalmente, no estudo de enriquecimento de funções pudemos ver que os processos biológicos,
funções moleculares e componentes celulares que obtivemos enriquecidos usando o método das
diferentes categorias de número de tecidos estão muito mais relacionados com os processos de cancro
baseados na literatura (“hallmarks of cancer”). Não conseguimos encontrar uma divisão muito clara
entre funções biológicas enriquecidas que tiveram uma diferença de z-score do “Degree” acima de 1 e aqueles com diferença abaixo de -1. Não encontramos nenhum processo de enriquecimento funcional
relevante em nenhum desses dois grupos de genes e que de alguma forma os pudesse distinguir entre si.
Os resultados desta dissertação apontam para que vários parâmetros topológicos possam estar
associados a genes promotores de cancro. Verificámos que estes genes têm valores de parâmetros
topológicos, como o Degree ou Closeness, mais elevados nos tecidos onde tendencionalmente provocam
cancro. Verificámos também que esta diferença está presente nos oncogenes e nos genes supressores de
tumor. Outro fator que verificamos influenciar o valor dos parâmetros topológicos, é o número de
tecidos em que estes genes provocam a doença. Há uma tendência crescente do valor topológico com
um número de tecidos em que provocam cancro
From condition-specific interactions towards the differential complexome of proteins
While capturing the transcriptomic state of a cell is a comparably simple effort with modern sequencing techniques, mapping protein interactomes and complexomes in a sample-specific manner is currently not feasible on a large scale. To understand crucial biological processes, however, knowledge on the physical interplay between proteins can be more interesting than just their mere expression. In this thesis, we present and demonstrate four software tools that unlock the cellular wiring in a condition-specific manner and promise a deeper understanding of what happens upon cell fate transitions. PPIXpress allows to exploit the abundance of existing expression data to generate specific interactomes, which can even consider alternative splicing events when protein isoforms can be related to the presence of causative protein domain interactions of an underlying model. As an addition to this work, we developed the convenient differential analysis tool PPICompare to determine rewiring events and their causes within the inferred interaction networks between grouped samples. Furthermore, we present a new implementation of the combinatorial protein complex prediction algorithm DACO that features a significantly reduced runtime. This improvement facilitates an application of the method for a large number of samples and the resulting sample-specific complexes can ultimately be assessed quantitatively with our novel differential protein complex analysis tool CompleXChange.Das Transkriptom einer Zelle ist mit modernen Sequenzierungstechniken vergleichsweise einfach zu erfassen. Die Ermittlung von Proteininteraktionen und -komplexen wiederum ist in großem Maßstab derzeit nicht möglich. Um wichtige biologische Prozesse zu verstehen, kann das Zusammenspiel von Proteinen jedoch erheblich interessanter sein als deren reine Expression. In dieser Arbeit stellen wir vier Software-Tools vor, die es ermöglichen solche Interaktionen zustandsbezogen zu betrachten und damit ein tieferes Verständnis darüber versprechen, was in der Zelle bei Veränderungen passiert. PPIXpress ermöglicht es vorhandene Expressionsdaten zu nutzen, um die aktiven Interaktionen in einem biologischen Kontext zu ermitteln. Wenn Proteinvarianten mit Interaktionen von Proteindomänen in Verbindung gebracht werden können, kann hierbei sogar alternatives Spleißen berücksichtigen werden. Als Ergänzung dazu haben wir das komfortable Differenzialanalyse-Tool PPICompare entwickelt, welches Veränderungen des Interaktoms und deren Ursachen zwischen gruppierten Proben bestimmen kann. Darüber hinaus stellen wir eine neue Implementierung des Proteinkomplex-Vorhersagealgorithmus DACO vor, die eine deutlich reduzierte Laufzeit aufweist. Diese Verbesserung ermöglicht die Anwendung der Methode auf eine große Anzahl von Proben. Die damit bestimmten probenspezifischen Komplexe können schließlich mit unserem neuartigen Differenzialanalyse-Tool CompleXChange quantitativ bewertet werden
BIOINFORMATICS TOOL AND MODEL DEVELOPMENT FOR STUDYING BIOLOGICAL NETWORKS AND PROTEIN-PROTEIN INTERACTIONS
Ph.DDOCTOR OF PHILOSOPH
Rapid changes in genome organisation during exit from pluripotency and the role of the nuclear envelope in maintaining the pluripotent state
The majority of Nuclear Envelope Transmembrane Proteins (NETs) are tissue specific and many of these facilitate tissue-specific genome organization. Genome organization changes dramatically during differentiation and these NETs impact this process: muscle-specific genome-organizing NETs NET39, WFS1 and TMEM38A are important for myogenesis (Robson et al, 2016) while fat-specific genome-organizing NETs TMEM120A and B are important for adipogenesis (Batrakou et al, 2015). Although during lineage specification of mouse embryonic stem cells (Peric-Hupkes et al, 2010), we do not yet understand the temporal dynamics of these changes nor the components of the nuclear envelope that orchestrate these changes during early stages of exit from pluripotency. In this thesis, I investigate the temporal dynamics of genome organization changes during pluripotency exit stimulated by LIF withdrawal. Using Fluorescence in-situ Hybridization (FISH) to label DNA, I demonstrate that some of the earliest changes in genome organization occur within the first hour of exit from pluripotency with the relocation of a locus containing three genes Triml1, Triml2 and Zfp42 (that encodes REX1, a well-known marker of pluripotency) from the nuclear interior to the nuclear periphery. The RNA and protein levels of these genes persist for several hours post exit, suggesting that reorganisation of the genome is among the very first of events occurring during lineage specification and is perhaps a higher order mechanism controlling differentiation as a change in genome organisation could affect the transcriptional profile of these cells. To try and identify the proteins involved in tethering the locus and the mechanism of release I also investigated the changes in the nuclear envelope composition as cells undergo an exit from pluripotency. I show that while certain proteins undergo post translational modifications such as phosphorylation, other new proteins are synthesised during the first two hours of exit. Using phospho-null mutants for LBR and LAP2α, I show that these play a role in the relocation of this genomic locus. Finally, I introduced tissue-specific genome-organizing NETs such as NET39 (muscle), TAPBPL (blood) and TMEM120A(fat) into embryonic stem cells and found that their introduction causes a forced exit from pluripotency. Interestingly, these NETs show specificity in their ability to affect the position of genomic loci encoding pluripotency factors like Rex1 and Nanog, strengthening the idea that these tissue specific NETs act as tethers to very specific genomic regions in order to maintain a tissue specific genome organization.
The results discussed here present for the first time, a temporal view of the changes in genome organisation during such early stages of in vitro differentiation. While Rex1 repositioning has been studied in greater detail in this thesis, a more comprehensive study over the early stages of exit might reveal additional genomic loci that reposition during this phase. The rapid reorganisation of the genome following LIF withdrawal highlights the importance of tightly controlling and maintaining appropriate culture conditions for the study of pluripotency using embryonic stem cells as a model system. The study leads to conceptual advancement in stem cell biology by describing early events following exit from pluripotency and in the field of nuclear biology by identifying the NE composition in ES cells. Collectively the results demonstrate the role of the nuclear envelope in the maintenance of pluripotency and in orchestrating genome organisation changes during exit