268 research outputs found

    Network Analysis of Microarray Data

    Get PDF
    DNA microarrays are widely used to investigate gene expression. Even though the classical analysis of microarray data is based on the study of differentially expressed genes, it is well known that genes do not act individually. Network analysis can be applied to study association patterns of the genes in a biological system. Moreover, it finds wide application in differential coexpression analysis between different systems. Network based coexpression studies have for example been used in (complex) disease gene prioritization, disease subtyping, and patient stratification.Peer reviewe

    Role of network topology based methods in discovering novel gene-phenotype associations

    Get PDF
    The cell is governed by the complex interactions among various types of biomolecules. Coupled with environmental factors, variations in DNA can cause alterations in normal gene function and lead to a disease condition. Often, such disease phenotypes involve coordinated dysregulation of multiple genes that implicate inter-connected pathways. Towards a better understanding and characterization of mechanisms underlying human diseases, here, I present GUILD, a network-based disease-gene prioritization framework. GUILD associates genes with diseases using the global topology of the protein-protein interaction network and an initial set of genes known to be implicated in the disease. Furthermore, I investigate the mechanistic relationships between disease-genes and explain the robustness emerging from these relationships. I also introduce GUILDify, an online and user-friendly tool which prioritizes genes for their association to any user-provided phenotype. Finally, I describe current state-of-the-art systems-biology approaches where network modeling has helped extending our view on diseases such as cancer.La cèl•lula es regeix per interaccions complexes entre diferents tipus de biomolècules. Juntament amb factors ambientals, variacions en el DNA poden causar alteracions en la funció normal dels gens i provocar malalties. Sovint, aquests fenotips de malaltia involucren una desregulació coordinada de múltiples gens implicats en vies interconnectades. Per tal de comprendre i caracteritzar millor els mecanismes subjacents en malalties humanes, en aquesta tesis presento el programa GUILD, una plataforma que prioritza gens relacionats amb una malaltia en concret fent us de la topologia de xarxe. A partir d’un conjunt conegut de gens implicats en una malaltia, GUILD associa altres gens amb la malaltia mitjancant la topologia global de la xarxa d’interaccions de proteïnes. A més a més, analitzo les relacions mecanístiques entre gens associats a malalties i explico la robustesa es desprèn d’aquesta anàlisi. També presento GUILDify, un servidor web de fácil ús per la priorització de gens i la seva associació a un determinat fenotip. Finalment, descric els mètodes més recents en què el model•latge de xarxes ha ajudat extendre el coneixement sobre malalties complexes, com per exemple a càncer

    Meta-analysis of host response networks identifies a common core in tuberculosis

    Get PDF
    Tuberculosis remains a major global health challenge worldwide, causing more than a million deaths annually. To determine newer methods for detecting and combating the disease, it is necessary to characterise global host responses to infection. Several high throughput omics studies have provided a rich resource including a list of several genes differentially regulated in tuberculosis. An integrated analysis of these studies is necessary to identify a unified response to the infection. Such data integration is met with several challenges owing to platform dependency, patient heterogeneity, and variability in the extent of infection, resulting in little overlap among different datasets. Network-based approaches offer newer alternatives to integrate and compare diverse data. In this study, we describe a meta-analysis of host’s whole blood transcriptomic profiles that were integrated into a genome-scale protein–protein interaction network to generate response networks in active tuberculosis, and monitor their behaviour over treatment. We report the emergence of a highly active common core in disease, showing partial reversals upon treatment. The core comprises 380 genes in which STAT1, phospholipid scramblase 1 (PLSCR1), C1QB, OAS1, GBP2 and PSMB9 are prominent hubs. This network captures the interplay between several biological processes including pro-inflammatory responses, apoptosis, complement signalling, cytoskeletal rearrangement, and enhanced cytokine and chemokine signalling. The common core is specific to tuberculosis, and was validated on an independent dataset from an Indian cohort. A network-based approach thus enables the identification of common regulators that characterise the molecular response to infection, providing a platform-independent foundation to leverage maximum insights from available clinical data

    Integrative multi-omic network strategies for unraveling complex disease biology and the identification of novel phenotype associated genes

    Full text link
    Identifying the genetic risk factors underlying a given disease is an essential step for informing effective drug targets, understanding disease architecture, and predicting at-risk individuals. A commonly applied approach for identifying novel disease-associated genes is the Genome Wide Association Study (GWAS) approach, in which a high number of individuals are sequenced and genetic variants are then tested for an association with disease status. While the GWAS approach has identified countless disease-associated genes, there remain plenty of diseases for which our genetic understanding is still incomplete. One strategy for augmenting the GWAS approach is to incorporate additional omics data in order to prioritize biologically plausible candidate genes. In this thesis work, we integrate network-based strategies with existing genetic analysis pipelines in order to identify novel Alzheimer’s disease (AD) genes. Two types of biological data inform the underlying structure of the networks: a) protein-protein interactions and b) gene expression in the human brain. Genes which interact or are co-expressed across similar conditions have been shown to have a higher probability of being functionally related. Using a set or previously known AD genes, we apply a network propagation strategy to score genes based upon their proximity to the known AD genes within these networks. Then we integrate the network score of each gene with its risk score from GWAS to identify novel candidates. To further affirm the reproducibility of findings, we further incorporate additional information in the form of knockout models in flies, bootstrap aggregation, and external genetic datasets. In addition to predicting novel genes, we are able to utilize regional co-expression networks to further understand how the known AD genes behave within the various sub-divisions of the brain. We find that regions of the brain which are known to have the earliest vulnerability to AD-induced neurodegeneration also tend to be where AD genes are highly correlated

    Viral Perturbations of Host Networks Reflect Disease Etiology

    Get PDF
    Many human diseases, arising from mutations of disease susceptibility genes (genetic diseases), are also associated with viral infections (virally implicated diseases), either in a directly causal manner or by indirect associations. Here we examine whether viral perturbations of host interactome may underlie such virally implicated disease relationships. Using as models two different human viruses, Epstein-Barr virus (EBV) and human papillomavirus (HPV), we find that host targets of viral proteins reside in network proximity to products of disease susceptibility genes. Expression changes in virally implicated disease tissues and comorbidity patterns cluster significantly in the network vicinity of viral targets. The topological proximity found between cellular targets of viral proteins and disease genes was exploited to uncover a novel pathway linking HPV to Fanconi anemia

    Exploring the interactions between neuron degeneration and RNA homeostasis through biological network analysis

    Get PDF
    Tese de mestrado em Bioquímica, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2016A esclerose lateral amiotrófica (ALS) e a atrofia muscular espinal (SMA) são caracterizadas pela degeneração dos neurónios motores (MN) e são comummente conhecidas como doenças neuromusculares, ou mais especificamente doenças do neurónio motor (MND). A morte dos neurónios motores está diretamente envolvida na perda da inervação muscular e na consequente atrofia muscular. Para além da convergência fenotípica, estas doenças também partilham grandes semelhanças moleculares. A perda de função dos genes que codificam as proteínas FUS, TDP43, SETX e SOD1 são as causas mais conhecidas de ALS. No caso da SMA, a doença é provocada pela produção de formas não funcionais da proteína SMN. Sabe-se que as proteínas FUS, TDP43, SMN e SETX (FTSS) interagem fisicamente e, além disso, são conhecidas por estarem envolvidas num conjunto de funções semelhantes, muitas das quais estão relacionados com os processos de metabolismo do RNA. Esta observação levou a hipótese de que a ALS e a SMA são fenótipos patológicos que, apesar de diferentes, derivam de mecanismos moleculares semelhantes, possivelmente associados a perturbação da hemóstase do RNA. No entanto, é muito intrigante como eventos transversais a todos os tipos celulares podem induzir a morte específica dos neurónios motores. A fim de resolver estas questões nos propomos uma abordagem de biologia de sistemas para descrever a estrutura interactomica e funcional da degeneração dos neurónios motores. A biologia de sistemas (systems biology) baseia-se no pressuposto de que "o todo é mais do que a soma das partes". Utiliza uma abordagem holística para decifrar a complexidade dos sistemas biológicos e para isso integra muitas disciplinas cientificas como a biologia, ciências computacionais, estatística e matemática. A biologia de sistemas concebe as entidades biológicas como sistemas complexos de elementos interrelacionados. Deste modo, uma boa maneira de entender as suas propriedades e representando-as como redes (networks). A biologia de redes (networks biology) e um subcampo da biologia de sistemas que explora os princípios da teoria de redes para inferir informação biológica. Da mesma forma, as doenças são o resultado fenotípico de perturbações interrelacionadas e assim também podem ser representadas como redes biológicas. A medicina de redes e, por sua vez, focalizada na obtenção de conhecimento biomédico a partir da biologia de redes. O nosso principal objetivo e, em primeiro lugar, identificar os elementos mais centrais numa rede de interação proteína-proteína contendo os genes associados a ALS e a SMA. Estes elementos serão parte de mecanismos patológicos hipoteticamente envolvidos na degeneração dos neurónios motores. Considerando a hipótese de que as proteínas FTSS são elementos centrais nas MNDs, realizamos primeiramente uma analise exploratória para desvendar as funções mais influentes entre as proteínas FTSS. Para isso foi construída uma rede de interações proteína-proteína (PPI) constituída pelos interactores mais próximos as proteínas FTSS, o que nos permite identificar as funções mais sobre-representadas dentro da rede. Embora, sabendo que as proteínas FTSS não são as únicas proteínas associadas as MNDs, também realizamos uma exploração mais integrativa incluindo todos os DAGs (genes associados a doença) conhecidos para a ALS e SMA e aplicando um método de priorização de DAGs para prever os elementos mais centrais a ligar as duas patologias. Contudo, depois de fazer extensa uma pesquisa bibliográfica, não encontramos nenhum método com um objectivo semelhante, pelo que construímos um método novo com base em teoria de redes para prever os nos que ligam especificamente os DAGs associados a um par de doenças. O método S2B foi concebido a partir do pressuposto de que as proteínas que interagem com um DAG são provavelmente relacionadas com a mesma doença (constituindo módulos de doenças na rede) e também que os DAGs são propensos a ser associados a mais do que uma doença (os módulos de doenças podem sobrepor-se). Assim, o método S2B está focado na medição dum tipo particular de medida de centralidade (S2B betweenness). O betweeness e uma medida de centralidade popular em biologia de redes que conta as vezes que um no está envolvido num caminho mais curto (shortest path) numa rede. Geralmente o betweeneess standard é medido para todos os possíveis caminhos mais curtos entre quaisquer nos enquanto que o S2B betweenness apenas considera os caminhos mais curtos entre pares de DAGs. Portanto, o método S2B só prioriza a centralidade dos elementos ligando genes causativos de duas doenças. Alem disso, sabendo que os nos altamente conectados (hubs) são mais propensos a aparecer por acaso num caminho mais curto entre DAGs, o algoritmo do S2B também utiliza dois algoritmos estatísticos baseados em aleatorizações da rede com os quais mede a especificidade dos hubs no contexto das doenças em estudo. As proteínas resultantes da priorização realizada pelo S2B foram enriquecidas funcionalmente. Os resultados da análise de enriquecimento foram comparados com os resultados obtidos na análise da rede particular para as proteínas FTSS para assim, explorar qual e o papel do metabolismo do RNA e outros mecanismos moleculares hipotéticos na degeneração dos neurónios motores. No conjunto das várias abordagens seguidas, este trabalho levou a descoberta de novos processos biológicos candidatos a mecanismos moleculares comuns entre a ALS e a SMA, mas também confirmou alguns processos já conhecidos simultaneamente envolvidos na ALS e na SMA. Globalmente, os nossos resultados sugerem cinco vias moleculares principais em comum nas duas patologias: 1) danos no DNA e apoptose induzidos pela desregulação da formação de “R-loops”, 2) inflamação e neuro degeneração induzida por uma hipersensibilidade imunológica, 3) desregulação da cromatina e genotoxicidade produzida pela perturbação da biogénese de histonas, 4) alteração dos padrões de “splicing” e genotoxicidade criada pela falha da formação do spliceossoma e 5) desregulação de processos relacionados com microtubulos que levam a problemas morfológicos na formação de axónios e sinapses. As vias identificadas sugerem novas hipóteses que podem ser experimentalmente testadas. Assim, esta investigação pode ajudar a melhorar a compreensão dos mecanismos envolvidos na morte dos neurónios motores e também ajudar eventualmente ao desenho de alvos terapêuticos e biomarcadores para as MNDs. Alem disso, também fornecemos um novo método para a priorização de DAGs candidatos a ligar os mecanismos moleculares de duas doenças relacionadas. Tal como no caso das MNDs, esperamos que este método ajude a comunidade a estudar outros tipos de doenças complexas.Amyotrophic lateral sclerosis (ALS) and spinal muscular atrophy (SMA) are characterized by motor neuron (MN) degeneration and commonly referred as motor neuron diseases (MND). MN degeneration leads to the loss of muscle innervation and subsequent muscular atrophy. In addition to phenotypic similarity, they also share molecular overlaps. Genes that codify FUS, TDP43, SETX and SOD1 proteins are the best-known causative genes of ALS and SMN dysfunction is the cause of SMA. FUS, TDP43, SMN and SETX (FTSS) proteins are known to physically interact and are involved in similar functions, many of which related to RNA metabolism processes. This supports the hypothesis that ALS and SMA are different pathophenotypic results derived from related molecular origins, in particular from RNA homeostasis perturbation. However, it is very intriguing how such critical events could specifically induce motor neuron perturbation. Besides, RNA metabolism is not the only function described for MND associated genes, indeed FTSS proteins are highly multifunctional which hinders the identification of the most relevant functions in this context. In order to solve these questions we followed a systems biology approach exploring the interactomic and functional framework of MN degeneration. Under the hypothesis that FTSS proteins are central elements in MN degeneration, we performed a local network analysis to unravel the most influential functions among FTSS proteins. We constructed a protein-protein interaction (PPI) network constituted by FTSS proteins' common interactors to identify the most over represented functions within this FTSS-focused network. We also performed a PPI network analysis including all the known MND associated genes. For that purpose we developed a new method, S2B (double specific betweenness) to prioritize nodes specifically linking a pair of diseases. While standard betweenness is measured for all possible shortest paths between any nodes, S2B only considers those shortest paths involving Disease Associated Genes (DAGs) from one disease as initial nodes and DAGs from the other disease as final nodes. Therefore, S2B method only prioritizes proteins linking MND causative genes. Moreover, knowing that highly connected nodes (hubs) are more likely found by chance in a shortest paths involving DAGs, S2B method also performs two network randomization-based statistics to filter out proteins that link MND DAGs non specifically. Finally we functionally enriched the prioritized candidates and compared against the functional set obtained with FTTS-focused network in other to explore the role of RNA metabolism and other putative molecular mechanisms on MN degeneration. The combined approaches used in this work provided novel biological processes simultaneously involved in ALS and SMA diseases and confirmed the relevance of known related processes. Globally, our results suggest five pathways in common between ALS and SMA: 1) DNA damage and apoptosis induced by R-loop deregulation, 2) inflammation and neurodegeneration induced by immune hyper-sensitivity, 3) chromatin deregulation and genotoxicity produced by histone biogenesis perturbation, 4) splicing patterns alteration and genotoxicity produced by spliceosome assembly failure and 5) deregulation of microtubule related processes leading to morphological problems in axon and synapse formation. Besides the new hypothesis of common pathomechanisms in MNDs, our work also supplies a new network-based DAG prioritization method, S2B, to identify disease-disease linking candidates we expect to contribute to the study of various complex diseases

    Development of a machine learning-based pipeline able to predict genes associated with diseases and cell processes using interpretable network embeddings

    Get PDF
    Tese de Mestrado, Bioinformática e Biologia Computacional, 2022, Universidade de Lisboa, Faculdade de CiênciasA revolução tecnológica no mundo da sequenciação observada nas últimas duas décadas levou a um grande aumento no número de proteínas conhecidas. Porém, este aumento não foi correspondido com o aumento no seu número de anotações proteicas, em particular acerca do seu envolvimento em processos celulares e doenças. Atualmente, apenas cerca de 25% das proteínas humanas é conhecida por ter uma associação a uma doença. A lenta expansão de conhecimento destas associações deve-se essencialmente às técnicas experimentais necessárias para as descobrir, como por exemplo, estudos de ligação genética e genome-wide association studies, uma vez que falham quando aplicados a doenças heterogéneas, ou produzem números elevados de falsos positivos, respetivamente. Isto leva a um complexo processo de validação de resultados, que inevitavelmente desacelera o processo de anotação. O desenvolvimento de métodos capazes de produzir um número mais restrito de candidatos surge então como uma necessidade para a mais eficaz descoberta de associações, com vários tipos de métodos computacionais a terem sido desenvolvidos nas últimas décadas. Uma fração destes métodos foca-se no uso de redes. Os mecanismos de processos celulares e doenças surgem da coordenação de múltiplas proteínas que interagem fisicamente, formando módulos de doenças e de processos celulares numa rede de interações biológicas. As redes biológicas podem ser representadas sob a forma de grafos, objectos matemáticos que representam como um conjunto de entidades interage entre si. Os grafos são formados por um conjuntos de nós (ou vértices), ligados entre si por arestas, permitindo a fácil representação e análise de redes, como as de interação de proteínas. Estas redes podem então ser exploradas de forma a encontrar padrões de interação que caracterizem as proteínas que fazem parte de um determinado módulo, de modo a mais tarde expandir este conhecimento e encontrar novas proteínas candidatas que possam eventualmente estar associadas a esse mesmo módulo e ser experimentalmente validadas. A deteção dos padrões que caracterizam as proteínas associadas a cada módulo depende do uso de métricas capazes de discriminar as relações de interesse que cada proteína apresenta, podendo estas métricas ir desde a medição da distância de cada proteína ao módulo, ao uso de métodos mais complexos de difusão, tais como Random Walks with Restart. Muitos dos algoritmos já desenvolvidos focam-se no uso de métricas de proximidade, como o Closeness, que mede a centralidade de um determinado nó na rede, ou realizando um teste hipergeométrico de modo a analisar o enriquecimento de um nó em ligações com nós do módulo de interesse. A maioria dos algoritmos disponíveis na literatura baseia-se apenas na informação dada pela relação de cada nó com os nós do módulo em estudo, com uma minoria destes algoritmos a usar informação adicional de doenças fenotipicamente semelhantes. O mapeamento do interactoma humano ainda está por concluir, e, portanto, as redes de interação proteica usadas estão incompletas, faltando nós e arestas aos grafos contruídos. Para além disso, os processos de deteção de associações estão expostos à presença de falsos positivos. Tanto a incompletude das redes da interação como a presença de falsos positivos são fatores que podem afetar em larga escala as previsões de algoritmos que apenas se baseiam no próprio módulo, dificultando então o processo de seleção de novos candidatos. Será, portanto, interessante o desenvolvimento de um algoritmo capaz de usar uma maior fração dos dados ao seu dispor, sem depender do uso de informação, como a semelhança fenotípica, que permita uma maior precisão aquando da previsão de novos candidatos, mas também uma maior robustez sob a presença de alterações na rede de interação ou de anotações incorretas. Neste trabalho, é então proposto o desenvolvimento de um novo algoritmo para a previsão de novos candidatos associados com doenças ou processos celulares designado de Gene Annotation Prediction using Module-based Interpretable Network Embeddings (GAP-MINE). A maior contribuição deste algoritmo é o uso de network embeddings facilmente interpretáveis num contexto biológico. Network embeddings, são vetores usados para explicar a relação de cada nó da rede com os restantes através de um espaço multidimensional. Estes podem ser adaptados ao contexto de nosso problema, e assim explicar a relação que cada nó tem com cada módulo, criando, portanto, uma representação multidimensional que pode ser usada para descobrir os padrões que caracterizam as proteínas associadas a um determinado módulo, usando informação adicional contida no restante vetor. Para além disso, ao exprimirem a relação de cada nó com os diferentes módulos, estes vetores permitem uma melhor interpretação dos resultados, uma vez que permitem a análise dos módulos escolhidos. O algoritmo desenvolvido é composto por 6 passos que podem ser facilmente adaptados consoante a natureza do problema. Primeiramente, a rede de interação proteica foi construída utilizando as interações disponíveis na bases de dados APID e HuRI, juntamente com as anotações de associação de proteínas a processos e doenças, provenientes das bases de dados REACTOME e DisGeNET, respetivamente. A rede criada apresenta um total de 17 204 nós, ligados por 260 960 arestas. Foram criados três tipos de módulos: um de processos celulares, num total de 429, e dois do doença, que variam consoante a conectividade do módulo em si, porém tendo origem nos mesmo dados, totalizando um total de 203 aquando da utilização de módulos conectados, e de 301 aquando da utilização de módulos mais dispersos na rede. Cinco diferentes métricas foram, de seguida, aplicadas à rede (Hypergeometric Test, Closeness, Betweenness, Fraction Betweenness e Random Walks with Restart) sendo modificadas das suas formas normais de forma a explicar como cada nó se relaciona com os nós associados a um determinado módulo. Ao serem aplicadas aos diferentes módulos, é então formado um embedding para cada nó de dimensão igual ao número de módulos presentes na rede, resultando na matriz de embeddings de N vs. M dimensões, onde N é o número de nós da rede e M o número de módulos. À matriz é depois aplicado um passo de seleção, onde, para a classificação de um determinado módulo são selecionados os módulos que mais contribuem para a discriminação das proteínas associadas e não associadas ao mesmo. Tendo os módulos mais relevantes selecionados, os embeddings são fornecidos a um modelo de regressão logística, um algoritmo de classificação, que é treinado e otimizado com uma validação cruzada de 10 passos. Este algoritmo de classificação é depois avaliado usando um conjunto de teste, e aplicado para a totalidade dos dados de modo a prever as novas associações. Por fim, as associações previstas são validadas através comparação dos termos da Gene Ontology e da Human Phenotype Ontology (este último exclusivamente aplicado a proteínas de doença) em comum com os termos enriquecidos das proteínas do módulo alvo, e pela procura do identificador da proteína e do nome do módulo em títulos e resumos da literatura. O algoritmo GAP-MINE foi primeiramente comparado com um modelo padrão que apenas utiliza os valores obtidos para o módulo que se pretende classificar. Verificou-se que as Random Walks with Restart são as melhores métricas a ser usadas para a previsão de novas proteínas associadas aos módulos, obtendo valores medianos de F-Measure acima de 0.9 utilizando tanto o nosso algoritmo, como os modelos padrão. Comparando o nosso algoritmo com os modelos padrão, foi possível observar que foram obtidos resultados significativamente melhores em 2 dos 3 tipos de módulos aquando da utilização de tanto as Random Walks with Restart, como do Closeness como métricas, obtendo, no entanto, piores resultados usando Betweenness e Fraction Betweenness. Analisando as Random Walks with Restart em pormenor, foi possível verificar que a melhoria dos resultados obtidos se deveu a um aumento da precisão em todos os módulos, à custa de capturar um menor número de positivos. O mesmo comportamento foi verificado em testes feitos onde a rede utilizada foi alterada para simular casos de falta de informação ou da inclusão de falsos positivos. A combinação GAP-MINE com Random Walks with Restart foi também comparada com outros algoritmos já estabelecidos (GenePANDA, Raw e MaxLink), tendo sido observado que o nosso algoritmo é capaz de obter resultados significativamente melhores do que qualquer um dos três algoritmos. De forma geral, as previsões feitas pelo nosso algoritmo mostram-se enriquecidas em termos relevantes e relacionados com ostermos associados aos diferentes processos e doenças, tendo também sido possível verificar a presença na literatura de algumas das novas associações. Concluindo, o nosso algoritmo mostra-se ser uma alternativa capaz de prever novas associações entre proteínas e processos celulares/doenças, com uma melhoria de precisão, o que deverá facilitar o processo de validação experimental, e acelerar a descoberta de novas associações.The rapid growth of genomic sequences has expanded the number of known proteins, however, their annotation mapping to known diseases and cell processes is still trailing. Protein mapping relies on experimental methods, such as linkage mapping studies, that are both expensive and time-consuming, so computational methods have emerged as alternatives for candidate prioritization. Network-based algorithms are one kind of algorithm that has been developed for this purpose. Diseases and cell processes are resultant of the coordination of multiple physically interacting proteins, thus, biological networks can be used to search for new proteins that frequently interact with other disease or process associated proteins. Although several algorithms have been developed to tackle this problem, most of them do not use the full extent of available information within the network for their predictions, only relying on the known proteins associated with the disease/cell process of interest, or only using additional information from phenotypically similar diseases. Here we propose GAP-MINE, a network-based algorithm with module-based interpretable embeddings, that uses additional modules to improve the prediction of new gene annotations. GAP-MINE is an adaptable algorithm with diverse possibilities in each of its several steps, such as the use of different classification algorithms or different protein interaction networks. We applied GAP-MINE in the discovery of newly associated genes for a total of 429 processes and 301 diseases. Using Random Walks with Restart as the scoring function, GAP-MINE shows median F-Measure scores consistently above 0.9. Compared to baseline and literature algorithms, GAP-MINE not only shows significantly better results but is also more precise and robust to the addition of noise, with its candidates showing biologically relevant annotations. GAP-MINE is therefore a suitable algorithm for gene annotation prediction and could be used to narrow down the number of genes to validate experimentally

    Integrating omics data from phenotypically-related genodermatoses. A Cytoscape approach using biological networks

    Get PDF
    The ongoing advance of high-throughput sequencing technologies is bringing to the biomedical research community the opportunity to disclose relatively uncharted and poorly addressed domains in genetic disorders. Specifically, this project aims to shed new light on the molecular mechanisms of three rare skin diseases: Recessive Dystrophic Epidermolysis Bullosa (RDEB), Kindler Syndrome (KS) and Xeroderma pigmentosum type C (XPC). To accomplish this, biological network construction is leveraged herein, by providing a convenient approach to integrate and downstream analyze molecular omics data obtained from the comparison of these three genodermatoses (RDEB, KS & XPC) against healthy control samples. Concretely, microRNAs, RNAs and protein datasets are conjointly combined in the form of graphs whose structure and arrangement can be analyzed. On this basis, and upon computational procedures, the representation of high-throughput omics data across networks serves for both a topological and functional characterization of the molecular entities embedded within the graphs. Cytoscape software harbors the toolkits needed to exploit the massive omics information presented in this work, closely operating with online ontologies containing crucial annotations on the molecular entities under the network conglomerates. Cytoscape platform is going to carry out the bioinformatics computational endeavours, conducting then to new insights where common mechanisms and candidate biomarkers shared by the three genodermatoses will be highlighted. In this manner, STRING, BiNGO and ClueGO (Cytoscape plug-ins) will assist in the finding of enriched functions (such as “cell adhesions” and “epidermal growth factor signaling”), whereas the topological analysis will rely on STRING and NetworkAnalyzer, following the principles of graph theory to identify candidate molecules like TFAP2A and L1CAM. With the aid of manual curations, these two approaches will stand for a narrowing-down strategy from which biological interpretations are obtained.Ingeniería Biomédic

    An Outranking Approach for Gene Prioritization Using Multinetworks

    Get PDF
    High-throughput experimental techniques such as genome-wide association studies have been instrumental in the identification of disease-associated genes. These methods often produce large lists of disease candidate genes which are time-consuming and expensive to experimentally validate. Computational gene prioritization methods are required to identify relevant genes from a larger pool of candidates. Research has shown that the integration of diverse “omic” evidence can reduce the candidate-gene search space. In this paper we present a general framework that integrates “omic” data using a multinetwork approach and topological analysis to prioritize disease-candidate genes. Specifically, we propose a data integration method within a multicriteria decision analysis context using aggregation mechanisms based on decision rules identifying positive and negative criteria for judging gene-candidates ranks. The proposed multinetwork disease gene prioritization method is applied to the prioritization of disease genes in ovarian cancer progression. Using this approach we uncovered known ovarian cancer genes GSTA1, ERBB2, IL1A, MAGEB2, along with significantly enriched Kyoto Encyclopedia of Genes and Genomes (KEGG) pathways ErbB signaling and pathways in cancer. Relatively high predictive performance (area under Receiver Operating Characteristic [ROC] curve 0.704) was observed when classifying epithelial ovarian high-grade serous carcinoma cancer early and late stage RNA-Seq expression profiles from individuals using 10-fold cross-validation

    Network-based methods for biological data integration in precision medicine

    Full text link
    [eng] The vast and continuously increasing volume of available biomedical data produced during the last decades opens new opportunities for large-scale modeling of disease biology, facilitating a more comprehensive and integrative understanding of its processes. Nevertheless, this type of modelling requires highly efficient computational systems capable of dealing with such levels of data volumes. Computational approximations commonly used in machine learning and data analysis, namely dimensionality reduction and network-based approaches, have been developed with the goal of effectively integrating biomedical data. Among these methods, network-based machine learning stands out due to its major advantage in terms of biomedical interpretability. These methodologies provide a highly intuitive framework for the integration and modelling of biological processes. This PhD thesis aims to explore the potential of integration of complementary available biomedical knowledge with patient-specific data to provide novel computational approaches to solve biomedical scenarios characterized by data scarcity. The primary focus is on studying how high-order graph analysis (i.e., community detection in multiplex and multilayer networks) may help elucidate the interplay of different types of data in contexts where statistical power is heavily impacted by small sample sizes, such as rare diseases and precision oncology. The central focus of this thesis is to illustrate how network biology, among the several data integration approaches with the potential to achieve this task, can play a pivotal role in addressing this challenge provided its advantages in molecular interpretability. Through its insights and methodologies, it introduces how network biology, and in particular, models based on multilayer networks, facilitates bringing the vision of precision medicine to these complex scenarios, providing a natural approach for the discovery of new biomedical relationships that overcomes the difficulties for the study of cohorts presenting limited sample sizes (data-scarce scenarios). Delving into the potential of current artificial intelligence (AI) and network biology applications to address data granularity issues in the precision medicine field, this PhD thesis presents pivotal research works, based on multilayer networks, for the analysis of two rare disease scenarios with specific data granularities, effectively overcoming the classical constraints hindering rare disease and precision oncology research. The first research article presents a personalized medicine study of the molecular determinants of severity in congenital myasthenic syndromes (CMS), a group of rare disorders of the neuromuscular junction (NMJ). The analysis of severity in rare diseases, despite its importance, is typically neglected due to data availability. In this study, modelling of biomedical knowledge via multilayer networks allowed understanding the functional implications of individual mutations in the cohort under study, as well as their relationships with the causal mutations of the disease and the different levels of severity observed. Moreover, the study presents experimental evidence of the role of a previously unsuspected gene in NMJ activity, validating the hypothetical role predicted using the newly introduced methodologies. The second research article focuses on the applicability of multilayer networks for gene priorization. Enhancing concepts for the analysis of different data granularities firstly introduced in the previous article, the presented research provides a methodology based on the persistency of network community structures in a range of modularity resolution, effectively providing a new framework for gene priorization for patient stratification. In summary, this PhD thesis presents major advances on the use of multilayer network-based approaches for the application of precision medicine to data-scarce scenarios, exploring the potential of integrating extensive available biomedical knowledge with patient-specific data
    corecore