643 research outputs found

    Interspecies Translation of Disease Networks Increases Robustness and Predictive Accuracy

    Get PDF
    Gene regulatory networks give important insights into the mechanisms underlying physiology and pathophysiology. The derivation of gene regulatory networks from high-throughput expression data via machine learning strategies is problematic as the reliability of these models is often compromised by limited and highly variable samples, heterogeneity in transcript isoforms, noise, and other artifacts. Here, we develop a novel algorithm, dubbed Dandelion, in which we construct and train intraspecies Bayesian networks that are translated and assessed on independent test sets from other species in a reiterative procedure. The interspecies disease networks are subjected to multi-layers of analysis and evaluation, leading to the identification of the most consistent relationships within the network structure. In this study, we demonstrate the performance of our algorithms on datasets from animal models of oculopharyngeal muscular dystrophy (OPMD) and patient materials. We show that the interspecies network of genes coding for the proteasome provide highly accurate predictions on gene expression levels and disease phenotype. Moreover, the cross-species translation increases the stability and robustness of these networks. Unlike existing modeling approaches, our algorithms do not require assumptions on notoriously difficult one-to-one mapping of protein orthologues or alternative transcripts and can deal with missing data. We show that the identified key components of the OPMD disease network can be confirmed in an unseen and independent disease model. This study presents a state-of-the-art strategy in constructing interspecies disease networks that provide crucial information on regulatory relationships among genes, leading to better understanding of the disease molecular mechanisms

    Converging models for transcriptome studies of human diseases : the case of oculopharyngeal muscular dystrophy

    Get PDF
    This dissertation mainly focuses on interdisciplinary approaches for biomedical knowledge discovery. This required special efforts in developing systematic strategies to integrate various data sources and techniques, leading to improved discovery of mechanistic insights on human diseases. Chapter one looks at the possibility in which combining various bioinformatics-based strategies can significantly improve the characterization of the OPMD mouse model. We discuss that this approach in knowledge discovery, on the basis of our extensive analysis, helped us to shed some light on how this model system relates to OPMD pathophysiology in human. In Chapter two, we expand on this combinatory approach by conducting a cross-species data analysis. In this study, we have looked for common patterns that emerge by assessing the transcriptome data from three OPMD model systems and patients. This strategy led to unravelling the most prominent molecular pathway involved in OPMD pathology. The third chapter achieves a similar goal to identify similar molecular and pathophysiological features between OPMD and the common process of skeletal muscle ageing. Engaging in a study in which the focus was made on the universality of biological processes, in the light of evolutionary mechanisms and common functional features, led to novel discoveries. This work helped us uncover remarkable insights on molecular mechanisms of ageing muscles and protein aggregation. Chapters four and five take a different route by tackling the field of computational biology. These chapters aim to extend network inference by providing novel strategies for the exploitation and integration of multiple data sources. We show that these developments allow us to infer more robust regulatory mechanisms to be identified while translations and predictions are made across very different datasets, platforms, and organisms. Finally, the dissertation is concluded by providing an outlook on ways the field of systems biology can evolve in order to offer enhanced, diversified and robust strategies for knowledge discovery.UBL - phd migration 201

    Bioinformatics tools in predictive ecology: Applications to fisheries

    Get PDF
    This article is made available throught the Brunel Open Access Publishing Fund - Copygith @ 2012 Tucker et al.There has been a huge effort in the advancement of analytical techniques for molecular biological data over the past decade. This has led to many novel algorithms that are specialized to deal with data associated with biological phenomena, such as gene expression and protein interactions. In contrast, ecological data analysis has remained focused to some degree on off-the-shelf statistical techniques though this is starting to change with the adoption of state-of-the-art methods, where few assumptions can be made about the data and a more explorative approach is required, for example, through the use of Bayesian networks. In this paper, some novel bioinformatics tools for microarray data are discussed along with their ‘crossover potential’ with an application to fisheries data. In particular, a focus is made on the development of models that identify functionally equivalent species in different fish communities with the aim of predicting functional collapse

    Artificial intelligence for neurodegenerative experimental models

    Get PDF
    INTRODUCTION: Experimental models are essential tools in neurodegenerative disease research. However, the translation of insights and drugs discovered in model systems has proven immensely challenging, marred by high failure rates in human clinical trials. METHODS: Here we review the application of artificial intelligence (AI) and machine learning (ML) in experimental medicine for dementia research. RESULTS: Considering the specific challenges of reproducibility and translation between other species or model systems and human biology in preclinical dementia research, we highlight best practices and resources that can be leveraged to quantify and evaluate translatability. We then evaluate how AI and ML approaches could be applied to enhance both cross-model reproducibility and translation to human biology, while sustaining biological interpretability. DISCUSSION: AI and ML approaches in experimental medicine remain in their infancy. However, they have great potential to strengthen preclinical research and translation if based upon adequate, robust, and reproducible experimental data. HIGHLIGHTS: There are increasing applications of AI in experimental medicine. We identified issues in reproducibility, cross-species translation, and data curation in the field. Our review highlights data resources and AI approaches as solutions. Multi-omics analysis with AI offers exciting future possibilities in drug discovery

    Computational translation of genomic responses from experimental model systems to humans

    Get PDF
    The high failure rate of therapeutics showing promise in mouse models to translate to patients is a pressing challenge in biomedical science. Though retrospective studies have examined the fidelity of mouse models to their respective human conditions, approaches for prospective translation of insights from mouse models to patients remain relatively unexplored. Here, we develop a semi-supervised learning approach for inference of disease-associated human differentially expressed genes and pathways from mouse model experiments. We examined 36 transcriptomic case studies where comparable phenotypes were available for mouse and human inflammatory diseases and assessed multiple computational approaches for inferring human biology from mouse datasets. We found that semi-supervised training of a neural network identified significantly more true human biological associations than interpreting mouse experiments directly. Evaluating the experimental design of mouse experiments where our model was most successful revealed principles of experimental design that may improve translational performance. Our study shows that when prospectively evaluating biological associations in mouse studies, semi-supervised learning approaches, combining mouse and human data for biological inference, provide the most accurate assessment of human in vivo disease processes. Finally, we proffer a delineation of four categories of model system-to-human "Translation Problems" defined by the resolution and coverage of the datasets available for molecular insight translation and suggest that the task of translating insights from model systems to human disease contexts may be better accomplished by a combination of translation-minded experimental design and computational approaches.Boehringer Ingelheim PharmaceuticalsInstitute for Collaborative Biotechnologies (Grant W911NF-09-0001

    Network-based identification of driver pathways in clonal systems

    Get PDF
    Highly ethanol-tolerant bacteria for the production of biofuels, bacterial pathogenes which are resistant to antibiotics and cancer cells are examples of phenotypes that are of importance to society and are currently being studied. In order to better understand these phenotypes and their underlying genotype-phenotype relationships it is now commonplace to investigate DNA and expression profiles using next generation sequencing (NGS) and microarray techniques. These techniques generate large amounts of omics data which result in lists of genes that have mutations or expression profiles which potentially contribute to the phenotype. These lists often include a multitude of genes and are troublesome to verify manually as performing literature studies and wet-lab experiments for a large number of genes is very time and resources consuming. Therefore, (computational) methods are required which can narrow these gene lists down by removing generally abundant false positives from these lists and can ideally provide additional information on the relationships between the selected genes. Other high-throughput techniques such as yeast two-hybrid (Y2H), ChIP-Seq and Chip-Chip but also a myriad of small-scale experiments and predictive computational methods have generated a treasure of interactomics data over the last decade, most of which is now publicly available. By combining this data into a biological interaction network, which contains all molecular pathways that an organisms can utilize and thus is the equivalent of the blueprint of an organisms, it is possible to integrate the omics data obtained from experiments with these biological interaction networks. Biological interaction networks are key to the computational methods presented in this thesis as they enables methods to account for important relations between genes (and gene products). Doing so it is possible to not only identify interesting genes but also to uncover molecular processes important to the phenotype. As the best way to analyze omics data from an interesting phenotype varies widely based on the experimental setup and the available data, multiple methods were developed and applied in the context of this thesis: In a first approach, an existing method (PheNetic) was applied to a consortium of three bacterial species that together are able to efficiently degrade a herbicide but none of the species are able to efficiently degrade the herbicide on their own. For each of the species expression data (RNA-seq) was generated for the consortium and the species in isolation. PheNetic identified molecular pathways which were differentially expressed and likely contribute to a cross-feeding mechanism between the species in the consortium. Having obtained proof-of-concept, PheNetic was adapted to cope with experimental evolution datasets in which, in addition to expression data, genomics data was also available. Two publicly available datasets were analyzed: Amikacin resistance in E. coli and coexisting ecotypes in E.coli. The results allowed to elicit well-known and newly found molecular pathways involved in these phenotypes. Experimental evolution sometimes generates datasets consisting of mutator phenotypes which have high mutation rates. These datasets are hard to analyze due to the large amount of noise (most mutations have no effect on the phenotype). To this end IAMBEE was developed. IAMBEE is able to analyze genomic datasets from evolution experiments even if they contain mutator phenotypes. IAMBEE was tested using an E. coli evolution experiment in which cells were exposed to increasing concentrations of ethanol. The results were validated in the wet-lab. In addition to methods for analysis of causal mutations and mechanisms in bacteria, a method for the identification of causal molecular pathways in cancer was developed. As bacteria and cancerous cells are both clonal, they can be treated similar in this context. The big differences are the amount of data available (many more samples are available in cancer) and the fact that cancer is a complex and heterogenic phenotype. Therefore we developed SSA-ME, which makes use of the concept that a causal molecular pathway has at most one mutation in a cancerous cell (mutual exclusivity). However, enforcing this criterion is computationally hard. SSA-ME is designed to cope with this problem and search for mutual exclusive patterns in relatively large datasets. SSA-ME was tested on cancer data from the TCGA PAN-cancer dataset. From the results we could, in addition to already known molecular pathways and mutated genes, predict the involvement of few rarely mutated genes.nrpages: 246status: publishe

    Dysfunctional transcripts are formed by alternative polyadenylation in OPMD

    Get PDF
    Molecular Technology and Informatics for Personalised Medicine and HealthFunctional Genomics of Muscle, Nerve and Brain Disorder

    Search for coherent gene modules that predict streptococcus pneumoniae strain invasiveness

    Get PDF
    Tese de mestrado em Bioquímica, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2012O Streptococcus pneumoniae, também chamado pneumococcus, é uma bactéria grampositiva do subgrupo alfa-hemolítico do género Streptococcus. É um colonizador frequente do trato respiratório superior humano e embora possa ser encontrado em qualquer pessoa, tem maior prevalência em crianças e idosos. A colonização decorre tipicamente sem causar sintomas, mas pode por vezes culminar na invasão de outros tecidos e provocar doenças como pneumonia, meningite ou otite do ouvido médio. Sem tratamento, a infeção com pneumococcus tem uma taxa de mortalidade da ordem dos 30 por cento mas, atualmente, com o uso de antibióticos e vacinas, este número é muito mais reduzido. Contudo, a resistência a antibióticos tem vindo a ser reconhecida em pneumococcus e a vacinação, mais do que reduzir o número de doenças provocadas por pneumococcus, tem conduzido à substituição das estirpes que as originam. Por estes motivos, torna-se urgente entender o mecanismo de invasão e virulência do pneumococcus para que novas formas de combate a este patógeneo possam tomar forma. Como em muitos outros organismos que habitam meios de composição pouco variável, na maioria patógenos, o pneumococcus tem um genoma reduzido. O genoma apresenta grande plasticidade, variando cerca de 10 por cento entre estirpes e contem apenas 60 a 80 por cento de genes mantidos em todas as estirpes. A totalidade dos genes do pneumococcus, o pangenoma, é consideravelmente mais vasto que o genoma de qualquer estirpe e juntamente com a capacidade de trocar genes entre a própria espécie, ou por vezes com espécies próximas, confere a esta bactéria uma grande adaptabilidade e resposta rápida a mudanças no seu meio ambiente. A transferência de genes horizontal é de facto uma idiossincrasia do pneumococcus e é, por vezes, acompanhada pela indução de morte de células da mesma espécie para que estas libertem DNA. Este fenómeno, conhecido como fratricídio, acontece quando a célula entra num estado de competência, também chamado estado X. O segundo nome foi proposto por ser mais abrangente, evitando que o estado fosse apenas associado à competência. Neste estado, o perfil de transcrição da bactéria é globalmente alterado e além de expressar genes que promovem a competência, expressa também bacteriocinas tóxicas para as células vizinhas e proteínas que protegem a própria célula dessas bacteriocinas. A facilidade de incorporação de DNA de outras células contribui significativamente para a sobrevivência da bactéria. A resistência à penicilina, por exemplo, é conferida por genes que foram adquiridos de uma espécie próxima, o Streptococcus Mitis. A invasividade e virulência do pneumococcus varia de estirpe para estirpe e é função do conteúdo génico. A bactéria está especialmente adaptada para colonizar, visto passar a maior parte do tempo na nasofaringe e que o principal meio de transmissão ocorre por aerossol e quase exclusivamente durante a colonização. Embora não exista consenso sobre o motivo desta adaptação, é consensual que algumas estirpes são mais aptas para a invasão de outros tecidos e, consequentemente, causar doença. Entre os determinantes de virulência, o mais estudado é a cápsula polisacarídica ou serótipo. São conhecidos mais de 90 serótipos que diferem em estrutura e composição, mas apenas pouco mais de vinte estão associados a doença. A cápsula é um dos mais importantes mecanismos de defesa contra o sistema imunitário humano, já que, além de cobrir grande parte dos epítopos que seriam facilmente reconhecíveis, ainda inibe o sistema do complemento. Vários outros determinantes têm vindo a ser identificados mas o contexto genético tem sido descurado. Alguns dos genes associados com virulência numa estirpe, foram associados com colonização noutra, evidenciando a relevância das interações entre genes. A noção de que a invasividade pode ser conferida por interação entre genes complexifica tanto a busca de determinantes, como os próprios determinantes. É possível identificar determinantes de invasividade procurando diferenças entre grupos de estirpes invasivas e grupos de estirpes colonizadoras. Estas diferenças podem ocorrer em diferentes níveis como o conteúdo génico ou a sua expressão. Dada a grande variabilidade do genoma do pneumococcus, é expectável encontrar determinantes de invasividade ao nível do conteúdo génico. Estas diferenças podem ser detetadas em larga escala por ensaios de microarrays de Hibridação Genómica Comparativa. É importante notar que esta abordagem é observacional e que, portanto, os resultados permitem apenas estabelecer correlações e não relações de causa efeito. Em contrapartida, permite observar múltiplas interações com diferentes backgrounds genéticos e a interação entre diferentes determinantes. Desta maneira, esta abordagem encaixa-se no paradigma da biologia de sistemas, visto estudar não só os genes individualmente, mas antes em interação com os demais. A procura de determinantes que distingam estirpes invasivas de estirpes colonizadoras é um problema de classificação, uma área da aprendizagem supervisionada. Existem já muitos algoritmos desenhados para resolver este tipo de problema. Tipicamente, o sucesso destes algoritmos é avaliado pela sua capacidade de classificar corretamente as estirpes a partir dos seus genótipos. Entre outros, algoritmos como as redes neuronais são conhecidos por uma elevada exatidão de classificação. No entanto, o foco deste trabalho não é a exatidão de classificação mas antes a compreensão dos mecanismos que conduzem à invasividade. Grande parte dos algoritmos existentes resultam num conjunto de regras difíceis de interpretar e ainda mais de traduzir para um nível biológico, em especial se considerarmos que as estirpes invasivas podem ser um grupo heterogéneo com diferentes mecanismos de invasividade. Por este motivo, surgiu a necessidade de desenhar um novo algoritmo que foque primordialmente identificar determinantes de invasividade. A procura de determinantes que tenham em conta a interação de genes constitui um problema computacional acrescido. A busca de múltiplos genes, módulos de genes, que constituam um determinante transforma-se num problema combinatorial em que o número de possibilidades aumenta exponencialmente com o número de genes. Para evitar uma busca exaustiva de todas as combinações, o algoritmo usa informação sobre interações entre os genes que podem ser de cariz metabólico, regulatório, físico, entre outros, mas que podem ser facilmente descritas num formato comum – as redes. As redes têm a vantagem de expressarem facilmente padrões de interações complexos e de serem manipuláveis e pesquisáveis computacionalmente. Os dados usados neste trabalho resultam de um estudo de microarray de Hibridação Genómica Comparativa com 72 estirpes que usou como controlos as estirpes Tigr4, G54 e R6. Estas estirpes foram previamente classificadas como invasivas, neutras ou colonizadoras, de acordo com a frequência com que foram identificadas em indivíduos saudáveis ou em indivíduos portadores de doença. A presença ou ausência dos genes nas estirpes foi organizado numa matriz denominada matriz de presença génica. As estirpes neutras não foram incluídas na matriz por terem um cariz incerto. A classificação de uma estirpe como neutra pode dever-se tanto a motivos biológicos como à insuficiência de poder estatístico para a classificar como invasiva ou colonizadora. Não foi usada uma rede de interações de genes mas sim uma matriz de distância que avalia a coocorrência e a coinvasidade. A coocorrência é um parâmetro que avalia a frequência com que dois genes estão presentes individualmente comparativamente com a frequência com que estão presentes em conjunto. A coinvasidade é um parâmetro que avalia a semelhança de associação de cada um dos genes com a invasividade. Esta associação é medida usando um teste estatístico de Fisher. Juntos, estes parâmetros asseguram que dois genes com uma baixa distância são genes que coocorrem frequentemente e que têm uma associação com a invasividade semelhante. A matriz de distâncias é usada para criar módulos de genes que serão depois avaliados. Os módulos são criados a partir de um gene semente, ao qual são gradualmente adicionados mais genes. O gene adicionado é sempre o gene com menor distância ao gene semente. Os módulos de genes são inicialmente avaliados quanto à sua presença dos seus genes em estirpes invasivas e colonizadoras através de um teste de runs. Este teste avalia se a distribuição das presenças pelas classes de estirpes é significativa ou se pode ser considerada aleatória, caso em que o módulo é abandonado. De seguida é definido um número de genes, limite, acima do qual o módulo é considerado presente numa estirpe. Este limite é definido de forma a que o módulo esteja presente exclusivamente em estirpes invasivas. Se tal limite não existir o módulo é abandonado. Caso tenha sido possível estabelecer um limite, é avaliada a significância do mesmo. Para tal é usado um teste unilateral que calcula a probabilidade do limite ter sido fixado com um valor tão ou mais baixo. Caso o limite não tenha significância estatística de 0.05 o módulo é abandonado. Dado o método de formação dos módulos, é possível que nem todos os genes contribuam para a associação do módulo com a invasividade. Para eliminar essas situações é avaliada a associação individual de cada gene com as estirpes em que o módulo está presente usando um teste de Fisher. Os genes que não estiverem associados são eliminados do módulo. Após a remoção de genes o limite é recalculado e a sua significância é reavaliada. Terminado este passo, é selecionado apenas um módulo de entre os módulos criados a partir do mesmo gene semente. O módulo selecionado é aquele que for constituído pelo maior número de genes. Por fim realizou-se uma correção para testes múltiplos que estabeleceu a taxa de descobertas falsas em 5 por cento. Este passo eliminou todos os módulos com menos de 24 genes. De todo este processo resultaram 26 módulos significantes pelos padrões estatísticos exigidos e que estão presentes exclusivamente nas estirpes invasivas. Embora os módulos sejam distintos, existe grande sobreposição entre eles. É possível observar submódulos que surgem repetidos em vários módulos e que eram possivelmente módulos por si, tendo sido eliminados pela correção por testes múltiplos. Para cada módulo, observou-se que a presença dos seus genes está correlacionada com o rácio de probabilidade da invasividade das estirpes. Esta correlação observa-se mesmo para as estirpes neutras, ainda que estas não tenham sido usadas como input no algoritmo. Embora as classes invasiva e colonizadora tenham sido usadas pelo algoritmo, os dados dos seus rácios de probabilidade de invasividade não foram. Em conjunto, os módulos usam um total de 111 genes e, usados em conjunto, é possível encontrar uma correlação semelhante. A correlação dos módulos, individualmente e em conjunto, com os rácios de probabilidade de invasividade e com as estirpes neutras é um resultado positivo que suporta a relevância e autenticidade destes módulos como determinantes de invasividade. Os módulos são robustos contra pequenas alterações na matriz de presença de genes. A experiência de microarray a partir da qual os dados foram originados tem um erro inerente e esta alta robustez confere confiança na autenticidade dos resultados do algoritmo, mostrando que dificilmente são consequência de erros do microarray. A existência de um limite para definir presença de módulos, por oposição à exigência de presença de todos os genes em simultâneo, pode ser uma fonte de robustez contra perturbações nos perfis de presença dos genes. Não foi encontrado enriquecimento de funções entre os genes selecionados pelo algoritmo nem entre os módulos. O enriquecimento das funções foi avaliado usando a anotação do JCVI. Apesar de não se ter verificado enriquecimento funcional usando a anotação da base de dados do JCVI, alguns genes têm claramente relações funcionais. O nrdD codifica um ribozima que é ativado pelo nrdG. Os genes Argh e ArgG codificam enzimas que catalisam reações sequenciais que constituem uma via alternativa da síntese da arginina. O enzima manitol-1-fosfato desidrogenase (mTLD) utiliza como substrato o manitol-1-fosfato, que é o produto do transporte de manitol pelo sistema PTS (MTLA e mtlF). O RuvB tem a sua atividade como estimulador de recombinação facilitada pela presença da proteína de ligação de DNA de cadeia simples ssb. Um transportador ABC requer a presença de vários componentes que foram selecionados pelo algoritmo, tais como módulos de ligação ao ATP (ou NBDs) e permeases transmembrananares. A ação da aquaporina Z (aqpZ) tem levantado dúvidas na comunidade científica, já que a sua ação parece conduzir ao acumular de pressão de turgescência celular excessiva. O canal mecanosensível largo (MsCl) proporciona uma resposta eficaz para a pressão de turgescência e pode ser um contrapartida biológica da aqpZ. Poliaminas, como a espermidina e norespermidina, têm sido relatadas como possíveis substitutos da colina e são, por conseguinte, intervenientes importantes na estrutura da parede celular e possivelmente na ligação a proteínas que se ligam a colina. A maioria dos genes selecionados foi previamente associada com a invasão ou tem alguma conexão plausível com os mecanismos de invasão. Proteínas da cápsula e proteínas que ligam colina desempenham um papel importante na proteção contra as defesas do hospedeiro. São importantes na inibição da ação do sistema imunitário, nomeadamente pela remoção das proteínas do complemento, ou pela ligação ao fator H, que é um inibidor do complemento. Vários elementos genéticos móveis foram identificados dentro ou perto do locus dos genes da cápsula e tem sido relatado o impacto destes elementos na regulação da transcrição de vários genes desse locus. A invasão de novos tecidos requer uma adaptação rápida a um ambiente novo, tanto às suas propriedades físicas como à disponibilidade de nutrientes. Foram selecionados genes de resposta a mudanças da pressão osmótica que parecem mais dirigidos a uma resposta rápida a grandes alterações da pressão do que à regulação fina da pressão e são, portanto, de particular interesse na adaptação a novos meios. Genes de resposta anaeróbica como o nrdD e o seu ativador, nrdG, dificilmente são funcionais na nasofaringe, uma vez que são estritamente anaeróbicos. No interior do organismo humano contudo, a concentração de oxigénio é reduzida, uma vez que este está quase sempre ligado a moléculas biológicas como a hemoglobina. Nestas circunstâncias o nrdD pode ser crucial para manter as funções dos enzimas aeróbios equivalentes. A capacidade de utilizar diferentes fontes de energia e de carbono é de extrema importância para a invasividade de uma estirpe. O elevado número de transportadores de açúcar está relacionado com a capacidade das estirpes invasivas sobreviverem em meios de variadas composições. Na mesma lógica, alguns genes foram selecionados que codificam para enzimas do metabolismo de diferentes açúcares, aumentando também a adaptabilidade da estirpe a diferentes meios. Genes de proteólise estão provavelmente relacionadas com as necessidades nutricionais de aminoácidos. A síntese de proteínas é um processo constante em todas as bactérias e exige uma disponibilidade permanente de aminoácidos e tRNA. Foram selecionados genes de síntese de aminoácidos que proporcionam vias alternativas para a síntese de aminoácidos, utilizando substratos alternativos. O algoritmo também selecionou genes ligados à síntese e ligação de tRNA ao aminoácido correspondente. Estes enzimas não foram caracterizados em Streptococcus pneumoniae e é difícil prever a sua influência na síntese proteica. Por fim, a grande heterogeneidade dos genomas do pneumococcus advém da sua capacidade de recombinação. Alguns dos genes selecionados pelo algoritmo promovem a heterogeneidade do genoma, aumentando a recombinação com o DNA extracelular. Entre os genes selecionados é promovida a internalização de DNA, a sua estabilização e a recombinação com DNA não homólogo. O estado de competência do pneumococcus é acompanhado por uma apetência para induzir a apoptose em células vizinhas, aumentando a concentração de fragmentos de DNA no meio. Várias bacteriocinas foram associadas por este trabalho à invasividade, bem como genes que inibem a apoptose da própria célula. Esses genes dão à célula uma vantagem natural na competição com outros colonizadores. Em suma, alcançou-se o objetivo pretendido de encontrar determinantes de invasividade. Estes determinantes são fruto de um estudo observacional e é portanto de notar que a relação que têm com a invasividade é apenas de correlação. Para determinar o impacto que estes módulos de genes têm na invasividade é necessário realizar estudos laboratoriais que averiguem em maior detalhe a função biológica dos genes e a sua relação com os mecanismos de invasão.Streptococcus pneumonia is a pathogenic bacterium responsible for several human diseases, such as pneumonia, meningitis and sepsis. Any pneumococcal disease is preceded by an asymptomatic colonization stage in the human nasopharynx. The transition from colonization to invasion is known to depend on both human and pathogen factors. This work aims to computationally identify pneumococcal genetic factors that influence the likelihood of invasion events. For this purpose, we analyze microarray based comparative genomic hybridization data of 72 strains of pneumococcus. Each strain was classified as Invasive, Neutral or Colonizer according to a previous study that compared the frequencies with which strains were recovered from an asymptomatic carrier or from invasive disease episodes. We propose to select genes that, individually or in a coordinated way, affect the frequency of invasion transitions among all colonization events, which we denominate as invasiveness. To detect coordinated sets of genes, we developed a method that uses networks of known interactions between genes to find gene modules that predict invasiveness. Each module is founded with a single gene and then grown with its closest neighbors in the network. Each module is then evaluated for its predictive power, statistical significance and robustness to data variability. We tested the method with a network based on a distance score that integrates gene co‐occurrence and co‐invasiveness. Among others functions, the found modules implicate cell envelope, transport, sugar metabolism, osmotic response, aminoacid synthesis, spermidine synthesis and proteolysis functions in pneumococcal invasiveness
    corecore