2 research outputs found

    Generation and reconstruction of experimental phylogenies

    Get PDF
    Tese de doutoramento em Biologia (Biologia Molecular), apresentada à Universidade de Lisboa através da Faculdade de Ciências, 2008A inferência filogenética envolve uma tentativa de estimar a história evolutiva de um conjunto de organismos (taxa) ou de uma família de genes. Isto é equivalente a inferir a sequência de ramificações ou transformações evolutivas que tiveram lugar. Uma forma natural de ilustrar esta questão é através de uma árvore. O padrão de ramificação da árvore (a sua topologia) indica de que forma os taxa estão relacionados, i. e. quais os taxa que partilham o ancestral comum mais recente. Os comprimentos dos ramos, se estiverem incluídos, representam o tempo ou a quantidade de evolução que ocorreu entre cada dois nós na árvore. O papel tradicional da inferência filogenética tem sido na sistemática biológica, contudo, hoje em dia, constitui uma ferramenta essencial em áreas que vão desde as ciências forenses à previsão da evolução de vírus, das funções de genes não caracterizados e de proteínas ancestrais.Até hoje não se conhece nenhum algoritmo para inferir árvores evolutivas suficientemente versátil ao ponto de ser adequado a todos os tipos de dados. Em contrapartida, existe uma vasta gama de métodos filogenéticos complementares comummente utilizados, cada um deles com as suas vantagens (e desvantagens) particulares. O trabalho aqui apresentado pretende contribuir para a compreensão destas diferenças fornecendo um case study simples e conhecido à partida. Uma das formas de avaliar estas diferenças é através da medição da exactidão da inferência filogenética de cada algoritmo. A avaliação implica um conhecimento antecipado da filogenia verdadeira subjacente a um determinado grupo de taxa. No entanto, na maioria das situações, essa informação não está disponível de forma que este resultado é obtido por estudos de congruência (com base na ideia de que se conjuntos de dados diferentes produzem a mesma árvore então o método é exacto), simulação ou filogenias conhecidas. Os estudos de simulação são insubstituíveis na exploração exaustiva dos efeitos dos modelos de evolução, das topologias das árvores, das taxas de evolução relativas ou absolutas ou de qualquer outro parâmetro que possa afectar a performance dos métodos filogenéticos. Embora estes estudos sejam simplificações grosseiras do processo evolutivo, eles são úteis para detectar generalizações acerca do desempenho dos métodos que possam ser aplicadas a situações reais. As filogenias experimentais permitem testar eficientemente estas previsões. Idealmente o sistema experimental deverá incluir um organismo de crescimento rápido, com genoma de pequena dimensão e capacidade de originar mutantes ao longo de múltiplas gerações de crescimento controlado. Os bacteriófagos parecem corresponder de forma excepcional a estes requisitos, uma vez que podem ser facilmente manipulados em laboratório durante milhares de gerações por ano, possuem genomas de pequenas dimensões e a sua taxa de mutação pode ser facilmente aumentada pela utilização de agentes mutagénicos. Esta dissertação teve por objectivo principal testar a eficiência de diferentes métodos de inferência filogenética na recuperação da árvore verdadeira numa situação desfavorável para a generalidade dos algoritmos como é o caso de uma topologia assimétrica. Esta árvore compreende a maioria das situações problemáticas previstas pelos estudos de simulação tais como ramos internos curtos, ramos longos e curtos alternados (diferentes taxas de evolução entre os taxa) e ainda a complexidade inerente a um organismo real. Estudos anteriores testaram um sistema equivalente com base numa filogenia completamente simétrica. Esse sistema, considerado pelos autores como um modelo nulo, ou seja a situação mais favorável do ponto de vista da inferência, permitiu validar a potencialidade do sistema (como modelo experimental para estudos filogenéticos) mas não a diferenciação dos algoritmos testados, uma vez que todos inferiram a árvore verdadeira. Foi testada a possibilidade da utilização de um sistema experimental alternativo para a obtenção de filogenias experimentais. Esse sistema envolveu o fago bIL170, cujo hospedeiro é a bactéria Lactocococcus lactis.Inicialmente tido como um sistema promissor e inovador devido ao seu impacto na indústria de lacticínios, este fago revelou uma fidelidade do complexo de replicação inesperadamente alta, o que impossibilitou a sua utilização como modelo experimental. O protocolo experimental utilizado para a obtenção da filogenia experimental consistiu na propagação seriada do bacteriófago T7 (cujo hospedeiro é a bactéria Escherichia coli) na presença do mutagénio N-metil-N'-nitro-N'- nitrosoguanidina. Para tal procedeu-se à propagação seriada do fago em meio líquido, em que cada nova cultura de E. coli era infectada com uma alíquota do lisado anterior. De cinco em cinco lisados este processo era interrompido por um plaqueamento em meio sólido, uma vez que a ocorrência de bottlenecks frequentes ajuda à fixação de mutações. Este procedimento foi repetido o número de vezes indicado pelo comprimento dos ramos da árvore representada na Figura 1 do capítulo 3, sendo as bifurcações criadas pela utilização de um stock clonal recuperado de uma única placa fágica para a infecção de duas linhas independentes. Os dados utilizados na inferência filogenética foram de dois tipos: locais de restrição e sequências nucleotídicas. Para tal construíram-se mapas físicos com 36 enzimas para todos os nós (internos e externos) e sequenciou-se 12% do genoma (contidos em 9 regiões diferentes distribuídas ao longo do genoma) de cada um dos fagos correspondentes aos nós terminais. Quando estão em consideração conjuntos diferentes de dados, que dizem respeito a grande parte do genoma ou a múltiplos genes, é necessária uma análise de congruência. A existência de incongruência ligeira entre os vários conjuntos de dados pode ser devida a amostras de tamanho inadequado, mas a ocorrência de uma forte incongruência pode ter origem em diferentes taxas de evolução entre as partições consideradas (posição no codão, constrangimentos funcionais) ou em partições que tiveram diferentes histórias (transferência horizontal ou duplicação de genes). Por este motivo a análise filogenética foi precedida de uma análise de congruência. Testou-se a congruência entre os dados de restrição e os de sequência, entre os locais de reconhecimento da enzima Sau3AI (enzima cujos locais de reconhecimento no genoma sofreram uma taxa de evolução particularmente alta face às restantes) e os de todas as outras enzimas e ainda entre cada par de genes. Tal como esperado, uma vez que a filogenia verdadeira é conhecida e todas as partições tiveram a mesma história, o número detectado de casos de incongruência grave foi muito reduzido. De facto, o único caso relevante foi a incongruência detectada entre os locais de restrição da enzima Sau3AI e os de todas as outras enzimas. Este resultado, apoiado pela diminuição da precisão da filogenia obtida quando se combinou estas duas partições numa só análise, está em concordância com a hipótese da necessidade de utilização de um modelo de evolução específico para esta enzima. Os métodos tradicionais de inferência filogenética avaliados foram: unweighted pair-group method of arithmetic averages (UPGMA), neighbour joining (NJ), evolução mínima (ME), método de Cavalli-Sforza (uLS), método de Fitch-Margoliash (wLS), máxima parcimónia (MP) e máxima verosimilhança (ML). Além destes foram ainda testados métodos Bayesianos, métodos baseados na compatibilidade e no caso dos métodos de distância, foi ainda calculada a distância Euclidiana com base na frequência de sequências assinatura. No geral, os dados de restrição produziram estimativas mais precisas, em relação à topologia, do que os dados de sequência. Este resultado pode ser explicado pelo facto dos dados de restrição representarem mais amplamente o genoma e por isso estarem menos sujeitos à violação do pressuposto de independência de evolução entre posições e sofrerem menos os efeitos do enviesamento provocado pelos erros de amostragem. Desta forma não é de estranhar que a combinação dos dados de restrição e dos dados de sequência numa análise única tenha aumentado a precisão da inferência filogenética na maioria dos casos. A análise do potencial de cada gene para conduzir à inferência da árvore correcta revelou uma forte dependência entre a exactidão da inferência e o tamanho do gene. Por outro lado, a tentativa do estabelecimento de uma relação entre este potencial e a função individual de cada gene não foi conclusiva. Uma propriedade que torna uma topologia difícil de inferir é a existência de ramos internos curtos, daí que ramos com estas características estejam presentes na árvore planeada. Os resultados obtidos (mesmo no melhor cenário da análise global) revelaram ser estes ramos a principal fonte de erro para os métodos testados. Particularmente dois dos ramos foram incorrectamente inferidos, consistentemente, por todos os métodos excepto aqueles que assumem um relógio molecular (UPGMA, ME e ML com relógio molecular) ou que utilizam a distância baseada em sequências assinatura. A observação de que o número de diferenças de locais de restrição em um destes ramos era bastante inferior ao esperado, tendo em conta o seu comprimento, conduziu a uma experiência de bootstrap paramétrico. Nesta experiência os parâmetros do modelo evolutivo foram estimados a partir dos dados reais e a topologia seguida foi equivalente à planeada, excepto no ramo que aparentemente sofreu menos evolução que o esperado (foi-lhe atribuída uma dimensão proporcional ao número de mudanças de locais de restrição).Experimental phylogenies built through controlled laboratory evolution of actual organisms seem to be an excellent way of testing predictions from simulations. Nevertheless, choosing a model for these studies is not always a straightforward matter. This work presents the steps necessary to select such a model using bacteriophage bIL170 as an example. This phage which seemed a promising and innovating system revealed an unexpected high fidelity replication complex thus impairing its potential as a valuable experimental model. The construction of an experimental phylogeny with phage T7 is reported. This phage was propagated in the presence of a mutagen following an asymmetric tree topology. The performance of several phylogenetic methods was tested using restriction sites and nucleotide data. Only methods that encompassed a molecular clock or those based on sequence signatures recovered the true phylogeny. The probable explanation for the exceptional performance of the sequence signature based methods lies in the mutation bias of this system which can shift motif frequencies and be reflected in the Euclidean distance matrices. If this hypothesis is confirmed, this methodology may be extended to infer phylogenies within systems with similar mutation spectrums, such aseukaryotic pseudogenes and HIV virus.All the other methods failed consistently in the inference of two internalbranches. To test if these results could have been predicted by simulationstudies, a parametric bootstrap experience was conducted using the true treeand the evolution parameters estimated from the real data. The simulationpredicted most but not all of the problems encountered by phylogeneticinference methods. Short interior branches may be more prone to error thanpredicted by theoretical studies.With the level of homoplasy registered in this study, the performance ofcompatibility based methods (which allegedly eliminate homoplastic characters from the analysis) could not be distinguished from parsimony

    Assessing patterns of genetic and antigenic diversity in Calliphoridae (blowflies).

    Get PDF
    The blowflies (Diptera: Calliphoridae) include some of the world‘s most economically significant parasites of livestock. The defining characteristic of blowflies is the need for their larval stages to feed on a proteinaceous substrate, often including the tissues of a living vertebrate host, a process known as myiasis. While the evolution of myiasis has been linked to the development of key adaptations in behaviour and physiology (Stevens et al., 2006), patterns of blowfly evolution suggest that parasitism evolved independently in different blowfly groups after periods of geographic isolation (Stevens et al., 2006). However, understanding the origin and evolution of myiasis in Calliphoridae is restricted by a lack of agreed theories of evolutionary relationships and taxonomic classification (Stevens, 2003). Mitochondrial genes are some of the most widely used molecular markers in insect systematics, yet most studies have utilised only single genes, with few having systematically assessed which if any are best suited for studying particular insect orders. Accordingly, this thesis presents a comprehensive analysis of 62 hexapod mitochondrial genomes, including 55 from Insecta, and assesses the ability of mitochondrial genes to recover currently recognised insect orders as monophyletic groupings. The greatest amount of phylogenetic signal was recovered when all mitochondrial genes were analysed together, regardless of optimality criterion used (PhyML, RaxML, MrBayes). Of the single-gene analyses, COX1 out-performed all other genes, even performing as well as a combined-gene analysis under Bayesian inference. In view of this finding, nucleotide sequence data from COX1 (mitochondrial protein-coding), EF-1α (nuclear protein-coding gene), and 28S (nuclear rRNA) were combined to present one of the most comprehensive multi-gene phylogenetic studies of Calliphoridae to date, resolving many ambiguous relationships, and also including several taxa that have not previously been analysed in molecular phylogenetic studies. Within Calliphoridae, Cochliomyia hominivorax (New World screwworm fly), is widely considered one of the most destructive insect parasites of livestock in the Western hemisphere. While successful eradication programmes using sterile insect technique (SIT) have been completed in North and Central America, and on some Caribbean islands, in some areas SIT has failed. It has been hypothesized that failure of SIT may be related to genetic differentiation between populations of C. hominivorax. Consequently, intra-specific variation using nucleotide sequence data from both mitochondrial (COX1 and 12S) and nuclear (EF-1α) markers, was explored. Phylogenetic analysis of these data confirmed some population substructuring and suggested a South American origin to all Caribbean island populations, with the exception of Cuba. In agreement with previous studies, Cuban populations appeared distinct from all other Caribbean populations; however, our findings do not support a North American origin for Cuba, as has previously been suggested. Finally, this thesis attempted to explore the relationship between antigenic proteins expressed in larvae from species displaying different forms of parasitism, and in doing so assessed the utility of such target proteins as potential candidates for species-specific vaccines and diagnostic tools. However, while this work discovered distinct antigenic profiles for different blowfly species, the ability to characterize specific antigens was fundamentally limited by an apparent lack of homologous proteins in current databases
    corecore