10 research outputs found

    AxPcoords & parallel AxParafit: statistical co-phylogenetic analyses on thousands of taxa

    Get PDF
    Background Current tools for Co-phylogenetic analyses are not able to cope with the continuous accumulation of phylogenetic data. The sophisticated statistical test for host-parasite co-phylogenetic analyses implemented in Parafit does not allow it to handle large datasets in reasonable times. The Parafit and DistPCoA programs are the by far most compute-intensive components of the Parafit analysis pipeline. We present AxParafit and AxPcoords (Ax stands for Accelerated) which are highly optimized versions of Parafit and DistPCoA respectively. Results Both programs have been entirely re-written in C. Via optimization of the algorithm and the C code as well as integration of highly tuned BLAS and LAPACK methods AxParafit runs 5–61 times faster than Parafit with a lower memory footprint (up to 35% reduction) while the performance benefit increases with growing dataset size. The MPI-based parallel implementation of AxParafit shows good scalability on up to 128 processors, even on medium-sized datasets. The parallel analysis with AxParafit on 128 CPUs for a medium-sized dataset with an 512 by 512 association matrix is more than 1,200/128 times faster per processor than the sequential Parafit run. AxPcoords is 8–26 times faster than DistPCoA and numerically stable on large datasets. We outline the substantial benefits of using parallel AxParafit by example of a large-scale empirical study on smut fungi and their host plants. To the best of our knowledge, this study represents the largest co-phylogenetic analysis to date. Conclusion The highly efficient AxPcoords and AxParafit programs allow for large-scale co-phylogenetic analyses on several thousands of taxa for the first time. In addition, AxParafit and AxPcoords have been integrated into the easy-to-use CopyCat tool

    Reviewing the History of HIV-1: Spread of Subtype B in the Americas

    Get PDF
    The dispersal of HIV-1 subtype B (HIV-1B) is a reflection of the movement of human populations in response to social, political, and geographical issues. The initial dissemination of HIV-1B outside Africa seems to have included the passive involvement of human populations from the Caribbean in spreading the virus to the United States. However, the exact pathways taken during the establishment of the pandemic in the Americas remain unclear. Here, we propose a geographical scenario for the dissemination of HIV-1B in the Americas, based on phylogenetic and genetic statistical analyses of 313 available sequences of the pol gene from 27 countries. Maximum likelihood and Bayesian inference methods were used to explore the phylogenetic relationships between HIV-1B sequences, and molecular variance estimates were analyzed to infer the genetic structure of the viral population. We found that the initial dissemination and subsequent spread of subtype B in the Americas occurred via a single introduction event in the Caribbean around 1964 (1950–1967). Phylogenetic trees present evidence of several primary outbreaks in countries in South America, directly seeded by the Caribbean epidemic. Cuba is an exception insofar as its epidemic seems to have been introduced from South America. One clade comprising isolates from different countries emerged in the most-derived branches, reflecting the intense circulation of the virus throughout the American continents. Statistical analysis supports the genetic compartmentalization of the virus among the Americas, with a close relationship between the South American and Caribbean epidemics. These findings reflect the complex establishment of the HIV-1B pandemic and contribute to our understanding between the migration process of human populations and virus diffusion

    Striving for transparent and credible research: practical guidelines for behavioral ecologists

    Get PDF
    Science is meant to be the systematic and objective study of the world but evidence suggests that scientific practices are sometimes falling short of this expectation. In this invited idea, we argue that any failure to conduct research according to a documented plan (lack of reliability) and/or any failure to ensure that reconducting the same project would provide the same finding (lack of reproducibility), will result in a low probability of independent studies reaching the same outcome (lack of replicability). After outlining the challenges facing behavioral ecology and science more broadly and incorporating advice from international organizations such as the Center for Open Science (COS), we present clear guidelines and tutorials on what we think open practices represent for behavioral ecologists. In addition, we indicate some of the currently most appropriate and freely available tools for adopting these practices. Finally, we suggest that all journals in our field, such as Behavioral Ecology, give additional weight to transparent studies and therefore provide greater incentives to align our scientific practices to our scientific values. Overall, we argue that producing demonstrably credible science is now fully achievable for the benefit of each researcher individually and for our community as a whole

    Phylogeny of the most common Adriatic fish order perciformes based on the structure of cytochrome oxidase

    Get PDF
    Jadransko more je najsjeverniji topli dio Sredozemlja. Dosadašnja istraživanja pokazala su veliku bioraznolikost ihtiofaune. Kako bi se pratila raznolikost ribljih vrsta, najčešće se koriste molekularni markeri poput citokrom oksidaze I. Red Perciformes je najbrojnija skupina riba među svim kralježnjacima. Mnogo vrsta iz ove skupine je od velike ekonomske važnosti čovjeku. Nukleotidni sljedovi za odabrane vrste preuzeti su iz baze podataka NCBI-a te zatim analizirani u programu MEGA7. Korištene su metoda poravnanja ClustalW te Neighbor-Joining za konstrukciju filogenetskih stabala. Konstruirano je nekoliko verzija filogenetskih stabala, od kojih ni jedna nije bila slična opće priznatim klasifikacijama riba. Također, bootstrap vrijednosti su bile vrlo male. Red Perciformes evolucijski je vrlo mlada skupina unutar koje ima malo razlika među vrstama. Razlike u istraživanim sljedovima velikim dijelom ovise o varijabilnosti trećeg kodirajućeg nukleotida koja uglavnom uzrokuje istosmislene mutacije. Za preciznije utvrđivanje filogenetskih odnosa unutar ove skupine, preporučuje se upotreba kompletnih mitohondrijskih genoma ili više različitih markera.Adriatic Sea is the most northern warm part of the Mediterranean. Previous research has shown great biodiversity of ichthyofauna. Molecular markers, such as cytochrome oxydase I, are used to monitor the variety of fish species. The fish order Perciformes is the largest group among all vertebrates. Many species in this group are of great economic importance to humans. Nucleotide sequences for selected species are downloaded from the NCBI database and then analyzed in MEGA7. The ClustalW alignment method and Neighbor-Joining phylogenetic trees were used. Several versions of the phylogenetic trees were constructed, none of which was similar to the generally recognized classification of fish. Also, bootstrap values were very small. The order Perciformes is an evolutionally very young group within which there is little difference between species. The differences in the investigated sequences are largely dependent on the variability of the third coding nucleotide, which mainly causes the same-sense mutations. In order to more confidently confer phylogenetic relationships within the order of Perciform fish, the use of complete mitochondrial genomes or multiple markers is recommended

    Phylogeny of the most common Adriatic fish order perciformes based on the structure of cytochrome oxidase

    Get PDF
    Jadransko more je najsjeverniji topli dio Sredozemlja. Dosadašnja istraživanja pokazala su veliku bioraznolikost ihtiofaune. Kako bi se pratila raznolikost ribljih vrsta, najčešće se koriste molekularni markeri poput citokrom oksidaze I. Red Perciformes je najbrojnija skupina riba među svim kralježnjacima. Mnogo vrsta iz ove skupine je od velike ekonomske važnosti čovjeku. Nukleotidni sljedovi za odabrane vrste preuzeti su iz baze podataka NCBI-a te zatim analizirani u programu MEGA7. Korištene su metoda poravnanja ClustalW te Neighbor-Joining za konstrukciju filogenetskih stabala. Konstruirano je nekoliko verzija filogenetskih stabala, od kojih ni jedna nije bila slična opće priznatim klasifikacijama riba. Također, bootstrap vrijednosti su bile vrlo male. Red Perciformes evolucijski je vrlo mlada skupina unutar koje ima malo razlika među vrstama. Razlike u istraživanim sljedovima velikim dijelom ovise o varijabilnosti trećeg kodirajućeg nukleotida koja uglavnom uzrokuje istosmislene mutacije. Za preciznije utvrđivanje filogenetskih odnosa unutar ove skupine, preporučuje se upotreba kompletnih mitohondrijskih genoma ili više različitih markera.Adriatic Sea is the most northern warm part of the Mediterranean. Previous research has shown great biodiversity of ichthyofauna. Molecular markers, such as cytochrome oxydase I, are used to monitor the variety of fish species. The fish order Perciformes is the largest group among all vertebrates. Many species in this group are of great economic importance to humans. Nucleotide sequences for selected species are downloaded from the NCBI database and then analyzed in MEGA7. The ClustalW alignment method and Neighbor-Joining phylogenetic trees were used. Several versions of the phylogenetic trees were constructed, none of which was similar to the generally recognized classification of fish. Also, bootstrap values were very small. The order Perciformes is an evolutionally very young group within which there is little difference between species. The differences in the investigated sequences are largely dependent on the variability of the third coding nucleotide, which mainly causes the same-sense mutations. In order to more confidently confer phylogenetic relationships within the order of Perciform fish, the use of complete mitochondrial genomes or multiple markers is recommended

    Retraction: Measures of Clade Confidence Do Not Correlate with Accuracy of Phylogenetic Trees

    Get PDF
    Metrics of phylogenetic tree reliability, such as parametric bootstrap percentages or Bayesian posterior probabilities, represent internal measures of the topological reproducibility of a phylogenetic tree, while the recently introduced aLRT (approximate likelihood ratio test) assesses the likelihood that a branch exists on a maximum-likelihood tree. Although those values are often equated with phylogenetic tree accuracy, they do not necessarily estimate how well a reconstructed phylogeny represents cladistic relationships that actually exist in nature. The authors have therefore attempted to quantify how well bootstrap percentages, posterior probabilities, and aLRT measures reflect the probability that a deduced phylogenetic clade is present in a known phylogeny. The authors simulated the evolution of bacterial genes of varying lengths under biologically realistic conditions, and reconstructed those known phylogenies using both maximum likelihood and Bayesian methods. Then, they measured how frequently clades in the reconstructed trees exhibiting particular bootstrap percentages, aLRT values, or posterior probabilities were found in the true trees. The authors have observed that none of these values correlate with the probability that a given clade is present in the known phylogeny. The major conclusion is that none of the measures provide any information about the likelihood that an individual clade actually exists. It is also found that the mean of all clade support values on a tree closely reflects the average proportion of all clades that have been assigned correctly, and is thus a good representation of the overall accuracy of a phylogenetic tree

    ASSOCIATION GENETICS APPROACHES FOR THE IDENTIFICATION OF GENES ASSOCIATED TO BARLEY AGRONOMIC TRAITS IN A MEDITERRANEAN ENVIRONMENT

    Get PDF
    Barley (Hordeum vulgare) is one of the four most economically important cereal crops worldwide. It serves as a major animal feed crop, with smaller amounts used for malting and in health food. Among environmental factors influencing barley production, drought is recognized as the most common in the Mediterranean area and this problem is expected to worsen with on-going climate changes. Breeding for drought resistance is therefore an important objective to ensure stable crop yields. In this context, genetic and molecular dissection of drought tolerance is expected to lead to the identification of key genes/loci and favourable alleles through exploration of biodiversity. Association genetics focuses on the identification of links between phenotypic traits and genetic markers with the aim to identify QTLs and locate the underlying genes in the genome. In general, different barley genotypes are expected to carry different loci at genomic regions of interest. The probability of chromosomal recombination between two loci is proportional to the physical distance between those loci. General objective of this project was the identification of loci subtending major agronomic traits under different water regimes, using an association genetics approach. To this end, we considered a phenotypic panel consisting of 83 barley cultivars representing European diversity for drought tolerance. This germplasm collection included 2 and 6 rows winter and spring barleys, that were previously evaluated for plant height, flowering time and yield under irrigated and rainfed conditions over three successive years (Rizza et al., 2004). At the beginning of this project, an initial objective was to evaluate the potential association between allelic variants of candidate genes (CGs) selected for their known roles in drought responses and phenotypic variation for barley grain yield under different watering regimes. Thus, we re-sequenced an initial set of 3 CGs -HvCbf2, HvCbf4a and HvCbf7- and we identified 4 Single Nucleotide Polymorphisms (SNPs) in the coding region of HvCbf4a. In parallel, we tried to assess the genetic diversity and structure of our barley panel by utilizing the low cost molecular marker approach of Amplified Fragment Length Polymorphism (AFLP). Incorporation of structure information in association analysis is important to prevent recovery of false associations. However, when we run structure analyses using our AFLP data, we failed to recover the classical barley subdivisions reported in the literature indicating that these markers may not be reliable for our purposes. For this reason and considering the limited chances of detecting association with few CGs, we took advantage of the recently established iSELECT Infinium\uae Illumina 9k SNP platform (Comadran et al., 2012) to carry out a Genome Wide Association Study (GWAS) on our barley panel. Filtering out the monomorphic and failed-genotyped markers resulted in the identification of a total of 4,661 SNPs distributed over the 7 barley chromosomes. Population stratification was investigated with a subset of 260 SNPs selected as highly informative using admixture model implemented in Structure software. Accordingly, three main subgroups were identified corresponding to winter-2rows, winter-6rows and spring-2rows barleys, respectively. Association between barley genotypic data and flowering date (FD) was processed using general linear model and afterward compared with mixed linear model. Quantitative Trait Loci (QTLs) controlling grain yield (GY), flowering date (FD), and plant height (PH) were identified using the general linear model. Our results provide a starting point for the identification of potentially useful genes and markers for future applications in barley breeding schemes

    Generation and reconstruction of experimental phylogenies

    Get PDF
    Tese de doutoramento em Biologia (Biologia Molecular), apresentada à Universidade de Lisboa através da Faculdade de Ciências, 2008A inferência filogenética envolve uma tentativa de estimar a história evolutiva de um conjunto de organismos (taxa) ou de uma família de genes. Isto é equivalente a inferir a sequência de ramificações ou transformações evolutivas que tiveram lugar. Uma forma natural de ilustrar esta questão é através de uma árvore. O padrão de ramificação da árvore (a sua topologia) indica de que forma os taxa estão relacionados, i. e. quais os taxa que partilham o ancestral comum mais recente. Os comprimentos dos ramos, se estiverem incluídos, representam o tempo ou a quantidade de evolução que ocorreu entre cada dois nós na árvore. O papel tradicional da inferência filogenética tem sido na sistemática biológica, contudo, hoje em dia, constitui uma ferramenta essencial em áreas que vão desde as ciências forenses à previsão da evolução de vírus, das funções de genes não caracterizados e de proteínas ancestrais.Até hoje não se conhece nenhum algoritmo para inferir árvores evolutivas suficientemente versátil ao ponto de ser adequado a todos os tipos de dados. Em contrapartida, existe uma vasta gama de métodos filogenéticos complementares comummente utilizados, cada um deles com as suas vantagens (e desvantagens) particulares. O trabalho aqui apresentado pretende contribuir para a compreensão destas diferenças fornecendo um case study simples e conhecido à partida. Uma das formas de avaliar estas diferenças é através da medição da exactidão da inferência filogenética de cada algoritmo. A avaliação implica um conhecimento antecipado da filogenia verdadeira subjacente a um determinado grupo de taxa. No entanto, na maioria das situações, essa informação não está disponível de forma que este resultado é obtido por estudos de congruência (com base na ideia de que se conjuntos de dados diferentes produzem a mesma árvore então o método é exacto), simulação ou filogenias conhecidas. Os estudos de simulação são insubstituíveis na exploração exaustiva dos efeitos dos modelos de evolução, das topologias das árvores, das taxas de evolução relativas ou absolutas ou de qualquer outro parâmetro que possa afectar a performance dos métodos filogenéticos. Embora estes estudos sejam simplificações grosseiras do processo evolutivo, eles são úteis para detectar generalizações acerca do desempenho dos métodos que possam ser aplicadas a situações reais. As filogenias experimentais permitem testar eficientemente estas previsões. Idealmente o sistema experimental deverá incluir um organismo de crescimento rápido, com genoma de pequena dimensão e capacidade de originar mutantes ao longo de múltiplas gerações de crescimento controlado. Os bacteriófagos parecem corresponder de forma excepcional a estes requisitos, uma vez que podem ser facilmente manipulados em laboratório durante milhares de gerações por ano, possuem genomas de pequenas dimensões e a sua taxa de mutação pode ser facilmente aumentada pela utilização de agentes mutagénicos. Esta dissertação teve por objectivo principal testar a eficiência de diferentes métodos de inferência filogenética na recuperação da árvore verdadeira numa situação desfavorável para a generalidade dos algoritmos como é o caso de uma topologia assimétrica. Esta árvore compreende a maioria das situações problemáticas previstas pelos estudos de simulação tais como ramos internos curtos, ramos longos e curtos alternados (diferentes taxas de evolução entre os taxa) e ainda a complexidade inerente a um organismo real. Estudos anteriores testaram um sistema equivalente com base numa filogenia completamente simétrica. Esse sistema, considerado pelos autores como um modelo nulo, ou seja a situação mais favorável do ponto de vista da inferência, permitiu validar a potencialidade do sistema (como modelo experimental para estudos filogenéticos) mas não a diferenciação dos algoritmos testados, uma vez que todos inferiram a árvore verdadeira. Foi testada a possibilidade da utilização de um sistema experimental alternativo para a obtenção de filogenias experimentais. Esse sistema envolveu o fago bIL170, cujo hospedeiro é a bactéria Lactocococcus lactis.Inicialmente tido como um sistema promissor e inovador devido ao seu impacto na indústria de lacticínios, este fago revelou uma fidelidade do complexo de replicação inesperadamente alta, o que impossibilitou a sua utilização como modelo experimental. O protocolo experimental utilizado para a obtenção da filogenia experimental consistiu na propagação seriada do bacteriófago T7 (cujo hospedeiro é a bactéria Escherichia coli) na presença do mutagénio N-metil-N'-nitro-N'- nitrosoguanidina. Para tal procedeu-se à propagação seriada do fago em meio líquido, em que cada nova cultura de E. coli era infectada com uma alíquota do lisado anterior. De cinco em cinco lisados este processo era interrompido por um plaqueamento em meio sólido, uma vez que a ocorrência de bottlenecks frequentes ajuda à fixação de mutações. Este procedimento foi repetido o número de vezes indicado pelo comprimento dos ramos da árvore representada na Figura 1 do capítulo 3, sendo as bifurcações criadas pela utilização de um stock clonal recuperado de uma única placa fágica para a infecção de duas linhas independentes. Os dados utilizados na inferência filogenética foram de dois tipos: locais de restrição e sequências nucleotídicas. Para tal construíram-se mapas físicos com 36 enzimas para todos os nós (internos e externos) e sequenciou-se 12% do genoma (contidos em 9 regiões diferentes distribuídas ao longo do genoma) de cada um dos fagos correspondentes aos nós terminais. Quando estão em consideração conjuntos diferentes de dados, que dizem respeito a grande parte do genoma ou a múltiplos genes, é necessária uma análise de congruência. A existência de incongruência ligeira entre os vários conjuntos de dados pode ser devida a amostras de tamanho inadequado, mas a ocorrência de uma forte incongruência pode ter origem em diferentes taxas de evolução entre as partições consideradas (posição no codão, constrangimentos funcionais) ou em partições que tiveram diferentes histórias (transferência horizontal ou duplicação de genes). Por este motivo a análise filogenética foi precedida de uma análise de congruência. Testou-se a congruência entre os dados de restrição e os de sequência, entre os locais de reconhecimento da enzima Sau3AI (enzima cujos locais de reconhecimento no genoma sofreram uma taxa de evolução particularmente alta face às restantes) e os de todas as outras enzimas e ainda entre cada par de genes. Tal como esperado, uma vez que a filogenia verdadeira é conhecida e todas as partições tiveram a mesma história, o número detectado de casos de incongruência grave foi muito reduzido. De facto, o único caso relevante foi a incongruência detectada entre os locais de restrição da enzima Sau3AI e os de todas as outras enzimas. Este resultado, apoiado pela diminuição da precisão da filogenia obtida quando se combinou estas duas partições numa só análise, está em concordância com a hipótese da necessidade de utilização de um modelo de evolução específico para esta enzima. Os métodos tradicionais de inferência filogenética avaliados foram: unweighted pair-group method of arithmetic averages (UPGMA), neighbour joining (NJ), evolução mínima (ME), método de Cavalli-Sforza (uLS), método de Fitch-Margoliash (wLS), máxima parcimónia (MP) e máxima verosimilhança (ML). Além destes foram ainda testados métodos Bayesianos, métodos baseados na compatibilidade e no caso dos métodos de distância, foi ainda calculada a distância Euclidiana com base na frequência de sequências assinatura. No geral, os dados de restrição produziram estimativas mais precisas, em relação à topologia, do que os dados de sequência. Este resultado pode ser explicado pelo facto dos dados de restrição representarem mais amplamente o genoma e por isso estarem menos sujeitos à violação do pressuposto de independência de evolução entre posições e sofrerem menos os efeitos do enviesamento provocado pelos erros de amostragem. Desta forma não é de estranhar que a combinação dos dados de restrição e dos dados de sequência numa análise única tenha aumentado a precisão da inferência filogenética na maioria dos casos. A análise do potencial de cada gene para conduzir à inferência da árvore correcta revelou uma forte dependência entre a exactidão da inferência e o tamanho do gene. Por outro lado, a tentativa do estabelecimento de uma relação entre este potencial e a função individual de cada gene não foi conclusiva. Uma propriedade que torna uma topologia difícil de inferir é a existência de ramos internos curtos, daí que ramos com estas características estejam presentes na árvore planeada. Os resultados obtidos (mesmo no melhor cenário da análise global) revelaram ser estes ramos a principal fonte de erro para os métodos testados. Particularmente dois dos ramos foram incorrectamente inferidos, consistentemente, por todos os métodos excepto aqueles que assumem um relógio molecular (UPGMA, ME e ML com relógio molecular) ou que utilizam a distância baseada em sequências assinatura. A observação de que o número de diferenças de locais de restrição em um destes ramos era bastante inferior ao esperado, tendo em conta o seu comprimento, conduziu a uma experiência de bootstrap paramétrico. Nesta experiência os parâmetros do modelo evolutivo foram estimados a partir dos dados reais e a topologia seguida foi equivalente à planeada, excepto no ramo que aparentemente sofreu menos evolução que o esperado (foi-lhe atribuída uma dimensão proporcional ao número de mudanças de locais de restrição).Experimental phylogenies built through controlled laboratory evolution of actual organisms seem to be an excellent way of testing predictions from simulations. Nevertheless, choosing a model for these studies is not always a straightforward matter. This work presents the steps necessary to select such a model using bacteriophage bIL170 as an example. This phage which seemed a promising and innovating system revealed an unexpected high fidelity replication complex thus impairing its potential as a valuable experimental model. The construction of an experimental phylogeny with phage T7 is reported. This phage was propagated in the presence of a mutagen following an asymmetric tree topology. The performance of several phylogenetic methods was tested using restriction sites and nucleotide data. Only methods that encompassed a molecular clock or those based on sequence signatures recovered the true phylogeny. The probable explanation for the exceptional performance of the sequence signature based methods lies in the mutation bias of this system which can shift motif frequencies and be reflected in the Euclidean distance matrices. If this hypothesis is confirmed, this methodology may be extended to infer phylogenies within systems with similar mutation spectrums, such aseukaryotic pseudogenes and HIV virus.All the other methods failed consistently in the inference of two internalbranches. To test if these results could have been predicted by simulationstudies, a parametric bootstrap experience was conducted using the true treeand the evolution parameters estimated from the real data. The simulationpredicted most but not all of the problems encountered by phylogeneticinference methods. Short interior branches may be more prone to error thanpredicted by theoretical studies.With the level of homoplasy registered in this study, the performance ofcompatibility based methods (which allegedly eliminate homoplastic characters from the analysis) could not be distinguished from parsimony
    corecore