56 research outputs found

    RAxML-NG: a fast, scalable and user-friendly tool for maximum likelihood phylogenetic inference

    Get PDF
    Motivation: Phylogenies are important for fundamental biological research, but also have numerous applications in biotechnology, agriculture and medicine. Finding the optimal tree under the popular maximum likelihood (ML) criterion is known to be NP-hard. Thus, highly optimized and scalable codes are needed to analyze constantly growing empirical datasets. // Results: We present RAxML-NG, a from-scratch re-implementation of the established greedy tree search algorithm of RAxML/ExaML. RAxML-NG offers improved accuracy, flexibility, speed, scalability, and usability compared with RAxML/ExaML. On taxon-rich datasets, RAxML-NG typically finds higher-scoring trees than IQTree, an increasingly popular recent tool for ML-based phylogenetic inference (although IQ-Tree shows better stability). Finally, RAxML-NG introduces several new features, such as the detection of terraces in tree space and the recently introduced transfer bootstrap support metric. // Availability and implementation: The code is available under GNU GPL at https://github.com/amkozlov/raxml-ng. RAxML-NG web service (maintained by Vital-IT) is available at https://raxml-ng.vital-it.ch/

    Step-wise evolution of complex chemical defenses in millipedes: a phylogenomic approach

    Get PDF
    With fossil representatives from the Silurian capable of respiring atmospheric oxygen, millipedes are among the oldest terrestrial animals, and likely the first to acquire diverse and complex chemical defenses against predators. Exploring the origin of complex adaptive traits is critical for understanding the evolution of Earth’s biological complexity, and chemical defense evolution serves as an ideal study system. The classic explanation for the evolution of complexity is by gradual increase from simple to complex, passing through intermediate “stepping stone� states. Here we present the first phylogenetic-based study of the evolution of complex chemical defenses in millipedes by generating the largest genomic-based phylogenetic dataset ever assembled for the group. Our phylogenomic results demonstrate that chemical complexity shows a clear pattern of escalation through time. New pathways are added in a stepwise pattern, leading to greater chemical complexity, independently in a number of derived lineages. This complexity gradually increased through time, leading to the advent of three distantly related chemically complex evolutionary lineages, each uniquely characteristic of each of the respective millipede groups

    The Wall Lizards of the Balkan Peninsula: Tackling Questions at the Interphase of Phylogenomics and Population Genomics

    Get PDF
    [Abstract] Wall lizards of the genus Podarcis (Sauria, Lacertidae) are the predominant reptile group in southern Europe, including 24 recognized species. Mitochondrial DNA data have shown that, with the exception of P. muralis, the Podarcis species distributed in the Balkan peninsula form a species group that is further sub-divided into two subgroups: the one of “P. tauricus” consisting of P. tauricus, P. milensis, P. gaigeae, and P. melisellensis, and the other of “P. erhardii” comprising P. erhardii, P. levendis, P. cretensis, and P. peloponnesiacus. In an attempt to explore the Balkan Podarcis phylogenomic relationships, assess the levels of genetic structure and to re-evaluate the number of extant species, we employed phylogenomic and admixture approaches on ddRADseq (double digested Restriction site Associated DNA sequencing) genomic data. With this efficient Next Generation Sequencing approach, we were able to obtain a large number of genomic loci randomly distributed throughout the genome and use them to resolve the previously obscure phylogenetic relationships among the different Podarcis species distributed in the Balkans. The obtained phylogenomic relationships support the monophyly of both aforementioned subgroups and revealed several divergent lineages within each subgroup, stressing the need for taxonomic re-evaluation of Podarcis’ species in Balkans. The phylogenomic trees and the species delimitation analyses confirmed all recently recognized species (P. levendis, P. cretensis, and P. ionicus) and showed the presence of at least two more species, one in P. erhardii and the other in P. peloponnesiacus.This study was funded by NSFR 2007-2013 programme for development, European Social Fund, Operational Programme, Education and Lifelong Learning investing in knowledge society, Ministry of Education and Religious Affairs, Managing Authority, Co-financed by Greece and the European Union. Part of this work was funded by the Klaus Tschira Foundation, by the Ministry of Science and Innovation of Spain (PID2019-104184RB-I00 / AEI / 10.13039/501100011033), and by the Xunta de Galicia and FEDER funds of the EU under the Centro de Investigación de Galicia accreditation 2019-2022 (ED431G 2019/01)Xunta de Galicia; ED431G 2019/0

    Comprehensive phylogeny of ray-finned fishes (Actinopterygii) based on transcriptomic and genomic data

    Get PDF
    Our understanding of phylogenetic relationships among bony fishes has been transformed by analysis of a small number of genes, but uncertainty remains around critical nodes. Genomescale inferences so far have sampled a limited number of taxa and genes. Here we leveraged 144 genomes and 159 transcriptomes to investigate fish evolution with an unparalleled scale of data: >0.5 Mb from 1,105 orthologous exon sequences from 303 species, representing 66 out of 72 ray-finned fish orders. We apply phylogenetic tests designed to trace the effect of whole-genome duplication events on gene trees and find paralogy-free loci using a bioinformatics approach. Genome-wide data support the structure of the fish phylogeny, and hypothesis-testing procedures appropriate for phylogenomic datasets using explicit gene genealogy interrogation settle some long-standing uncertainties, such as the branching order at the base of the teleosts and among early euteleosts, and the sister lineage to the acanthomorph and percomorph radiations. Comprehensive fossil calibrations date the origin of all major fish lineages before the end of the Cretaceous.Fil: Hughes, Lily C.. National Museum of Natural History; Estados Unidos. The George Washington University; Estados UnidosFil: Ortí, Guillermo. National Museum of Natural History; Estados Unidos. The George Washington University; Estados UnidosFil: Huang, Yu. Beijing Genomics Institute; China. Chinese Academy of Sciences; República de ChinaFil: Sun, Ying. China National Genebank; China. Beijing Genomics Institute; ChinaFil: Baldwin, Carole C.. National Museum of Natural History; Estados UnidosFil: Thompson, Andrew W.. National Museum of Natural History; Estados Unidos. The George Washington University; Estados UnidosFil: Arcila, Dahiana. National Museum of Natural History; Estados Unidos. The George Washington University; Estados UnidosFil: Betancur, Ricardo. National Museum of Natural History; Estados Unidos. Universidad de Puerto Rico, Recinto de Rio Piedras; Puerto RicoFil: Li, Chenhong. Shanghai Ocean University; ChinaFil: Becker, Leandro Anibal. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte. Instituto Andino Patagónico de Tecnologías Biológicas y Geoambientales. Universidad Nacional del Comahue. Instituto Andino Patagónico de Tecnologías Biológicas y Geoambientales.; Argentina. Universidad Nacional del Comahue. Centro Regional Universitario Bariloche; ArgentinaFil: Bellora, Nicolás. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Patagonia Norte. Instituto Andino Patagónico de Tecnologías Biológicas y Geoambientales. Universidad Nacional del Comahue. Instituto Andino Patagónico de Tecnologías Biológicas y Geoambientales.; Argentina. Universidad Nacional del Comahue. Centro Regional Universitario Bariloche; ArgentinaFil: Zhao, Xiaomeng. Chinese Academy of Sciences; República de China. Beijing Genomics Institute; ChinaFil: Li, Xiaofeng. Chinese Academy of Sciences; República de China. Beijing Genomics Institute; ChinaFil: Wang, Min. Beijing Genomics Institute; ChinaFil: Fang, Chao. Chinese Academy of Sciences; República de ChinaFil: Xie, Bing. Bgi-shenzhen; ChinaFil: Zhoui, Zhuocheng. China Fisheries Association; ChinaFil: Huang, Hai. Hainan Tropical Ocean University; ChinaFil: Chen, Songlin. Yellow Sea Fisheries Research Institute Chinese Academy Of Fishery Science; ChinaFil: Venkatesh, Byrappa. A-star, Institute Of Molecular And Cell Biology;Fil: Shi, Qiong. Chinese Academy of Sciences; República de Chin

    High-coverage genomes to elucidate the evolution of penguins

    Get PDF
    Background: Penguins (Sphenisciformes) are a remarkable order of flightless wing-propelled diving seabirds distributed widely across the southern hemisphere. They share a volant common ancestor with Procellariiformes close to the Cretaceous-Paleogene boundary (66 million years ago) and subsequently lost the ability to fly but enhanced their diving capabilities. With ∼20 species among 6 genera, penguins range from the tropical Galápagos Islands to the oceanic temperate forests of New Zealand, the rocky coastlines of the sub-Antarctic islands, and the sea ice around Antarctica. To inhabit such diverse and extreme environments, penguins evolved many physiological and morphological adaptations. However, they are also highly sensitive to climate change. Therefore, penguins provide an exciting target system for understanding the evolutionary processes of speciation, adaptation, and demography. Genomic data are an emerging resource for addressing questions about such processes. Results: Here we present a novel dataset of 19 high-coverage genomes that, together with 2 previously published genomes, encompass all extant penguin species. We also present a well-supported phylogeny to clarify the relationships among penguins. In contrast to recent studies, our results demonstrate that the genus Aptenodytes is basal and sister to all other extant penguin genera, providing intriguing new insights into the adaptation of penguins to Antarctica. As such, our dataset provides a novel resource for understanding the evolutionary history of penguins as a clade, as well as the fine-scale relationships of individual penguin lineages. Against this background, we introduce a major consortium of international scientists dedicated to studying these genomes. Moreover, we highlight emerging issues regarding ensuring legal and respectful indigenous consultation, particularly for genomic data originating from New Zealand Taonga species. Conclusions: We believe that our dataset and project will be important for understanding evolution, increasing cultural heritage and guiding the conservation of this iconic southern hemisphere species assemblage.Fil: Pan, Hailin. Bgi-shenzhen; ChinaFil: Cole, Theresa L. University Of Otago; CanadáFil: Bi, Xupeng. Bgi-shenzhen; ChinaFil: Fang, Miaoquan. Bgi-shenzhen; ChinaFil: Zhou, Chengran. Bgi-shenzhen; ChinaFil: Yang, Zhengtao. Bgi-shenzhen; ChinaFil: Ksepka, Daniel T. Bruce Museum; Estados UnidosFil: Hart, Tom. University of Oxford; Reino UnidoFil: Bouzat, Juan L.. Bowling Green State University; Estados UnidosFil: Boersma, P. Dee. University of Washington; Estados UnidosFil: Bost, Charles-André. Centre Detudes Biologiques de Chizé; FranciaFil: Cherel, Yves. Centre Detudes Biologiques de Chizé; FranciaFil: Dann, Peter. Phillip Island Nature Parks; AustraliaFil: Mattern, Thomas. University of Otago; Nueva ZelandaFil: Ellenberg, Ursula. Global Penguin Society; Estados Unidos. La Trobe University; AustraliaFil: Garcia Borboroglu, Jorge Pablo. University of Washington; Estados Unidos. Global Penguin Society; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Centro Nacional Patagónico. Centro para el Estudio de Sistemas Marinos; ArgentinaFil: Argilla, Lisa S.. Otago Polytechnic; Nueva ZelandaFil: Bertelsen, Mads F.. Copenhagen Zoo; Dinamarca. University of Copenhagen; DinamarcaFil: Fiddaman, Steven R.. University of Oxford; Reino UnidoFil: Howard, Pauline. Hornby Veterinary Centre; Nueva Zelanda. South Island Wildlife Hospital; Nueva ZelandaFil: Labuschagne, Kim. National Zoological Garden; SudáfricaFil: Miller, Gary. University of Western Australia; Australia. University of Tasmania; AustraliaFil: Parker, Patricia. University of Missouri St. Louis; Estados UnidosFil: Phillips, Richard A.. Natural Environment Research Council; Reino UnidoFil: Quillfeldt, Petra. Justus-Liebig-Universit ̈ at Giessen; AlemaniaFil: Ryan, Peter G.. University of Cape Town; SudáfricaFil: Taylor, Helen. Vet Services Hawkes Bay Ltd; Nueva Zelanda. Wairoa Farm Vets; Nueva ZelandaFil: Zhang, De-Xing. Chinese Academy of Sciences; República de ChinaFil: Zhang, Guojie. BGI-Shenzhen; China. Chinese Academy of Sciences; República de China. University of Copenhagen; DinamarcaFil: McKinlay, Bruce. Department of Conservation; Nueva Zeland

    The State of Software for Evolutionary Biology

    Get PDF
    With Next Generation Sequencing data being routinely used, evolutionary biology is transforming into a computational science. Thus, researchers have to rely on a growing number of increasingly complex software. All widely used core tools in the field have grown considerably, in terms of the number of features as well as lines of code and consequently, also with respect to software complexity. A topic that has received little attention is the software engineering quality of widely used core analysis tools. Software developers appear to rarely assess the quality of their code, and this can have potential negative consequences for end-users. To this end, we assessed the code quality of 16 highly cited and compute-intensive tools mainly written in C/Cþþ (e.g., MrBayes, MAFFT, SweepFinder, etc.) and JAVA (BEAST) from the broader area of evolutionary biology that are being routinely used in current data analysis pipelines. Because, the software engineering quality of the tools we analyzed is rather unsatisfying, we provide a list of best practices for improving the quality of existing tools and list techniques that can be deployed for developing reliable, high quality scientific software from scratch. Finally, we also discuss journal as well as science policy and, more importantly, funding issues that need to be addressed for improving software engineering quality as well as ensuring support for developing new and maintaining existing software. Our intention is to raise the awareness of the community regarding software engineering quality issues and to emphasize the substantial lack of funding for scientific software developmen

    Models, Optimizations, and Tools for Large-Scale Phylogenetic Inference, Handling Sequence Uncertainty, and Taxonomic Validation

    Get PDF
    Das Konzept der Evolution ist in der modernen Biologie von zentraler Bedeutung. Deswegen liefert die Phylogenetik, die Lehre über die Verwandschaften und Abstam- mung von Organismen bzw. Spezies, entscheidende Hinweise zur Entschlüsselung einer Vielzahl biologischer Prozesse. Phylogenetische Stammbäume sind einerseits für die Grundlagenforschung wichtig, da sie in Studien über die Diversifizierung und Umweltanpassung einzelner Organismengruppen (z.B. Insekten oder Vögel) bis hin zu der großen Herausforderung, die Entstehung und Entwicklung aller Lebensfor- men in einem umfassenden evolutionären Baum darzustellen (der sog. Tree of Life) Anwendung finden. Andererseits werden phylogenetische Methoden auch in prax- isnahen Anwendungen eingesetzt, um beispielsweise die Verbreitungsdynamik von HIV-Infektionen oder, die Heterogenität der Krebszellen eines Tumors, zu verstehen. Den aktuellen Stand der Technik in der Stammbaumrekonstruktion stellen Meth- oden Maximum Likelihood (ML) und Bayes’sche Inferenz (BI) dar, welche auf der Analyse molekularer Sequenzendaten (DNA und Proteine) anhand probabilistis- cher Evolutionsmodelle basieren. Diese Methoden weisen eine hohe Laufzeitkom- plexität auf (N P -schwer), welche die Entwicklung effizienter Heuristiken unabding- bar macht. Hinzu kommt, dass die Berechnung der Zielfunktion (sog. Phylogenetic Likelihood Function, PLF) neben einem hohen Speicherverbrauch auch eine Vielzahl an Gleitkommaarithmetik-Operationen erfordert und somit extrem rechenaufwendig ist. Die neuesten Entwicklungen im Bereich der DNA-Sequenzierung (Next Gener- ation Sequencing, NGS) steigern kontinuierlich den Durchsatz und senken zugleich die Sequenzierungskosten um ein Vielfaches. Für die Phylogenetik hat dies zur Folge, dass die Dimensionen der zu analysierenden Datensätze alle 2–3 Jahre, um eine Grössenordnung zunhemen. War es bisher üblich, einige Dutzend bis Hun- derte Spezies anhand einzelner bzw. weniger Gene zu analysieren (Sequenzlänge: 1–10 Kilobasen), stellen derzeit Studien mit Tausenden Sequenzen oder Genen keine Seltenheit mehr dar. In den nächsten 1–2 Jahren ist zu erwarten, dass die Anal- ysen Tausender bis Zehntausender vollständiger Genome bzw. Transkriptome (Se- quenzlänge: 1–100 Megabasen und mehr) anstehen. Um diesen Aufgaben gewachsen zu sein, müssen die bestehenden Methoden weiterentwickelt und optimiert werden, um vor allem Höchstleistungsrechner sowie neue Hardware-Architekturen optimal nutzen zu können. Außerdem führt die sich beschleunigende Speicherung von Sequenzen in öffentli- chen Datenbanken wie NCBI GenBank (und ihren Derivaten) dazu, dass eine hohe Qualität der Sequenzannotierungen (z. B. Organismus- bzw. Speziesname, tax- onomische Klassifikation, Name eines Gens usw.) nicht zwangsläufig gewährleistet ist. Das hängt unter anderem auch damit zusammen, dass eine zeitnahe Korrektur durch entsprechende Experten nicht mehr möglich ist, solange ihnen keine adäquaten Software-Tools zur Verfügung stehen. In dieser Doktroarbeit leisten wir mehrere Beiträge zur Bewältigung der oben genannten Herausforderungen. Erstens haben wir ExaML, eine dedizierte Software zur ML-basierten Stamm- baumrekonstruktion für Höchstleistungsrechner, auf den Intel Xeon Phi Hardware- beschleuniger portiert. Der Xeon Phi bietet im Vergleich zu klassischen x86 CPUs eine höhere Rechenleistung, die allerdings nur anhand architekturspezifischer Op- timierungen vollständig genutzt werden kann. Aus diesem Grund haben wir zum einen die PLF-Berechnung für die 512-bit-Vektoreinheit des Xeon Phi umstrukturi- ert und optimiert. Zum anderen haben wir die in ExaML bereits vorhandene reine MPI-Parallelisierung durch eine hybride MPI/OpenMP-Lösung ersetzt. Diese hy- bride Lösung weist eine wesentlich bessere Skalierbarkeit für eine hohe Zahl von Kernen bzw. Threads innerhalb eines Rechenknotens auf (>100 HW-Threads für Xeon Phi). Des Weiteren haben wir eine neue Software zur ML-Baumrekonstruktion na- mens RAxML-NG entwickelt. Diese implementiert, bis auf kleinere Anpassungen, zwar denselben Suchalgorithmus wie das weit verbreitete Programm RAxML, bietet aber gegenüber RAxML mehrere Vorteile: (a) dank den sorgfältigen Optimierungen der PLF-Berechnung ist es gelungen, die Laufzeiten um den Faktor 2 bis 3 zu reduzieren (b) die Skalierbarkeit auf extrem großen Eingabedatensätzen wurde verbessert, in- dem ineffiziente topologische Operationen eliminiert bzw. optimiert wurden, (c) die bisher nur in ExaML verfügbaren, für große Datensätze relevanten Funktionen wie Checkpointing sowie ein dedizierter Datenverteilungsalgorithmus wurden nachimple- mentiert (d) dem Benutzer steht eine größere Auswahl an statistischen DNA-Evo- lutionsmodellen zur Verfügung, die zudem flexibler kombiniert und parametrisiert werden können (e) die Weiterentwicklung der Software wird aufgrund der modularen Architektur wesentlich erleichtert (die Funktionen zur PLF-Berechnung wurden in eine gesonderte Bibliothek ausgeglidert). Als nächstes haben wir untersucht, wie sich Sequenzierungsfehler auf die Genau- igkeit phylogenetischr Stammbaumrekonstruktionen auswirken. Wir modifizieren den RAxML bzw. RAxML-NG Code dahingehend, dass sowohl die explizite Angabe von Fehlerwahrscheinlichkeiten als auch die automatische Schätzung von Fehlerraten mittels der ML-Methode möglich ist. Unsere Simulationen zeigen: (a) Wenn die Fehler gleichverteilt sind, kann die Fehlerrate direkt aus den Sequenzdaten geschätzt werden. (b) Ab einer Fehlerrate von ca. 1% liefert die Baumrekonstruktion unter Berücksichtigung des Fehlermodells genauere Ergebnisse als die klassische Methode, welche die Eingabe als fehlerfrei annimmt. Ein weiterer Beitrag im Rahmen dieser Arbeit ist die Software-Pipeline SATIVA zur rechnergestützten Identifizierung und Korrektur fehlerhafter taxonomischer An- notierungen in großen Sequenzendatenbanken. Der Algorithmus funktioniert wie folgt: für jede Sequenz wird die Platzierung im Stammbaum mit dem höchst- möglichen Likelihood-Wert ermittelt und anschließend geprüft, ob diese mit der vorgegeben taxonomischen Klassifikation übereinstimmt. Ist dies nicht der Fall, wird also eine Sequenz beispielsweise innerhalb einer anderen Gattung platziert, wird die Sequenz als falsch annotiert gemeldet, und es wird eine entsprechende Umklassifizierung vorgeschlagen. Auf simulierten Datensätzen mit zufällig eingefüg- ten Fehlern, erreichte unsere Pipeline eine hohe Identifikationsquote (>90%) sowie Genauigkeit (>95%). Zur Evaluierung anhand empirischer Daten, haben wir vier öffentliche rRNA Datenbanken untersucht, welche zur Klassifizierung von Bakterien häufig als Referenz benutzt werden. Dabei haben wir je nach Datenbank 0.2% bis 2.5% aller Sequenzen als potenzielle Fehlannotierungen identifiziert
    corecore