27 research outputs found
Inference of Many-Taxon Phylogenies
Phylogenetic trees are tree topologies that represent the evolutionary history of a set of organisms. In this thesis, we address computational challenges related to the analysis of large-scale datasets with Maximum Likelihood based phylogenetic inference. We have approached this using different strategies: reduction of memory requirements, reduction of running time, and reduction of man-hours
Lagrange-NG: The next generation of Lagrange
Computing ancestral ranges via the Dispersion Extinction and Cladogensis (DEC) model of biogeography is characterized by an exponential number of states relative to the number of regions considered. This is because the DEC model requires computing a large matrix exponential, which typically accounts for up to 80% of overall runtime. Therefore, the kinds of biogeographical analyses that can be conducted under the DEC model are limited by the number of regions under consideration. In this work, we present a completely redesigned efficient version of the popular tool Lagrange which is up to 49 times faster with multithreading enabled, and is also 26 times faster when using only one thread. We call this new version Lagrange-NG (Lagrange-Next Generation). The increased computational efficiency allows Lagrange-NG to analyze datasets with a large number of regions in a reasonable amount of time, up to 12 regions in approximately 18 min. We achieve these speedups using a relatively new method of computing the matrix exponential based on Krylov subspaces. In order to validate the correctness of Lagrange-NG, we also introduce a novel metric on range distributions for trees so that researchers can assess the difference between any two range inferences. Finally, Lagrange-NG exhibits substantially higher adherence to coding quality standards. It improves a respective software quality indicator as implemented in the SoftWipe tool from average (5.5; Lagrange) to high (7.8; Lagrange-NG). Lagrange-NG is freely available under GPL2. [Biogeography; Phylogenetics; DEC Model.
EDRA:A Hardware-assisted Decoupled Access/Execute Framework on the Digital Market
EDRA was an Horizon 2020 FET Launchpad project that focused on the commercialization of the Decoupled Access Execution Reconfigurable (DAER) framework - developed within the FET-HPC EXTRA project - on Amazon's Elastic Cloud (EC2) Compute FPGA-based infrastructure. The delivered framework encapsulates DAER into a EC2 virtual machine (VM), and uses a simple, directive-based, high-level application programming interface (API) to facilitate application mapping to the underlying hardware architecture. EDRA's Minimum Viable Product (MVP) is an accelerator for the Phylogenetic Likelihood Function (PLF), one of the cornerstone functions in most phylogenetic inference tools, achieving up to 8x performance improvement compared to optimized software implementations. Towards entering the market, research revealed that Europe is an extremely promising geographic region for focusing the project efforts on dissemination, MVP promotion and advertisement
Models, Optimizations, and Tools for Large-Scale Phylogenetic Inference, Handling Sequence Uncertainty, and Taxonomic Validation
Das Konzept der Evolution ist in der modernen Biologie von zentraler Bedeutung.
Deswegen liefert die Phylogenetik, die Lehre über die Verwandschaften und Abstam-
mung von Organismen bzw. Spezies, entscheidende Hinweise zur Entschlüsselung
einer Vielzahl biologischer Prozesse. Phylogenetische Stammbäume sind einerseits
für die Grundlagenforschung wichtig, da sie in Studien über die Diversifizierung und
Umweltanpassung einzelner Organismengruppen (z.B. Insekten oder Vögel) bis hin
zu der großen Herausforderung, die Entstehung und Entwicklung aller Lebensfor-
men in einem umfassenden evolutionären Baum darzustellen (der sog. Tree of Life)
Anwendung finden. Andererseits werden phylogenetische Methoden auch in prax-
isnahen Anwendungen eingesetzt, um beispielsweise die Verbreitungsdynamik von
HIV-Infektionen oder, die Heterogenität der Krebszellen eines Tumors, zu verstehen.
Den aktuellen Stand der Technik in der Stammbaumrekonstruktion stellen Meth-
oden Maximum Likelihood (ML) und Bayes’sche Inferenz (BI) dar, welche auf der
Analyse molekularer Sequenzendaten (DNA und Proteine) anhand probabilistis-
cher Evolutionsmodelle basieren. Diese Methoden weisen eine hohe Laufzeitkom-
plexität auf (N P -schwer), welche die Entwicklung effizienter Heuristiken unabding-
bar macht. Hinzu kommt, dass die Berechnung der Zielfunktion (sog. Phylogenetic
Likelihood Function, PLF) neben einem hohen Speicherverbrauch auch eine Vielzahl
an Gleitkommaarithmetik-Operationen erfordert und somit extrem rechenaufwendig
ist.
Die neuesten Entwicklungen im Bereich der DNA-Sequenzierung (Next Gener-
ation Sequencing, NGS) steigern kontinuierlich den Durchsatz und senken zugleich
die Sequenzierungskosten um ein Vielfaches. Für die Phylogenetik hat dies zur
Folge, dass die Dimensionen der zu analysierenden Datensätze alle 2–3 Jahre, um
eine Grössenordnung zunhemen. War es bisher üblich, einige Dutzend bis Hun-
derte Spezies anhand einzelner bzw. weniger Gene zu analysieren (Sequenzlänge:
1–10 Kilobasen), stellen derzeit Studien mit Tausenden Sequenzen oder Genen keine
Seltenheit mehr dar. In den nächsten 1–2 Jahren ist zu erwarten, dass die Anal-
ysen Tausender bis Zehntausender vollständiger Genome bzw. Transkriptome (Se-
quenzlänge: 1–100 Megabasen und mehr) anstehen. Um diesen Aufgaben gewachsen
zu sein, müssen die bestehenden Methoden weiterentwickelt und optimiert werden,
um vor allem Höchstleistungsrechner sowie neue Hardware-Architekturen optimal
nutzen zu können.
Außerdem führt die sich beschleunigende Speicherung von Sequenzen in öffentli-
chen Datenbanken wie NCBI GenBank (und ihren Derivaten) dazu, dass eine hohe
Qualität der Sequenzannotierungen (z. B. Organismus- bzw. Speziesname, tax-
onomische Klassifikation, Name eines Gens usw.) nicht zwangsläufig gewährleistet
ist. Das hängt unter anderem auch damit zusammen, dass eine zeitnahe Korrektur
durch entsprechende Experten nicht mehr möglich ist, solange ihnen keine adäquaten
Software-Tools zur Verfügung stehen.
In dieser Doktroarbeit leisten wir mehrere Beiträge zur Bewältigung der oben
genannten Herausforderungen.
Erstens haben wir ExaML, eine dedizierte Software zur ML-basierten Stamm-
baumrekonstruktion für Höchstleistungsrechner, auf den Intel Xeon Phi Hardware-
beschleuniger portiert. Der Xeon Phi bietet im Vergleich zu klassischen x86 CPUs
eine höhere Rechenleistung, die allerdings nur anhand architekturspezifischer Op-
timierungen vollständig genutzt werden kann. Aus diesem Grund haben wir zum
einen die PLF-Berechnung für die 512-bit-Vektoreinheit des Xeon Phi umstrukturi-
ert und optimiert. Zum anderen haben wir die in ExaML bereits vorhandene reine
MPI-Parallelisierung durch eine hybride MPI/OpenMP-Lösung ersetzt. Diese hy-
bride Lösung weist eine wesentlich bessere Skalierbarkeit für eine hohe Zahl von
Kernen bzw. Threads innerhalb eines Rechenknotens auf (>100 HW-Threads für
Xeon Phi).
Des Weiteren haben wir eine neue Software zur ML-Baumrekonstruktion na-
mens RAxML-NG entwickelt. Diese implementiert, bis auf kleinere Anpassungen, zwar
denselben Suchalgorithmus wie das weit verbreitete Programm RAxML, bietet aber
gegenüber RAxML mehrere Vorteile: (a) dank den sorgfältigen Optimierungen der
PLF-Berechnung ist es gelungen, die Laufzeiten um den Faktor 2 bis 3 zu reduzieren
(b) die Skalierbarkeit auf extrem großen Eingabedatensätzen wurde verbessert, in-
dem ineffiziente topologische Operationen eliminiert bzw. optimiert wurden, (c) die
bisher nur in ExaML verfügbaren, für große Datensätze relevanten Funktionen wie
Checkpointing sowie ein dedizierter Datenverteilungsalgorithmus wurden nachimple-
mentiert (d) dem Benutzer steht eine größere Auswahl an statistischen DNA-Evo-
lutionsmodellen zur Verfügung, die zudem flexibler kombiniert und parametrisiert
werden können (e) die Weiterentwicklung der Software wird aufgrund der modularen
Architektur wesentlich erleichtert (die Funktionen zur PLF-Berechnung wurden in
eine gesonderte Bibliothek ausgeglidert).
Als nächstes haben wir untersucht, wie sich Sequenzierungsfehler auf die Genau-
igkeit phylogenetischr Stammbaumrekonstruktionen auswirken. Wir modifizieren
den RAxML bzw. RAxML-NG Code dahingehend, dass sowohl die explizite Angabe von
Fehlerwahrscheinlichkeiten als auch die automatische Schätzung von Fehlerraten
mittels der ML-Methode möglich ist. Unsere Simulationen zeigen: (a) Wenn die
Fehler gleichverteilt sind, kann die Fehlerrate direkt aus den Sequenzdaten geschätzt
werden. (b) Ab einer Fehlerrate von ca. 1% liefert die Baumrekonstruktion unter
Berücksichtigung des Fehlermodells genauere Ergebnisse als die klassische Methode,
welche die Eingabe als fehlerfrei annimmt.
Ein weiterer Beitrag im Rahmen dieser Arbeit ist die Software-Pipeline SATIVA
zur rechnergestützten Identifizierung und Korrektur fehlerhafter taxonomischer An-
notierungen in großen Sequenzendatenbanken. Der Algorithmus funktioniert wie
folgt: für jede Sequenz wird die Platzierung im Stammbaum mit dem höchst-
möglichen Likelihood-Wert ermittelt und anschließend geprüft, ob diese mit der
vorgegeben taxonomischen Klassifikation übereinstimmt. Ist dies nicht der Fall,
wird also eine Sequenz beispielsweise innerhalb einer anderen Gattung platziert,
wird die Sequenz als falsch annotiert gemeldet, und es wird eine entsprechende
Umklassifizierung vorgeschlagen. Auf simulierten Datensätzen mit zufällig eingefüg-
ten Fehlern, erreichte unsere Pipeline eine hohe Identifikationsquote (>90%) sowie
Genauigkeit (>95%). Zur Evaluierung anhand empirischer Daten, haben wir vier
öffentliche rRNA Datenbanken untersucht, welche zur Klassifizierung von Bakterien
häufig als Referenz benutzt werden. Dabei haben wir je nach Datenbank 0.2% bis
2.5% aller Sequenzen als potenzielle Fehlannotierungen identifiziert
Uncommon Problems in Phylogenetic Inference
Die Phylogenetik ist die Lehre der Entwicklung des Lebens auf der Erde. Das Auf-
decken alter evolutionärer Beziehungen zwischen lebenden Arten ist von großem
Wert, da sie zu wichtigen Entdeckungen in der Biologie führte, wie beispielsweise
zur Entwicklung neuer Medikamente, zur Nachverfolgung der Dynamik einer globa-
len Pandemie sowie zu Erkenntnissen über den Ursprung der Menschheit. Heutzu-
tage werden phylogenetische Analysen typischerweise mit Hilfe statistischer Modelle
durchgeführt, wobei Sequenzdaten, in der Regel molekulare Sequenzen, als Einga-
bedaten verwendet werden. Basierend auf diesen statistischen Modellen wird die
wahrscheinlichste Erklärung für die Eingabedaten berechnet. Das heißt, der (ver-
meintlich) korrekte phylogenetische Baum ist der Baum, der gemäß eines bestimm-
ten Modells der Sequenzentwicklung am wahrscheinlichsten ist.
Die rasche Zunahme verfügbarer Daten in den letzten Jahren ermöglicht wesentlich
kompliziertere phylogenetische Analysen. Paradoxerweise hat diese massive Zunah-
me der für die Analyse verfügbaren Daten nicht in allen Fällen zu einer endgültigen
Schlussfolgerung geführt, d. h. das verwendete Modell ist unsicher bezüglich der
wahrscheinlichsten Schlussfolgerung. Dies kann auf eine Vielzahl von Faktoren zu-
rückzuführen sein, wie beispielsweise hochkomplexe Modelle, Rauschen in einigen
oder allen Daten sowie physikalische Prozesse, die durch das Modell nicht angemes-
sen berücksichtigt werden. Schwierigkeiten aufgrund von Ungewissheit sind weder in
der Phylogenetik noch in der Wissenschaft im Allgemeinen neu, doch die Entwick-
lung komplizierterer Analysemethoden fordert neue Methoden zur Angabe, Analyse
und Integration von Unsicherheiten.
Die vorliegende Arbeit präsentiert drei Beiträge zur Verbesserung der Unsicherheits-
bewertung. Der erste Beitrag betrifft die Bestimmung der Wurzel von ungewurzelten
phylogenetischen Bäumen. Phylogenetische Bäume sind entweder bezüglich der Zeit
orientiert, in diesem Fall nennt man sie verwurzelt, oder sie haben keine Orientie-
rung, in diesem Fall sind sie unverwurzelt. Die meisten Programme zur Bestimmung
phylogenetischer Bäume erzeugen aus rechnerischen Gründen einen ungewurzelten
phylogenetischen Baum. Ich habe das Open-Source-Softwaretool RootDigger entwi-
ckelt, das sowohl einen ungewurzelten phylogenetischen Baum, als auch eine Vertei-
lung der wahrscheinlichen Wurzeln berechnet. Darüber hinaus verfügt RootDigger
über ein Parallelisierungsschema mit verteiltem Speicher, welches auch die Analyse
großer Datensätze erlaubt, wie beispielsweise die Bestimmung eines phylogenetischen
Baumes aus 8736 SARS-CoV-2-Virussequenzen.
Mein zweiter Beitrag in der vorliegenden Arbeit ist das Open-Source-Softwaretool
Phylourny zur Berechnung des wahrscheinlichsten Gewinners eines Knock-out-Turniers.
Der Algorithmus in Phylourny ist angelehnt an den Felsenstein Pruning Algorith-
mus, einen dynamischen Programmierungsalgorithmus zur Berechnung der Wahr-
scheinlichkeit eines phylogenetischen Baums. Die Verwendung dieses Algorithmus
erlaubt eine erhebliche Beschleunigung der Berechnung im Vergleich zu Standard-
Turniersimulationen. Mit dieser beschleunigten Methode untersucht Phylourny auch
den Parameterraum des Modells mit Hilfe einer MCMC-Methode, um Ergebnisse zu
bewerten und zusammenzufassen, die eine ähnliche Wahrscheinlichkeit des Auftre-
tens haben. Diese Ergebnisse weichen oft erheblich vom wahrscheinlichsten Ergebnis
ab. In der vorliegenden Arbeit präsentiere ich die Performanz von Phylourny anhand
zweier realer Fußball- und Basketballturniere.
Der finale Beitrag in dieser Arbeit ist die Neugestaltung und Neuimplementierung
eines bekannten Tools für historische Biogeografie, mit dem sich Rückschlüsse auf
die Verteilung der angestammten Verbreitungsgebiete ziehen lassen. Ein Hauptin-
teresse der Biogeographie besteht in der Bestimmung der Verbreitungsgebiete von
Arten. Die historische Biogeografie befasst sich daher häufig mit der Ableitung des
Verbreitungsgebiets der Vorfahren lebender Arten. Diese Verteilungen des Verbrei-
tungsgebiets der Vorfahren sind ein häufiges Ergebnis von biogeografischen Studien,
die oft mit einem Modell abgeleitet werden, das zahlreiche Ähnlichkeiten mit Mo-
dellen der Sequenzevolution aufweist. Meine neue Version, Lagrange-NG, berechnet
die Ergebnisse bis zu 50 Mal schneller als die vorherige Version und bis zu zwei Grö-
ßenordnungen schneller als das beliebte analoge Tool BioGeoBEARS. Darüber hinaus
habe ich eine neue Abstandsmetrik entwickelt, die es erlaubt Ergebnisse alternativer
Tools und Algorithmen zu vergleichen
Fundamentals
Volume 1 establishes the foundations of this new field. It goes through all the steps from data collection, their summary and clustering, to different aspects of resource-aware learning, i.e., hardware, memory, energy, and communication awareness. Machine learning methods are inspected with respect to resource requirements and how to enhance scalability on diverse computing architectures ranging from embedded systems to large computing clusters
塩基組成の不均一な遺伝子配列データに基づく適切な進化系統樹推測法の探索:データリコーディング法および非一様モデルの有用性の検証
筑波大学 (University of Tsukuba)201
Fundamentals
Volume 1 establishes the foundations of this new field. It goes through all the steps from data collection, their summary and clustering, to different aspects of resource-aware learning, i.e., hardware, memory, energy, and communication awareness. Machine learning methods are inspected with respect to resource requirements and how to enhance scalability on diverse computing architectures ranging from embedded systems to large computing clusters