734 research outputs found

    Novel Methods for Analyzing and Visualizing Phylogenetic Placements

    Get PDF
    Die DNS (englisch: DNA) bildet die vererbbare Grundlage allen bekannten Lebens auf dem Planeten. Entsprechend wichtig ist ihre "EntschlĂŒsselung" fĂŒr die Biologie im Allgemeinen, und fĂŒr die Erforschung der evolutionĂ€ren ZusammenhĂ€nge verschiedener biologischer Artern im Besonderen. In den letzten Jahrzehnten hat eine rasante technologische Entwicklung im Bereich der DNS-Sequenzierung stattgefunden, die auch auf absehbare Zeit noch nicht zum Stillstand kommen wird. Die biologische Forschung hat daher den Bedarf an computer-gestĂŒtzten Methoden erkannt, sowohl in Bezug auf die Speicherung und Verarbeitung der immensen Datenmengen, die bei der Sequenzierung anfallen, als auch in Bezug auf deren Analyse und Visualisierung. Eine grundlegene Fragestellung ist dabei die nach dem Stammbaum des Lebens, der die evolutionĂ€re Verwandtschaft der Arten beschreibt. Diese Wissenschaft wird Phylogenetik, und die resultierenden Strukturen phylogenetische BĂ€ume genannt. HĂ€ufig basieren diese BĂ€ume auf dem Vergleich von DNS-Sequenzen der Arten, mit der Idee, dass Arten mit Ă€hnlicher DNS auch im Baum nah beieinander liegen. Die Berechnung eines solchen Baumes aus DNS-Daten kann als Optimierungsproblem formuliert werden, das durch die stetig wachsende Menge an Daten fĂŒr die Informatik eine Herausforderung darstellt. Aktuell beschĂ€ftigt sich die Mikrobiologie zum Beispiel mit der Erkundung und Erforschung von Proben (Samples), die aus Meereswasser, dem Erdreich, dem menschlichen Körper, und Ă€hnlichen Umgebungen gewonnen wurden: Welche mikrobischen Arten, Bakterien und andere Einzeller, bewohnen diese Umgebungen und Proben? Das zugehörige Forschungsfeld ist die Meta-Genetik. Einen verlĂ€sslichen Stammbaum fĂŒr die aber-millionen an Sequenzen aus solchen Proben zu errechnen ist praktisch unmöglich. Eine Alternative bietet die phylogenetische Platzierung der Sequenzen auf einem gegebenen Referenz-Baum von bekannten Arten (so genanntes phylogenetisches Placement): Hierbei wird ein Stammbaum aus Referenz-Sequenzen bekannter Arten gewĂ€hlt, der möglichst viel der in den Proben zu erwartenden Artenvielfalt abdeckt, und dann fĂŒr jede Sequenz aus den Proben die nĂ€chste Verwandtschaft innerhalb des Baumes bestimmt. Dies resultiert in einer Zuordnung von Sequenzen auf die Positionen verwandter Arten im Referenz-Baum. Diese Zuordnung kann auch als Verteilung der Sequenzen auf dem Baum verstanden werden: In dieser Interpretation kann man beispielsweise erkennen, welche Arten (und deren Verwandtschaft) besonders hĂ€ufig in den Proben vertreten sind. Diese Arbeit beschĂ€ftigt sich mit neuen Methoden zur Vor- und Nachbereitung, Analyse, und Visualisierung rund um den Kernbereich des phylogenetischen Placements von DNS-Sequenzen. ZunĂ€chst stellen wir eine Methode vor, die einen geeigneten Referenz-Baum fĂŒr die Platzierung liefern kann. Die Methode heißt PhAT (Phylogenetic Automatic (Reference) Trees), und nutzt Datenbanken bekannter DNS-Sequenzen, um geeigenete Referenz-Sequenzen fĂŒr den Baum zu bestimmen. Die durch PhAT produzierten BĂ€ume sind beispielsweise dann interessant, wenn die in den Proben zu erwartende Artenvielfalt noch nicht bekannt ist: In diesem Fall kann ein breiter Baum, der viele der bekannten Arten abdeckt, helfen, neue, unbekannte Arten zu entdecken. Im gleichen Kapitel stellen wir außerdem zwei Behilfs-Methoden vor, um den Prozess und die Berechnungen der Placements von großen DatensĂ€tzen zu beschleunigen und zu ermöglichen. Zum einen stellen wir Multilevel-Placement vor, mit dem besonders große Referenz-BĂ€ume in kleinere, geschachtelte BĂ€ume aufgeteilt werden können, um so schnellere und detalliertere Platzierungen vornehmen können, als auf einem einzelnen großen Baum möglich wĂ€ren. Zum anderen beschreiben wir eine Pipeline, die durch geschickte Lastverteilung und Vermeidung von Duplikaten den Prozess weiter beschleunigen kann. Dies eignet sich insbesondere fĂŒr große DatensĂ€tze von zu platzierenden Sequenzen, und hat die Berechnungen erst ermöglicht, die wir zum testen der im weiteren vorgestellten Methoden benötigt haben. Im Anschluss stellen wir zwei Methoden vor, um die Placement-Ergebnisse verschiedener Proben miteinander zu vergleichen. Die Methoden, Edge Dispersion und Edge Correlation, visualisieren den Referenz-Baum derart, dass die in Bezug auf die Proben interessanten und relevanten Regionen des Baumes sichtbar werden. Edge Dispersion zeigt dabei Regionen, in denen sich die HĂ€ufigkeit der in den Proben vorhandenen mikrobischen Arten besonders stark zwischen den einzelnen Proben unterscheided. Dies kann als erste Erkundung von neuen DatensĂ€tzen dienen, und gibt Aufschluss ĂŒber die Varianz der HĂ€ufigkeit bestimmter Arten. Edge Correlation hingegen bezieht zusĂ€tzlich Meta-Daten mit ein, die zu den Proben gesammelt wurden. Dadurch können beispielsweise AbhĂ€ngigkeiten zwischen HĂ€ufigkeiten von Arten und Faktoren wie dem pH-Wert des Bodens oder dem Nitrat-Gehalt des Wassers, aus dem die Proben stammen, aufgezeigt werden. Es hat damit Ă€hnlichkeiten zu einer bestehenden Methode names Edge PCA, die ebenfalls relevante Regionen des Baumen identifizieren kann, allerdings die vorhandenen Meta-Daten nur indirekt einbeziehen kann. Eine weitere Fragestellung ist die Gruppierung (Clustering) von Proben anhand von Gemeinsamkeiten, wie beispielweise einer Ă€hnlichen Verteilungen der Sequenzen auf dem Referenz-Baum. Anhand geeigneter Distanz-Maße wie der Kantorovich-Rubinstein-Distanz (KR-Distanz) können Ă€hnlichkeiten zwischen Proben quantifiziert werden, und somit ein Clustering erstellt werden. FĂŒr große DatensĂ€tze mit hunderten und tausenden von einzlnen Proben stoßen bestehende Methoden fĂŒr diesen Einsatzzweck, wie zum Beispiel das so genannte Squash Clustering, an ihre Grenzen. Wir haben daher die kk-means-Methode derart erweitert, dass sie fĂŒr Placement-Daten genutzt werden kann. Dazu prĂ€sentieren wir zwei Methoden, Phylogenetic kk-means und Imbalance kk-means, die verschiedene Distanzmaße zwischen Proben (KR-Distanz, und ein weiteres geeignetes Maß) nutzen, um BĂ€ume mit Ă€hnlichen Verteilungen von platzierten Sequenzen zu gruppieren. Sie betrachten jede Probe als einen Datenpunkt, und nutzen die zugrunde liegende Struktur des Referenz-Baumes fĂŒr die Berechnungen. Mit diesen Methoden können auch DatensĂ€tze mit zehntausenden Proben verarbeitet werden, und Clusterings und Ă€hnlichkeiten von Proben erkannt und visualisiert werden. Wir haben außerdem ein Konzept namens Balances fĂŒr Placement-Daten adaptiert, welches ursprĂŒnglich fĂŒr so genannte OTU-Sequenzen (Operational Taxonomic Units) entwickelt wurde. Balances erlauben eine Beschreibung des Referenz-Baumes und der darauf platzierten Sequenzen, die ganze Gruppen von Referenz-Arten zusammenfasst, statt jede Art einzeln in die Berechnungen einfließen zu lassen. Diese Beschreibung der Daten bietet verschiedene Vorteile fĂŒr die darauf basierenden Analysen, wie zum Beispiel eine Robustheit gegenĂŒber der exakten Wahl der Referenz-Sequenzen, und einer anschaulichen Beschreibung und Visualisierung der Ergebnisse. Insbesondere aus mathematischer Sicht sind Balances fĂŒr die Analyse interessant, da sie problematische Artefakte aufgrund der kompositionellen Natur meta-genetischer Daten beheben. Im Zuge dieser Arbeit dienen Balances hauptsĂ€chlich als Zwischenschritt zur Daten-ReprĂ€sentation. Eine Anwendung von Balances ist die so genannte Phylofactorization. Diese recht neue Methode teilt einen gegebenen Baum derart in Sub-BĂ€ume ein, dass jeder Sub-Baum eine Gruppe von Arten darstellt, die in Bezug auf gegebene Meta-Daten pro Probe relevant sind. Dadurch können beispielsweise Gruppen identifiziert werden, deren evolutionĂ€re Merkmale sich in AbhĂ€ngigkeit von Meta-Daten wie pH-Wert angepasst haben im Vergleich zu anderen Gruppen. Dies ist Ă€hnlich zur oben genannten Edge Correlation, aber kann zum einen durch geschickte mathematische AnsĂ€tze (insbesondere der Nutzung von Generalized Linear Models) mehrere Meta-Daten gleichzeitig einbeziehen, und zum anderen auch verschachtelte Gruppen finden. Die zugrunde liegenden Ideen dieser Methoden bieten einen großen Spielraum sowohl fĂŒr Analysen von Daten, als auch fĂŒr Weiterentwicklungen und ErgĂ€nzungen fĂŒr verwandte Fragestellungen. Wir haben diese Methode fĂŒr Placement-Daten adaptiert und erweitert, und stellen diese Variante, genannt Placement-Factorization, vor. Im Zuge dieser Adaption haben wir außerdem verschiedene ergĂ€nzende Berechnungen und Visalisierungen entwickelt, die auch fĂŒr die ursprĂŒngliche Phylofactorization nĂŒtzlich sind. Alle genannten neuen Methoden wurden ausfĂŒhrlich getestet in Bezug auf ihre Eignung zur Erforschung von mikrobiologischen ZusammenhĂ€ngen. Wir haben dazu verschiedene bekannte DatzensĂ€tze von DNS-Sequenzen aus Wasser- und Bodenproben, sowie Proben des menschlichen Mikrobioms, verwendet und diese auf geeigneten Referenz-BĂ€umen platziert. Anhand dieser Daten haben wir zum einen die PlausibilitĂ€t der durch unsere Analysen erzielten Ergebnisse geprĂŒft, als auch Vergleiche der Ergebnisse mit Ă€hnlichen, etablierten Methoden vorgenommen. SĂ€mtliche Analysen, Visualisierungen, und Vergleiche werden in den jeweils entsprechenden Kapiteln vorgestellt, und die Ergebnisse dargestellt. Alle Tests zeigen, dass unsere Methoden auf den getesteten DatensĂ€tzen zu Resultaten fĂŒhren, die konsistent mit anderen Analysen sind, und geeignet sind, um neue biologische Erkenntnisse zu gewinnen. SĂ€mtliche hier vorgestellten Methoden sind in unserer Software-Bibliothek genesis implementiert, die wir im Zuge dieser Arbeit entwickelt haben. Die Bibliothek ist in modernem C++11 geschrieben, hat einen modularen und funktions-orientierten Aufbau, ist auf Speichernutzung und Rechengeschwindigkeit optimiert, und nutzt vorhandene Multi-Prozessor-Umgebungen. Sie eignet sich daher sowohl fĂŒr schnelle Tests von Prototypen, als auch zur Entwicklung von Analyse-Software fĂŒr Endanwender. Wir haben genesis bereits erfolgreich in vielen unserer Projekte eingesetzt. Insbesondere bieten wir sĂ€mtliche hier prĂ€sentierten Methoden ĂŒber unser Software-Tool gappa an, das intern auf genesis basiert. Das Tool stellt einen einfachen Kommandozeilen-Zugriff auf die vorhandenen Analysemethoden bereit, und bietet ausreichend Optionen fĂŒr die Analysen der meisten End-Anwender. Im abschließenden Kapitel wagen wir einen Ausblick in weitere Forschungsmöglichkeiten im Bereich der Methoden-Entwicklung fĂŒr meta-genetische Fragestellungen im Allgemeinen, und der placement-basierten Methoden im Speziellen. Wir benennen verschiedene Herausforderungen in Bezug auf die Nutzbarkeit solcher Methoden fĂŒr Anwender und ihrer Skalierbarkeit fĂŒr immer grĂ¶ĂŸer werdende DatensĂ€tze. Außerdem schlagen wir verschiedene weitergehende AnsĂ€tze vor, die zum Beispiel auf neuronalen Netzwerken und Deep Learning basieren könnten. Mit aktuellen DatensĂ€tzen wĂ€ren solche Methoden nicht robust trainierbar; durch das in Zukuft zu erwartenden Wachstum an Daten kann dies allerdings bald in den Bereich des Möglichen kommen. Schließlich identifizierenden wir einige tiefer gehende Forschungsfragen aus der Biologie und Medizin, bei deren Beantwortung unsere Methoden in Zukunft helfen können

    Genesis and Gappa: processing, analyzing and visualizing phylogenetic (placement) data

    Get PDF
    We present genesis, a library for working with phylogenetic data, and gappa, an accompanying command-line tool for conducting typical analyses on such data. The tools target phylogenetic trees and phylogenetic placements, sequences, taxonomies and other relevant data types, offer high-level simplicity as well as lowlevel customizability, and are computationally efficient, well-tested and field-proven

    High-Performance approaches for Phylogenetic Placement, and its application to species and diversity quantification

    Get PDF
    In den letzten Jahren haben Fortschritte in der Hochdurchsatz-Genesequenzierung, in Verbindung mit dem anhaltenden exponentiellen Wachstum und der VerfĂŒgbarkeit von Rechenressourcen, zu fundamental neuen analytischen AnsĂ€tzen in der Biologie gefĂŒhrt. Es ist nun möglich den genetischen Inhalt ganzer Organismengemeinschaften anhand einzelner Umweltproben umfassend zu sequenzieren. Solche Methoden sind besonders fĂŒr die Mikrobiologie relevant. Die Mikrobiologie war zuvor weitgehend auf die Untersuchung jener Mikroben beschrĂ€nkt, welche im Labor (d.h., in vitro) kultiviert werden konnten, was jedoch lediglich einen kleinen Teil der in der Natur vorkommenden DiversitĂ€t abdeckt. Im Gegensatz dazu ermöglicht die Hochdurchsatzsequenzierung nun die direkte Erfassung der genetischen Sequenzen eines Mikrobioms, wie es in seiner natĂŒrlichen Umgebung vorkommt (d.h., in situ). Ein typisches Ziel von Mikrobiomstudien besteht in der taxonomischen Klassifizierung der in einer Probe enthaltenen Sequenzen (Querysequenzen). Üblicherweise werden phylogenetische Methoden eingesetzt, um detaillierte taxonomische Beziehungen zwischen Querysequenzen und vertrauenswĂŒrdigen Referenzsequenzen, die von bereits klassifizierten Organismen stammen, zu bestimmen. Aufgrund des hohen Volumens (106 10 ^ 6 bis 109 10 ^ 9 ) von Querysequenzen, die aus einer Mikrobiom-Probe mittels Hochdurchsatzsequenzierung generiert werden können, ist eine akkurate phylogenetische Baumrekonstruktion rechnerisch nicht mehr möglich. DarĂŒber hinaus erzeugen derzeit ĂŒblicherweise verwendete Sequenzierungstechnologien vergleichsweise kurze Sequenzen, die ein begrenztes phylogenetisches Signal aufweisen, was zu einer InstabilitĂ€t bei der Inferenz der Phylogenien aus diesen Sequenzen fĂŒhrt. Ein weiteres typisches Ziel von Mikrobiomstudien besteht in der Quantifizierung der DiversitĂ€t innerhalb einer Probe, bzw. zwischen mehreren Proben. Auch hierfĂŒr werden ĂŒblicherweise phylogenetische Methoden verwendet. Oftmals setzen diese Methoden die Inferenz eines phylogenetischen Baumes voraus, welcher entweder alle Sequenzen, oder eine geclusterte Teilmenge dieser Sequenzen, umfasst. Wie bei der taxonomischen Identifizierung können Analysen, die auf dieser Art von Bauminferenz basieren, zu ungenauen Ergebnissen fĂŒhren und/oder rechnerisch nicht durchfĂŒhrbar sein. Im Gegensatz zu einer umfassenden phylogenetischen Inferenz ist die phylogenetische Platzierung eine Methode, die den phylogenetischen Kontext einer Querysequenz innerhalb eines etablierten Referenzbaumes bestimmt. Dieses Verfahren betrachtet den Referenzbaum typischerweise als unverĂ€nderlich, d.h. der Referenzbaum wird vor, wĂ€hrend oder nach der Platzierung einer Sequenz nicht geĂ€ndert. Dies erlaubt die phylogenetische Platzierung einer Sequenz in linearer Zeit in Bezug auf die GrĂ¶ĂŸe des Referenzbaums durchzufĂŒhren. In Kombination mit taxonomischen Informationen ĂŒber die Referenzsequenzen ermöglicht die phylogenetische Platzierung somit die taxonomische Identifizierung einer Sequenz. DarĂŒber hinaus erlaubt eine phylogenetische Platzierung die Anwendung einer Vielzahl zusĂ€tzlicher Analyseverfahren, die beispielsweise die Zuordnung der Zusammensetzungen humaner Mikrobiome zu klinisch-diagnostischen Eigenschaften ermöglicht. In dieser Dissertation prĂ€sentiere ich meine Arbeit bezĂŒglich des Entwurfs, der Implementierung, und Verbesserung von EPA-ng, einer Hochleistungsimplementierung der phylogenetischen Platzierung anhand des Maximum-Likelihood Modells. EPA-ng wurde entwickelt um auf Milliarden von Querysequenzen zu skalieren und auf Tausenden von Kernen in Systemen mit gemeinsamem und verteiltem Speicher ausgefĂŒhrt zu werden. EPA-ng beschleunigt auch die Verarbeitungsgeschwindigkeit auf einzelnen Kernen um das bis zu 3030-fache, im Vergleich zu dessen direkten Konkurrenzprogrammen. Vor kurzem haben wir eine zusĂ€tzliche Methode fĂŒr EPA-ng eingefĂŒhrt, welche die Platzierung in wesentlich grĂ¶ĂŸeren ReferenzbĂ€umen ermöglicht. HierfĂŒr verwenden wir einen aktiven Speicherverwaltungsansatz, bei dem reduzierter Speicherverbrauch gegen grĂ¶ĂŸere AusfĂŒhrungszeiten eingetauscht wird. ZusĂ€tzlich prĂ€sentiere ich einen massiv-parallelen Ansatz um die DiversitĂ€t einer Probe zu quantifizieren, welcher auf den Ergebnissen phylogenetischer Platzierungen basiert. Diese Software, genannt \toolname{SCRAPP}, kombiniert aktuelle Methoden fĂŒr die Maximum-Likelihood basierte phylogenetische Inferenz mit Methoden zur Abgrenzung molekularer Spezien. Daraus resultiert eine Verteilung der Artenanzahl auf den Kanten eines Referenzbaums fĂŒr eine gegebene Probe. DarĂŒber hinaus beschreibe ich einen neuartigen Ansatz zum Clustering von Platzierungsergebnissen, anhand dessen der Benutzer den Rechenaufwand reduzieren kann

    Phylogenetic Analysis of SARS-CoV-2 Data Is Difficult

    Get PDF
    Numerous studies covering some aspects of SARS-CoV-2 data analyses are being published on a daily basis, including a regularly updated phylogeny on nextstrain.org. Here, we review the difficulties of inferring reliable phylogenies by example of a data snapshot comprising a quality-filtered subset of 8,736 out of all 16,453 virus sequences available on May 5, 2020 from gisaid.org. We find that it is difficult to infer a reliable phylogeny on these data due to the large number of sequences in conjunction with the low number of mutations. We further find that rooting the inferred phylogeny with some degree of confidence either via the bat and pangolin outgroups or by applying novel computational methods on the ingroup phylogeny does not appear to be credible. Finally, an automatic classification of the current sequences into subclasses using the mPTP tool for molecular species delimitation is also, as might be expected, not possible, as the sequences are too closely related. We conclude that, although the application of phylogenetic methods to disentangle the evolution and spread of COVID-19 provides some insight, results of phylogenetic analyses, in particular those conducted under the default settings of current phylogenetic inference tools, as well as downstream analyses on the inferred phylogenies, should be considered and interpreted with extreme caution

    Morphometrics and Phylogeography of the Cave-Obligate Land Snail \u3ci\u3eHelicodiscus barri\u3c/i\u3e (Gastropoda, Stylommatophora, Helicodiscidae)

    Get PDF
    Molecular studies have recently led to the detection of many cryptic species complexes within morphologically ambiguous species formerly undescribed by the scientific community. Organisms such as land snails are at a particularly high risk of species misidentification and misinterpretation, in that gastropod systematics are based almost entirely on external shell morphology. Subterranean ecosystems are associated with especially high degrees of cryptic speciation, largely owing to the abiotic similarities of these systems. In this study, I attempt to diagnose the potential cryptic diversity in the troglobitic land snail Helicodiscus barri. Land snails are generally associated with having low vagility, and as such this species’ broad, mosaic distribution indicates the misdiagnosis of this organism as a single species. I analyze both mitochondrial (CO1, 16S) and nuclear (28S, H3) genetic data for 23 populations. Phylogeny for H. barri was reconstructed using both maximum-likelihood and Bayesian approaches to assess relationships among populations, and two species delimitation methods — mPTP and ABGD — were used to detect the presence of unique molecular operational taxonomic units (MOTUs). Species delimitation results revealed seven and sixteen MOTUs respectively, suggesting the presence of several cryptic lineages within H. barri. To assess how external shell morphology corresponds with both patterns of genetic and environmental variation, two morphometric approaches were utilized incorporating 115 shells from 31 populations. Both morphometric approaches reveal a significant environmental influence on shell morphology, and one approach showed the significance of MOTU groups. Further, I discuss the delimitation and morphometric results and additionally provide discussion on the taxonomic and conservation implications of this study

    Biotic and Abiotic Factors Influencing Diversification of Herbivorous Mammals.

    Full text link
    Though biotic and abiotic factors controlling diversification are believed to operate at distinct temporal and spatial scales, in reality the scales at which key processes of diversification operate often are ambiguous or unknown. To explore the spatiotemporal dependence of diversification factors, my dissertation examined the interaction between lineage-specific traits and ecology as well as environment at multiple taxonomic, temporal, and spatial scales. I focused on the effects of a novel digestive strategy, foregut fermentation, in the herbivorous mammals. In Chapter II, I tested predictions of a popular macroevolutionary model to evaluate the role of an abiotic factor, ecological opportunity, in the diversification of the foregut-fermenting colobine monkeys. In addition to the abiotic factor, I also found evidence for an important role of dietary specialization, a biotic factor, in the diversification of Asian colobines. These findings showed that both biotic and abiotic factors can be important controls on diversification at long timescales and large geographical scales. In Chapter III, I tested the effects of foregut fermentation on the relationship between ecological specialization and speciation rates in the terrestrial, herbivorous mammals. My findings indicated that foregut fermentation mediated speciation rates in mammals, supporting roles for both biotic and abiotic factors in determining differences in speciation among clades at intermediate temporal and geographical scales. In Chapter IV, I investigated the effects of environmental change, specifically historical climatic perturbations, and its interaction with digestive strategy on speciation rates of the terrestrial, herbivorous mammals. I found that climatic instability since the Last Glacial Maximum had stronger, multifarious effects on the richness of foregut-fermenting mammals. In contrast, hindgut herbivores experienced bounded instability across the continents on which they occur. These findings support important roles for both biotic and abiotic factors on species richness over short timescales and intermediate geographical scales. Overall, my findings from Chapters II-IV together show that not only are the effects of biotic and abiotic factors on diversity important on spatiotemporal scales not currently recognized in the multilevel mixed model, but the effects of the factors themselves are likely to vary based on the biological and ecological differences found within and among clades.PHDEcology and Evolutionary BiologyUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/113450/1/lucaptra_1.pd

    Scalable methods for analyzing and visualizing phylogenetic placement of metagenomic samples

    Get PDF
    Background: The exponential decrease in molecular sequencing cost generates unprecedented amounts of data. Hence, scalable methods to analyze these data are required. Phylogenetic (or Evolutionary) Placement methods identify the evolutionary provenance of anonymous sequences with respect to a given reference phylogeny. This increasingly popular method is deployed for scrutinizing metagenomic samples from environments such as water, soil, or the human gut. Novel methods: Here, we present novel and, more importantly, highly scalable methods for analyzing phylogenetic placements of metagenomic samples. More specifically, we introduce methods for (a) visualizing differences between samples and their correlation with associated meta-data on the reference phylogeny, (b) clustering similar samples using a variant of the k-means method, and (c) finding phylogenetic factors using an adaptation of the Phylofactorization method. These methods enable to interpret metagenomic data in a phylogenetic context, to find patterns in the data, and to identify branches of the phylogeny that are driving these patterns. Results: To demonstrate the scalability and utility of our methods, as well as to provide exemplary interpretations of our methods, we applied them to 3 publicly available datasets comprising 9782 samples with a total of approximately 168 million sequences. The results indicate that new biological insights can be attained via our methods

    The Emergence and Early Evolution of Biological Carbon-Fixation

    Get PDF
    The fixation of into living matter sustains all life on Earth, and embeds the biosphere within geochemistry. The six known chemical pathways used by extant organisms for this function are recognized to have overlaps, but their evolution is incompletely understood. Here we reconstruct the complete early evolutionary history of biological carbon-fixation, relating all modern pathways to a single ancestral form. We find that innovations in carbon-fixation were the foundation for most major early divergences in the tree of life. These findings are based on a novel method that fully integrates metabolic and phylogenetic constraints. Comparing gene-profiles across the metabolic cores of deep-branching organisms and requiring that they are capable of synthesizing all their biomass components leads to the surprising conclusion that the most common form for deep-branching autotrophic carbon-fixation combines two disconnected sub-networks, each supplying carbon to distinct biomass components. One of these is a linear folate-based pathway of reduction previously only recognized as a fixation route in the complete Wood-Ljungdahl pathway, but which more generally may exclude the final step of synthesizing acetyl-CoA. Using metabolic constraints we then reconstruct a “phylometabolic” tree with a high degree of parsimony that traces the evolution of complete carbon-fixation pathways, and has a clear structure down to the root. This tree requires few instances of lateral gene transfer or convergence, and instead suggests a simple evolutionary dynamic in which all divergences have primary environmental causes. Energy optimization and oxygen toxicity are the two strongest forces of selection. The root of this tree combines the reductive citric acid cycle and the Wood-Ljungdahl pathway into a single connected network. This linked network lacks the selective optimization of modern fixation pathways but its redundancy leads to a more robust topology, making it more plausible than any modern pathway as a primitive universal ancestral form

    Visualizing multidimensional data similarities:Improvements and applications

    Get PDF
    Multidimensional data is increasingly more prominent and important in many application domains. Such data typically consist of a large set of elements, each of which described by several measurements (dimensions). During the design of techniques and tools to process this data, a key component is to gather insights into their structure and patterns, which can be described by the notion of similarity between elements. Among these techniques, multidimensional projections and similarity trees can effectively capture similarity patterns and handle a large number of data elements and dimensions. However, understanding and interpreting these patterns in terms of the original data dimensions is still hard. This thesis addresses the development of visual explanatory techniques for the easy interpretation of similarity patterns present in multidimensional projections and similarity trees, by several contributions. First, we propose methods that make the computation of similarity trees efficient for large datasets, and also enhance its visual representation to allow the exploration of more data in a limited screen. Secondly, we propose methods for the visual explanation of multidimensional projections in terms of groups of similar elements. These are automatically annotated to describe which dimensions are more important to define their notion of group similarity. We show next how these explanatory mechanisms can be adapted to handle both static and time-dependent data. Our proposed techniques are designed to be easy to use, work nearly automatically, and are demonstrated on a variety of real-world large data obtained from image collections, text archives, scientific measurements, and software engineering

    Phylogenetics and historical biogeography of the Teloganodidae (Ephemeroptera)

    Get PDF
    The Teloganodidae are a mayfly family endemic to the southwestern Cape (South Africa), with relatives in Madagascar and Asia. Like many other aquatic invertebrates in Africa, they have been considerably understudied. Research into biodiversity and biogeography allows an understanding of the earth’s biota, producing knowledge which can be used to develop strategies to preserve and monitor this biota. Mismanagement of water systems places biodiversity of river fauna under an ever-increasing extinction threat. This investigation explores rivers in under-collected areas to determine how well teloganodids have been represented in the literature, with four genera and five species described at the onset of this study. A lectotype for Lestagella penicillata Barnard (1940) has been elected and described in detail, setting “benchmark” characters for future descriptions. Standard DNA sequencing methods provide portions of three mitochondrial genes; cytochrome oxidase subunit I (COI), small subunit ribosomal 16S RNA (16S), 12S ribosomal DNA (12S) and two nuclear genes, Histone 3 (H3) and 28S ribosomal DNA (28S) for up to 255 specimens. Fore and hind wings of 79 teloganodid adults were used to examine phylogenetic signal and evolutionary divergence using geometric morphometrics. A multi-faceted approach is used to investigate relationships between clades and the effects of deep-time climatic and landform changes which have influenced the diversity and distribution seen today. Tree (Bayesian Inference and Maximum Likelihood) and network (parsimony) phylogenies, ancestral reconstruction, historical biogeography and wingevolution of the Teloganodidae are investigated. Species tree analyses discovered 27 species and six genera. Distinct lineages are restricted to catchments, and strong phylogeographic structure was found within most genera. Southern African Teloganodidae are shown to have originated in the Cretaceous, with divergence and dispersal of lineages depended on their established locality at the time of tectonic events (uplift) and climatic changes (sea level regressions and transgressions). Geographic clines in wing-shape of Lestagella across its range imply evolutionary adaptations to specific catchment landscape and environment. A detailed analysis of biodiversity has many valuable contributions, from directing future research, understanding adaptive processes, fine-tuning phylogeographical and evolutionary hypotheses, to improving management and conservation decisions in order to preserve endemic biodiversity hotspots
    • 

    corecore