4 research outputs found

    Novel Methods for Analyzing and Visualizing Phylogenetic Placements

    Get PDF
    Die DNS (englisch: DNA) bildet die vererbbare Grundlage allen bekannten Lebens auf dem Planeten. Entsprechend wichtig ist ihre "EntschlĂŒsselung" fĂŒr die Biologie im Allgemeinen, und fĂŒr die Erforschung der evolutionĂ€ren ZusammenhĂ€nge verschiedener biologischer Artern im Besonderen. In den letzten Jahrzehnten hat eine rasante technologische Entwicklung im Bereich der DNS-Sequenzierung stattgefunden, die auch auf absehbare Zeit noch nicht zum Stillstand kommen wird. Die biologische Forschung hat daher den Bedarf an computer-gestĂŒtzten Methoden erkannt, sowohl in Bezug auf die Speicherung und Verarbeitung der immensen Datenmengen, die bei der Sequenzierung anfallen, als auch in Bezug auf deren Analyse und Visualisierung. Eine grundlegene Fragestellung ist dabei die nach dem Stammbaum des Lebens, der die evolutionĂ€re Verwandtschaft der Arten beschreibt. Diese Wissenschaft wird Phylogenetik, und die resultierenden Strukturen phylogenetische BĂ€ume genannt. HĂ€ufig basieren diese BĂ€ume auf dem Vergleich von DNS-Sequenzen der Arten, mit der Idee, dass Arten mit Ă€hnlicher DNS auch im Baum nah beieinander liegen. Die Berechnung eines solchen Baumes aus DNS-Daten kann als Optimierungsproblem formuliert werden, das durch die stetig wachsende Menge an Daten fĂŒr die Informatik eine Herausforderung darstellt. Aktuell beschĂ€ftigt sich die Mikrobiologie zum Beispiel mit der Erkundung und Erforschung von Proben (Samples), die aus Meereswasser, dem Erdreich, dem menschlichen Körper, und Ă€hnlichen Umgebungen gewonnen wurden: Welche mikrobischen Arten, Bakterien und andere Einzeller, bewohnen diese Umgebungen und Proben? Das zugehörige Forschungsfeld ist die Meta-Genetik. Einen verlĂ€sslichen Stammbaum fĂŒr die aber-millionen an Sequenzen aus solchen Proben zu errechnen ist praktisch unmöglich. Eine Alternative bietet die phylogenetische Platzierung der Sequenzen auf einem gegebenen Referenz-Baum von bekannten Arten (so genanntes phylogenetisches Placement): Hierbei wird ein Stammbaum aus Referenz-Sequenzen bekannter Arten gewĂ€hlt, der möglichst viel der in den Proben zu erwartenden Artenvielfalt abdeckt, und dann fĂŒr jede Sequenz aus den Proben die nĂ€chste Verwandtschaft innerhalb des Baumes bestimmt. Dies resultiert in einer Zuordnung von Sequenzen auf die Positionen verwandter Arten im Referenz-Baum. Diese Zuordnung kann auch als Verteilung der Sequenzen auf dem Baum verstanden werden: In dieser Interpretation kann man beispielsweise erkennen, welche Arten (und deren Verwandtschaft) besonders hĂ€ufig in den Proben vertreten sind. Diese Arbeit beschĂ€ftigt sich mit neuen Methoden zur Vor- und Nachbereitung, Analyse, und Visualisierung rund um den Kernbereich des phylogenetischen Placements von DNS-Sequenzen. ZunĂ€chst stellen wir eine Methode vor, die einen geeigneten Referenz-Baum fĂŒr die Platzierung liefern kann. Die Methode heißt PhAT (Phylogenetic Automatic (Reference) Trees), und nutzt Datenbanken bekannter DNS-Sequenzen, um geeigenete Referenz-Sequenzen fĂŒr den Baum zu bestimmen. Die durch PhAT produzierten BĂ€ume sind beispielsweise dann interessant, wenn die in den Proben zu erwartende Artenvielfalt noch nicht bekannt ist: In diesem Fall kann ein breiter Baum, der viele der bekannten Arten abdeckt, helfen, neue, unbekannte Arten zu entdecken. Im gleichen Kapitel stellen wir außerdem zwei Behilfs-Methoden vor, um den Prozess und die Berechnungen der Placements von großen DatensĂ€tzen zu beschleunigen und zu ermöglichen. Zum einen stellen wir Multilevel-Placement vor, mit dem besonders große Referenz-BĂ€ume in kleinere, geschachtelte BĂ€ume aufgeteilt werden können, um so schnellere und detalliertere Platzierungen vornehmen können, als auf einem einzelnen großen Baum möglich wĂ€ren. Zum anderen beschreiben wir eine Pipeline, die durch geschickte Lastverteilung und Vermeidung von Duplikaten den Prozess weiter beschleunigen kann. Dies eignet sich insbesondere fĂŒr große DatensĂ€tze von zu platzierenden Sequenzen, und hat die Berechnungen erst ermöglicht, die wir zum testen der im weiteren vorgestellten Methoden benötigt haben. Im Anschluss stellen wir zwei Methoden vor, um die Placement-Ergebnisse verschiedener Proben miteinander zu vergleichen. Die Methoden, Edge Dispersion und Edge Correlation, visualisieren den Referenz-Baum derart, dass die in Bezug auf die Proben interessanten und relevanten Regionen des Baumes sichtbar werden. Edge Dispersion zeigt dabei Regionen, in denen sich die HĂ€ufigkeit der in den Proben vorhandenen mikrobischen Arten besonders stark zwischen den einzelnen Proben unterscheided. Dies kann als erste Erkundung von neuen DatensĂ€tzen dienen, und gibt Aufschluss ĂŒber die Varianz der HĂ€ufigkeit bestimmter Arten. Edge Correlation hingegen bezieht zusĂ€tzlich Meta-Daten mit ein, die zu den Proben gesammelt wurden. Dadurch können beispielsweise AbhĂ€ngigkeiten zwischen HĂ€ufigkeiten von Arten und Faktoren wie dem pH-Wert des Bodens oder dem Nitrat-Gehalt des Wassers, aus dem die Proben stammen, aufgezeigt werden. Es hat damit Ă€hnlichkeiten zu einer bestehenden Methode names Edge PCA, die ebenfalls relevante Regionen des Baumen identifizieren kann, allerdings die vorhandenen Meta-Daten nur indirekt einbeziehen kann. Eine weitere Fragestellung ist die Gruppierung (Clustering) von Proben anhand von Gemeinsamkeiten, wie beispielweise einer Ă€hnlichen Verteilungen der Sequenzen auf dem Referenz-Baum. Anhand geeigneter Distanz-Maße wie der Kantorovich-Rubinstein-Distanz (KR-Distanz) können Ă€hnlichkeiten zwischen Proben quantifiziert werden, und somit ein Clustering erstellt werden. FĂŒr große DatensĂ€tze mit hunderten und tausenden von einzlnen Proben stoßen bestehende Methoden fĂŒr diesen Einsatzzweck, wie zum Beispiel das so genannte Squash Clustering, an ihre Grenzen. Wir haben daher die kk-means-Methode derart erweitert, dass sie fĂŒr Placement-Daten genutzt werden kann. Dazu prĂ€sentieren wir zwei Methoden, Phylogenetic kk-means und Imbalance kk-means, die verschiedene Distanzmaße zwischen Proben (KR-Distanz, und ein weiteres geeignetes Maß) nutzen, um BĂ€ume mit Ă€hnlichen Verteilungen von platzierten Sequenzen zu gruppieren. Sie betrachten jede Probe als einen Datenpunkt, und nutzen die zugrunde liegende Struktur des Referenz-Baumes fĂŒr die Berechnungen. Mit diesen Methoden können auch DatensĂ€tze mit zehntausenden Proben verarbeitet werden, und Clusterings und Ă€hnlichkeiten von Proben erkannt und visualisiert werden. Wir haben außerdem ein Konzept namens Balances fĂŒr Placement-Daten adaptiert, welches ursprĂŒnglich fĂŒr so genannte OTU-Sequenzen (Operational Taxonomic Units) entwickelt wurde. Balances erlauben eine Beschreibung des Referenz-Baumes und der darauf platzierten Sequenzen, die ganze Gruppen von Referenz-Arten zusammenfasst, statt jede Art einzeln in die Berechnungen einfließen zu lassen. Diese Beschreibung der Daten bietet verschiedene Vorteile fĂŒr die darauf basierenden Analysen, wie zum Beispiel eine Robustheit gegenĂŒber der exakten Wahl der Referenz-Sequenzen, und einer anschaulichen Beschreibung und Visualisierung der Ergebnisse. Insbesondere aus mathematischer Sicht sind Balances fĂŒr die Analyse interessant, da sie problematische Artefakte aufgrund der kompositionellen Natur meta-genetischer Daten beheben. Im Zuge dieser Arbeit dienen Balances hauptsĂ€chlich als Zwischenschritt zur Daten-ReprĂ€sentation. Eine Anwendung von Balances ist die so genannte Phylofactorization. Diese recht neue Methode teilt einen gegebenen Baum derart in Sub-BĂ€ume ein, dass jeder Sub-Baum eine Gruppe von Arten darstellt, die in Bezug auf gegebene Meta-Daten pro Probe relevant sind. Dadurch können beispielsweise Gruppen identifiziert werden, deren evolutionĂ€re Merkmale sich in AbhĂ€ngigkeit von Meta-Daten wie pH-Wert angepasst haben im Vergleich zu anderen Gruppen. Dies ist Ă€hnlich zur oben genannten Edge Correlation, aber kann zum einen durch geschickte mathematische AnsĂ€tze (insbesondere der Nutzung von Generalized Linear Models) mehrere Meta-Daten gleichzeitig einbeziehen, und zum anderen auch verschachtelte Gruppen finden. Die zugrunde liegenden Ideen dieser Methoden bieten einen großen Spielraum sowohl fĂŒr Analysen von Daten, als auch fĂŒr Weiterentwicklungen und ErgĂ€nzungen fĂŒr verwandte Fragestellungen. Wir haben diese Methode fĂŒr Placement-Daten adaptiert und erweitert, und stellen diese Variante, genannt Placement-Factorization, vor. Im Zuge dieser Adaption haben wir außerdem verschiedene ergĂ€nzende Berechnungen und Visalisierungen entwickelt, die auch fĂŒr die ursprĂŒngliche Phylofactorization nĂŒtzlich sind. Alle genannten neuen Methoden wurden ausfĂŒhrlich getestet in Bezug auf ihre Eignung zur Erforschung von mikrobiologischen ZusammenhĂ€ngen. Wir haben dazu verschiedene bekannte DatzensĂ€tze von DNS-Sequenzen aus Wasser- und Bodenproben, sowie Proben des menschlichen Mikrobioms, verwendet und diese auf geeigneten Referenz-BĂ€umen platziert. Anhand dieser Daten haben wir zum einen die PlausibilitĂ€t der durch unsere Analysen erzielten Ergebnisse geprĂŒft, als auch Vergleiche der Ergebnisse mit Ă€hnlichen, etablierten Methoden vorgenommen. SĂ€mtliche Analysen, Visualisierungen, und Vergleiche werden in den jeweils entsprechenden Kapiteln vorgestellt, und die Ergebnisse dargestellt. Alle Tests zeigen, dass unsere Methoden auf den getesteten DatensĂ€tzen zu Resultaten fĂŒhren, die konsistent mit anderen Analysen sind, und geeignet sind, um neue biologische Erkenntnisse zu gewinnen. SĂ€mtliche hier vorgestellten Methoden sind in unserer Software-Bibliothek genesis implementiert, die wir im Zuge dieser Arbeit entwickelt haben. Die Bibliothek ist in modernem C++11 geschrieben, hat einen modularen und funktions-orientierten Aufbau, ist auf Speichernutzung und Rechengeschwindigkeit optimiert, und nutzt vorhandene Multi-Prozessor-Umgebungen. Sie eignet sich daher sowohl fĂŒr schnelle Tests von Prototypen, als auch zur Entwicklung von Analyse-Software fĂŒr Endanwender. Wir haben genesis bereits erfolgreich in vielen unserer Projekte eingesetzt. Insbesondere bieten wir sĂ€mtliche hier prĂ€sentierten Methoden ĂŒber unser Software-Tool gappa an, das intern auf genesis basiert. Das Tool stellt einen einfachen Kommandozeilen-Zugriff auf die vorhandenen Analysemethoden bereit, und bietet ausreichend Optionen fĂŒr die Analysen der meisten End-Anwender. Im abschließenden Kapitel wagen wir einen Ausblick in weitere Forschungsmöglichkeiten im Bereich der Methoden-Entwicklung fĂŒr meta-genetische Fragestellungen im Allgemeinen, und der placement-basierten Methoden im Speziellen. Wir benennen verschiedene Herausforderungen in Bezug auf die Nutzbarkeit solcher Methoden fĂŒr Anwender und ihrer Skalierbarkeit fĂŒr immer grĂ¶ĂŸer werdende DatensĂ€tze. Außerdem schlagen wir verschiedene weitergehende AnsĂ€tze vor, die zum Beispiel auf neuronalen Netzwerken und Deep Learning basieren könnten. Mit aktuellen DatensĂ€tzen wĂ€ren solche Methoden nicht robust trainierbar; durch das in Zukuft zu erwartenden Wachstum an Daten kann dies allerdings bald in den Bereich des Möglichen kommen. Schließlich identifizierenden wir einige tiefer gehende Forschungsfragen aus der Biologie und Medizin, bei deren Beantwortung unsere Methoden in Zukunft helfen können

    RĂ©surrection du passĂ© Ă  l’aide de modĂšles hĂ©tĂ©rogĂšnes d’évolution des sĂ©quences protĂ©iques

    Get PDF
    The molecular reconstruction and resurrection of ancestral proteins is the major issue tackled in this thesis manuscript. While fossil molecular data are almost nonexistent, phylogenetic methods allow to estimate what were the most likely ancestral protein sequences along a phylogenetic tree describing the relationships between extant sequences. With these ancestral sequences, several biological hypotheses can be tested, from the evolution of protein function to the inference of ancient environments in which the ancestors were adatapted. These probabilistic estimations of ancestral sequences depend on substitution models giving the different probabilities of substitution between all pairs of amino acids. Classicaly, substitution models assume in a simplistic way that the evolutionary process remains homogeneous (constant) among sites of the multiple sequence alignment or between lineages. During the last decade, several methodological improvements were realised, with the description of substitution models allowing to account for the heterogeneity of the process among sites and in time. During my thesis, I developed new heterogeneous substitution models in Maximum Likelihood that were proved to better fit the data than any other homogeneous or heterogeneous models. I also demonstrated their better performance regarding the accuracy of ancestral sequence reconstruction. With the use of these models to reconstruct or resurrect ancestral proteins, my coworkers and I showed the adapation to temperature is a major determinant of evolutionary rates in Archaea. Furthermore, we also deciphed the nature of the phylogenetic signal informing substitution models to infer a non-parsimonious scenario for the adaptation to temperature during early Life on Earth, with a non-hyperthermophilic last universal common ancestor living at lower temperatures than its two descendants. Finally, we showed that the use of heterogeneous models allow to improve the functionality of resurrected proteins, opening the way to a better understanding of evolutionary mechanisms acting on biological sequencesLa reconstruction et la rĂ©surrection molĂ©culaire de protĂ©ines ancestrales est au coeur de cette thĂšse. Alors que les donnĂ©es molĂ©culaires fossiles sont quasi inexistantes, il est possible d'estimer quelles Ă©taient les sĂ©quences ancestrales les plus probables le long d'un arbre phylogĂ©nĂ©tique dĂ©crivant les relations de parentĂ©s entre sĂ©quences actuelles. Avoir accĂšs Ă  ces sĂ©quences ancestrales permet alors de tester de nombreuses hypothĂšses biologiques, de la fonction des protĂ©ines ancestrales Ă  l'adaptation des organismes Ă  leur environnement. Cependant, ces infĂ©rences probabilistes de sĂ©quences ancestrales sont dĂ©pendantes de modĂšles de substitution fournissant les probabilitĂ©s de changements entre acides aminĂ©s. Ces derniĂšres annĂ©es ont vu le dĂ©veloppement de nouveaux modĂšles de substitutions d'acides aminĂ©s, permettant de mieux prendre en compte les phĂ©nomĂšnes biologiques agissant sur l'Ă©volution des sĂ©quences protĂ©iques. Classiquement, les modĂšles supposent que le processus Ă©volutif est Ă  la fois le mĂȘme pour tous les sites d'un alignement protĂ©ique et qu'il est restĂ© constant au cours du temps lors de l'Ă©volution des lignĂ©es. On parle alors de modĂšle homogĂšne en temps et en sites. Les modĂšles rĂ©cents, dits hĂ©tĂ©rogĂšnes, ont alors permis de lever ces contraintes en permettant aux sites et/ou aux lignĂ©es d'Ă©voluer selon diffĂ©rents processus. Durant cette thĂšse, de nouveaux modĂšles hĂ©tĂ©rogĂšnes en temps et sites ont Ă©tĂ© dĂ©veloppĂ©s en Maximum de Vraisemblance. Il a notamment Ă©tĂ© montrĂ© qu'ils permettent d'amĂ©liorer considĂ©rablement l'ajustement aux donnĂ©es et donc de mieux prendre en compte les phĂ©nomĂšnes rĂ©gissant l'Ă©volution des sĂ©quences protĂ©iques afin d'estimer de meilleurs sĂ©quences ancestrales. A l'aide de ces modĂšles et de reconstruction ou rĂ©surrection de protĂ©ines ancestrales en laboratoire, il a Ă©tĂ© montrĂ© que l'adaptation Ă  la tempĂ©rature est un dĂ©terminant majeur de la variation des taux Ă©volutifs entre lignĂ©es d'ArchĂ©es. De mĂȘme, en appliquant ces modĂšles hĂ©tĂ©rogĂšnes le long de l'arbre universel du vivant, il a Ă©tĂ© possible de mieux comprendre la nature du signal Ă©volutif informant de maniĂšre non-parcimonieuse un ancĂȘtre universel vivant Ă  plus basse tempĂ©rature que ses deux descendants, Ă  savoir les ancĂȘtres bactĂ©riens et archĂ©ens. Enfin, il a Ă©tĂ© montrĂ© que l'utilisation de tels modĂšles pouvait permettre d'amĂ©liorer la fonctionnalitĂ© des protĂ©ines ancestrales ressuscitĂ©es en laboratoire, ouvrant la voie Ă  une meilleure comprĂ©hension des mĂ©canismes Ă©volutifs agissant sur les sĂ©quences biologique

    Experimental determination of Fe isotope fractionations in the diagenetic iron sulphide system

    Get PDF
    Initial published work suggested that Fe isotope fractionations recorded in sediments were a product of biological activity. Experiments and measurements of natural samples now indicate that Fe isotope fractionation can be the product of both biological and inorganic processes. Sedimentary iron sulphides provide unique information about the evolution of early life which developed under anoxic conditions. It is in these sedimentary Fe-S species and in particular in Archean and Proterozoic pyrites that the largest Fe isotope variations (up to a range of ~5‰ for ÎŽ56/54Fe) have been measured. Most research has focussed on potential processes responsible for the formation of a 56Fe depleted Fe(II) pool from which iron sulphides would precipitate without additional fractionation, recording the light Fe isotope composition of the pool. Much less attention has been given to the possibility that the iron sulphide forming mechanisms themselves could produce significant fractionations. The Fe-S system constitutes a diverse group of stable and metastable phases, the ultimate Fe sequestrating phase being pyrite. The aim of this study was to examine experimentally where Fe isotope fractionations occur during the abiotic formation of iron sulphides in order to assess whether or not the measured Fe isotope signatures in natural pyrite could be explained by chemical mechanisms only. Both analytical and experimental protocols were developed in order to determine the partition of Fe isotopes for each step towards diagenetic pyrite formation. 56/54Fe and 57/54Fe ratios were measured on an IsoProbe-P Micromass MC-ICP-MS, and all experiments were performed under oxygen-free N2 atmosphere. Supporting previously published data, the results indicate that the precipitation of the nanoparticulate iron(II) monosulphide mackinawite (FeSm) kinetically fractionates lighter isotopes with initial fractionations of Δ56FeFe(II)aq-FeS = 1.17 ± 0.16 ‰ at 25°C and Δ56FeFe(II)aq-FeS = 0.98 ± 0.16 ‰ at 2°C. The rate of isotopic exchange between Fe(II)aq and FeSm decreases as FeSm nanoparticles grow. Fe isotope exchange kinetics are consistent with i) FeSm nanoparticles that have a core–shell structure, in which case Fe isotope mobility is restricted to exchange between the surface shell and the solution and ii) a nanoparticle growth via an aggregation– growth mechanism. Because of the structure of FeSm nanoparticles, the approach to isotopic equilibrium is kinetically restricted at low temperatures. The equilibrium Fe isotope fractionation between Fe2+ aq and FeSm was determined using the three isotope method and is Δ56FeFe(II)-FeS = -0.33 ± 0.12 ‰ at 25°C and Δ56FeFe(II)-FeS = -0.52 ± 0.16 ‰ at 2°C. This suggests that at equilibrium, FeSm incorporates heavier isotopes with respect to Fe2+ aq, and the isotopic composition of most naturally occurring FeSm does not represent equilibrium. During pyrite formation, pyrite incorporates kinetically lighter isotopes with a fractionation Δ56FeFeS-pyrite ~ 2.2 ‰. Because pyrite is sparingly soluble in sedimentary environments, isotope exchange is prevented and pyrite does not equilibrate with its Fe(II) source. Combined fractionation factors between Fe2+ aq, mackinawite (FeSm) and pyrite permit the generation of pyrite with Fe isotope signatures that encapsulate the full range of sedimentary ÎŽ56Fepyrite recorded in both Archean and modern sediments. Archean Fe isotope excursions reflect various degrees of pyritisation, extent of Fe(II)aq utilisation, and variations in source composition rather than microbial dissimilatory Fe(III) reduction only. Our results show that sedimentary pyrite is not a passive recorder of the Fe isotope composition of the reactive Fe(II) reservoir forming pyrite. It is the formation process itself that influences pyrite Fe isotope signatures with consequent implications for the interpretation of sedimentary pyrite Fe isotope compositions throughout geological time
    corecore