19,636 research outputs found

    Using genotype abundance to improve phylogenetic inference

    Full text link
    Modern biological techniques enable very dense genetic sampling of unfolding evolutionary histories, and thus frequently sample some genotypes multiple times. This motivates strategies to incorporate genotype abundance information in phylogenetic inference. In this paper, we synthesize a stochastic process model with standard sequence-based phylogenetic optimality, and show that tree estimation is substantially improved by doing so. Our method is validated with extensive simulations and an experimental single-cell lineage tracing study of germinal center B cell receptor affinity maturation

    Consistency and convergence rate of phylogenetic inference via regularization

    Full text link
    It is common in phylogenetics to have some, perhaps partial, information about the overall evolutionary tree of a group of organisms and wish to find an evolutionary tree of a specific gene for those organisms. There may not be enough information in the gene sequences alone to accurately reconstruct the correct "gene tree." Although the gene tree may deviate from the "species tree" due to a variety of genetic processes, in the absence of evidence to the contrary it is parsimonious to assume that they agree. A common statistical approach in these situations is to develop a likelihood penalty to incorporate such additional information. Recent studies using simulation and empirical data suggest that a likelihood penalty quantifying concordance with a species tree can significantly improve the accuracy of gene tree reconstruction compared to using sequence data alone. However, the consistency of such an approach has not yet been established, nor have convergence rates been bounded. Because phylogenetics is a non-standard inference problem, the standard theory does not apply. In this paper, we propose a penalized maximum likelihood estimator for gene tree reconstruction, where the penalty is the square of the Billera-Holmes-Vogtmann geodesic distance from the gene tree to the species tree. We prove that this method is consistent, and derive its convergence rate for estimating the discrete gene tree structure and continuous edge lengths (representing the amount of evolution that has occurred on that branch) simultaneously. We find that the regularized estimator is "adaptive fast converging," meaning that it can reconstruct all edges of length greater than any given threshold from gene sequences of polynomial length. Our method does not require the species tree to be known exactly; in fact, our asymptotic theory holds for any such guide tree.Comment: 34 pages, 5 figures. To appear on The Annals of Statistic

    Phylogenetic Analysis of Cell Types using Histone Modifications

    Full text link
    In cell differentiation, a cell of a less specialized type becomes one of a more specialized type, even though all cells have the same genome. Transcription factors and epigenetic marks like histone modifications can play a significant role in the differentiation process. In this paper, we present a simple analysis of cell types and differentiation paths using phylogenetic inference based on ChIP-Seq histone modification data. We propose new data representation techniques and new distance measures for ChIP-Seq data and use these together with standard phylogenetic inference methods to build biologically meaningful trees that indicate how diverse types of cells are related. We demonstrate our approach on H3K4me3 and H3K27me3 data for 37 and 13 types of cells respectively, using the dataset to explore various issues surrounding replicate data, variability between cells of the same type, and robustness. The promising results we obtain point the way to a new approach to the study of cell differentiation.Comment: Peer-reviewed and presented as part of the 13th Workshop on Algorithms in Bioinformatics (WABI2013

    Inferring stabilizing mutations from protein phylogenies : application to influenza hemagglutinin

    Get PDF
    One selection pressure shaping sequence evolution is the requirement that a protein fold with sufficient stability to perform its biological functions. We present a conceptual framework that explains how this requirement causes the probability that a particular amino acid mutation is fixed during evolution to depend on its effect on protein stability. We mathematically formalize this framework to develop a Bayesian approach for inferring the stability effects of individual mutations from homologous protein sequences of known phylogeny. This approach is able to predict published experimentally measured mutational stability effects (ΔΔG values) with an accuracy that exceeds both a state-of-the-art physicochemical modeling program and the sequence-based consensus approach. As a further test, we use our phylogenetic inference approach to predict stabilizing mutations to influenza hemagglutinin. We introduce these mutations into a temperature-sensitive influenza virus with a defect in its hemagglutinin gene and experimentally demonstrate that some of the mutations allow the virus to grow at higher temperatures. Our work therefore describes a powerful new approach for predicting stabilizing mutations that can be successfully applied even to large, complex proteins such as hemagglutinin. This approach also makes a mathematical link between phylogenetics and experimentally measurable protein properties, potentially paving the way for more accurate analyses of molecular evolution

    Uncommon Problems in Phylogenetic Inference

    Get PDF
    Die Phylogenetik ist die Lehre der Entwicklung des Lebens auf der Erde. Das Auf- decken alter evolutionärer Beziehungen zwischen lebenden Arten ist von großem Wert, da sie zu wichtigen Entdeckungen in der Biologie führte, wie beispielsweise zur Entwicklung neuer Medikamente, zur Nachverfolgung der Dynamik einer globa- len Pandemie sowie zu Erkenntnissen über den Ursprung der Menschheit. Heutzu- tage werden phylogenetische Analysen typischerweise mit Hilfe statistischer Modelle durchgeführt, wobei Sequenzdaten, in der Regel molekulare Sequenzen, als Einga- bedaten verwendet werden. Basierend auf diesen statistischen Modellen wird die wahrscheinlichste Erklärung für die Eingabedaten berechnet. Das heißt, der (ver- meintlich) korrekte phylogenetische Baum ist der Baum, der gemäß eines bestimm- ten Modells der Sequenzentwicklung am wahrscheinlichsten ist. Die rasche Zunahme verfügbarer Daten in den letzten Jahren ermöglicht wesentlich kompliziertere phylogenetische Analysen. Paradoxerweise hat diese massive Zunah- me der für die Analyse verfügbaren Daten nicht in allen Fällen zu einer endgültigen Schlussfolgerung geführt, d. h. das verwendete Modell ist unsicher bezüglich der wahrscheinlichsten Schlussfolgerung. Dies kann auf eine Vielzahl von Faktoren zu- rückzuführen sein, wie beispielsweise hochkomplexe Modelle, Rauschen in einigen oder allen Daten sowie physikalische Prozesse, die durch das Modell nicht angemes- sen berücksichtigt werden. Schwierigkeiten aufgrund von Ungewissheit sind weder in der Phylogenetik noch in der Wissenschaft im Allgemeinen neu, doch die Entwick- lung komplizierterer Analysemethoden fordert neue Methoden zur Angabe, Analyse und Integration von Unsicherheiten. Die vorliegende Arbeit präsentiert drei Beiträge zur Verbesserung der Unsicherheits- bewertung. Der erste Beitrag betrifft die Bestimmung der Wurzel von ungewurzelten phylogenetischen Bäumen. Phylogenetische Bäume sind entweder bezüglich der Zeit orientiert, in diesem Fall nennt man sie verwurzelt, oder sie haben keine Orientie- rung, in diesem Fall sind sie unverwurzelt. Die meisten Programme zur Bestimmung phylogenetischer Bäume erzeugen aus rechnerischen Gründen einen ungewurzelten phylogenetischen Baum. Ich habe das Open-Source-Softwaretool RootDigger entwi- ckelt, das sowohl einen ungewurzelten phylogenetischen Baum, als auch eine Vertei- lung der wahrscheinlichen Wurzeln berechnet. Darüber hinaus verfügt RootDigger über ein Parallelisierungsschema mit verteiltem Speicher, welches auch die Analyse großer Datensätze erlaubt, wie beispielsweise die Bestimmung eines phylogenetischen Baumes aus 8736 SARS-CoV-2-Virussequenzen. Mein zweiter Beitrag in der vorliegenden Arbeit ist das Open-Source-Softwaretool Phylourny zur Berechnung des wahrscheinlichsten Gewinners eines Knock-out-Turniers. Der Algorithmus in Phylourny ist angelehnt an den Felsenstein Pruning Algorith- mus, einen dynamischen Programmierungsalgorithmus zur Berechnung der Wahr- scheinlichkeit eines phylogenetischen Baums. Die Verwendung dieses Algorithmus erlaubt eine erhebliche Beschleunigung der Berechnung im Vergleich zu Standard- Turniersimulationen. Mit dieser beschleunigten Methode untersucht Phylourny auch den Parameterraum des Modells mit Hilfe einer MCMC-Methode, um Ergebnisse zu bewerten und zusammenzufassen, die eine ähnliche Wahrscheinlichkeit des Auftre- tens haben. Diese Ergebnisse weichen oft erheblich vom wahrscheinlichsten Ergebnis ab. In der vorliegenden Arbeit präsentiere ich die Performanz von Phylourny anhand zweier realer Fußball- und Basketballturniere. Der finale Beitrag in dieser Arbeit ist die Neugestaltung und Neuimplementierung eines bekannten Tools für historische Biogeografie, mit dem sich Rückschlüsse auf die Verteilung der angestammten Verbreitungsgebiete ziehen lassen. Ein Hauptin- teresse der Biogeographie besteht in der Bestimmung der Verbreitungsgebiete von Arten. Die historische Biogeografie befasst sich daher häufig mit der Ableitung des Verbreitungsgebiets der Vorfahren lebender Arten. Diese Verteilungen des Verbrei- tungsgebiets der Vorfahren sind ein häufiges Ergebnis von biogeografischen Studien, die oft mit einem Modell abgeleitet werden, das zahlreiche Ähnlichkeiten mit Mo- dellen der Sequenzevolution aufweist. Meine neue Version, Lagrange-NG, berechnet die Ergebnisse bis zu 50 Mal schneller als die vorherige Version und bis zu zwei Grö- ßenordnungen schneller als das beliebte analoge Tool BioGeoBEARS. Darüber hinaus habe ich eine neue Abstandsmetrik entwickelt, die es erlaubt Ergebnisse alternativer Tools und Algorithmen zu vergleichen
    • …
    corecore