7 research outputs found

    Improving Single Cell ‘Omics Methods for Investigating Microbial Dark Matter

    Get PDF
    Die überwiegende Mehrheit des mikrobiellen Lebens ist unentdeckt und wenig erforscht, da sie bisher noch nicht erfolgreich kultiviert werden konnten. Wir bezeichnen sie daher als mikrobielle dunkle Materie (microbial dark matter, MDM). MDM hat hohes biotechnologisches Potential, z.B. für die Nutzung nachhaltiger Energiequellen, zur biologischen Sanierung kontaminierter Böden, oder für medizinische Anwendungen. Der Einsatz kulturunabhängiger Methoden zur Untersuchung von Mikroorganismen in der Natur, die Metagenomik und Metatranskriptomik, hat unser Verständnis von MDM erheblich verbessert. Allerdings ist es mit diesen Methoden immer noch schwierig, einzelne Spezies bioinformatisch zu analysieren, insbesondere von Organismen mit geringer Häufigkeit in komplexen Habitaten. Stammvariationen, die falsche Zuordnung von Sequenzen, insbesondere mobiler genetische Elemente sowie sich stark wiederholende Sequenzregionen sind nur einige der Probleme, mit denen z.B. die Metagenomik konfrontiert ist. Auch bei der Metatranskriptomik führen die phänotypische Heterogenität der Zellen und die Diversität der mikrobiellen Gemeinschaften zu komplexen Transkriptionsprofilen, die nicht vollständig zugeordnet werden können. Daher wurden die Einzelzellgenomik (single cell genomics, SCG) und die Einzelzelltranskriptomik (single cell transcriptomics, SCT), die zusammen als Einzelzell-\u27omics (SC \u27omics) bezeichnet werden, entwickelt, um die Nachteile der Metagenomik und Metatranskriptomik zu überwinden. Die Anwendung von SCG hat sich zu einem wichtigen Instrument für die Erweiterung unseres Wissens über MDM entwickelt, beispielsweise durch die jüngste Entdeckung mehrerer neuer Phyla, von denen es derzeit nur sogenannte single amplified genomes (SAGs) gibt. Vollständige SAGs von vielen Mikroorganismen, insbesondere von solchen mit geringer Abundanz, sind jedoch aufgrund der vielen technischen Herausforderungen und der hohen Kosten selten. Auch die SCT ist mit den vielen Herausforderungen der Arbeit mit RNA konfrontiert, wie z. B. der kurzen Halbwertszeit von mRNA und geringen Genexpression, weshalb sie in der Mikrobiologie noch nicht häufig angewendet wird. Daher haben sich die hohen Erwartungen an mikrobielle SC \u27omics noch nicht vollständig erfüllen können. In einem typischen SCG-Arbeitsablauf können die Zellen nach der Probenentnahme vor der Einzelzellisolierung mit Fluoreszenzfarbstoffen markiert werden. Nach der Isolierung werden die Zellen lysiert und das Genom anschließend amplifiziert, gefolgt von der Sequenzierung und bioinformatischen Datenanalyse. In dieser Arbeit wurden die Schritte der Zellmarkierung, Isolierung, Lyse und Ganzgenom-Amplifikation (whole genome amplifikation, WGA) verbessert, um die Methodik zu verbessern. Zunächst wurde ein Ansatz zur gezielten Zellmarkierung entwickelt, der die Anreicherung von Mikroorganismen mit geringer Häufigkeit aus Umweltproben ermöglichte. Dieser Ansatz half bei der Entdeckung neuer Phylogenien und Stoffwechseln von Mikroorganismen die in geringer Abundanz vorkommen und die andernfalls durch konventionelle Metagenomik übersehen worden wären. Darüber hinaus trägt dieser Ansatz dazu bei, die Kosten für SCG zu senken, da nun nicht mehr Zehntausende von Einzelzellen sequenziert werden müssen, um seltene Mikroorganismen zu analysieren. Als nächstes wurden die Schritte der Zellisolierung und Zelllyse verbessert, um sowohl physische Zellschäden als auch den DNA-Abbau zu minimieren, was den Erfolg des nachgeschalteten Genom-Amplifikationsschritts erhöht. Für den WGA-Schritt wurde ein Ansatz zur Volumenreduzierung systematisch getestet und etabliert, um die Homogenität und Vollständigkeit der Genomabdeckung deutlich zu verbessern. Dies Ergebnisse der Versuche zeigen, dass eine weitere Volumenreduzierung in den nL oder pL Bereich nicht erforderlich. Die Kosten der WGA konnten um 97,5 % gesenkt werden konnten, was den Durchsatz von SCG erhöhen und die Verwendung dieses Ansatzes in weiteren Forschungsgruppen positiv beeinflussen dürfte. Da SCG allein nur Informationen über die Phylogenie, genetische Struktur und das Stoffwechselpotenzial, nicht aber über die tatsächliche Aktivität einer Zelle liefert, wurde in dieser Arbeit eine mikrobielle SCT-Pipeline entwickelt, um die individuellen Funktionen der Zelle in einer Gemeinschaft besser zu verstehen. Derzeit gibt es nur sehr wenige Methoden für mikrobielle SCT, und die, die es gibt, bleiben aufgrund ihrer schwierigen Anwendung und geringen Zugänglichkeit außerhalb ihrer jeweiligen Arbeitsgruppen weitgehend ungenutzt. Daher wurden in dieser Studie Änderungen und Verbesserungen an einer eukaryotischen Einzelzell-RNA-Sequenzierungsmethode (RNA-seq) vorgenommen, um ihre Anwendung bei Prokaryoten zu ermöglichen. Es wurde festgestellt, dass der Zusatz von Dithiothreitol (DTT) im Lysepuffer wahrscheinlich die DNase I hemmt, was zu einer DNA Kontamination führt. Die hier vorgestellten Einzelzell-RNA-seq-Ergebnisse zeigten zuverlässige Transkriptionsprofile im Vergleich zu RNA-seq-Ergebnissen aus der gesamten Probe. Dies wurde auch durch ein Proof-of-Principle-Experiment bestätigt, bei dem hitzeschockbehandelte und unbehandelte Escherichia coli Zellen verglichen wurden. Darüber hinaus wurden in den Einzelzelldaten im Vergleich zur Populations-Analyse Hinweise auf einzigartige Reaktionen bei der Synthese von Sekundärmetaboliten und der CRISPR-Cas-Editierung gefunden, was die Bedeutung der Untersuchung der Heterogenität seltener funktioneller Subpopulationen auf Einzelzellebene unterstreicht. Insgesamt wird erwartet, dass die verbesserten SCG- und SCT-Methoden, die in dieser Arbeit etabliert wurden, eine breitere Anwendung für ein besseres Verständnis der MDM-Diversität und -Funktion in der Umwelt ermöglichen

    Single Cell Sequencing Facilitates Genome-enabled Biology in Uncultured Fungi and Resolves Deep Branches on the Fungal Tree of Life

    Full text link
    Microbial life on Earth is the most diverse life on Earth. The magnitude of microbial diversity is obscured by their small statures, relatively short list of defining morphological characteristics, and general recalcitrance to being separated from nature and brought into the laboratory. Most microbes cannot be grown under axenic conditions (i.e., uncultured), a simple reality that impedes their discovery in complex natural systems and downstream studies to understand their biology. A point no less important in the age of genome-enabled biological research, the uncultured status of most microbes precludes sequencing of their genomes via conventional high-throughput sequencing, which requires ample input material. Single cell sequencing offers a viable workaround to this central obstacle by enabling the amplification of genomic DNA from individual cells up to amounts more than sufficient for sequencing. That said, this workaround introduces biases to sequence composition and exacerbates contamination, both of which present unique challenges to downstream genome-scale analyses. Fungi constitute a diverse lineage of heterotrophic eukaryotes that sometimes blur the line between microbial and macroscopic life. Our understanding of fungi is wildly incomplete and biased toward fungi that produce macroscopic forms or those that can be grown under axenic conditions. Even in the age of genome-enabled biological research, most fungi that are microscopic, uncultured, or especially both remain poorly understood. In this dissertation, I use single cell sequencing, sometimes combined with conventional genome sequencing, to address this gap by conducting genome-enabled biological research in uncultured or under-sampled sectors of the fungal tree of life. In Chapter 2, I design and deploy a novel computational approach to filtering the biased and often contaminated sequence data associated with single cell sequencing. I demonstrate its ability to outperform available filtering approaches using genuine and mock datasets. In Chapter 3, I use single cell sequencing of predatory fungi to discover novel endohyphal bacteria colonizing fungi in a phylum where this type of symbiosis was entirely unknown. Genome-scale phylogenetic analyses implicate recent interphylum host switches for bacteria thought to transmit predominantly vertically. The novel bacterial endosymbionts discovered have similar genomes to other endohyphal bacteria but have, in some cases, acquired and retained horizontally transferred genes from animals. In Chapter 4, I use genome-scale data to infer a robustly supported phylogeny of zoosporic fungi. Mapping of genetic traits and ploidy inferred from sequence data suggests that fungal evolution has been driven by gradual loss and that most early diverging lineages have diploid-dominant life cycles. In Chapter 5, I use genome-scale data to resolve a disagreement between classical taxonomy and molecular phylogenetics revolving around the phylogenetic placement of the enigmatic, arthropod-mummifying fungal genus Neozygites. Through the development of novel computational methods, genome-scale phylogenetics, and a comparative approach, this dissertation demonstrates the utility of single cell sequencing in closing vast gaps in our understanding of fungi.PHDEcology and Evolutionary BiologyUniversity of Michigan, Horace H. Rackham School of Graduate Studieshttp://deepblue.lib.umich.edu/bitstream/2027.42/169656/1/amsesk_1.pd

    Metagenomic Binning Algorithms

    No full text
    Metagenomics is the study of DNAs of microorganisms that are taken directly from environmental samples without cultivation and isolation. Recently, the emerging field of metagenome sequencing, facilitated by the high-throughput capability of NGS technology, allows the simultaneous sequencing all genomes in an environmental sample while also results in high complexity datasets. Although the NGS technology significantly improve the sequencing efficiency and cost, assembly of metagenomic sequences into genomes is extremely difficult since the reads are very short and sampled are from multiple genomes. Several computational methods have been developed to group metagenomic sequence reads into different bins, which can be categorized into two classes: supervised methods and unsupervised methods. Supervised methods may leave a large fraction of reads unclassified due to low rate of known reference genome in the database, while the unsupervised methods are still undergoing active development. The performance of existing unsupervised methods rely heavily on the length of reads, the number of species in the sample and the evenness of species abundance. It is also challenging for some algorithms to operate without a pre-specified number of species, which is not a trivial assumption to make.In this work, we present a novel algorithm, the DirichletCluster, based on Markovian assumption and sequential Monte Carlo (SMC) technique that has shown high binning accuracy under various scenarios with data-driven approach to estimate the number of species systematically. Specifically, we looked at the Markovian structure of the nucleotide reads, and implemented a mixture Dirichlet process model with the Markov chain structure. The Dirichlet process is a stochastic processs describing distribution over probability measures, which indicates draws from this process can be interpreted as random distributions. By using the mixture Dirichlet process model, we are able to characterize the individual genome sequence, as well as the clusters of sequences. Sequential Monte Carlo, together with GC content ordering, is implemented to cluster reads into species using a simulation based approach. We show through some simulation studies and a real data application that the proposed DirichletCluster binning algorithm to be robust to the evenness of abundance ratio and to be able to correctly identify the most number of species from the metagenomic data among alternatives. Moreover, it uses a complete data-driven approach to estimate the total number of species in the metagenomic sample. Therefore, we believe that DirichletCluster is a performant binning algorithm that is beneficial to the advancement of Metagenomics research

    A Survey of Metagenomic Binning Algorithms as Applied to the Analysis of Next-Generation Datasets

    No full text
    This thesis presents a survey of classification, or binning, algorithms for the purpose of the evaluation of the accuracy of datasets generated with next-generation sequencing technologies in metagenomic studies. In the past few years, great advances have taken place in the field of next-generation sequencing technologies, and many cutting edge algorithms have been developed to process the data generated by studies utilizing these technologies. However, the development of technologies able to generate vast amounts of data has sometimes outpaced the ability of scientists and researchers to develop ways to properly evaluate the data. The purpose of this survey is to access the applicability of algorithms developed over the last decade to the most popular sequencing technologies today, which often have much shorter read lengths than and different error profiles from earlier sequencing technologies
    corecore