73 research outputs found

    Long-Read MinION data for microbial community analysis

    Get PDF

    Evaluation of nanopore-based sequencing technology for gene marker based analysis of complex microbial communities. Method development for accurate 16S rRNA gene amplicon sequencing

    Get PDF
    Nucleic acid sequencing can provide a detailed overview of microbial communities in comparison with standard plate-culture methods. Expansion of high-throughput sequencing (HTS) technologies and reduction in analysis costs has allowed for detailed exploration of various habitats with use of amplicon, metagenomics, and metatranscriptomics approaches. However, due to a capital cost of HTS platforms and requirements for batch analysis, genomics-based studies are still not being used as a standard method for the comprehensive examination of environmental or clinical samples for microbial characterization. This research project investigated the potential of a novel nanopore-based sequencing platform from Oxford Nanopore Technologies (ONT) for rapid and accurate analysis of various environmentally complex samples. ONT is an emerging company that developed the first-ever portable nanopore-based sequencing platform called MinIONTM. Portability and miniaturised size of the device gives an immense opportunity for de-centralised, in-field, and real-time analysis of environmental and clinical samples. Nonetheless, benchmarking of this new technology against the current gold-standard platform (i.e., Illumina sequencers) is necessary to evaluate nanopore data and understand its benefits and limitations. The focus of this study is on the evaluation of nanopore sequencing data: read quality, sequencing errors, alignment quality but also bacterial community structure. For this reason, mock bacterial community samples were generated, sequenced and analysed with use of multiple bioinformatics approaches. Furthermore, this study developed sophisticated library preparation and data analyses methods to enable high-accuracy analysis of amplicon libraries from complex microbial communities for sequencing on the nanopore platform. Besides, the best performing library preparation and data analyses methods were used for analysis of environmental samples and compared to high-quality Illumina metagenomics data. This work opens a new possibility for accurate, in-field amplicon analysis of complex samples with the use of MinIONTM and for the development of autonomous biosensing technology for culture-free detection of pathogenic and non-pathogenic microorganisms in water, soil, food, drinks or blood

    Discovery and interpretation of genetic variation with next‐generation sequencing technologies

    Get PDF
    Thesis advisor: Gabor T. MarthImprovements in molecular and computational technologies have driven and will continue to drive advances in our understanding of genetic variation and its relationship to phenotypic diversity. Over the last three years, several new DNA sequencing technologies have been developed that greatly improve upon the cost and throughput of the capillary DNA sequencing technologies that were used to sequence the first human genome. The economy of these so‐called “next‐generation” technologies has enabled researchers to conduct genome‐wide studies in genetic variation that were previously intractable or too expensive. However, because the new technologies employ novel molecular techniques, the resulting sequence data is quite different from the capillary sequences to which the genomics field is accustomed. Moreover, the vast amounts of sequence data that these technologies produce present novel statistical and computational challenges in order to make even the simplest observations. The focus of my dissertation has been the development of novel computational and analytical methods that facilitate genome‐wide studies in genetic variation with traditional capillary sequencers and with new sequencing technologies. I present a novel method that produces more accurate error estimates for sequence data from one of these next‐generation sequencing technologies. I also present two studies that illustrate the utility of two such technologies for genome‐wide polymorphism discovery studies in Drosophila melanogaster and Caenorhabditis elegans. These studies accurately estimate the degree of genetic diversity in the fruitfly and nematode, respectively. I later describe how new sequencing approaches can be used to accelerate the mapping of causal genetic mutations in forward geetic screens. Lastly, I remark on where I believe these technologies will lead future studies in human genetic variation and describe their relevance to several of my future research interests.Thesis (PhD) — Boston College, 2008.Submitted to: Boston College. Graduate School of Arts and Sciences.Discipline: Biology

    Third-generation sequencing of IBD patients’ gut microbiome

    Get PDF
    The current opportunities for thorough gut microbiota profiling using next-generation sequencing (NGS) have opened up for a wide range of metagenomic studies. IBD prevalence is increasing in developed and developing countries that are gradually adapting to a more modern lifestyle. Although the specific pathogenesis is unknown, dysbiosis of the intestinal microbiota is widely believed to cause or promote intestinal inflammation. Intestinal microbial compositions in IBD and healthy individuals have been reported in an increasing number of studies using non-cultured 16S rRNA sequencing technologies. Studying intestinal microbes in relation to their ecological niche, such as relationships with gut microbiota, is an essential step toward fine-tuning our clinical and public health understanding of colonization by intestinal microbes. The main goal of this study was to assess the composition of the gut microbiome in patients diagnosed with IBD using next-generation sequencing. Samples from patients diagnosed with ulcerative colitis (UC) or Crohn's disease (CD), included in a clinical trial at Stavanger university hospital (SUS), were used for this study. DNA was extracted using a modified protocol for fecal DNA extraction in combination with Fast DNA stool kit from Qiagen. Library preparation using protocols provided by Oxford Nanopore Technologies (ONT) was done before sequencing with the MinION sequencer. A post-sequencing pipeline for data analysis provided information about taxonomic classification and diversity of the samples. Samples were also sequenced using Illumina MiSeq to establish the prevalence of Blastocystis. The results showed that sequencing with ONTs' MinION provided taxonomic identification down to species level. The most abundant phyla among the samples were Firmicutes, Bacteroidetes, and Proteobacteria. UC vs. CD was compared at the genus level, showing differences in the abundance of Faecalibacterium, Prevotella, and Roseburia, indicating that dysbiosis may be involved in IBD activity and that there may be differences between patients with CD and UC. A total of 14% of all the samples were Blastocystis positive; the positive samples had a more Prevotella-driven enterotype, while the Blastocystis negative samples had a more Bacteroides- driven enterotype. Although the changed microbial profiles did not exhibit consistent findings across previous studies, a common trait, namely lower bacterial diversity, surfaced in most of the IBD patients. A comparison of Illumina MiSeq and MinION sequencing concluded that there was little difference in the taxonomic resolution between Illumina MiSeq on higher taxonomic levels

    Nanopore MinION -sekvensointimenetelmä pitkille DNA-fragmenteille : menetelmän testaus ja arviointi

    Get PDF
    Oxford Nanopore MinION on uusi kolmannen sukupolven sekvensointilaite, jolla on monia erityispirteitä. MinION:n käyttämä nanopore -sekvensointimenetelmä perustuu havaittavissa olevien jännitevirtausten muutosten mittaamiseen DNA- tai RNA-juosteiden kulkeutuessa nanokokoisten huokosten eli porejen kautta membraanin läpi. Menetelmä mahdollistaa juosteiden suoran sekvensoimisen ilman välireaktioita. Uniikista sekvensointitavastaan johtuen MinION -laitteen tyyppiominaisuudet ovat hyvin erilaiset kuin laajemmin käytössä olevilla sekvensointilaitteilla. Myös MinION -laitteen poikkeuksellisen pieni koko auttaa sitä entisestään erottumaan kilpailijoistaan. Nanopore-pohjainen sekvensointiteknologia ja MinION ovat kuitenkin olleet kaupallisesti saatavilla vasta lyhyen aikaa. Siksi menetelmä on vielä suurelta osin standardisoimaton ja sen sovellettavuutta tutkimuskäytössä ei pystytä vielä tarkasti arvioimaan. Tässä pro gradu -työssä kuvataan MinION -sekvensoinnin käyttöönottoa sekä arvioidaan sen suorituskykyä. Työn käytännön tutkimus aloitettiin jo ennen laitteen kaupallista julkaisua markkinoille osana erillistä ennakkotestausohjelmaa nimeltä MinION Access Programme (MAP) ja se jatkui katkeamatta myös MinION:n kaupallisen lanseerauksen jälkeen. Tutkimuksessa sekvensoitiin sekä E.coli-kasvatuksesta että ihmisverestä eristettyjä gDNA-näytteitä. Tuloksena saadut sekvenssit oli pääosin mahdollista linjata referenssigenomeihin. Sekvensointi- ja analyysivaiheiden optimoinnin jälkeen yhdellä sirulla pystyttiin tuottamaan tarpeeksi sekvenssidataa kattamaan E.coli-genomi kokonaisuudessaan keskimääräisellä 180x lukusyvyydellä. Tutkimuksessa arvioitiin MinION:n suorituskykyä tavoitteena arvioida, sopiiko menetelmä ihmisgenomin hankalasti sekvensoitavien alueiden luotettavaan tutkimiseen. Lisäksi testattiin mahdollisuutta täydentää sekvensointimenetelmää erillisellä protokollalla kohdennetun sekvensoinnin toteuttamiseksi. Tutkimuksen tulokset osoittavat, että MinION – menetelmää voidaan käyttää pitkien ja linjattavissa olevien sekvenssien tuottamiseen. Sirujen sekvensointikapasiteetti ja sekvenssien laatu kuitenkin rajoittavat menetelmän käytettävyyttä monimutkaisempien genomien tutkimuksessa. Kohdennusprotokollan ja muiden täydentävien menetelmien liittäminen osaksi sekvensointiprosessia voi auttaa näiden puutteiden ratkaisemisessa, mutta tällaisten laajennusprotokollien käyttöönotto saattaa olla haasteellista.The Oxford Nanopore MinION is a third generation sequencer utilizing nanopore sequencing technology. The nanopore sequencing method allows sequencing of either DNA or RNA strands as they pass through the membrane-embedded nanopores. By measuring the corresponding fluctuations in the ion flow passing through the nanopore the passing strands can be sequenced directly without additional second-hand reactions or measurements. The MinION sequencing has very distinctly different characteristics compared to the market leaders of the sequencing field. The small form factor of the device further helps it to separate itself from the other alternatives. However, the technology has only been on the market for a very short time and thus very little golden standards regarding its capabilities or usage have been established. This thesis describes our experiences testing the capabilities of the MinION sequencer both before its commercial release as a part of a special early access program, as well as our continued experiments with the device following its commercial launch. The main results of this study include successfully sequencing and aligning E.coli and human gDNA samples to their respective reference genomes. Using our sequencing and analysis pipeline specifically tuned to the MinION we were able to sequence the entire E.coli genome on a single MinION flow cell with an average depth of around 180. Over the course of the thesis project the MinION sequencing protocol was evaluated and optimized in order to determine whether it has the potential to achieve our ultimate goal of reliably sequencing the previously inaccessible genomic regions of the human genome. The possibility of augmenting the sequencing protocol by adding the pre-sequencing target enrichment was also explored. Ultimately we were able to confirm that the MinION sequencer can be used to sequence long DNA fragments from a multitude of sample types. The majority of the produced reads could successfully be aligned against a reference genome. However, the limited yield and sequencing quality of a single experiment does limit the applicability of the method for more complicated genomic studies. These issues can be addressed with various techniques, chiefly target enrichment, but adapting such methods into the sequencing pipeline has its own challenges

    RNA-based next generation sequencing approaches in HLA genotyping and HLA expression quantification

    Get PDF
    The advent of next generation sequencing (NGS) technologies has changed the nature of human leukocyte antigen (HLA) research. Thanks to its increased sequencing throughput, NGS empowers high-accuracy HLA genotyping in clinical settings, disease association studies, and the development of potential future immunotherapeutics. Current NGS can be divided into two different approaches. Illumina’s technology with massively parallel sequencing produces a high number of short reads. Illumina provides highly accurate data with a minimal number of sequencing errors; however, the short reads can cause issues with alignment and phasing in HLA genotyping. In contrast, the long-read technologies, Oxford Nanopore Technologies (ONT) and Pacific Biosciences (PacBio), offer a single-molecule sequencing approach enabling sequencing of ultra-long reads. However, these two suffer from higher error rates, making HLA genotyping potentially less accurate. Concurrently with the development of NGS applications, several bioinformatics software have been developed for assigning HLA alleles based on existing genomic and RNA sequencing (RNA-seq) data and for imputing HLA alleles using single-nucleotide polymorphism (SNP) markers. In addition to HLA genotyping, NGS provides a powerful tool for studying the expression of several HLA genes and alleles in multiple samples simultaneously, replacing more conventional methods such as quantitative PCR (qPCR) and microarray. At the beginning of this thesis, earlier studies had already identified associations between differential HLA gene- and allele-level expression and human diseases. However, an RNA-seq method providing accurate and multiplexed way to study HLA gene- and allele-specific expression was lacking. To study comprehensively HLA gene- and allele-specific expression in normal peripheral blood mononuclear cells (PBMCs), a highly multiplexed RNA-seq method for Illumina using unique molecular identifiers (UMIs) in expression quantification was developed in study I. The combination of a personalized HLA reference and an in-house pipeline, written in R, allowed an extensive comparison of HLA gene and allotype expression in PBMC samples of 50 individuals. The results showed that although the expression in HLA was clearly gene- and allele-specific, there was also variation within genes and alleles representing the differential expression between individuals. Additionally, study I revealed haplotype-specific expression of six common Finnish HLA haplotypes. Interestingly, two autoimmune haplotypes, which have been associated with e.g. celiac disease and type I diabetes, had very distinct expression levels suggesting that the level of haplotype expression alone is not the primary predisposing factor. In study II, a targeted RNA-based method was developed for HLA ONT sequencing. The method employed PCR-based enrichment and barcoding, enabling 10 samples and several HLA genes to be multiplexed and sequenced in a single sequencing run. By using the MinION sequencer together with SpotOn flow cells, a sufficient number of reads per sample for HLA genotyping was generated. To achieve the best possible genotyping accuracy, only the higher quality 2D reads were included in the analysis. Despite the sequencing errors that ONT introduces during sequencing, the HLA genotyping results were obtained in 80% of HLA class I alleles and 95% of HLA class II alleles. Since HLA has a crucial role in immune surveillance and in the initiation of antitumor immune responses, the aim of study III was to investigate HLA expression in tumor samples acquired from a longitudinal high-grade serous ovarian cancer (HGSC) cohort. The sample material consisted of ovarian tumors and various intra-abdominal anatomical sites collected prior and after chemotherapy. In the inter-tissue analysis, differential expression levels in mainly non-classical HLA genes were found between distinct anatomical sites, indicating tissue-specific HLA expression levels. Additionally, the results in study III showed that in one of the anatomical sites, omentum, chemotherapy altered the expression of class II. Interestingly, the intra-patient analysis revealed that the allelic imbalance between two heterozygous alleles changed in the samples acquired from different tissues and treatment phases. To conclude, this thesis provides novel insights into gene- and allele-level HLA expression in different tissues. Additionally, it introduces new RNA-based methods for HLA genotyping and HLA expression quantification, which can be applied in future studies. Finally, it provides a comprehensive review of methods and bioinformatics tools designed for HLA allele-specific expression and the diseases associated with differential HLA allele expression.Uuden sukupolven sekvensointimenetelmät ovat muuttaneet HLA-tutkimuksen luonteen. Nämä korkean suoritustehon sekvensointimenetelmät mahdollistavat tänä päivänä tarkemman HLA-genotyypityksen, tautiassosiaatiotutkimukset sekä uusien immunoterapioiden kehittämisen. Uuden sukupolven sekvensointimenetelmät jaetaan tavallisesti kahteen luokkaan. Illuminan sekvensointiteknologia tarjoaa tarkemman sekvensointituloksen, mutta sen tuottamat lyhyet sekvensointifragmentit aiheuttavat linjausongelmia HLA-genotyypityksessä. Sen sijaan Oxford Nanopore - ja PacBio-sekvensointiteknologiat mahdollistavat erittäin pitkien molekyylien sekvensoimisen yhtenä fragmenttina. Ne kuitenkin tuottavat enemmän sekvensointivirheitä, mikä voi huonontaa genotyypitystulosten tarkkuutta. Uusien sekvensointimenetelmien kehittymisen lisäksi myös uusien genomisen ja RNA-pohjaisen datan HLA-genotyypitykseen sekä HLA-imputaatioon tarkoitettujen laskennallisten työkalujen määrä on kasvanut. Uuden sukupolven sekvensointimenetelmät tarjoavat myös tehokkaan työkalun useiden näytteiden HLA geeni- ja alleelitason ekspression samanaikaiseen määrittämiseen korvaten aiemman kvantitatiivisen PCR-menetelmän ekspression tutkimisessa. Ennen väitöskirjatutkimuksen aloittamista, aiemmissa tutkimuksissa oli jo saatu viitteitä HLA-geeni- ja alleeliekspression vaikutuksesta useissa eri taudeissa. Saatavilla ei kuitenkaan ollut RNA-sekvensointimenetelmää, joka olisi mahdollistanut tarkan HLA-geeni- ja alleelitason ekspression määrittämisen useista näytteistä samanaikaisesti. HLA geeni- ja alleelispesifisen ekspression tutkimisen mahdollistamiseksi veren mononukleaarisoluista, tutkimuksessa I kehitettiin useiden näytteiden samanaikaiseen sekvensointiin tarkoitettu RNA-sekvensointimenetelmä, joka hyödyntää uniikkeja molekyylitunnisteita ekspression määrittämisessä. Näytekohtaisen HLA-referenssin käyttäminen yhdessä R-komentokieleen perustuvan analyysityökalun kanssa mahdollisti HLA geeni- ja alleelispesifisen ekspression vertaamisen ääreisveren mononukleaarisoluissa 50 verenluovuttajan välillä. Tutkimus I:n tulokset paljastivat, että vaikka ekspressiotaso eri HLA-geenien ja -alleelien välillä oli selvästi geeni- ja alleelispesifistä, ekspressioprofiileissa oli myös vaihtelua geenien ja alleelien sisällä indikoiden verenluovuttajien välisiä eroja. Tutkimus I:n tulokset osoittivat myös HLA-ekspression vaihtelevan kuuden suomalaisilla yleisen HLA-haplotyypin välillä. Kaksi aiemmin keliakiaan ja tyypin 1 diabetekseen yhdistettyä haplotyyppiä sijoittuivat ekspressiovertailussa kauimmaksi toisistaan. Näin ollen näyttäisi, ettei HLA-haplotyyppien ekspressiotasot ole näille taudeille altistava tekijä. Tutkimuksessa II kehitettiin HLA-geeneille kohdennettu RNA-pohjainen menetelmä Oxford Nanopore-sekvensointialustalle. Menetelmässä HLA-geenit rikastettiin komplementaarisesta DNA:sta PCR:n avulla. Monistettuihin HLA-molekyyleihin lisättiin näytekohtaiset tunnisteet, joka mahdollisti kymmenen näytteen ja useiden HLA-geenien samanaikaisen sekvensoinnin yhdessä sekvensointiajossa. Sekvensointi MinION-laitteella ja SpotON-virtauskennoilla tuotti tyydyttävän määrän sekvenssifragementteja näytettä kohden. Mahdollisimman tarkan HLA-genotyypitystuloksen varmistamiseksi tyypityksessä käytettiin ainoastaan Nanoporen korkeampilaatuisia 2D-sekvenssifragmentteja. Huolimatta Oxford Nanopore -teknologian sekvensoinnin aikana tapahtuvista sekvensointivirheistä, HLA-tyypitystulos saatiin 80%.lla HLA:n luokka I -alleeleista ja 95%:lla luokka II -alleeleista. Koska HLA:lla on elintärkeä rooli immuunijärjestelmän monitoroimisessa ja anti-tuumorivälitteisen vasteen aikaansaamisessa, haluttiin tutkimuksessa III tutkia syöpänäytteiden HLA-geenien ilmenemistä. Osatyössä III käytettiin näytemateriaalina huonosti erilaistuneeseen seroosiin munasarjasyöpään sairastuneiden potilaiden näytteitä, jotka olivat kerätty sekä munasarjakudoksesta että useista eri muista kiinteistä kudoksista sekä askites-nesteestä ennen ja jälkeen kemoterapian. Vertailu eri kudosten välillä paljasti HLA-ekspression vaihtelevan eri kudosten välillä ja näin ollen olevan kudosspesifiä. Lisäksi tulokset osoittivat kemoterapian muokkaavan HLA-ekspressiota tietyissä kudoksissa. Mielenkiintoinen tulos saatiin vertaamalla saman potilaan eri kudoksista ja hoitovaiheista otettujen näytteiden HLA:n alleelispesifistä ekspressiota kahden alleelin välillä heterotsygooteissa alleelipareissa. Tulokset paljastivat, että osalla potilaista ekspressiosuhde kahden HLA-alleelin välillä muuttuu kudosten ja hoitovaiheiden mukaan. Yhteenvetona voidaan todeta, että väitöskirja tarjoaa uusia näkökulmia kudoksen ja kemoterapian vaikutuksesta HLA:n geeni- ja alleelispesifiseen ekspressioon. Lisäksi väitöskirjassa esitellään uusia RNA-sekvenointiin perustuvia menetelmiä HLA-genotyypitykseen ja HLA-ekspression määrittämiseen, joita voidaan hyödyntää tulevissa tutkimuksissa. Lopuksi väitöskirja tarjoaa kattavan katsauksen HLA:n alleelispefisen ekspression tutkimukseen käytettävistä menetelmistä ja analyysityökaluista sekä HLA-ekspression ja sairauksien raportoiduista yhteyksistä

    Applications of nanopore DNA sequencing for improved genome assembly

    Get PDF
    An organism\u27s genome is the ultimate determinant of its functional potential. Understanding genomes is therefore essential to understand function, and a foundational knowledge of a genome is required transfer functions to and from microorganisms of interest. Sequencing DNA using nanopores is a recent advance that resolves limitations of previous technologies, enabling an improved understanding of genomes. For this thesis, I improved our understanding of microbial genomes by developing novel approaches to analyze long read sequencing data, setting the foundation for future synthetic biology work. Long sequencing reads have enabled routine assembly of complete bacterial genomes by directly sequencing DNA extracted from bacterial communities. I showed that visualizing sequencing coverage after filtering read alignments using a 95\% query coverage cutoff (i.e., the entire read aligns to the genome) enabled the detection of mis-assemblies. I also showed it can be applied to detect recoverable alternate haplotypes containing important functional elements. Furthermore, I used this approach to demonstrate that a circular genome for a novel species of Saccharibacteria, enriched from a heavy-metal polluted Northern Albertan tailings pond, contains a recently acquired genomic island. I also determined this genomic island encodes heavy metal-resistance genes, suggesting that horizontal gene transfer may be possible under selective pressure in Saccharibacteria. Another track of my thesis focused on applying nanopore sequencing on a marine diatom, Phaeodactylum tricornutum, which has significant interest for synthetic biology applications like producing low-cost glycosylated proteins. This species does not have a complete genome assembly, despite a draft sequence being available since 2008. To determine the full structure of the genome, I used ultra-long sequencing reads to build a telomere-to-telomere genome assembly. I also developed a novel, assembly-free approach to determine the number of chromosomes from eukaryotes directly from nanopore sequencing reads as an orthogonal method to validate the assembly, which I term long-read karyocounting. These studies provide complete genome assemblies for both novel bacterial species and a marine diatom who\u27s genome structure had yet to be resolved. These approaches also demonstrate that there is more information encoded in long read sequencing data than just the sum of assembled sequence
    corecore