8 research outputs found

    Comparative Evaluation of Methods for Sequence Alignment and Annotation

    Get PDF
    The speed of DNA and RNA sequencing has long ago surpassed the capacity of laboratories to assign function to these sequences by direct experiment. Fortunately, function and other information can be effectively transferred to novel data from previously accumulated knowledge by sequence homology. This has resulted in the development of hundreds of novel homology-based methods. However, the tendency of method developers to be overoptimistic about their own results, biases in the evaluation metrics used to rank methods, inconsistency between different rankings and evaluation metrics, misplaced popularity of methods relative to their performance all indicate that, in many cases, clear knowledge of the comparative performance of different methods is lacking. This has two main consequences. First, researchers use suboptimal tools. Second, method development may go astray because the merits used for guiding method optimization are biased or unclear. To avoid these difficulties, further research is needed into methodology of evaluation and comparative studies. One core approach for transferring function by sequence homology is to create a multiple sequence alignment (MSA) that represents a given group of similar sequences. The resulting alignment can be applied to annotate novel sequences using profile hidden Markov models (HMMs), to create phylogenetic trees or to compare structural features. The application of MSAs and profile HMMs for genome annotation was explored in publication (I). Creating MSA has been addressed by a vast field of research, however there is a lack of independent comparative studies and no comparative studies for alignment strategies. In publication (II) a novel modular MSA aligner was implemented to aid in comparative evaluation of different MSA strategies. Different MSA strategies were then compared to each other and to the state-of-the-art MSA software on three benchmark databases. Another core approach has been to combine homology searches with assignment of annotation terms from a controlled vocabulary such as the Gene Ontology (GO). Hundreds of methods that assign GO terms to novel sequences have been introduced. The research community has also invested into the objective evaluation of these methods via third party competitions. However, the evaluation metrics and merits used in these competitions are still under active debate and need further research and development. In publication (III) a novel framework was introduced for the development of unbiased high-quality evaluation metrics. By testing 37 variations of popular metrics, our approach revealed strong differences between metrics, a list of clearly biased metrics, and a list of high-quality metrics that are well suited for the evaluation of GO annotations. In summary, this thesis presents novel frameworks and implementation platforms for comparative evaluation of two important classes of homology-based methods: MSA aligners and GO sequence classifiers. These results will be instrumental for developing more accurate MSA aligners, for eliminating many forms of bias inherent in contemporary evaluation protocols, for producing informative method rankings for non-specialist users and for guiding method development towards merits that truly reflect the utility of the designed tools.Johtuen DNA ja RNA sekvensointiteknologian nopeasta kehityksestä suurin osa sekvenssien biologisista kuvauksista tuotetaan sekvenssihomologiaan perustuvilla automaattisilla menetelmillä. Homologiaan perustuvia menetelmiä on kehitetty satoja, mikä korostaa objektiivisen ja riippumattoman menetelmävertailun merkitystä. On monia virhelähteitä, jotka vääristävät ja hankaloittavat menetelmävertailua: oman menetelmän yliarviointi, ylisovittaminen, valikoitu raportointi, sekä harhaiset ja keskenään ristiriitaiset arviointimetriikat. Harhaisella menetelmävertailulla on kaksi merkittävää seurausta: (1) epäoptimaaliset menetelmät päätyvät tutkijayhteisön käyttöön, (2) menetelmäkehitys harhaantuu, koska kehitystä ohjaavat arviointikriteerit ovat harhaisia tai epäselviä. Edellä mainittuja vaikeuksia voidaan välttää kohdentamalla tutkimusta itse vertailevaan menetelmäarviointiin. Monisekvenssilinjaus (MSL) on sekvenssihomologiaan perustuva menetelmä, jolla on hyvin laaja sovelluskenttä molekyylibiologisessa tutkimustyössä. Julkaisussa (I) tutkittiin MSL-linjausten ja Markovin piilomallien soveltamista bakteerigenomien kuvaukseen. MSL-kentällä on edelleen puutetta riippumattomasta menetelmäarvioinnista, ja erityisesti eri MSL-algoritmiratkaisuja vertailevista tutkimuksista. Julkaisussa (II) esitettiin uusi modulaarinen MSL-ohjelma, jonka avulla useita MSL-algoritmiratkaisuja vertailtiin toisiinsa ja MSL-alan huippusovelluksiin kolmella vertailutietokannalla. Vertailun perusteella annettiin selkeitä suosituksia optimaalisista MSL-algoritmiratkaisuista ja parhaista MSL-ohjelmista. Sekvenssikuvauksia tuottavat automaattiset menetelmät useimmiten käyttävät geeniontologian (GO) termistöä. Koska vuosittain julkaistaan satoja GO-menetelmiä, tutkimusyhteisö on panostanut kyseisten menetelmien vertailevaan arviointiin. Kuitenkin GO-menetelmävertailun kentällä arviointikriteerit ovat vakiintumattomia ja monet käytössä olevat arviointimetriikat ovat joko harhaisia tai keskenään ristiriitaisia. Julkaisussa (III) ehdotetaan ratkaisuksi uutta menetelmää, jonka avulla on mahdollista testata ja kehittää korkealaatuisia ja harhattomia arviointimetriikoita. Julkaisussa (III) testattiin useita arviointimetriikoita ja osoitettiin, että monet tällä hetkellä käytössä olevat GO-arviointimetriikat ovat voimakkaasti harhaisia. Testauksen perusteella annettiin myös selkeitä suosituksia arviointimetriikoista, jotka takaavat harhattoman menetelmävertailun

    De novo assembly of genomes from long sequence reads reveals uncharted territories of Propionibacterium freudenreichii

    Get PDF
    Background: Propionibacterium freudenreichii is an industrially important bacterium granted the Generally Recognized as Safe (the GRAS) status, due to its long safe use in food bioprocesses. Despite the recognized role in the food industry and in the production of vitamin B12, as well as its documented health-promoting potential, P. freudenreichii remained poorly characterised at the genomic level. At present, only three complete genome sequences are available for the species. Results: We used the PacBio RS II sequencing platform to generate complete genomes of 20 P. freudenreichii strains and compared them in detail. Comparative analyses revealed both sequence conservation and genome organisational diversity among the strains. Assembly from long reads resulted in the discovery of additional circular elements: two putative conjugative plasmids and three active, lysogenic bacteriophages. It also permitted characterisation of the CRISPR-Cas systems. The use of the PacBio sequencing platform allowed identification of DNA modifications, which in turn allowed characterisation of the restriction-modification systems together with their recognition motifs. The observed genomic differences suggested strain variation in surface piliation and specific mucus binding, which were validated by experimental studies. The phenotypic characterisation displayed large diversity between the strains in ability to utilise a range of carbohydrates, to grow at unfavourable conditions and to form a biofilm. Conclusion: The complete genome sequencing allowed detailed characterisation of the industrially important species, P. freudenreichii by facilitating the discovery of previously unknown features. The results presented here lay a solid foundation for future genetic and functional genomic investigations of this actinobacterial species.Peer reviewe

    Computational genomics of lactobacilli

    Get PDF
    Lactobacilli are generally harmless gram-positive lactic acid bacteria and well known for their broad spectrum of beneficial effects on human health and usage in food production. However, relatively little is known at the molecular level about the relationships between lactobacilli and humans and about their food processing abilities. The aim of this thesis was to establish bioinformatics approaches for classifying proteins involved in the health effects and food production abilities of lactobacilli and to elucidate the functional potential of two biomedically important Lactobacillus species using whole-genome sequencing. To facilitate the genome-based analysis of lactobacilli, two new bioinformatics approaches were developed for the systematic analysis of protein function. The first approach, called LOCP, fulfilled the need for accurate genome-wide annotation of putative pilus operons in gram-positive bacteria, whereas the second approach, BLANNOTATOR, represented an improved homology-based solution for general function annotation of bacterial proteins. Importantly, both approaches showed superior accuracy in evaluation tests and proved to be useful in finding information ignored by other homology-search methods, illustrating their added value to the current repertoire of function classification systems. Their application also led to the discovery of several putative pilus operons and new potential effector molecules in lactobacilli, including many of the key findings of this thesis work. Lactobacillus rhamnosus GG is one of the clinically best-studied Lactobacillus strains and has a long history of safe use in the food industry. The whole-genome sequencing of the strain GG and a closely related dairy strain L. rhamnosus LC705 revealed two almost identical genomes, despite the physiological differences between the strains. Nevertheless of the extensive genomic similarity, present only in GG was a genomic region containing genes for three pilin subunits and a pilin-dedicated sortase. The presence of these pili on the cell surface of L. rhamnosus GG was also confirmed, and one of the GG-specific pilins was demonstrated to be central for the mucus interaction of strain GG. These discoveries established the presence of gram-positive pilus structures also in non-pathogenic bacteria and provided a long-awaited explanation for the highly efficient adhesion of the strain GG to the intestinal mucosa. The other Lactobacillus species investigated in this thesis was Lactobacillus crispatus. To gain insights into its physiology and to identify components by which this important constituent of the healthy human vagina may promote urogenital health, the genome of a representative L. crispatus strain was sequenced and compared to those of nine others. These analyses provided an accurate account of features associated with vaginal health and revealed a set of 1,224 gene families that were universally conserved across all the ten strains, and, most likely, also across the entire L. crispatus species. Importantly, this set of genes was shown to contain adhesion genes involved in the displacement of the bacterial vaginosis-associated Gardnerella vaginalis from vaginal cells and provided a molecular explanation for the inverse association between L. crispatus and G. vaginalis colonisation in the vagina. Taken together, the present study demonstrates the power of whole-genome sequencing and computer-assisted genome annotation in identifying genes that are involved in host-interactions and have industrial value. The discovery of gram-positive pili in L. rhamnosus GG and the mechanism by which L. crispatus excludes G. vaginalis from vaginal cells are both major steps forward in understanding the interaction between lactobacilli and host. We envisage that these findings together with the developed bioinformatics methods will aid the improvement of probiotic products and human health in the future.Laktobasillit ovat enimmäkseen harmittomia gram-positiivisia maitohappobakteereja. Vaikka näitä terveysvaikutteisiakin hyötybakteereja on hyödynnetty elintarvikkeiden valmistuksessa jo vuosisatoja, tietämyksemme laktobasillien molekyylibiologisista perusteista on varsin rajallinen. Tämän väitöskirjatyön tavoitteena oli kehittää uusia laskennallisia työkaluja laktobasillien tuottamien biomolekyylien karakterisointiin sekä selvittää kahden biolääketieteellisestikin merkittävän laktobasillilajin toimintaan perimän luentaa hyödyntäen. Väitöskirjatutkimuksessa esitellään kaksi laskennallisen biologian menetelmää laktobasillien ilmentämien ominaisuuksien ennustamiseen perimätiedosta sekä hyödynnetään näitä laktobasillien toiminnan tulkinnassa. Menetelmistä ensimmäinen, LOCP, on luotu seulomaan perimätiedosta pili-tartuntaelimien tuottamiseen tarvittavia geeniryhmiä, kun taas menetelmistä jälkimmäinen, BLANNOTATOR, on sekvenssivertailuihin ja lähisukuisista biomolekyyleistä lainattuun tietoon perustuva uusi proteiinisekvenssien luokitintyökalu. Osatöissä tehdyissä selvityksissä molemmat kehitetyistä menetelmistä osoittautuivat ennennäkemättömän tarkoiksi ja kykeneviksi löytämään muiden tehtäviin soveltuvien menetelmien erheellisesti sivuttamaa tietoa. Ohjelmien avulla pystyttiin myös löytämään uusia pili-tartuntaelimien tuottamiseen tarvittavia geeniryhmiä sekä muita mahdollisesti biolääketieteellisesti merkittäviä ominaisuuksia laktobasilleista, mukaan lukien useimmat tässäkin väitöskirjatyössä esitetyt havainnot. Ensimmäinen väitöskirjatyössä tarkasteltu bakteeri oli Lactobacillus rhamnosus GG, joka on eräs tunnetuimmista ja tutkituimmista probiooteista, eli terveysvaikutteisista bakteereista. Tämän teollisestikin merkittävän laktobasillin perimän luenta ja perimän vertailu toisen lähisukulaisen laktobasillin, L. rhamnosus LC705, perimään paljasti yllätyksellisen vähän perinnöllisiä eroja näiden kahden biologisesti erilaisen bakteerin välillä. Perimien vastaavuudesta huolimatta tutkimuksessa onnistuttiin laskennallisia menetelmiä hyödyntämällä kuitenkin myös tunnistamaan yhteensä viisi L. rhamnosus GG -bakteerille ominaista perimäjaksoa, joista merkittävimmän havaittiin sisältävän pili-tartuntaelimien biosynteesissä tarvittavan geeniryhmän. Työssä myös todistettiin pili-tartuntaelimen ilmentyminen bakteerisolun pinnalle ja tartuntaelimen erään osakomponentin merkitys L. rhamnosus GG -bakteerin sitoutumiselle ihmisen ruuansulatusjärjestelmää peittävään limaan. Yhdessä nämä löydökset todistivat kiistatta ensimmäistä kertaa pili-tartuntaelimen ilmentymisen hyötybakteerissa ja tarjosivat uraauurtavan näkökulman L. rhamnosus GG -bakteerin terveysvaikutuksille sekä kyvylle sitoutua ruuansulatusjärjestelmän eri osiin L. rhamnosus LC705 -bakteeria paremmin. Lisäksi väitöskirjatyössä selvitettiin ihmisen emättimessä runsaastikin läsnä olevan ja emätinterveydelle tärkeän Lactobacillus crispatus -bakteerin perinnöllistä perustaa. Työssä kartoitettiin L. crispatus -lajia hyvin edustavan kannan perimä. Vertaamalla kannan perimää yhdeksän muun saman lajin kannan perimiin, luotiin kattava kuvaus lajin ominaisuuksista ja tunnistettiin yhteensä 1224 geeniperhettä, joiden voidaan olettaa vastaavan bakteerin lajityypillisistä piirteistä. Nämä lajityypilliset geeniperheet muodostavat merkittävän osan kunkin L. crispatus -kannan perimästä, ja niiden joukosta onnistuttiin tunnistamaan lajin tarttumiskyvystä mahdollisesti vastaavia geenejä. Erään tällaisen tarttumisgeenin tuotteen osoitettiin myös kykenevän estämään Gardnerella vaginalis -haittabakteerin kiinnittymistä emättimen epiteelin. Tämä löydös selittää osaltaan L. crispatus -bakteerin roolia terveen emättimen valtalajina. Loppupäätelmänä voidaan esittää, että bakteerien perimän luenta ja bakteeriperäisten proteiinisekvenssien luokitusennustukset ovat äärimmäisen hyödyllinen tapa tulkita laktobasillien ilmentämiä ominaisuuksia ja löytää terveysvaikutteisia biomolekyylejä. Pili-tartuntaelimien ja G. vaginalis -haittabakteerin kiinnittymistä estävän proteiinin löytyminen ovat tärkeä edistysaskel kohti kokonaisvaltaista laktobasillien ja ihmisten vuorovaikutuksien ymmärtämistä ja voivat avata yhdessä kehitettyjen laskennallisten biologisten menetelmien kanssa täysin uudenlaisia lähestymistapoja tuottaa entistä parempia terveyttä edistäviä elintarvikkeita ja parantaa ihmisterveyttä

    A multifaceted study of Propionibacterium freudenreichii, the food-grade producer of active vitamin B12

    Get PDF
    Vitamin B12 is the most complex vitamin in existence and one of the most complex non-polymeric molecules occurring in nature. It is predominantly present in animal-derived products, which places vegetarians and people with limited access to animal-derived foods at risk for developing vitamin B12 deficiency. With the current trend of limiting the consumption of foods of animal origin, the deficiency may also affect other populations. In situ fortification of foods through microbial fermentation with food-grade bacteria is a viable method for the introduction of vitamin B12 into foods, if the microorganism is capable of synthesising the active vitamin form. Here, the capability of Propionibacterium freudenreichii to produce active vitamin B12 was explored with the use of a combination of microbiological and molecular approaches. First, the activity of the heterogolously expressed and purified enzyme BluB/CobT2 was investigated. The results showed that the novel fusion enzyme was responsible for biosynthesis of 5,6-dimethylbenzimidazole (DMBI) base and its activation for attachment as the lower ligand of vitamin B12. The enzyme’s inability to activate adenine, the lower ligand of pseudovitamin B12, revealed a mechanism favouring production of active vitamin B12 in P. freudenreichii. The in vivo study showed that formation of DMBI is oxygen dependent as no vitamin B12 was produced under strictly anaerobic atmosphere. Exogenous DMBI was incorporated into the vitamin molecule under both microaerobic and anaerobic conditions, with a clear preference over incorporation of adenine. In the following study, the capability of 27 P. freudenreichii and 3 Acidipropionibacterium acidipropionici strains to produce active vitamin B12 was examined by UHPLC. The yields obtained from growth in whey-based medium enriched in cobalt and supplemented with either DMBI, with the precursors of DMBI- riboflavin and nicotinamide, or without supplementation. A. acidipropionici strains required supplementation of DMBI to produce small amounts of active vitamin B12 (<0.2 µg/mL), while all of the P. freudenreichii strains were able to produce active vitamin B12 in all conditions tested. The yields of active vitamin B12 produced by P. freudenreichii and responses to supplementation were strain dependent and ranged from 0.2 to 5.3 µg/mL. Subsequently, the active vitamin B12 production by the strain P. freudenreichii 2067 without addition of cobalt or DMBI was tested. The experiments were performed in a medium mimicking cheese environment as well as in the whey-based medium. The production of other key metabolites was examined by HPLC, while the global protein production was compared by gel-based proteomics. The results showed that regardless of different effects of the media on the metabolic state of the cells, which was reflected by distinct metabolite and protein production patterns, P. freudenreichii produced nutritionally relevant levels of active vitamin B12. Finally, whole genome sequencing was employed to better characterise the species through a comparative genomics study. The use of PacBio sequencing platform, a PCR-free method producing long reads, resulted in discovery of additional circular elements: two novel, putative conjugative plasmids and three active, lysogenic bacteriophages. The long reads also permitted characterisation and classification of two distinct types of CRISPR-Cas systems. In addition, the use of PacBio sequencing platform allowed for identification of DNA modifications, which led to characterisation of Restriction-Modification systems together with their recognition motifs, many of which were reported for the first time. Genome mining suggested surface piliation in the strain P. freudenreichii JS18, which was confirmed by transmission electron microscopy and assessment of specific mucus binding.B12-vitamiini on rakenteeltaan vitamiineista monimutkaisin, ja sitä saadaan pääasiassa eläinperäisistä tuotteista. Kasvisruokavaliota noudattavilla ja vain vähän eläinperäisiä elintarvikkeita syövillä on riski kärsiä B12-vitamiinin puutoksesta. Kasvisruokavalion suosion kasvaessa voimakkaasti ja samalla eläinperäisten tuotteiden kulutuksen laskiessa yhä suuremmat väestöryhmät voivat altistua liian vähäiselle B12- vitamiinin saannille. Elintarvikekelpoisten, ihmiselle aktiivista B12-vitamiinimuotoa tuottavien mikrobien hyödyntäminen elintarvikkeiden valmistuksessa on lupaava menetelmä B12-vitamiinin rikastamiseksi kasviperäisiin tuotteisiin joissa sitä ei tällä hetkellä ole. Tässä tutkimuksessa selvitettiin mikrobiologian ja molekyylibiologian menetelmiä hyödyntäen Propionibacterium freudenreichii -bakteerin kykyä tuottaa ihmiselle aktiivista B12-vitamiinia. Tulokset osoittivat, että P. freudenreichii –bakteeri tuottaa elintarvikeolosuhteissa ihmiselle aktiivista B12-vitamiinimuotoa ja sitä voidaan hyödyntää vitamiinin rikastamisessa elintarvikkeisiin. 18 uuden genomisekvenssin määrittäminen ja paljasti paljon uutta tietoa P. freudenreichii -lajista ja loi hyvän perustan jatkotutkimuksille

    Comparative microbial genome analysis of lactobacilli

    Get PDF
    The genus Lactobacillus is a diverse group with a combined species count of over 200. They are the largest group within the lactic acid bacteria and one of the most important bacterial groups involved in food microbiology and human nutrition because of their fermentative and probiotic properties. Exploiting lactobacilli has been complicated by metabolic diversity, unclear species identity and uncertain relationships between them and other commercially important lactic acid bacteria. Comparative Genomics is becoming increasingly important as a method of investigating the diversity of function and phylogeny of all microbial taxa, including Lactobacillus. In Chapter 1, I give an overview of relevant concepts in comparative microbial genomics, focusing on relevant literature for lactobacilli and related genera. In Chapter 2, we (Sun et al. 2015) carried out comparative genomic analyses of type strains of 213 Lactobacillus strains and associated genera, describing their encoded genetic catalogue for modifying carbohydrates and proteins. In addition, we describe a broad and diverse presence of CRISPR-Cas immune systems, host interaction factors and bacteriocins that affect their natural and industrial environments, and mechanisms to withstand stress during technological processes. We present a robust phylogenomic framework of existing species and for classifying new species. In Chapter 3, we (Harris et al. 2017) we carried out comparative genomic analyses of the functional and phylogenomic diversity of 42 genomes of strains of L. salivarius. We found that multiple phylogenomic and non-phylogenomic methods used for reconstructing trees all converge on similar tree topologies, showing that different metrics largely agree on the evolutionary history of the species. The greatest genomic variation lies on the small plasmids, followed by the repA-type circular megaplasmid, with the chromosome varying least of all. Glycosyl hydrolases, bacteriocins and proteases vary considerably on all replicons while two exopolysaccharide clusters show a lot of variation on the chromosome. In Chapter 4, I focussed on the evolutionary rates of lactobacilli, divided into 10 phylogenetic sub-clades based on an ongoing study (Salvetti et al; in prep). Several multiple alignment strategies were compared, and I showed that conclusions about purifying versus directional selection across subclades was influenced by alignment strategy. In Chapter 5, I give a general discussion of how my thesis contributes to current literature, including future perspectives in the comparative genomics of lactobacilli
    corecore