Global genomic epidemiology of Clostridioides difficile

Abstract

Clostridioides difficile gilt als Haupterreger von nosokomial auftretender, antibiotikaassoziierter Diarrhö. Die globale Ausbreitung des Erregers sowie direkte Transmissionswege wurden mit Hilfe der Ganzgenomsequenzierung intensiv untersucht, allerdings nur auf einem begrenzten Datensatz. Die auf der Softwareplattform EnteroBase (http://enterobase.warwick.ac.uk) verfügbare Datenbank von C. difficile Genomen beinhaltete zum Zeitpunkt der Analysen 13.515 Genome. EnteroBase ermöglicht zudem das einheitliche Prozessieren dieser Sequenzdaten. Anhand eines Kerngenom-MLST (cgMLST) Schemas werden diese typisiert und durch ihre paarweisen Übereinstimmungen in den cgMLST Allelprofilen in hierarchische Cluster eingeteilt. Die Ergebnisse dieser Arbeit demonstrieren, dass EnteroBase mit der Einteilung der Genome in hierarchische HC150 Cluster eine einheitliche Typisierungsmethode von C. difficile Isolaten bietet und Genome von Isolaten, die in Publikationen Pandemien zugeordnet wurden, in HC10 Cluster fallen. Der erstmals durchgeführte, quantitative Vergleich mit der standardmäßig zur Detektion von Transmissionsketten verwendeten SNP-Analyse zeigte, dass anhand der cgMLST-Allelprofile vergleichbare genomische Unterschiede zwischen Isolaten erzielt wurden. Eyre et al. stellten fest, dass Isolate mit einer genomischen Distanz von ≤2 SNPs mit 95 %iger Wahrscheinlichkeit einer Transmissionskette angehören. So konnten anhand von HC2 Clustern, die Isolate mit genomischen Distanzen ≤2 cgMLST Allelunterschieden zusammenfassen, verschiedene epidemiologische Erkenntnisse erzielt werden, wie zum Beispiel die retrospektive Aufdeckung von Transmissionswegen in einem Netzwerk von Krankenhäusern. Für nahe genomische Verwandtschaften zwischen epidemiologisch nicht zusammenhängenden Isolaten schien der Wert einer genomischen Distanz von ≤2 allerdings nicht praktikabel, da die Isolate große Unterschiede in ihrem akzessorischem Gengehalt zeigten. In der vorliegenden Arbeit konnte anhand der C. difficile Datenbank in EnteroBase ein zuvor noch nicht erfasster umfangreicher Einblick in die Populationsstruktur des pathogenen Bakteriums gewonnen werden. Der hier erbrachte Beweis, dass anhand der bioinformatischen Werkzeuge in EnteroBase C. difficile Isolate typisiert und Transmissionswege aufgedeckt werden können, ermöglicht auch Wissenschaftlern ohne bioinformatischem Hintergrund in Zukunft entsprechende Analysen in einem globalen Kontext auf standardisierte Weise durchzuführen.Clostridioides difficile is the primary cause of nosocomial, antibiotic-associated diarrhea. Local outbreaks and global spread of this pathogen have been previously investigated by whole-genome sequencing, but was only possible for a limited number of isolates. The extensive database of C. difficile genomes available on the software platform EnteroBase (http://enterobase.warwick.ac.uk) contained 13.515 genomes at the time of analysis. The implemented bioinformatics tools process the sequencing data in a standardized way and to type them using the core-genome multilocus sequence typing (cgMLST) scheme. Subsequently, entries are sorted into hierarchical clusters based on their distances in their cgMLST allelic profiles. This work demonstrates, that by clustering genomes into hierarchical clusters HC150, EnteroBase provides a standardized typing method for C. difficile isolates. Furthermore, genomes of isolates that have been assigned to pandemics fall into HC10 clusters. The quantitative comparison between SNP- and cgMLST-analysis, which was performed for the first time here, resulted in comparable pairwise genomic distances between isolates. Eyre et al. found that isolates with a genomic distance of ≤2 SNPs have a 95% probability to be part of a transmission chain. This value was also applied to core-genome allelic differences. The hierarchical clustering in EnteroBase combines isolates with a chainwise genomic distance of ≤2 core-genome allelic differences into one HC2 cluster. Thus, HC2 clusters were successfully used to answer different epidemiological questions, like the retrospective detection of transmission chains in a network of hospitals. However, it seemed that a distance of ≤2 for close genomic relationships was not applicable to isolates that were not epidemiologically associated, as these isolates showed large differences in their accessory gene content. In the present work, the C. difficile database in EnteroBase was used to gain a previously unexplored insight into the population structure of the pathogenic bacterium. The evidence provided in this work demonstrated that the bioinformatics tools in EnteroBase can be applied to type C. difficile isolates and to unravel transmission chains. This enables non-bioinformaticians to perform corresponding analyses in a global context and standardized manner in the future

    Similar works