Metagenomics-based disease prediction

Abstract

Razvoj novih tehnologija sekvenciranja omogućio je metagenomske analize, tj. analize uzoraka izravno prikupljenih iz okoliša bez potrebe za uzgojem pojedinih vrsta u laboratorijskim uvjetima. U okviru ovog diplomskog rada istražen je problem predviđanja bolesti tehnikama strojnog učenja iz podataka o mikrobiomu prikupljenih metagenomskim analizama. Rad sadrži pregled postojeće literature, i rezultate evaluacije modela stroja potpornih vektora (SVM), AdaBoost (jačanje stabla odluka), slučajne šume, i umjetnih neuronskih mreža na tri skupa podataka koji sadrže kontrolne uzorke i uzorke koji su pogođeni cirozom jetre, karcinomom debelog crijeva i dijabetesom tipa 2. Najbolji postignuti F1 rezultati su: 0.89 na skupu podataka za cirozu jetre (AdaBoost), 0.81 na skupu podataka za karcinom debelog crijeva (AdaBoost), i 0.76 na skupu podataka za dijabetes tipa 2 (SVM).The development of high-throughput sequencing technologies has enabled large-scale metagenomic analyses, i.e. direct analyses of all genomes in samples with no need for the cultivation of specific species. In this thesis, the problem of machine learning based disease prediction from metagenomic microbiome data is addressed. The thesis contains a survey of recent literature, and the evaluation of support vector machine, AdaBoost (boosting decision trees), random forest, and artificial neural network models on three different datasets containing control samples and samples affected with liver cirrhosis, colorectal cancer, and type two diabetes. The best F1 scores are: 0.89 on the liver cirrhosis dataset (AdaBoost), 0.81 on the colorectal cancer dataset (AdaBoost), and 0.76 on the type two diabetes dataset (SVM)

    Similar works