5 research outputs found

    Visualization as a guidance to classification for large datasets

    Get PDF
    Data visualization has gained a lot of attention after the stressing need to make sense of the huge amounts of data that we collect every day. Lower dimensional embedding techniques such as IsoMap, Locally Linear Embedding and t-SNE help us visualize high dimensional data by projecting it on a two or three-dimensional space. t-SNE, or t-Distributed Stochastic Neighbor Embedding proved to be successful in providing lower dimensional data mappings that makes interpreting the underlying structure of data easier for our human brains. We wanted to test the hypothesis that this simple visualization that human beings can easily understand will also simplify the job of the classification models and boost their performance. In order to test this hypothesis, we reduce the dimensionality of a student performance dataset using t-SNE into 2D and 3D and feed the calculated 2D and 3D feature vectors into a classifier to classify students according to their predicted performance. We compare the classifier performance before and after the dimensionality reduction. Our experiments showed that t-SNE helps improve classification accuracy of NN and KNN on a benchmarking dataset as well as a user-curated dataset on performance of students at our home institution. We also visually compared the 2D and 3D mapping of t-SNE and PCA. Our comparison favored t-SNE\u27s visualization over PC\u27s. This was also reflected in the classification accuracy of all classifiers used, scoring higher on t-SNE\u27s mapping than on the PCA\u27s mapping

    Bipartite graphs for microbiome analysis

    Get PDF
    Mikroorganismy se vyskytují ve velkém množství prakticky všude kolem nás. Některé přežívají dokonce i v našem těle a jsou nutné pro správné fungování organismu. Studium mikrobiálních společenstev na základě souboru jejich genetické informace se stalo velmi populární s rozvojem nových technologií umožňujících snadné čtení DNA či RNA. Klíčovou úlohou těchto studií je obvykle charakterizovat významné mikrobiální vzory prostředí. V současné době využívané vizualizační nástroje však mají pro takové analýzy mnoho nedostatků. Předmětem této práce je návrh R/Bioconductor balíčku pro tvorbu bipartitních grafů z mikrobiálních dat, které mají pro analýzu mikrobiomů mnoho výhod. Benefity této vizualizační metody jsou dále předvedeny na analýze hlavních parametrů ovlivňujících počítačové zpracování mikrobiálních dat.Microorganisms are all around us. Some of them even live in our body and are essential for our healthy being. Study of microbial communities based on their genetic content has become very popular with the development of new technologies, which enable easy reading of DNA or RNA. The key role of these studies is usually to characterize significant microbial patterns of an environment. However, currently used visualization tools have many drawbacks for such analyses. The subject of this thesis is to design a R/Bioconductor package for simple creation of bipartite graphs from microbial data. This type of visualization brings many advantages for microbiome analysis. Benefits of bipartite graphs are further demonstrated by analysis of main parameters affecting computer processing of microbial data.

    Numerical methods for classification of metagenomic data

    Get PDF
    Tato práce se zabývá metagenomikou a výpočetními metodami využívanými pro zpracování metagenomu. Literární rešerše metod nevyžadujících zarovnání ukázala, že metody založené na studiu taxonomicky specifických četností nukleotidových slov se jeví jako vhodný a dostatečně účinný nástroj pro zpracování metagenomických čtení sekvenačních technologií nové generace. Pro vyhodnocení potenciálu těchto metod byly testovány vybrané příznaky založené na studiu četností nukleotidových slov na sadě simulovaných metagenomických čtení. Analýza byla provedena pro různou délku slov a vyhodnocena s ohledem na úspěšnost klasifikace pomocí hierarchického shlukování v originálním datovém prostoru a K-means shlukování v redukovaném datovém prostoru.This thesis deals with metagenomics and numerical methods for classification of metagenomic data. Review of alignment-free methods based on nucleotide word frequency is provided as they appear to be effective for processing of metagenomic sequence reads produced by next-generation sequencing technologies. To evaluate these methods, selected features based on k-mer analysis were tested on simulated dataset of metagenomic sequence reads. Then the data in original data space were enrolled for hierarchical clustering and PCA processed data were clustered by K-means algorithm. Analysis was performed for different lengths of nucleotide words and evaluated in terms of classification accuracy.

    Nonlinear dimensionality reduction for cluster identification in metagenomic samples

    No full text
    Gisbrecht A, Hammer B, Mokbel B, Sczyrba A. Nonlinear dimensionality reduction for cluster identification in metagenomic samples. In: Banissi E, ed. 17th International Conference on Information Visualisation IV 2013. Piscataway, NJ: IEEE; 2013: 174-179
    corecore