research

Višestruko poravnavanje i HMM

Abstract

Višestruko poravnavanje je važan objekt u bioinformatici jer daje puno informacija proteinskim familijama. U ovom radu smo vidjeli kako napraviti višestruko poravnanje pomoću skrivenog Markovljevog modela. Pokazuje se da su rezultati vrlo osjetljivi i ovisni o uzorku. Provedena je analiza kojom je iz početnog poravnanja procijenjen model, zatim je na nekoliko načina provedena simulacija i pokazalo se da distribucija “score”-ova jest Gumbelova kako smo i očekivali. Naposljetku je napravljeno novo poravnanje. Provedena parametrizacija modela je vrlo osjetljiva, pa dobiveni model ne omogućava daljnju analizu. Zbog toga pokušavamo postepeno graditi model od najboljih poravnanja, koja su i najmanje varijabilna, a kako smo vidjeli to je dobar način da izbjegnemo neke od problema na koje smo naišli.Multiple sequence alignment is an important object in bioinformatics for obtaining information about protein families. In this thesis we show how to build a multiple sequence alignment using hidden Markov models. We have observed that the results are very sensitive to the choice of various parameters and sample biased. Analysis carried out consists of model estimation from given alignment, simulation and realigning. Distribution of scores is approximately Gumbel, as expected. Since parametrisation of a family profile is a very sensitive procedure, we gradually build a model using less variable subsamples. This method provides a good solution to avoid some of the obstacles we encountered

    Similar works