unknown

Research of the EST Clustering Based on Hidden Markov Model

Abstract

在原始EST序列中,存在载体、限制核酸内切酶、polyA、polyT等多种特征。根据EST序列特征,在对EST序列集合进行分类的时候,通常是己经知道一定数量的EST序列的类别,并将这些己知类别的EST序列作为已标记类的样本,序列集合中余下的序列作为未标记类的样本。这种分类方法通常是基于一个特定的假设:已标记类的样本是完全样本。可是实际情况往往不是这样。根据不完全的初始类进行EST序列分类将会导致类缺失,出现错误的结果,而且还费时费力。 针对这种问题,本论文采用了K-均值聚类和隐马尔可夫模型相结合的方法,对EST序列进行了聚类分析研究,其目的是对基于相似数据特征的EST序列进行聚类和预测。该方...There exist many characteristics in the original EST sequence, for example the enzyme1(EcoRI)、enzyme2(XhoI)、adaptor1(P)、adaptor1(D)、polyA、polyT and so on. According to the EST sequence characteristics, when classifying the EST sequence, we usually have known the categories of certain EST sequence, and make the known EST sequence as the marked sequence, the left sequence in the gather as the non-m...学位:工学硕士院系专业:信息科学与技术学院自动化系_系统工程学号:2005130247

    Similar works