8 research outputs found

    A comparison of univariate and multivariate gene selection techniques for classification of cancer datasets

    Get PDF
    BACKGROUND: Gene selection is an important step when building predictors of disease state based on gene expression data. Gene selection generally improves performance and identifies a relevant subset of genes. Many univariate and multivariate gene selection approaches have been proposed. Frequently the claim is made that genes are co-regulated (due to pathway dependencies) and that multivariate approaches are therefore per definition more desirable than univariate selection approaches. Based on the published performances of all these approaches a fair comparison of the available results can not be made. This mainly stems from two factors. First, the results are often biased, since the validation set is in one way or another involved in training the predictor, resulting in optimistically biased performance estimates. Second, the published results are often based on a small number of relatively simple datasets. Consequently no generally applicable conclusions can be drawn. RESULTS: In this study we adopted an unbiased protocol to perform a fair comparison of frequently used multivariate and univariate gene selection techniques, in combination with a ränge of classifiers. Our conclusions are based on seven gene expression datasets, across several cancer types. CONCLUSION: Our experiments illustrate that, contrary to several previous studies, in five of the seven datasets univariate selection approaches yield consistently better results than multivariate approaches. The simplest multivariate selection approach, the Top Scoring method, achieves the best results on the remaining two datasets. We conclude that the correlation structures, if present, are difficult to extract due to the small number of samples, and that consequently, overly-complex gene selection algorithms that attempt to extract these structures are prone to overtraining

    Many accurate small-discriminatory feature subsets exist in microarray transcript data: biomarker discovery

    Get PDF
    BACKGROUND: Molecular profiling generates abundance measurements for thousands of gene transcripts in biological samples such as normal and tumor tissues (data points). Given such two-class high-dimensional data, many methods have been proposed for classifying data points into one of the two classes. However, finding very small sets of features able to correctly classify the data is problematic as the fundamental mathematical proposition is hard. Existing methods can find "small" feature sets, but give no hint how close this is to the true minimum size. Without fundamental mathematical advances, finding true minimum-size sets will remain elusive, and more importantly for the microarray community there will be no methods for finding them. RESULTS: We use the brute force approach of exhaustive search through all genes, gene pairs (and for some data sets gene triples). Each unique gene combination is analyzed with a few-parameter linear-hyperplane classification method looking for those combinations that form training error-free classifiers. All 10 published data sets studied are found to contain predictive small feature sets. Four contain thousands of gene pairs and 6 have single genes that perfectly discriminate. CONCLUSION: This technique discovered small sets of genes (3 or less) in published data that form accurate classifiers, yet were not reported in the prior publications. This could be a common characteristic of microarray data, thus making looking for them worth the computational cost. Such small gene sets could indicate biomarkers and portend simple medical diagnostic tests. We recommend checking for small gene sets routinely. We find 4 gene pairs and many gene triples in the large hepatocellular carcinoma (HCC, Liver cancer) data set of Chen et al. The key component of these is the "placental gene of unknown function", PLAC8. Our HMM modeling indicates PLAC8 might have a domain like part of lP59's crystal structure (a Non-Covalent Endonuclease lii-Dna Complex). The previously identified HCC biomarker gene, glypican 3 (GPC3), is part of an accurate gene triple involving MT1E and ARHE. We also find small gene sets that distinguish leukemia subtypes in the large pediatric acute lymphoblastic leukemia cancer set of Yeoh et al

    Gene expression profiling in acute myeloid leukemia

    Get PDF

    Gene expression profiling in acute myeloid leukemia

    Get PDF

    Gene expression profi ling of acute myeloid leukemia

    Get PDF
    Hematopoïese, of de vorming van functionele bloedcellen, is een proces wat plaats vindt in het beenmerg. Hematopoïetische stamcellen ondergaan cycli van deling en differentiatie waarin de functionele eindcellen, zoals rode bloedcellen, bloedplaatjes en witte bloedcellen, worden gevormd. Leukemie is een ziekte waarbij de stamcellen abnormale processen van deling in combinatie met een stop van de differentiatie ondergaan, waardoor er de vorming van functionele eindcellen wordt belemmerd. In het geval van acute myeloïde leukemie (AML) is er een afwijking in de tak van bloedcelvorming waar onder andere rode bloedcellen, bloedplaatjes en granulocyten worden gevormd. De ontsporing van hematopoïetische stamcellen met AML als gevolg wordt veroorzaakt door abnormaliteiten in het genoom, zoals chromosomale fusies, deleties en mutaties. De klinische prognose wordt momenteel bepaald aan de hand van de aan- of afwezigheid van (combinaties van) abnormaliteiten. Het belangrijkste gevolg van genomische afwijkingen is de abnormale transcriptie van genen naar mRNA. Met behulpvan gen expressie profilering, door middel van microarrays, kunnen de transcriptie niveaus van duizenden genen simultaan worden bepaald. In hoofdstuk 2 is een onderzoek beschreven waarin met gen expressie profilering is toegepast op 285 beenmerg monsters van de novo AML patiënten, voor het bepalen van prognose. Verschillende bekende prognostische groepen, zoals t(8;21) en inv(16) konden worden geidentificeerd, alsmede een nieuwe prognostisch relevante groep van patiënten met een relatief slechte prognose (cluster 10).Hoofdstuk 2 laat zien dat gen expressie profilering in staat is om de huidige technieken voor het bepalen van prognose te vervangen, en prognose te verbeteren.Roeland George Willehad Verhaak was born in Wijchen, the Netherlands, on September 29 1976. After fi nishing his VWO education at the Kottenpark College in Enschede in 1996, he started a curriculum Biomedical Health Sciences at the Catholic University Nijmegen (KUN, currently Radboud University). As part of this education, he followed majors in pathobiology and toxicology, and a minor in computer science. A toxicology internship, titled ‘Mitochondrial toxicity of nuclease reverse transcriptase inhibitors, was completed at the Department of Pharmacology and Toxicology of the KUN under supervision of Dr. Roos Masereeuw. A second intership project, ‘Development of a diagnostic marker of multiple sclerosis’, was completed at the Department of Biochemistry, under supervision of Dr. Rinie van Boekel en Prof.dr. W. Van Venrooij. He obtained his Masters–degree in August 2000. After having started a project at the Department of Medical Informatics of the KUN in October 2000 in which he worked on structuring of temporal data, he switched to the bioinformatics company Dalicon BV in April 2002. At Dalicon, he worked as software engineer, with a particular focus at the database system SRS. In April 2003 he started a PhD-project at the Department of Hematology at the Erasmus MC in the lab of Prof.dr. Bob Löwenberg, supervised by Dr. Peter Valk. This work has been described in this thesis. From March 2006 until June 2006, he was a visiting scientist of the Department of Biostatistics and Computational Biology of the Dana-Farber Cancer Institute in Boston, supervised by Prof.dr. John Quackenbush. The author wil continue his academic career at the Broad Institute in Boston, a research collaboration of MIT, Harvard and its affiliated hospitals, and the Whitehead Institute

    Sparse Coding Based Ensemble Classifiers Combined With Active Learning Framework For Data Classification

    Get PDF
    Tez (Yüksek Lisans) -- İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, 2016Thesis (M.Sc.) -- İstanbul Technical University, Instıtute of Science and Technology, 2016Günümüzde metin sınıflandırma, görüntü kategorizasyonu, ses ve müzik türü sınıflandırması gibi makine öğrenmesi konusunda farklı disiplinlerden pek çok alanda sınıflandırma algoritmalarına olan ihtiyaç bir hayli artmıştır. Bu amaçla yeni sınıflandırıcı modeller geliştirilmekte ve mevcut algoritmaları da iyileştirme çalışmaları çoğalarak devam etmektedir. Sinyalleri ya da elimizde bulunan her bir problem örneğini bir sözlüğün temel elemanlarının ayrık doğrusal kombinasyonları olarak temsil etmekte olan sözlük öğrenme algoritmasından da bu doğrultuda veri sınıflandırma ve kümeleme alanlarında çokça faydalanılmakta olup sinyal, görüntü, ses ve video işleme uygulamalarında kullanılmaktadır. İki aşamada gerçekleştirilen sözlük öğrenmesi modelinde ayrık kodlama ve sözlük güncelleme adımları uygulanmakta ve belirli bir yakınsama elde edene kadar bu süreç iteratif olarak devam etmektedir. Ana amaç, yeniden yapılandırma hatasını azaltarak en çok ayrık gösterimi veren sözlük yapısını elde etmektir. Birçok sınıflandırıcının modellendiği ve her birinden gelen kararların birleştirilerek tek bir çıktı ürettiği süreç topluluk öğrenme olarak bilinir. Literatürde makine öğrenmesi uygulamalarının çoğunda sınıflandırıcı topluluklar tek sınıflandırıcı yöntemlerinden daha iyi başarım gösterebilmektedir. Topluluk öğrenme algoritmaları hem örnek hem de öznitelik alt uzaylarında uygulanabilmektedir. Random subspace algoritması öznitelik uzayında ve bagging algoritması da örnek uzayında en çok uygulanan topluluk öğrenme yöntemlerindendir. Öte yandan veriye erişimin kolaylaşması ile birlikte çok büyük miktarda etiketsiz veriye erişim imkânı doğmuştur. Bu tür problemler için sunulan aktif öğrenme, etiketi bilinmeyen veriler içerisinden en çok bilgi verici örnekleri seçip uzmanlar tarafından etiketleyerek eğitim kümesi içine katan bir öğrenme yöntemidir. Aktif öğrenme yapısının kurulması aşamasında etiketsiz verilerin değerlendirilip içlerinden en bilgi verici olanlarının nasıl seçileceği önemli bir sorudur. En kolay yollardan biri, örnekleri sorgulayarak sınıflandırıcı modelin sınıf etiketi konusunda en az emin olduğu sinyallerin seçilmesidir ve bu yöntem belirsizlik örnekleme (uncertainty sampling) olarak bilinir. Belirsizlik örnekleme teknikleri içinde en popüler olanlarından biri düzensizlik hesabını temel alır. Bir dağılımda ne kadar fazla düzensizlik varsa, o veri için sınıf etiketi seçimi de o derecede kararsızlık içerir ve sorgulama da o kadar bilgi verici olur. Bu çalışmanın ilk aşamasında sözlük öğrenme modeli, sınıflandırıcı topluluklarından random subspace feature selection ile öznitelik alt uzayında ve bagging ile örnek alt uzayında birleştirilerek uygulanmış ve bu sınıflandırıcılar Random Subspace Dictionary Learning (RDL) ve Bagging Dictionary Learning (BDL) olarak xxii adlandırılmıştır. Deneysel sonuçlarda önerilen yöntemlerin sınıflandırma başarımları en iyi sınıflandırıcı yöntemlerden biri olan destek vektör makinesi (Support Vector Machines - SVM) ve topluluk öğrenme tabanlı kombinasyonları (Random Subspace Support Vector Machines (RSVM) ve Bagging Support Vector Machines (BSVM)) ile birlikte karşılaştırılmıştır. UCI makine öğrenmesi veri havuzundan ve OpenML' den alınan çeşitli alanlardan on bir farklı veri kümesi üzerinde elde edilen on kat çapraz sağlama deney sonuçlarına göre sözlük öğrenme tabanlı sınıflandırıcı toplulukları, özellikle de BDL algoritması, hem destek vektör makineleri hem de sınıflandırıcı topluluklarıyla birleştirilmiş modellerine göre daha başarılı sonuçlar ortaya koymuştur. Sınıflandırma başarımlarına bakıldığında, en başarılı yöntem olan BDL 11 veri kümesinin 4 tanesinde DL, RDL SVM, BSVM ve RSVM sınıflandırıcılarından üstün gelmekte, 2 tanesinde ise DL ve RDL ile en sonuçları elde etmektedir. Bu noktada örnek altuzaylarının rastgele seçilmesiyle oluşturulan sözlük modellerinin sınıflandırma başarımına olan pozitif etkisi gözlemlenmiştir. İkinci aşamada ise uygulanan yöntemlerin her biri aktif öğrenme yapısı içerisinde kullanılmış, elde bulunan her bir sınıf için bir sözlük öğrenilerek, her iterasyonda en bilgi verici etiketsiz örnekleri etiketleyerek eğitim kümesine ekleme işlemi uygulanmıştır. Test aşamasında her yeni örnek için sınıf etiketi sözlük topluluklarının çoğunluğuna bakılarak atanmıştır. İlk aşamada eldeki eğitim kümesinin %20'si alınarak hem sözlük tabanlı hem de destek vektör makinesi tabanlı sınıflandırıcı toplulukları modellenmiş, sonraki altı iterasyonda geriye kalan etiketsiz veriler içerisindeki en çok bilgi verici %10 örneğin düzensizlik hesabı dikkate alınarak seçilmesiyle eğitim kümesi güncellenmiştir. Böylelikle iterasyon sayısı arttıkça sınıflandırma başarımı da çoğunlukla artışa geçmiş, örneklerin akıllıca seçilmesiyle oluşturulan eğitim kümesi bu sonuçlarda etkili olmuştur. Test sonuçlarında her bir veri kümesi için elde edilen en başarılı sonuçlar dikkate alınırsa, rastgele öznitelik seçimiyle oluşturulan sınıflandırıcı topluluklarına bakıldığında önerilen ARDL yönteminin ARSVM yönteminden daha başarılı olduğu görülmüştür. Örneklerin rastgele seçilmesiyle oluşturulan sınıflandırıcı toplulukları kullanıldığında ise ABSVM yöntemi ABDL yönteminden daha üstün gelmiştir. Deney sonuçlarının elde edilmesinden sonra ilgilenilmesi gereken önemli bir nokta da uygulanan yöntemlerin sınıflandırma başarımları açısından birbirine denkliğini öne süren hipotezlerin anlamlılığının ölçülmesidir. Bu doğrultuda, Friedman test ve Wilcoxon signed rank test sonuçlarına bakılmıştır. Friedman anlamlılık testinden gelen çıktılara göre aktif öğrenme altında iterasyon bazında uygulanan metotlar için en iyi sonuçlar dikkate alındığında görülen odur ki sıfır hipotezi (H0) kabul edilmemelidir, başka bir deyişle uygulanan yöntemler gösterdikleri performans açısından eşdeğer değildirler. Aktif öğrenme algoritmalarının son iterasyonlarında elde edilen başarımlar için de Friedman ve Wilcoxon signed rank testleri uygulanmıştır. Her iki test sonucunda da model çiftlerinin eş sınıflandırma performansları sundukları kanısına varılmıştır. Öte yandan pasif öğrenme kısmında uygulanan yöntemler de Friedman testiyle incelendiğinde eşdeğer oldukları görülmüştür. Bunun ardından, hangi metot çiftlerinin kendi aralarında denk performans sunup sunmadıkları sorusuna çözüm bulmak amacıyla Wilcoxon signed rank test uygulanmıştır. Sonuçlara göre DL/RDL, xxiii DL/BDL ve SVM/BSVM metot çiftleri sınıflandırma performansı olarak eşdeğer değildirler, diğer yöntemler ise denk sayılabilir.Nowadays, along with the need for classification algorithms in various areas concerning machine learning such as text classification, image categorization, audio and music genre classification, new classifier models are developed and works for improving the existing ones increasingly go on. In this direction, as dictionary learning algorithm which represents signals or each problem instance at hand with sparse linear combinations of basis elements of a dictionary is also utilized in data classification and clustering, it is used in signal, image, audio and video processing applications. In the dictionary learning model, which sparse coding and dictionary update steps are practiced and this process continues until a predetermined convergence level is attained in an iterative fashion. The main purpose is to obtain the framework of a dictionary that provides the sparsest representation while decreasing the reconstruction error. The process where a number of classifiers are modeled and decisions from each one produce a single output by a combination rule is known as ensemble learning. In literature, ensemble learning algorithms is performed both in feature subspace and instance subspace. Random subspace feature selection and bagging are the mostly applied ensemble learning methods in feature subspace and in instance subspace respectively. On the other hand, possibility of access to huge amount of unlabeled data has been increased along with getting easy access to data. Active learning, which is proposed for this type of problems, is a learning method in which the most informative instances from the unlabeled data are chosen, then labeled by an oracle and after then added to the training set. At the stage of establishing the active learning framework, evaluation of the unlabelled data and how to select the most informative ones among them is an important question. One of the easiest ways is to select the signals where the classifier is least certain about their class labels in the query phase. This method is known as uncertainty sampling. One of the most popular maximal uncertainty sampling techniques is based on entropy. The more entropy in the distribution, the more uncertain the choice of class label for that data value, and the more informative that query would be. In the first stage of this study, dictionary learning is applied in combination with random subspace feature selection and bagging ensemble models. Then, comparisons of the experimental results with support vector machine, which is one of the best classifier models, and its ensemble combinations are maintained. According to ten-fold cross validation experimental results obtained on eleven datasets from various area of specialization taken from UCI machine learning xx repository and OpenML, dictionary learning based ensemble classifiers, especially BDL algorithm, present more successful classification performance than both of SVM and its classifier ensembles. Considering the experimental results, BDL outperforms other applied methods in 4 out of 11 datasets and in 2 datasets it performs the best with the other two methods DL and RDL. As a consequence, we can infer that randomly selecting instance subspaces while constructing dictionary models has a positive effect on the classification accuracy of the established methods. In the second stage, all the dictionary base proposed methods and support vector machine counterparts are combined with active learning framework in which the most informative unlabelled training instances are labeled and integrated into the labeled training set in each learning iteration. While predicting the class labels of the test examples, the decision is made applying majority voting. After examining the experimental results, it is evident that classification accuracy mostly increases as the number of iterations goes up by the selection of training instances intelligently. Regarding to the best results obtained for each dataset by applied models, while ARDL outperforms ARSVM's classification performance, ABSVM succeeds better results than ABDL. After obtaining the experimental results, an important part to handle is to measure the significance of the hypotheses which put forward the equivalency of the applied methods based on classification accuracies. In this direction, Friedman and Wilcoxon signed rank test results were obtained both for the ensemble learning part and methods under active learning framework. According to outcomes from the Friedman significance tests, ARDL, ARSVM, ABDL and ABSVM do not perform equivalently regarding to the best results obtained for each dataset. On the other hand, Friedman significance tests and Wilcoxon signed rank tests applied to the accuracy results in the last iteration of active learning models are resulted in similar classification performance in the predetermined confidence interval. In the last part, Friedman test is practiced among DL and SVM classifiers and their ensemble models. Because there is an equivalency between classification performance differences, Wilcoxon signed rank test is applied to see pairwise model differences. As a result, DL/RDL, DL/BDL and SVM/BSVM pairs have significant differences while the other model couples performs in the same manner.Yüksek LisansM.Sc

    Liknon feature selection for microarrays

    No full text
    Many real-world classification problems involve very sparse and high-dimensional data. The successes of LIKNON - linear programming support vector machine (LPSVM) for feature selection, motivates a more thorough analysis of the method when applied to sparse, multivariate data. Due to the sparseness, the selection of a classification model is greatly influenced by the characteristics of that particular dataset. Robust feature/model selection methods are desirable. LIKNON is claimed to have such robustness properties. Its feature selection operates by selecting the groups of features with large differences between the resultants of the two classes. The degree of desired difference is controlled by the regularization parameter. We study the practical value of LIKNON-based feature/model selection for microarray data. Our findings support the claims about the robustness of the method.Peer reviewed: YesNRC publication: Ye
    corecore