15 research outputs found

    Using covariates for improving the minimum redundancy maximum relevance feature selection method

    Get PDF
    Maximizing the joint dependency with a minimum size of variables is generally the main task of feature selection. For obtaining a minimal subset, while trying to maximize the joint dependency with the target variable, the redundancy among selected variables must be reduced to a minimum. In this paper, we propose a method based on recently popular minimum Redundancy-Maximum Relevance (mRMR) criterion. The experimental results show that instead of feeding the features themselves into mRMR, feeding the covariates improves the feature selection capability and provides more expressive variable subsets

    Sinbad Automation Of Scientific Discovery: From Factor Analysis To Theory Synthesis

    No full text
    Modern science is turning to progressively more complex and data-rich subjects, which challenges the existing methods of data analysis and interpretation. Consequently, there is a pressing need for development of ever more powerful methods of extracting order from complex data and for automation of all steps of the scientific process. Virtual Scientist is a set of computational procedures that automate the method of inductive inference to derive a theory from observational data dominated by nonlinear regularities. The procedures utilize SINBAD - a novel computational method of nonlinear factor analysis that is based on the principle of maximization of mutual information among non-overlapping sources, yielding higher-order features of the data that reveal hidden causal factors controlling the observed phenomena. The procedures build a theory of the studied subject by finding inferentially useful hidden factors, learning interdependencies among its variables, reconstructing its functional organization, and describing it by a concise graph of inferential relations among its variables. The graph is a quantitative model of the studied subject, capable of performing elaborate deductive inferences and explaining behaviors of the observed variables by behaviors of other such variables and discovered hidden factors. The set of Virtual Scientist procedures is a powerful analytical and theory-building tool designed to be used in research of complex scientific problems characterized by multivariate and nonlinear relations. © 2004 Kluwer Academic Publishers

    Yapay Öğrenme Uygulamalarında Biyomedikal Verilerin Doğru Kullanımı: Ses Verisinden Parkinson Teşhisi Üzerine Bir Durum Çalışması

    No full text
    Biyomedikal veri kümeleri üzerinde, bu verilere özgü küçük örnekleme, sınıfların dengesiz dağılımı, veride aynı kişiden alınan farklı örneklerin var olması (ve bundan kaynaklanan hatalı çapraz geçerleme) gibi özelliklerden dolayı, hazır yapay öğrenme (machine learning) programlarını sınıflandırma için kullanırken dikkat edilmesi gereken önemli noktalar vardır. Bu bildiride bu tip sorunlar detaylandırılacak ve nasıl üstesinden gelinebileceğinden bahsedilecektir. Durum çalışması olarak, konuya uygunluğu ve yapay öğrenme alanında yeni ve popüler bir veri kümesi olması itibariyle California Üniversitesi (UCI) Yapay Öğrenme veri tabanında bulunan Parkinson hastalığının uzaktan teşhisine yönelik olan, Parkinson hastası ve sağlıklı kontrol bireylerinin ses kayıtlarından çıkartılan çeşitli ses özelliklerini içeren PD veri kümesi kullanılmıştır. Çalışmamız sonucunda görüldü ki, başka çalışmalarda seçilen özelliklerle, önerdiğimiz doğru şekliyle çapraz geçerleme uygulandığında sadece %75 çıkan sınıflandırma başarısı, yine önerdiğimiz düzeltilmiş şekliyle seçilen özellik altkümesine uygulandığında %85’e çıkmaktadır

    Viral Yerleşim Bölgelerindeki Karakteristiğin Sınıflandırma Başarımına Etkisi

    No full text
    Genetik hastalıkların temel kaynağı vücudumuzun düzgün çalışması için gereken proteinleri kodlayan gen bölgelerindeki bozulmalardır. Gen tedavisi yaklaşımıyla bu bozulmaların gözlendiği bölgeler tespit edilip genetik içeriği değiştirilebilir. Bu bölgeler nükleotit dağılımı açısından özel bir karakteristiğe sahip olup, bu karakteristik genomdaki bilinen istatistiki değerlerin dışında olabilir. Bu çalışmada benzer bir karakteristik tanımlanmış ve bu karakteristiğin genom okumalarının yönünün tahminine (sınıflandırma) etkisi incelenmiştir. Analizlerde kullanılan Kanonik Bağıntı Analizi (KBA) yönteminin iyi bilinen Destek Vektör Makineleri (DVM) yöntemine göre, mevcut okumaları yönlerine göre ayırmada daha başarılı sonuçlar verdiği gözlemlenmiştir
    corecore