    Driver recognition using gaussian mixture models and decision fusion techniques

    In this paper we present our research in driver recognition. The goal of this study is to investigate the performance of different classifier fusion techniques in a driver recognition scenario. We are using solely driving behavior signals such as break and accelerator pedal pressure, engine RPM, vehicle speed; steering wheel angle for identifying the driver identities. We modeled each driver using Gaussian Mixture Models, obtained posterior probabilities of identities and combined these scores using different fixed mid trainable (adaptive) fusion methods. We observed error rates is low as 0.35% in recognition of 100 drivers using trainable combiners. We conclude that the fusion of multi-modal classifier results is very successful in biometric recognition of a person in a car setting.Publisher's Versio

    Arama motoru performansının solr, DBpedia-spotlight ve wordnet kullanılarak yapılan bağlam çıkarımı ile artırılması

    No full text
    Text in English; Abstract: English and TurkishIncludes bibliographical references (leaves 41-45)x, 46 leavesSearch engines are common tools which retrieve information from considerable amount of data according to the user needs. The data size that needs to be handled and retrieving relevant information, are the main problems of every search engine. Additionally, in order to improve the performance of a search engine, there are various approaches and methods are applied. On the other hand, using context information besides words in the document is a quite new area. Including Context Information" into the game is a promising eld of work. In this research, we use context information extracted from the documents in the collection to improve the performance of the search engine. In rst step, we extract context using Lucene, DBPedia-Spotlight, and Wordnet. As the second step, we build a graph using extracted context information. In the third step, in order to group similar contexts, we cluster context graph. In the fourth step, we rescore results using context-clusters and context-information of documents, as well as queries. In the fth step, we implement a data collection tool to collect gold-standard data. In the sixth and nal step, we compare the results of our algorithm with gold-standard data set. According to experimental results, using context information may improve the search engine performance but the collection should be relatively big.Arama motorları, kullanıcıların ihtiyaçlarına göre ilgili bilgileri kayda değer miktarda veri içerisinden sunan araçlardır. İşlenmesi gereken verinin büyüklüğü ve ilgili bilgileri kullanıcıya sunmak arama motorlarının iki ana problemini oluşturur. Arama motoru performansını artırmak için pek çok yaklaşım ve metod bulunmaktad ır. Bunlara ek olarak arama motorlarının performansını artırmak için dökümanın içerdiği kelimelerin yanında bağlam bilgisini kullanmak oldukça yeni bir alan. Oyuna Bağlam Bilgisini dahil etmek gelecek vaat eden bir çalışma alanı sunmakta. Bu çalışmamızda, arama motoru performansını artırmak için döküman ve sorgulardan çıkardığımız bağlam bilgisini kullanıyoruz. İlk adım olarak Lucene, DBPedia- Spotlight ve Wordnet'i kullanarak bağlam bilgisi çıkarıyoruz. İkinci adımda, çıkardığımız bağlam bilgilerini kullanarak bir çizge oluşturuyoruz. Üçüncü adımda, birbirine yakın bağlamları gruplamak için çizge üzerinde ki kümeleme yapıyoruz. Dördüncü adımda, döküman ve sorguları bağlam çizgesini ve ilgili bağlam bilgilerini kullanarak sonuçları yeniden puanlıyoruz. Beşinci adım olarak referans verisi toplamak için bir uygulama geliştirip bu uygulama ile kullanıcılardan veri topluyoruz. Altıncı ve son adımda ise kullanıcılardam topladığımız referans bilgisi ile sonuçlarımızı karşılaştırıp yaptığımız çalışmanın performansını ölçüyoruz. Aldığımız sonuçların bize gösterdiğine göre bağlam bilgisini kullanmak arama motorlar ının performansını artırabilir ancak kullanılacak döküman kümesi göreceli olarak büyük olmalı

    Near duplicate detection in relational databases

    No full text
    Veri miktarının artışına paralel olarak, ilişkisel veri tabanlarında mükerrer kayıtlar da artmaktadır. Artan bu kayıtlar kullanıldıkları rapor veya analizlerde tutarsızlığa sebep olabilmektedir. Bu sorunu en aza indirgemek için yaptığımız çalışmada, kayıtların birbirlerine olan benzerlikleri ve alan uzmanlık bilgisiyle belirlenen ağırlıklar, öznitelik olarak kullanılarak makine öğrenmesi algoritmaları ile mükerrer kayıtların bulunması hedeflenmiştir. Yapılan işlem sonucunda 9301467 satır veride 28412 mükerrer çift tespit edilmiştir. Bulunan bu mükerrer kayıtlar veri kaynağından temizlenerek verinin daha tutarlı hale gelmesi sağlanmaktadır.While data amount increases, number of duplicate records in relational databases increase gradually. The duplicate records might cause inconsistency on reports and analyzes. To reduce the effects of this problem, we aim to detect duplicate records using machine learning algorithms with features that are produced by similarity of the records. We achieved to detect 28412 duplicate records in 9301467 records. The detected duplicate rows are removed from the data source and the data become more consistent.Publisher's Versio

    Target audience selection for direct marketing

    No full text
    Doğrudan pazarlama, uygun ürünleri uygun kişilerle en kısa yoldan buluşturma sürecidir. Son yılların en popüler pazarlama yaklaşımlarından birisidir. Bu çalışmada turizm sektörüne ait isimsizleştirilmiş bir veri tabanını kullandık. Bir otel zinciri için yapılan kampanya kapsamında veri madenciliği tekniklerini uygulayarak hedef kitle seçimi yaptık. Çalışmada birçok makine öğrenmesi yöntemini denedik. Sonuç olarak; geçmişte yapılan ve herhangi bir makine öğrenmesi yöntemi kullanılmadan hazırlanan kampanya sonuçlarına göre daha iyi sonuçlar elde ederken benzer analizlerde kullanılabilecek bir altyapı oluşturmuş olduk.Direct marketing, which is one of the most popular marketing approaches in the recent years, can be defined as the shortest and most accurate way of matching suitable products with the appropriate people. In this paper, we used an anonymous tourism sector database. We applied data mining techniques for target audience selection for a hotel campaign. As a result; we achieved better results than the results of previous campaigns without the use of any machine learning methods and we created an infrastructure that can be used for similar analyses.Publisher's Versio

    Customer clustering using RFM analysis

    No full text
    Bu çalışma ile mevcut misafir ve rezervasyon verisi kullanılarak doğal öbeklenmeleri tespit ederek misafir davranışları tespit ettik. Ayrıca verilen hizmetleri ve satış stratejilerini bu davranışlara göre özelleştirdik. K-ortalama ile kişileri öbekledikten sonra bu mevcut öbeklenmeleri sağlayan temel karakteristikler karar ağacı yaklaşımı ile çıkartılmıştır. Bu karakteristiklerin kişinin ürün alma kanalı, belirli ürün tercihleri, rezervasyon süresi, sezonsal tercihi vb. olduğu tespit edilmiştir. Bu karakteristiklerin her öbeklenmede ciddi değişiklikler göstermiş olması çözümün genel olarak doğru olduğunun ve bu karakteristiklerin başarılı bir şekilde seçildiğini göstermektedir. Bu çalışma, grup karakteristiklerine uygun kampanyalar ve ürün paketleri oluşturulmasında önemli bir rol oynamaktadır.In this study, customers' behaviors are determined by detecting natural clusterings using existing reservation and customer data. We also customize their services and sales strategies according to these behaviors. The basic characteristics that provide these existing heuristics have been extracted by the decision tree approach after the K-means is implemented. It is determined that these characteristics are customer's product acquisition channel, specific product preferences, reservation periods, seasonal preference, etc. The fact that these characteristics show significant changes in each clusters indicates that the solution is generally successful and that these characteristics are successfully selected. This work plays an important role in creating campaigns and product packages appropriate for these groups' characteristics.Publisher's Versio