Unsupervised driver performance scoring using geographical position and sensor data

Abstract

Araç sürüş performansının ölçülmesi, özellikle otomotiv ve sigorta sektörlerinde çalışan araştırmacıların ilgisini çeken, oldukça zorlu bir konudur. Bu alandaki geçmiş çalışmaların bir kolu Denetleyici Alanı Veri Yolu Ağı (CAN Bus) ve Küresel Konum Belirleme Sistemi (GPS) çıktıları, fizyolojik veriler, kamera kayıtları ve pek çok diğer veri tipini öznitelik olarak kullanarak, etiketli veri setleri üzerinde agresif/agresif olmayan, dikkatli/dikkatsiz, uykulu/uykusuz gibi davranışsal ayrımları istatistiksel olarak öğrenmeyi amaçlamışlardır. Bir diğer akımda ise, araştırmacılar sürüş davranışlarını kural-bazlı olarak değerlendirmeyi tercih etmişlerdir. Ancak, bu yaklaşımlar etiketli verinin çoğu zaman mevcut olmaması, bütün yol şartlarını temsil edebilecek kuralların öğrenilememesi ve standart bir aracın gerekli bütün sensör modalitelerine sahip olmamasından dolayı kullanışlı değillerdir. Çalışmamızda, bu problemlerin hepsinin üstesinden gelen, minimalistik bir veri üzerinde skorlama yapma kapasitesine sahip, gözetimsiz bir olasılıksal model tasarlanmıştır. Sunulan model, sürücüleri geleneksel anomali tespiti yaklaşımlarıyla değerlendirir. Buna göre, bir sürüş tecrübesinin geçmişte görülen örnekler üzerinden hesaplanan normlara ne kadar uyumlu olduğu, onun ne kadar yüksek skorlanacağını tanımlar. Bu normlar, diğer çalışmalardan farklı olarak, yolun tipine ve trafik akışına bağlı olarak bulunur. Takip edilen olasılıksal yaklaşım, bu sürekli değişkenlerin bileşik olasılık dağılımlarının bilinmesini gerektirmektedir; ancak bu matematiksel olarak oldukça zorlu bir problemdir. Bu işlemi kolaylaştırmak için, değişkenlerden her birini gözetimsiz öğrenme yöntemleri ile ayrıklaştırma yoluna gidilmiştir. Bu sayede, değişkenleri ayrık az sayıda küme ile temsil etmek ve bu kümeler arasındaki paylaşılan eleman sayılarını kullanarak bileşik olasılık dağılımlarını kestirmek mümkün olmuştur. Bileşik dağılım bilgisi, Birlikte Kümelenme Matrisi (BKM) adlı bir yapıda tutulmuştur ve bu matris elde edildikten sonra, skorlama sadece matris üzerindeki pozisyonu bulma problemine indirgenmiştir. Değişkenlerin gözetimsiz modellerle ayrıklaştırılması çalışmamızın merkez noktasını oluşturmaktadır. GPS verileri kullanarak yol tiplerinin kümelenmesi ve CAN Bus kayıtlarından yola çıkarak trafik akış tipi ve sürüş stili kümelenmeleri üzerinde durulmuş, doğru öznitelik seçimi hakkında bilgiler sunulmuş ve kümelenmenin farklı ayrışım metotları ve farklı benzerlik ölçütlerinden hangileriyle daha iyi başarıldığı saptanmıştır. Bu başarım sayısal olarak sunulmuş ve kullandığımız veri setinde en başarılı olan yöntemler saptanmıştır. Ardından bu başarının arkasında yatan faktörler sorgulanmıştır. Böylece alandaki gelecek çalışmalara ışık tutacak bir çerçeve oluşturulmaya çalışılmıştır. Buna ek olarak, kümelenmenin öznitelik uzayından değil de, daha düşük boyutlu bir uzaydan yola çıkılarak yapılmasının yararları açıklanmış, bu yöntem yol tipi ve sürüş stili kümeleme aşamasından uygulanmıştır. Değişkenlerin kümelenmeleri başarıldıktan sonra, elimizde bulunan küçük bir etiketli veri seti üzerinde skorlama işlemi yapılmıştır. Burada agresif şoförlerin, agresif olmayanlardan genellikle daha düşük skorlar alması amaçlanmış ve bu başarılmıştır. Son aşamada ise, aynı başarının literatürdeki diğer bir güçlü modelin varyasyonu ile başarılıp başarılamayacağına bakılmıştır. Bu metot, bizim skorlama yaklaşımımızın tersine, agresif ve agresif olmayan şoförler arasında herhangi bir skorlama farkı gösterememiştir.Rating driving performance is a challenging topic. It attracts professionals from a variety of domains such as automotive industry and insurance companies. A great majority of the previous studies combines multiple measurement modalities such as Controller Are Network (CAN Bus) data, physiological measurements, camera reconrdings and localization estimates from Global Positioning System (GPS). One school of thought attempted to discriminate agressive/non-agressive, attentive/inattentive or drowsy/wakeful drivers through a statistical learning. Other researchers applied a rule-based approach. However, this approaches are inapplicable since labelled data for supervised learning schemes is scarce and rules that are representative for all road conditions are not feasible. Moreover, the abundance of sensor modalities in a personal vehicle is rather costly. In order to handle these problems, in this work, we propose a fully unsupervised driving style scoring mechanism operating on a minimalistic dataset. The proposed model operates similar to conventional anomaly detecton schemes. In this setting, a driving experience is scored in proportion to its congruency to the driving norms which are obtained as the most common driving patters in the training data. As a novelity of our work, these norms are defined considering road type and traffic flow patterns. This is applied via a probabilistic approach where joint probability densities of the variables controlling road type, traffic flow type and driving style are required. Since estimating this probability is mathematically intractable, we follow an alternative approach relaxing the probability estimation through discretization. In this context, each of these variables are clustered by unsupervised learning techniques and the joint probabilities are approximated by the number elements shared between inter-variable clusters. This probability information is stored in a special architecture which we call Co-Clustering Matrix. (CCM). Once this matrix is learnt, scoring of a new driving experience is degraded into finding its position inside the matrix. Clustering of these variables is the central point of our work. This part includes clustering of road types through GPS recordings and traffic flow type and driving style clustering by CAN Bus data as well as the identification of the most efficient clustering methods and distance metrics. All evaluations are supported by mathematical evidences and the factors behind successful methods are discuessed. In this way, we attempt to present a framework for the prospective studies. Furthermore, we discover the efficiency of the clustering of lower dimensional representations rather than the original feature sets. Upon obtaining successful clustering of the data from multiple views, we validate our scoring mechanism utilizing a small labelled dataset. Here, the aggressive drivers are expected to obtain significantly lower scores than their nonaggressive counterparts. This is achieved and statistically validated. Following that, we follow the same procedure for another scoring methodology and in contrast to our approach, no change is observed between scoring patterns of aggressive and nonaggressive drivers

    Similar works

    Full text

    thumbnail-image