European airports analysis using machine learning algorithms

Abstract

Bu çalışma, son yıllarda Türkiye’de ve Dünya’da artan havacılık faaliyetleri göz önüne alınarak her geçen gün sayıları katlanarak artan havalimanlarının daha iyi bir şekilde analiz edilmesi ihtiyacından doğmuştur. Türkiye ve Avrupa havalimanları baz alınarak oluşturulan veri seti kullanılarak makine öğrenmesi gözetmeli ve gözetmesiz öğrenme teknikleri ile Microsoft Azure Machine Learning (ML) Studio üzerinde iki farklı uygulama yapılmıştır. İlk olarak gözetmesiz öğrenme uygulamasında K-Ortalamalar algoritması ile benzer havalimanlarını tespit etmek amacıyla kümeleme yapılmıştır. Optimum küme sayısını belirlemek için Azure ML Studio ve Kaggle online platformlarında Python ve R programlama dilleri ile Simplified Silhouette, Davies Bouldin, Dunn, Average Deviation, Elbow grafik metodundan ve R kütüphanesinin barındırdığı NbClust fonksiyonunun sağladığı 30 farklı metrikten yararlanılmıştır. İkinci olarak gözetmeli öğrenme uygulamasında havalimanı taşınan yolcu sayıları tahmini gerçekleştirilmiştir. Burada Lineer Regresyon, Bayesyen Lineer Regresyon, Karar Ormanı Regresyonu, Artırılmış Karar Ağacı Regresyonu ve Poisson Regresyon algoritmalarından faydalanılmıştır. Ortaya çıkan sonuçlar Ortalama Mutlak Hata, Kök Ortalama Kare Hatası, Bağıl Mutlak Hata, Bağıl Kare Hatası ve Belirlilik Katsayısı metrikleri kullanılarak değerlendirilmiştir.This study has been arisen to analyse the airports, with incrementally increasing numbers, in a better way considering the constantly improving aviation operations in the world. Two different applications were implemented on the Azure ML Studio Platform employing supervised and unsupervised machine learning techniques as well as using the dataset based on the airports located in Turkey and Europe. Firstly, in the unsupervised learning application, clustering was performed with the K-Means algorithm to determine similar airports. In order to determine the optimum number of clusters, 30 different metrics provided by NbClust function found in R library, and Simplified Silhouette, Davies Bouldin, Dunn, Average Deviation and Elbow graphics method as well as Python and R programming languages on Azure ML Studio and Kaggle platforms were employed. Secondly, in the supervised learning application, the number of passengers carried at the airports were estimated. Therefore, linear Regression, Bayesian Linear Regression, Decision Forest Regression, Boosted Decision Tree Regression, and Poisson Regression were utilized. The results were evaluated using Mean Absolute Error, Root Mean Squared Error, Relative Absolute Error, Relative Squared Error, and Coefficient of Determination

    Similar works