2 research outputs found

    ВИЯВЛЕННЯ МЕРЕЖЕВИХ ВТОРГНЕНЬ З ВИКОРИСТАННЯМ АЛ-ГОРИТМІВ МАШИННОГО НАВЧАННЯ І НЕЧІТКОЇ ЛОГІКИ

    Get PDF
    Abstract. The study proposed a model of an intrusion detection system based on machine learning using feature selection in large data sets based on ensemble learning methods. Statistical tests and fuzzy rules were used to select the necessary features. When choosing a basic classifier, the behavior of 8 machine learning algorithms was investigated. The proposed system provided a reduction in intrusion detection time (up to 60%) and a high level of attack detection accuracy. The best classification results for all studied datasets were provided by tree-based classifiers: DesignTreeClassifier, ExtraTreeClassifier, RandomForestClassifier. With the appropriate setting, choosing Stacking or Bagging classifier for model training using all data sets provides a small increase in the classification accuracy, but significantly increases the training time (by more than an order of magnitude, depending on the base classifiers or the number of data subsets). As the number of observations in the training dataset increases, the effect of increasing training time becomes more noticeable. The best indicators in terms of learning speed were provided by the VotingClassifier, built on the basis of algorithms with maximum learning speed and sufficient classification accuracy. The training time of the classifier using FuzzyLogic practically does not differ from the training time of the voting classifier (approximately 10-15% more). The influence of the number of features on the training time of the classifiers and the VotingClassifier ensemble depends on the behavior of the base classifiers. For ExtraTreeClassifier, the training time is weakly dependent on the number of features. For DesignTree or KNeibors (and, as a result, for the Voting classifier in general), the training time increases significantly with the increase in the number of features. Reducing the number of features on all datasets affects the estimation accuracy according to the criterion of average reduction of classification errors. As long as the group of features in the training dataset contains the first in the list of features with the greatest influence, the accuracy of the model is at the initial level, but when at least one of the features with a large influence is excluded from the model, the accuracy of the model drops dramatically.Анотація. У дослідженні була запропонована модель системи виявлення вторгнень на основі машинного навчання з використанням вибору ознак у великих наборах даних на основі методів ансамблевого навчання. Для вибору необхідних ознак було використано статистичні тести та нечіткі правила. При виборі базового класифікатора було досліджено поведінку 8 алгоритмів машинного навчання. Запропонована система забезпечила скорочення часу виявлення вторгнень (до 60%) та високий рівень точності виявлення атак. Найкращі результати класифікації для усіх досліджених наборів даних забезпечили класифікатори на основі дерев: DecignTreeClassifier, ExtraTreeClassifier, RandomForestClassifier. При відповідному налаштуванні обрання Stacking або Bagging класифікатора для навчання моделі з використанням усіх наборів даних забезпечує невеличке підвищення точності класифікацій, але суттєво збільшує час навчання(більш ніж на порядок, в залежності від базових класифікаторів або кількості підмножин даних). При збільшенні кількості спостережень в наборі даних для навчання ефект зростання часу навчання стає більш помітним. Найкращі показники за швидкістю навчання забезпечив класифікатор VotingClassifier, побудований на базі алгоритмів з максимальною швидкістю навчання і достатньою точністю класифікації. Час навчання класифікатора з використанням FuzzyLogic практично не відрізняється від часу навчання вотуючого класифікатора (більше приблизно на 10-15%). Вплив кількості ознак на час навчання класифікаторів і ансамбля VotingClassifier залежить від поведінки базових класифікаторів. Для ExtraTreeClassifier час навчання слабко залежить від кількості ознак. Для DesignTree або KNeibors (і, як наслідок, для класифікатора Voting в цілому) час навчання помітно зростає зі збільшенням кількості ознак. Зменшення кількості ознак на усіх наборах даних впливає на точність оцінювання відповідно до критерію середнього зменшення помилок класифікації. Поки група ознак в наборі даних для навчання містить перши за списком ознаки з найбільшим впливом, точність моделі знаходиться на початковому рівні, але при виключенні з моделі хоча б однієї з ознак з великим впливом, точність моделі стрибкоподібно знижується

    A Review on Cybersecurity based on Machine Learning and Deep Learning Algorithms

    Get PDF
    Machin learning (ML) and Deep Learning (DL) technique have been widely applied to areas like image processing and speech recognition so far. Likewise, ML and DL plays a critical role in detecting and preventing in the field of cybersecurity. In this review, we focus on recent ML and DL algorithms that have been proposed in cybersecurity, network intrusion detection, malware detection. We also discuss key elements of cybersecurity, main principle of information security and the most common methods used to threaten cybersecurity. Finally, concluding remarks are discussed including the possible research topics that can be taken into consideration to enhance various cyber security applications using DL and ML algorithms
    corecore