11 research outputs found

    Effective, Efficient, and Robust Packing Detection and Classification

    Get PDF
    International audiencePacking is a widespread tool to prevent static malware detection and analysis. Detecting and classifying the packer used by a given malware sample is fundamental to being able to unpack and study the malware, whether manually or automatically. Existing literature on packing detection and classification has focused on effectiveness, but does not consider the efficiency required to be part of a practical malware-analysis workflow. This paper studies how to train packing detection and classification algorithms based on machine learning to be both highly effective and efficient. Initially, we create ground truths by labeling more than 280,000 samples with three different techniques. Then we perform feature selection considering the contribution and computation cost of features. Then we iterate over more than 1,500 combinations of features, scenarios, and algorithms to determine which algorithms are the most effective and efficient, finding that a reduction of 1-2% effectiveness can increase efficiency by 17-44 times. Then, we test how the best algorithms perform against malware collected after the training data to assess them against new packing techniques and versions, finding a large impact of the ground truth used on algorithm robustness. Finally, we perform an economic analysis and find simple algorithms with small feature sets to be more economical than complex algorithms with large feature sets based on uptime/training time ratio

    Fine-Grained Static Detection of Obfuscation Transforms Using Ensemble-Learning and Semantic Reasoning

    Get PDF
    International audienceThe ability to efficiently detect the software protections used is at a prime to facilitate the selection and application of adequate deob-fuscation techniques. We present a novel approach that combines semantic reasoning techniques with ensemble learning classification for the purpose of providing a static detection framework for obfuscation transformations. By contrast to existing work, we provide a methodology that can detect multiple layers of obfuscation, without depending on knowledge of the underlying functionality of the training-set used. We also extend our work to detect constructions of obfuscation transformations, thus providing a fine-grained methodology. To that end, we provide several studies for the best practices of the use of machine learning techniques for a scalable and efficient model. According to our experimental results and evaluations on obfuscators such as Tigress and OLLVM, our models have up to 91% accuracy on state-of-the-art obfuscation transformations. Our overall accuracies for their constructions are up to 100%

    Effective, efficient, and robust packing detection and classification

    Get PDF
    Packing is a widespread tool to prevent static malware detection and analysis. Detecting and classifying the packer used by a given malware sample is fundamental to being able to unpack and study the malware, whether manually or automatically. Existing literature on packing detection and classification has focused on effectiveness, but does not consider the efficiency required to be part of a practical malware-analysis workflow. This paper studies how to train packing detection and classification algorithms based on machine learning to be both highly effective and efficient. Initially, we create ground truths by labeling more than 280,000 samples with three different techniques. Then we perform feature selection considering the contribution and computation cost of features. We iterate over more than 1500 combinations of features, scenarios, and algorithms to determine which algorithms are the most effective and efficient, finding that a reduction of 1–2% effectiveness can increase efficiency by 17–44 times. Then, we test how the best algorithms perform against malware collected after the training data to assess them against new packing techniques and versions, finding a large impact of the ground truth used on algorithm robustness. Finally, we perform an economic analysis and find simple algorithms with small feature sets to be more economical than complex algorithms with large feature sets based on uptime/training time ratio

    DĂ©tection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants

    No full text
    In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithm selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results in terms of effectiveness, efficiency, and robustness for packing detection and classification.Dans cette thèse, nous proposons des solutions de détection et de classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection d’algorithme d'apprentissage automatique et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs

    DĂ©tection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants

    No full text
    Dans cette thèse, nous proposons des solutions pour une détection et classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection des algorithmes d'apprentissage automatique, et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs.In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithms selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results for effectiveness, efficiency, and robustness for packing detection and classification

    DĂ©tection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants

    No full text
    In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithm selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results in terms of effectiveness, efficiency, and robustness for packing detection and classification.Dans cette thèse, nous proposons des solutions de détection et de classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection d’algorithme d'apprentissage automatique et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs

    DĂ©tection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants

    No full text
    In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithms selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results for effectiveness, efficiency, and robustness for packing detection and classification.Dans cette thèse, nous proposons des solutions pour une détection et classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection des algorithmes d'apprentissage automatique, et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs

    DĂ©tection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants

    No full text
    In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithm selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results in terms of effectiveness, efficiency, and robustness for packing detection and classification.Dans cette thèse, nous proposons des solutions de détection et de classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection d’algorithme d'apprentissage automatique et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs

    DĂ©tection et classification d'empaquetage s'appuyant sur l'apprentissage automatique pour contrer la propagation des logiciels malveillants

    No full text
    In this thesis, we propose solutions for effective, efficient, and robust packing detection and classification to be practical parts of the malware analysis chain of an antivirus. Our solutions bring two contributions to the literature. In the first one, we introduce a study which aims at better understanding the impact of ground truth generation, machine learning algorithm selection, and feature selection on the effectiveness, efficiency, and robustness of supervised machine-learning-based packing detection and classification systems. In the second one, we propose, design, and implement SE-PAC, a new Self-Evolving PAcker Classifier framework that relies on incremental clustering in a semi-supervised fashion, in order to cope with the fast-paced evolution of packers over time. For both contributions, we conduct realistic experiments showing promising results in terms of effectiveness, efficiency, and robustness for packing detection and classification.Dans cette thèse, nous proposons des solutions de détection et de classification d'empaqueteurs effectives, efficaces et robustes pouvant faire partie de la chaîne pratique d'analyse de logiciels malveillants d'un antivirus. Nos solutions apportent à la littérature deux contributions. Dans la première, nous introduisons une étude visant à mieux comprendre l'impact de la labellisation, la sélection d’algorithme d'apprentissage automatique et la sélection de caractéristique sur l'effectivité, l’efficacité et la robustesse des systèmes de détection et de classification d'empaqueteurs basés sur l'apprentissage automatique supervisé. Dans la seconde, nous proposons, concevons et implémentons SE-PAC (Self-Evolving PAcker Classifier), un nouveau framework auto-évolutif de classification d'empaqueteurs qui repose sur le regroupement incrémental de façon semi-supervisée, pour faire face à l'évolution rapide des empaqueteurs au fil du temps. Pour ces deux contributions, nous menons des expériences réalistes montrant des résultats prometteurs en termes d'effectivité, d'efficacité et de robustesse pour la détection et la classification des empaqueteurs
    corecore