Détection d’anomalies séquentielles dans des données extrêmement déséquilibrées : application à la détection des fraudes par carte de crédit

Abstract

Technological development has greatly contributed to the growth of e-commerce and boosted the confidence of clients in using their credit cards. However, the problem of credit card fraud has also expanded, resulting in billions of dollars in financial losses. Thus, designing fraud detection systems that reduce these losses is very important. As a result, many researchers are working to create fraud detection systems based on advanced machine learning techniques to help fraud investigators detect fraud patterns early. Building machine learning algorithms to identify fraudulent transactions is a challenging task. Therefore, in this thesis, we highlight some complex challenges that appear in real world datasets, such as: the extremely unbalanced data, i.e. fraudulent transactions represent a small part of all transactions, the concept drift resulting from changes in fraudsters' behaviours and buying strategies over time and the overlap between genuine and fraudulent transactions. We also focus on the human errors issue, which is one of the main reasons for noisy labels. In addition to the previous challenges, we also show the importance of handcrafted features that could resume sequential information. However, these features are time and money consuming. To overcome these challenges, we also proposed a new approach to leverage the sequential information and manage the problem of imbalanced data in order to extract features automatically instead of handcrafted features. Empirical results on real data sets of credit card transactions show that our approach is efficient, accurate and improves the performance of the classification model.Le développement technologique a facilité le développement du commerce électronique et a renforcé la confiance des clients dans l'utilisation de leurs cartes de crédit. Toutefois, la fraude en matière de transaction par carte s’est également développée, entraînant des milliards de dollars de pertes. Il est donc très important de développer des systèmes de détection des fraudes qui réduisent ces pertes. La construction d'algorithmes d'apprentissage automatique pour identifier les transactions frauduleuses est une tâche difficile. Dans cette thèse, nous mettons donc en évidence certains défis complexes qui apparaissent dans les bases de données du monde réel, tels que : le déséquilibre extrême des données, la dérive conceptuelle résultant des changements de comportement d'achat et de stratégies des fraudeurs au fil du temps et le chevauchement entre les représentations des transactions réelles et frauduleuses. Nous nous concentrons également sur la question des erreurs humaines, qui est l'une des principales raisons du bruit des étiquettes. En plus des défis précédents, nous montrons également l'importance des attributs construits manuellement qui pourraient reprendre des informations séquentielles. Cependant, ces attributs sont coûteux en temps et en argent. Pour surmonter ces défis, nous proposons une nouvelle approche pour exploiter les informations séquentielles et gérer le problème du déséquilibre afin de construire automatiquement les attributs au lieu de les fabriquer à la main. Des résultats empiriques montrent que notre approche est efficace, précise et améliore la performance du modèle de classification

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 09/09/2021