Une version corrigée de l’algorithme des plus proches voisins pour l’optimisation de la F-mesure dans un contexte déséquilibré

Abstract

International audienceDans le présent papier, nous proposons une approche basée sur l’algorithme des plus proches voisins pour de l’apprentissage dans un contexte déséquilibré. Dans un tel contexte, les exemples de la classe minoritaire sont au centre de l’attention et nécessitent des critères d’optimisation spécifiques pour nous permettre de les détecter, comme la F-mesure. Reposant sur des fondements géométriques, nous présentons un algorithme qui pondère la distance entre un nouvel exemple et les exemples positifs de la classe minoritaire. Cela entraı̂ne une modification des régions de Voronoı̈ et donc de la frontière de décision. Une analyse théorique de cette pondération explique comment il est possible de réduire le taux de faux négatifs tout en contrôlant le taux de faux positifs. Les expériences menées sur plusieurs jeux de données publiques, ainsi que sur de grands jeux de données du Ministère de l’Economie et des Finances sur la détection de fraude à l’impôt, mettent en évidence l’efficacité de la méthode en dépit de sa simplicité. En outre, elle se révèle d’autant plus intéressante et performante lorsque qu’elle est combinée à des méthodes d’échantillonage

    Similar works

    Full text

    thumbnail-image

    Available Versions

    Last time updated on 26/09/2020