Search CORE

1 research outputs found

Sélection automatique de modèle dans les machines à vecteurs de support : application à la reconnaissance d'images de chiffres manuscrits

Author: Ayat Nedjem Eddine
Publication venue: École de technologie supérieure
Publication date
Field of study

La problématique étudiée dans cette thèse est la sélection de modèle automatique des machines à vecteurs de support (SVM) pour la reconnaissance de chiffres manuscrits. Nous présentons une nouvelle méthodologie de sélection de modèle automatique du SVM sur des données binaires et multiclasse. L'approche permet d'optimiser les paramètres de noyaux et de réduire efficacement la complexité du classifieur en minimisant le nombre de vecteurs de support. Ceci s'accompagne d'une réduction drastique de l'erreur de généralisation. La méthodologie proposée est basée sur un nouveau critère de sélection de modèle estimant la probabilité d'erreur du SVM. Ce critère est ensuite minimisé en utilisant une procédure efficiente de descente de gradient. La probabilité d'erreur est une erreur empirique estimée sur des observations de validation représentant le même problème de classification. Son calcul utilise les estimations des probabilités à posteriori de ces observations. Pour des fins de comparaison, nous considérons deux autres critères de sélection de modèle que sont le GACV et le VC. Ce sont deux critères analytiques approximant des bornes supérieures de l'erreur. Pour le premier, nous proposons aussi un nouvel algorithme de minimisation. Les expériences effectuées sur un problème de classification binaire montrent la supériorité du critère de l'erreur empirique et sa capacité à sélectionner adéquatement les hyper-paramètres du SVM. Aussi, le critère garantit la solution de moindre complexité en produisant le plus faible nombre de vecteurs de support. Par ailleurs, sur des données multiclasses, nous proposons deux approches de sélection automatique de modèle dans la stratégie un-contre-un. La première, dite «approche locale» permet d'optimiser l'ensemble de SVM individuellement en adaptant leurs hyper-paramètres aux données du couple de classes considéré. La deuxième, dite «approche globale», permet d'optimiser simultanément l'ensemble de SVM en prenant en compte le comportement de chacun d'eux. Pour cette dernière, nous proposons de maximiser la vraisemblance des données de validation à travers l'ensemble de SVM en minimisant l'erreur quadratique entre les probabilités à postériori des classes et les probabilités désirées des données. Les deux approches sont validées expérimentalement sur des données réelles issues des bases d'images de chiffres manuscrits arabes USPS et indiens INDCENPARMI

Espace ÉTS