87 research outputs found

    Learning to compare nodes in branch and bound with graph neural networks

    Full text link
    En informatique, la résolution de problèmes NP-difficiles en un temps raisonnable est d’une grande importance : optimisation de la chaîne d’approvisionnement, planification, routage, alignement de séquences biologiques multiples, inference dans les modèles graphiques pro- babilistes, et même certains problèmes de cryptographie sont tous des examples de la classe NP-complet. En pratique, nous modélisons beaucoup d’entre eux comme un problème d’op- timisation en nombre entier, que nous résolvons à l’aide de la méthodologie séparation et évaluation. Un algorithme de ce style divise un espace de recherche pour l’explorer récursi- vement (séparation), et obtient des bornes d’optimalité en résolvant des relaxations linéaires sur les sous-espaces (évaluation). Pour spécifier un algorithme, il faut définir plusieurs pa- ramètres, tel que la manière d’explorer les espaces de recherche, de diviser une recherche l’espace une fois exploré, ou de renforcer les relaxations linéaires. Ces politiques peuvent influencer considérablement la performance de résolution. Ce travail se concentre sur une nouvelle manière de dériver politique de recherche, c’est à dire le choix du prochain sous-espace à séparer étant donné une partition en cours, en nous servant de l’apprentissage automatique profond. Premièrement, nous collectons des données résumant, sur une collection de problèmes donnés, quels sous-espaces contiennent l’optimum et quels ne le contiennent pas. En représentant ces sous-espaces sous forme de graphes bipartis qui capturent leurs caractéristiques, nous entraînons un réseau de neurones graphiques à déterminer la probabilité qu’un sous-espace contienne la solution optimale par apprentissage supervisé. Le choix d’un tel modèle est particulièrement utile car il peut s’adapter à des problèmes de différente taille sans modifications. Nous montrons que notre approche bat celle de nos concurrents, consistant à des modèles d’apprentissage automatique plus simples entraînés à partir des statistiques du solveur, ainsi que la politique par défaut de SCIP, un solveur open-source compétitif, sur trois familles NP-dures: des problèmes de recherche de stables de taille maximum, de flots de réseau multicommodité à charge fixe, et de satisfiabilité maximum.In computer science, solving NP-hard problems in a reasonable time is of great importance, such as in supply chain optimization, scheduling, routing, multiple biological sequence align- ment, inference in probabilistic graphical models, and even some problems in cryptography. In practice, we model many of them as a mixed integer linear optimization problem, which we solve using the branch and bound framework. An algorithm of this style divides a search space to explore it recursively (branch) and obtains optimality bounds by solving linear relaxations in such sub-spaces (bound). To specify an algorithm, one must set several pa- rameters, such as how to explore search spaces, how to divide a search space once it has been explored, or how to tighten these linear relaxations. These policies can significantly influence resolution performance. This work focuses on a novel method for deriving a search policy, that is, a rule for select- ing the next sub-space to explore given a current partitioning, using deep machine learning. First, we collect data summarizing which subspaces contain the optimum, and which do not. By representing these sub-spaces as bipartite graphs encoding their characteristics, we train a graph neural network to determine the probability that a subspace contains the optimal so- lution by supervised learning. The choice of such design is particularly useful as the machine learning model can automatically adapt to problems of different sizes without modifications. We show that our approach beats the one of our competitors, consisting of simpler machine learning models trained from solver statistics, as well as the default policy of SCIP, a state- of-the-art open-source solver, on three NP-hard benchmarks: generalized independent set, fixed-charge multicommodity network flow, and maximum satisfiability problems

    Apprentissage de métrique appliqué à la classification de textes par méthodes à noyaux

    Get PDF
    Dans cet article, nous proposons une méthode pour l'optimisation de la métrique d'un classifieur textuel à noyaux. Contrairement aux techniques populaires existantes, notre approche ne nécessite pas la définition explicite de règles sémantiques. Etant donné un ensemble d'apprentissage, l'algorithme proposé permet d'optimiser la matrice sémantique, sans qu'il soit nécessaire d'exhiber celle-ci. Les résultats expérimentaux montrent l'efficacité et l'utilité de la méthode proposée en classification de textes par SVM (Support Vector Machines)

    Analyse automatique de données par Support Vector Machines non supervisés

    Get PDF
    Cette dissertation présente un ensemble d'algorithmes visant à en permettre un usage rapide, robuste et automatique des « Support Vector Machines » (SVM) non supervisés dans un contexte d'analyse de données. Les SVM non supervisés se déclinent sous deux types algorithmes prometteurs, le « Support Vector Clustering » (SVC) et le « Support Vector Domain Description » (SVDD), offrant respectivement une solution à deux problèmes importants en analyse de données, soit la recherche de groupements homogènes (« clustering »), ainsi que la reconnaissance d'éléments atypiques (« novelty/abnomaly detection ») à partir d'un ensemble de données. Cette recherche propose des solutions concrètes à trois limitations fondamentales inhérentes à ces deux algorithmes, notamment I) l'absence d'algorithme d'optimisation efficace permettant d'exécuter la phase d'entrainement des SVDD et SVC sur des ensembles de données volumineux dans un délai acceptable, 2) le manque d'efficacité et de robustesse des algorithmes existants de partitionnement des données pour SVC, ainsi que 3) l'absence de stratégies de sélection automatique des hyperparamètres pour SVDD et SVC contrôlant la complexité et la tolérance au bruit des modèles générés. La résolution individuelle des trois limitations mentionnées précédemment constitue les trois axes principaux de cette thèse doctorale, chacun faisant l'objet d'un article scientifique proposant des stratégies et algorithmes permettant un usage rapide, robuste et exempt de paramètres d'entrée des SVDD et SVC sur des ensembles de données arbitraires

    Stratégie de perception active pour l'interprétation de scènes : Application à une scène routière

    Get PDF
    National audienceCet article décrit une méthode générique pour reconnaitre des objets donnés en cherchant à utiliser au mieux toutes les connaissances a priori disponibles de la scène. Chaque objet est composé d'un ensemble de parties. A chacune de ces parties sont associés une primitive et un détecteur pour la trouver. Les différentes étapes de l'approche seront alors : la focalisation des parties (c'est à dire qu'on détermine la zone de recherche des primitives associées), la sélection de la "meilleure partie" (celle qui a priori doit apporter le plus pour la reconnaissance de l'objet), la détection des primitives dans la zone associée à cette partie et la sélection de la meilleure primitive (celle qui correspond le plus à nos attentes) et enfin la mise à jour de l'objet compte tenu de la réussite (ou de l'échec) de la détection précédente. Ce papier décrit cette approche avec une application dédiée à une scène routière comprenant une route et un panneau de limitation de vitesse

    Combiner intelligence artificielle et programmation mathématique pour la planification des horaires des équipages en transport aérien

    Get PDF
    RÉSUMÉ: La recherche opérationnelle est un élément central de l’amélioration des horaires d’équipage. L’objectif est d’appliquer des algorithmes de programmation mathématique pour trouver des solutions optimales. Toutefois, cette approche présente un inconvénient important : les temps d’exécution sont longs et nécessitent souvent plusieurs jours pour converger. Cela réduit la valeur pratique d’une solution optimale puisqu’il n’est pas possible d’effectuer une nouvelle exécution avec de nouveaux réglages de paramètres. Étant donné que les horaires des transporteurs aériens sont fréquemment perturbés par des événements météorologiques pendant toute l’année, il est souhaitable de chercher de nouveaux moyens de réduire les durées d’exécution. Dans le cadre de cette thèse, on s’intéresse au problème de rotations d’équipage aériens ou CPP (Crew Pairing Problem), une des étapes de la planification des horaires d’équipage. Pour chaque catégorie d’équipage et chaque type de flotte d’aéronefs, le CPP consiste à trouver un ensemble de rotations à coût minimal afin que chaque vol actif soit effectué par un équipage, en respectant certaines conditions supplémentaires qui varient selon les applications et qui découlent généralement des accords de travail de chaque compagnie. Ce problème devient difficile à résoudre lorsque le nombre de vols augmente car le nombre de rotations possibles augmente de façon exponentielle (nombre de variables). La méthode la plus répandue depuis les années 1990 a été de résoudre le problème de partitionnement d’ensemble avec génération de colonnes insérée dans un algorithme de séparation et évaluation ou B&B (branch-&-bound). Lorsque le nombre de vols augmente dans un problème de rotations d’équipage, le temps pour le résoudre par génération de colonnes devient important. Le nombre d’itérations de génération de colonnes, le temps par itération pour résoudre le problème maître et le nombre de noeuds de branchement augmentent. La méthode d’agrégation dynamique des contraintes (DCA) accélère le problème maître en réduisant le nombre de contraintes de partitionnement définies dans le problème maître restreint en agrégeant en une seule contrainte chaque groupe de tâches qui devraient être consécutives dans la solution optimale. Ceci correspond à fixer temporairement à 1 des variables de connexion de vol. Ceci permet de remplacer toutes les contraintes de couverture des vols d’une grappe par une contrainte unique. L’algorithme modifie dynamiquement ces grappes pour atteindre la solution optimale si certaines prédictions étaient fausses. L’objectif de cette thèse est donc d’utiliser différentes méthodes d’apprentissage machine pour proposer des grappes de vols ayant une forte probabilité d’être effectués consécutivement par le même équipage, dans une solution optimale. Cette information alimente l’optimiseur de program mation mathématique pour terminer le travail en tenant compte de la fonction de coût exacte et des contraintes complexes. Dans le premier sujet de cette thèse, nous présentons une étude de cas sur l’utilisation d’algorithmes d’apprentissage machine pour initialiser solveur commercial à base de génération de colonnes à grande échelle (GENCOL) dans le contexte d’un problème hebdomadaire de rotations d’équipage aérien, où de petites économies de 1.0 % se traduisent par une augmentation des revenus annuels de dizaines de millions de dollars dans une grande compagnie aérienne. Nous nous concentrons sur le problème de la prédiction du prochain vol de correspondance d’un équipage, défini comme un problème de classification multiclasse formé à partir de données historiques, et nous concevons une approche de réseaux de neurones adaptée qui atteint une grande précision (99.7% au total ou 82.5% sur les cas plus difficiles). Nous démontrons l’utilité de notre approche en utilisant une heuristique simple pour combiner les prédictions de connexion de vols afin de former des grappes initiales de vols qui sont fournis comme information initiale au solveur GENCOL, ce qui donne une amélioration de vitesse 10x et jusqu’à 0.2% d’économie. Dans le second sujet de cette thèse, nous proposons de combiner de multiples méthodes d’optimisation mises en oeuvre, développées et testées sur de petits ensembles de données, afin d’obtenir un nouveau solveur efficace pour le problème de rotations d’équipes à grande échelle. Nous utilisons l’apprentissage machine pour proposer des grappes initiales pour un problème de rotations d’équipage important : des problèmes mensuels comportant jusqu’à 50 000 vols. Nous utilisons l’apprentissage machine, pour produire des grappes de vols ayant une forte probabilité d’être effectués consécutivement par le même équipage, dans une solution optimale. Un nouvel algorithme combinant plusieurs techniques avancées de recherche opérationnelle sera utilisé pour assembler et modifier ces grappes, au besoin, afin de produire une bonne solution. Cette nouvelle approche, en commençant par l’apprentissage machine et en terminant l’optimisation par la programmation mathématique, permettra de résoudre des problèmes globalement plus importants et d’éviter la perte d’optimalité résultant de la décomposition heuristique en petites périodes de temps dans l’approche à horizon fuyant. Nous montrons que les grappes produites par l’heuristique à base d’apprentissage machine sont mieux adaptées aux problèmes de rotations d’équipage, ce qui se traduit par une réduction moyenne du coût de la solution entre 6.8 et 8.52 %, qui est principalement dû à la réduction du coût des contraintes globales entre 69.79 et 78.11 %, par rapport aux rotations obtenus avec une solution initiale standard. Dans l’algorithme de génération de colonnes, une solution initiale réalisable est requise pour assurer la faisabilité du problème primal à chaque itération de génération de colonnes. De plus, il est évident, d’après les résultats expérimentaux dans la littérature, que si la qualité de la solution initiale est meilleure, la convergence de génération de colonnes est également plus rapide. Ainsi, une solution initiale de haute qualité devrait être générée dans un laps de temps plus court. Pour pouvoir proposer une telle solution initiale, on a besoin d’un algorithme d’apprentissage machine capable d’incorporer les contraintes locales dans le processus d’entraînement. Dans le troisième sujet de cette thèse, nous présentons donc les réseaux à noyaux convolutifs structurés (SCKN) qui combinent les propriétés des architectures d’apprentissage profond, la flexibilité non paramétrique des méthodes du noyau et les prédicteurs structurés. Plus précisément, nous montrons que l’utilisation supervisée de cette combinaison surpasse les méthodes de pointe en termes de sous-optimalité primale et de précision du test sur l’ensemble de données OCR. Nous appliquons cette méthode à un ensemble de données de prévision de connexions de vols pour proposer de bonnes solutions initiales à un solveur de planification des horaires d’équipage aérien. Les principaux résultats des calculs montrent que l’utilisation de l’approche proposée aboutit à de meilleures solutions avec des coûts significativement plus faibles, réduisant de 9.51 % le coût de la solution et de 80.25 % le coût des contraintes globales. De plus, l’utilisation de la solution obtenue pour relancer le processus d’optimisation donne de meilleurs résultats, réduisant encore le coût de la solution et fournissant une solution avec un coût très négligeable des contraintes globales et un nombre beaucoup plus réduit de repositionnements.----------ABSTRACT: A focal point for improving crew scheduling is the study of operations research methods, in order to find optimal solutions. However, this approach has a major drawback. While optimal solutions are possible to achieve, the run times are lengthy, often requiring days for convergence. This reduces the practical value of an optimal solution because there is limited ability to complete a re-run with new parameter settings. Given that air carrier schedules experience frequent year-round disruption from weather events, it is desirable to look for new ways to reduce run times thus making schedule re-generation quicker and more interactive. For each crew category and aircraft fleet type, the crew pairing problem (CPP) consists of finding a set of minimum-cost rotations so that each active flight is performed by a crew, under certain additional conditions that vary according to the applications and that generally result from the work agreements of each airline. This problem becomes difficult to solve when the number of flights increases because the number of possible rotations increases exponentially (number of variables). The most prevalent method since the 1990s has been the set partitioning problem with column generation inserted in branch-&-bound. When the number of flights increases in a CPP, the time to solve it by column generation becomes important. Specifically, the number of iterations and the time per iteration to solve the master problem and the number of branching nodes increase. The dynamic constraint aggregation (DCA) method accelerates the master problem by reducing the number of partitioning constraints defined in the restricted master problem by aggregating into a single constraint each group of tasks that should be consecutive in the optimal solution. This corresponds to temporarily fixing to one the flight-connection variables. This allows all flightcovering constraints for flights in a cluster to be replaced by a single constraint. The algorithm modifies the clusters dynamically to reach an optimal solution if some predictions were wrong. The objective of this thesis is therefore to use various machine learning methods to propose clusters of flights with a high probability of being performed consecutively by the same crew, in an optimal solution. This information feeds into the mathematical programming optimizer to complete the work taking into account the exact cost function and complex CPP constraints. In the first subject of this thesis, we present a case study of using machine learning classification algorithms to initialize a large-scale commercial operations research solver (GENCOL) in the context of a weekly airline CPP, where small savings of as little as 1% translate to increasing annual revenue by dozens of millions of dollars in a large airline. We focus on the problem of predicting the next connecting flight of a crew, framed as a multiclass classification problem trained from historical data, and design an adapted neural network approach that achieves high accuracy (99.7%) overall or 82.5% on harder instances). We demonstrate the utility of our approach by using simple heuristics to combine the flight-connection predictions to form initial crew-pairing clusters that are provided as initial information to the GENCOL solver, yielding a 10x speed improvement and up to 0.2% cost saving. In the second subject of this thesis, we propose to combine multiple optimization methods implemented, developed and tested on small datasets, in order to obtain an efficient new solver for large-scale CPPs. We use Machine Learning (ML) to propose a good initial partition for a large CPP: monthly problems with up to 50 000 flights. We use ML to produce clusters of flights having a high probability of being performed consecutively by the same crew, in an optimal solution. A new algorithm combining several advanced Operations Research techniques will be used to assemble and modify these clusters, when necessary, to produce a good solution. This new approach, starting with Machine Learning and finishing the optimization with Mathematical Programming will permit to solve globally larger problems and will avoid the loss of optimality resulting of heuristic decomposition in small time slices in the rolling horizon approach. We show that the clusters produced by ML-based heuristics are better suited for CPPs, resulting in an average reduction of solution cost between 6.8% and 8.52%, which is mainly due to the reduction in the cost of global constraints between 69.79% and 78.11%, when compared to pairings obtained with a standard initial solution. In the column generation algorithm, an initial feasible solution is required to ensure the feasibility of the primal problem at each iteration of column generation. Moreover, it is clear from the computational experiments in the literature that if the quality of the initial solution is better, the convergence of column generation is also faster. Thus, a high quality initial solution should be generated in a shorter period of time. To be able to propose such an initial solution, we need a Machine Learning algorithm that is able to integrate local constraints into the training process. In the third subject of this thesis, we therefore introduce a Structured Convolutional Kernel Network, or SCKN, which combines the properties of deep learning architectures, the non-parametric flexibility of kernel methods and the structured predictors. More precisely, we show that using this combination in a supervised fashion outperforms state of the art methods in terms of the primal sub-optimality as well as on the test accuracy on the OCR dataset. We apply this method on a Next-Flight-Prediction dataset to propose good initial solutions to an airline crew scheduling solver. The main computational results show that using our proposed approach yields better results with significantly smaller costs, reducing by 9.51% the solution cost and by 80.25% the cost of global constraints. Furthermore, using the obtained solution to re-launch the optimization process yields better results, further reducing the solution cost and providing a solution with a very negligible cost of global constraints and a much smaller number of deadheads

    Data Science

    Get PDF
    International audienceLa data science, ou science des données, est la discipline qui traite de la collecte, de la préparation, de la gestion, de l'analyse, de l'interprétation et de la visualisation de grands ensembles de données complexes. Elle n'est pas seulement concernée par les outils et les méthodes pour obtenir, gérer et analyser les données ; elle consiste aussi à en extraire de la valeur et de la connaissance. Cet ouvrage présente les fondements scientifiques et les composantes essentielles de la science des données, à un niveau accessible aux étudiants de master et aux élèves ingénieurs. Notre souci a été de proposer un exposé cohérent reliant la théorie aux algorithmes développés dans ces domaines. Il s'adresse aux chercheurs et ingénieurs qui abordent les problématiques liées à la science des données, aux data scientists de PME qui utilisent en profondeur les outils d'apprentissage, mais aussi aux étudiants de master, doctorants ou encore futurs ingénieurs qui souhaitent un ouvrage de référence en data science. À qui s'adresse ce livre ? • Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science. • Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning

    La sélection de variables en apprentissage d'ordonnancement pour la recherche d'information : vers une approche contextuelle

    Get PDF
    L'apprentissage d'ordonnancement, ou learning-to-rank, consiste à optimiser automatiquement une fonction d'ordonnancement apprise à l'aide d'un algorithme à partir de données d'apprentissage. Les approches existantes présentent deux limites. D'une part, le nombre de caractéristiques utilisées est généralement élevé, de quelques centaines à plusieurs milliers, ce qui pose des problèmes de qualité et de volumétrie. D'autre part, une seule fonction est apprise pour l'ensemble des requêtes. Ainsi, l'apprentissage d'ordonnancement ne prend pas en compte le type de besoin ou le contexte de la recherche. Nos travaux portent sur l'utilisation de la sélection de variables en apprentissage d'ordonnancement pour résoudre à la fois les problèmes de la volumétrie et de l'adaptation au contexte. Nous proposons cinq algorithmes de sélection de variables basés sur les Séparateurs à Vaste Marge (SVM) parcimonieux. Trois sont des approches de repondération de la norme L2, une résout un problème d'optimisation en norme L1 et la dernière considère des régularisations non convexes. Nos approches donnent de meilleurs résultats que l'état de l'art sur les jeux de données de référence. Elles sont plus parcimonieuses et plus rapides tout en permettant d'obtenir des performances identiques en matière de RI. Nous évaluons également nos approches sur un jeu de données issu du moteur commercial Nomao. Les résultats confirment la performance de nos algorithmes. Nous proposons dans ce cadre une méthodologie d'évaluation de la pertinence à partir des clics des utilisateurs pour le cas non étudié dans la littérature des documents multi-cliquables (cartes). Enfin, nous proposons un système d'ordonnancement adaptatif dépendant des requêtes basé sur la sélection de variables. Ce système apprend des fonctions d'ordonnancement spécifiques à un contexte donné, en considérant des groupes de requêtes et les caractéristiques obtenues par sélection pour chacun d'eux.Learning-to-rank aims at automatically optimizing a ranking function learned on training data by a machine learning algorithm. Existing approaches have two major drawbacks. Firstly, the ranking functions can use several thousands of features, which is an issue since algorithms have to deal with large scale data. This can also have a negative impact on the ranking quality. Secondly, algorithms learn an unique fonction for all queries. Then, nor the kind of user need neither the context of the query are taken into account in the ranking process. Our works focus on solving the large-scale issue and the context-aware issue by using feature selection methods dedicated to learning-to-rank. We propose five feature selection algorithms based on sparse Support Vector Machines (SVM). Three proceed to feature selection by reweighting the L2-norm, one solves a L1-regularized problem whereas the last algorithm consider nonconvex regularizations. Our methods are faster and sparser than state-of-the-art algorithms on benchmark datasets, while providing similar performances in terms of RI measures. We also evaluate our approches on a commercial dataset. Experimentations confirm the previous results. We propose in this context a relevance model based on users clicks, in the special case of multi-clickable documents. Finally, we propose an adaptative and query-dependent ranking system based on feature selection. This system considers several clusters of queries, each group defines a context. For each cluster, the system selects a group of features to learn a context-aware ranking function

    Sélection de modèles pour la classification supervisée avec des SVM (Séparateurs à Vaste Marge). Application en traitement et analyse d'images.

    Get PDF
    The objective of this thesis is to define learning systems based on SVM with good performance. These systems should take into account that the problems related to image processing and analysis may enter into conflict with the operational difficulties of SVM. Many of these issues are part of the broader framework of data mining, the definition of decision-making in real-time optimization of difficult problems and combination of sets of decision functions. The approaches proposed in this thesis to solve problems of various kinds can be used in other areas where the same problems are encountered.L’objectif de cette thèse est de définir des systèmes d’apprentissage à base de SVM performants. Ces systèmes doivent prendre en compte le fait que les problématiques liées au traitement et à l’analyse d’images puissent rentrer en conflit avec les difficultés d’exploitation des SVM. Plusieurs de ces problématiques s’inscrivent dans le cadre plus général de la fouille de données, de la définition de processus décisionnels en temps réel, de l’optimisation de problèmes difficiles et de la combinaison d’ensembles de fonctions de décision. Les approches proposées dans cette thèse pour résoudre des problèmes de natures différentes pourront être exploitées dans d’autres domaines où les mêmes problématiques sont rencontrées

    Contributions à l'analyse de fiabilité structurale : prise en compte de contraintes de monotonie pour les modèles numériques

    Get PDF
    This thesis takes place in a structural reliability context which involves numerical model implementing a physical phenomenon. The reliability of an industrial component is summarised by two indicators of failure,a probability and a quantile. The studied numerical models are considered deterministic and black-box. Nonetheless, the knowledge of the studied physical phenomenon allows to make some hypothesis on this model. The original work of this thesis comes from considering monotonicity properties of the phenomenon for computing these indicators. The main interest of this hypothesis is to provide a sure control on these indicators. This control takes the form of bounds obtained by an appropriate design of numerical experiments. This thesis focuses on two themes associated to this monotonicity hypothesis. The first one is the study of these bounds for probability estimation. The influence of the dimension and the chosen design of experiments on the bounds are studied. The second one takes into account the information provided by these bounds to estimate as best as possible a probability or a quantile. For probability estimation, the aim is to improve the existing methods devoted to probability estimation under monotonicity constraints. The main steps built for probability estimation are then adapted to bound and estimate a quantile. These methods have then been applied on an industrial case.Cette thèse se place dans le contexte de la fiabilité structurale associée à des modèles numériques représentant un phénomène physique. On considère que la fiabilité est représentée par des indicateurs qui prennent la forme d'une probabilité et d'un quantile. Les modèles numériques étudiés sont considérés déterministes et de type boîte-noire. La connaissance du phénomène physique modélisé permet néanmoins de faire des hypothèses de forme sur ce modèle. La prise en compte des propriétés de monotonie dans l'établissement des indicateurs de risques constitue l'originalité de ce travail de thèse. Le principal intérêt de cette hypothèse est de pouvoir contrôler de façon certaine ces indicateurs. Ce contrôle prend la forme de bornes obtenues par le choix d'un plan d'expériences approprié. Les travaux de cette thèse se concentrent sur deux thématiques associées à cette hypothèse de monotonie. La première est l'étude de ces bornes pour l'estimation de probabilité. L'influence de la dimension et du plan d'expériences utilisé sur la qualité de l'encadrement pouvant mener à la dégradation d'un composant ou d'une structure industrielle sont étudiées. La seconde est de tirer parti de l'information de ces bornes pour estimer au mieux une probabilité ou un quantile. Pour l'estimation de probabilité, l'objectif est d'améliorer les méthodes existantes spécifiques à l'estimation de probabilité sous des contraintes de monotonie. Les principales étapes d'estimation de probabilité ont ensuite été adaptées à l'encadrement et l'estimation d'un quantile. Ces méthodes ont ensuite été mises en pratique sur un cas industriel

    Apprentissage automatique avec garanties de généralisation à l'aide de méthodes d'ensemble maximisant le désaccord

    Get PDF
    Nous nous intéressons au domaine de l’apprentissage automatique, une branche de l’intelligence artificielle. Pour résoudre une tâche de classification, un algorithme d’apprentissage observe des données étiquetées et a comme objectif d’apprendre une fonction qui sera en mesure de classifier automatiquement les données qui lui seront présentées dans le futur. Plusieurs algorithmes classiques d’apprentissage cherchent à combiner des classificateurs simples en construisant avec ceux-ci un classificateur par vote de majorité. Dans cette thèse, nous explorons l’utilisation d’une borne sur le risque du classificateur par vote de majorité, nommée la C-borne. Celle-ci est définie en fonction de deux quantités : la performance individuelle des votants, et la corrélation de leurs erreurs (leur désaccord). Nous explorons d’une part son utilisation dans des bornes de généralisation des classificateurs par vote de majorité. D’autre part, nous l’étendons de la classification binaire vers un cadre généralisé de votes de majorité. Nous nous en inspirons finalement pour développer de nouveaux algorithmes d’apprentissage automatique, qui offrent des performances comparables aux algorithmes de l’état de l’art, en retournant des votes de majorité qui maximisent le désaccord entre les votants, tout en contrôlant la performance individuelle de ceux-ci. Les garanties de généralisation que nous développons dans cette thèse sont de la famille des bornes PAC-bayésiennes. Nous généralisons celles-ci en introduisant une borne générale, à partir de laquelle peuvent être retrouvées les bornes de la littérature. De cette même borne générale, nous introduisons des bornes de généralisation basées sur la C-borne. Nous simplifions également le processus de preuve des théorèmes PAC-bayésiens, nous permettant d’obtenir deux nouvelles familles de bornes. L’une est basée sur une différente notion de complexité, la divergence de Rényi plutôt que la divergence Kullback-Leibler classique, et l’autre est spécialisée au cadre de l’apprentissage transductif plutôt que l’apprentissage inductif. Les deux algorithmes d’apprentissage que nous introduisons, MinCq et CqBoost, retournent un classificateur par vote de majorité maximisant le désaccord des votants. Un hyperparamètre permet de directement contrôler leur performance individuelle. Ces deux algorithmes étant construits pour minimiser une borne PAC-bayésienne, ils sont rigoureusement justifiés théoriquement. À l’aide d’une évaluation empirique, nous montrons que MinCq et CqBoost ont une performance comparable aux algorithmes classiques de l’état de l’art.We focus on machine learning, a branch of artificial intelligence. When solving a classification problem, a learning algorithm is provided labelled data and has the task of learning a function that will be able to automatically classify future, unseen data. Many classical learning algorithms are designed to combine simple classifiers by building a weighted majority vote classifier out of them. In this thesis, we extend the usage of the C-bound, bound on the risk of the majority vote classifier. This bound is defined using two quantities : the individual performance of the voters, and the correlation of their errors (their disagreement). First, we design majority vote generalization bounds based on the C-bound. Then, we extend this bound from binary classification to generalized majority votes. Finally, we develop new learning algorithms with state-of-the-art performance, by constructing majority votes that maximize the voters’ disagreement, while controlling their individual performance. The generalization guarantees that we develop in this thesis are in the family of PAC-Bayesian bounds. We generalize the PAC-Bayesian theory by introducing a general theorem, from which the classical bounds from the literature can be recovered. Using this same theorem, we introduce generalization bounds based on the C-bound. We also simplify the proof process of PAC-Bayesian theorems, easing the development of new families of bounds. We introduce two new families of PAC-Bayesian bounds. One is based on a different notion of complexity than usual bounds, the Rényi divergence, instead of the classical Kullback-Leibler divergence. The second family is specialized to transductive learning, instead of inductive learning. The two learning algorithms that we introduce, MinCq and CqBoost, output a majority vote classifier that maximizes the disagreement between voters. An hyperparameter of the algorithms gives a direct control over the individual performance of the voters. These two algorithms being designed to minimize PAC-Bayesian generalization bounds on the risk of the majority vote classifier, they come with rigorous theoretical guarantees. By performing an empirical evaluation, we show that MinCq and CqBoost perform as well as classical stateof- the-art algorithms
    • …
    corecore