22 research outputs found

    Benchmarking the BFGS Algorithm on the BBOB-2009 Noisy Testbed

    Get PDF
    International audienceThe BFGS quasi-Newton method is benchmarked on the noisy BBOB-2009 testbed. A multistart strategy is applied with a maximum number of function evaluations of about 10^4 times the search space dimension

    KL-based Control of the Learning Schedule for Surrogate Black-Box Optimization

    Get PDF
    This paper investigates the control of an ML component within the Covariance Matrix Adaptation Evolution Strategy (CMA-ES) devoted to black-box optimization. The known CMA-ES weakness is its sample complexity, the number of evaluations of the objective function needed to approximate the global optimum. This weakness is commonly addressed through surrogate optimization, learning an estimate of the objective function a.k.a. surrogate model, and replacing most evaluations of the true objective function with the (inexpensive) evaluation of the surrogate model. This paper presents a principled control of the learning schedule (when to relearn the surrogate model), based on the Kullback-Leibler divergence of the current search distribution and the training distribution of the former surrogate model. The experimental validation of the proposed approach shows significant performance gains on a comprehensive set of ill-conditioned benchmark problems, compared to the best state of the art including the quasi-Newton high-precision BFGS method

    Self-Adaptive Surrogate-Assisted Covariance Matrix Adaptation Evolution Strategy

    Get PDF
    This paper presents a novel mechanism to adapt surrogate-assisted population-based algorithms. This mechanism is applied to ACM-ES, a recently proposed surrogate-assisted variant of CMA-ES. The resulting algorithm, saACM-ES, adjusts online the lifelength of the current surrogate model (the number of CMA-ES generations before learning a new surrogate) and the surrogate hyper-parameters. Both heuristics significantly improve the quality of the surrogate model, yielding a significant speed-up of saACM-ES compared to the ACM-ES and CMA-ES baselines. The empirical validation of saACM-ES on the BBOB-2012 noiseless testbed demonstrates the efficiency and the scalability w.r.t the problem dimension and the population size of the proposed approach, that reaches new best results on some of the benchmark problems.Comment: Genetic and Evolutionary Computation Conference (GECCO 2012) (2012

    A Computationally Efficient Limited Memory CMA-ES for Large Scale Optimization

    Full text link
    We propose a computationally efficient limited memory Covariance Matrix Adaptation Evolution Strategy for large scale optimization, which we call the LM-CMA-ES. The LM-CMA-ES is a stochastic, derivative-free algorithm for numerical optimization of non-linear, non-convex optimization problems in continuous domain. Inspired by the limited memory BFGS method of Liu and Nocedal (1989), the LM-CMA-ES samples candidate solutions according to a covariance matrix reproduced from mm direction vectors selected during the optimization process. The decomposition of the covariance matrix into Cholesky factors allows to reduce the time and memory complexity of the sampling to O(mn)O(mn), where nn is the number of decision variables. When nn is large (e.g., nn > 1000), even relatively small values of mm (e.g., m=20,30m=20,30) are sufficient to efficiently solve fully non-separable problems and to reduce the overall run-time.Comment: Genetic and Evolutionary Computation Conference (GECCO'2014) (2014

    TREGO: a Trust-Region Framework for Efficient Global Optimization

    Full text link
    Efficient Global Optimization (EGO) is the canonical form of Bayesian optimization that has been successfully applied to solve global optimization of expensive-to-evaluate black-box problems. However, EGO struggles to scale with dimension, and offers limited theoretical guarantees. In this work, a trust-region framework for EGO (TREGO) is proposed and analyzed. TREGO alternates between regular EGO steps and local steps within a trust region. By following a classical scheme for the trust region (based on a sufficient decrease condition), the proposed algorithm enjoys global convergence properties, while departing from EGO only for a subset of optimization steps. Using extensive numerical experiments based on the well-known COCO {bound constrained problems}, we first analyze the sensitivity of TREGO to its own parameters, then show that the resulting algorithm is consistently outperforming EGO and getting competitive with other state-of-the-art black-box optimization methods

    The Hessian Estimation Evolution Strategy

    Full text link
    We present a novel black box optimization algorithm called Hessian Estimation Evolution Strategy. The algorithm updates the covariance matrix of its sampling distribution by directly estimating the curvature of the objective function. This algorithm design is targeted at twice continuously differentiable problems. For this, we extend the cumulative step-size adaptation algorithm of the CMA-ES to mirrored sampling. We demonstrate that our approach to covariance matrix adaptation is efficient by evaluation it on the BBOB/COCO testbed. We also show that the algorithm is surprisingly robust when its core assumption of a twice continuously differentiable objective function is violated. The approach yields a new evolution strategy with competitive performance, and at the same time it also offers an interesting alternative to the usual covariance matrix update mechanism

    Thèse d'habilitation à diriger des recherches "Analysis of Comparison-based Stochastic Continuous Black-Box Optimization Algorithms"

    Get PDF
    This manuscript presents a large part of my research since the end of my PhD. Most of mywork is related to numerical (also referred to as continuous) optimization, at the exception of onecontribution done during my postdoc in Zurich introducing a new stochastic algorithm to simulatechemical or biochemical systems [23].The optimization algorithms at the core of my work are adaptive derivative-free stochastic (orrandomized) optimization methods. The algorithms are tailored to tackle dificult numerical optimizationproblems in a so-called black-box context where the objective function to be optimized isseen as a black-box. For a given input solution, the black-box returns solely the objective functionvalue but no gradient or higher order derivatives are assumed. The optimization algorithm canuse the information returned by the black-box, i.e. the history of function values associated tothe queried search points, but no other knowledge that could be within the black-box (parametersdescribing the class of functions the function belongs to, ...). This black-box context is verynatural in industrial settings where the function to be optimized can be given by an executablefile for which the source code is not provided. It is also natural in situations where the functionis given by a large simulation code from which it is hard to extract any useful information for theoptimization.This context is also called derivative-free optimization (DFO) in the mathematical optimizationcommunity. Well-known DFO methods are the Nelder-Mead algorithm [79, 77], pattern searchmethods [54, 90, 6] or more recently the NEW Unconstraint Optimization Algorithm (NEWUOA)developed by Powell [82, 81].In this context, I have been focusing on DFO methods in the literal sense. However the methodsmy research is centered on have a large stochastic component and originate from the community ofbio-inspired algorithms mainly composed of computer scientists and engineers. The methods wereintroduced at the end of the 70's. A parallel with Darwin's theory of the evolution of species basedon blind variation and natural selection was recognized and served as source of inspiration for thosemethods. Nowadays this field of bio-inspired methods is referred to as evolutionary computation(EC) and a generic term for the methods is evolutionary algorithms. The probably most famousexamples of bio-inspired methods are genetic algorithms (GAs). However today GAs are known tobe not competitive for numerical optimization. Evolution Strategies (ES) introduced in the endof the 70's [83] have emerged as the main sub-branch of EC devoted to continuous optimization.One important feature of ES is that they are comparison-based algorithms. The present mostadvanced ES algorithm, the Covariance Matrix Adaptation Evolution Strategy (CMA-ES) [50]is a variable metric method recognized as the state-of-the-art method for stochastic numericaloptimization. It is used in many applications in industry and academy.Because of historical reasons, the developments and work on Evolution Strategies are mainlycarried out in the EC field where practice and effectiveness is definitely as (or more) importantas having a theorem proven about an algorithm. However ES algorithms are simply adaptivestochastic iterative methods and they need to be studied from a mathematical perspective aswell as any other iterative method in optimization or other domain in order to understand themethods better and convince a broader class of people about their soundness. Questions like theirconvergence and speed of convergence central in optimization need to be addressed.My research is encompassed within this general context: I am particularly interested by themathematical aspects of adaptive stochastic methods like ES (and of course CMA-ES) or moregenerally adaptive stochastic optimization algorithms. Evolution strategies have this attractivefacet that while introduced in the bio-inspired and engineering context, they turn out to bemethods with deep theoretical foundations related to invariance, information geometry, stochasticapproximation and strongly connected to Markov chain Monte Carlo (MCMC) algorithms. Thosefoundations and connections are relatively new and to a small (for some topics) or large (forothers) extent partly related to some of my contributions. They will be explained within themanuscript. I particularly care that the theory I am working on relates to practical algorithms orhas an impact on (new) algorithm designs. I attempt to illustrate this within the manuscript.While optimization is the central theme of my research, I have been tackling various aspect ofoptimization. Although most of my work is devoted to single-objective optimization, I have alsobeen working on multi-objective optimization where the goal is to optimize simultaneously severalconflicting objectives and where instead of a single solution, a set of solutions, the so-called Paretoset composed of the best compromises is searched.In the field of single-objective optimization, I have been tackling diverse contexts like noisyoptimization where for a given point in a search space we do not observe one deterministic valuebut a distribution of possible function values, large-scale optimization where one is interested intackling problems of the order of 104 (medium large-scale) to 106 variables (large-scale) and to asmaller extent constrained optimization.In addition to investigating theoretical questions, I have been also working on designing newalgorithms that calls for theory complemented with numerical simulations. Last I have tackledsome applications mainly in the context of the PhD of Mohamed Jebalia with an application inchromatography and of the PhD of Zyed Bouzarkouna (PhD financed by the French Institute forpetrol) on the placement of oil wells.Furthermore, a non neglect-able part of my research those past years has been devoted tobenchmarking of algorithms. Benchmarking complements theory as it is difficult to assess theoreticallythe performance of algorithms on all typical functions one is interested. The mainmotivation has then been to improve the standards on how benchmarking is done. Those contributionswere done along with the development of the Comparing COntinuous Optimizers platform(COCO).My work is articulated around three main complementary axis, namely theory / algorithmdesign and applications. An overview of the contributions presented within this habilitationorganized along those axes is given in Figure 3.1.Ce mémoire décrit l'essentiel de mon travail scientifique depuis la fin de ma thèse. Mes travauxsont centrés sur l'optimisation numérique dite "boîte-noire" à l'exception d'un article effectuédurant mon séjour post-doctoral à l'ETH Zurich qui introduit un nouvel algorithme d'optimisationstochastique pour simuler des systèmes en chimie ou bio-chimie [23].Les algorithmes d'optimisation au coeur de mon travail sont des algorithmes adaptatifs sansdérivées et stochastiques. Ils sont particulièrement adaptés à l'optimisation de problèmes difficiles dans des contextes oèu la fonction n'est accessible qu'à travers une \boîte-noire" retournantl'information d'ordre zero, c'est-à-dire que la seule information disponible et utilisable parl'algorithme sont les couples (points de l'espace de recherche, valeur de fonction objectif associée).Ce contexte est très courant dans l'industrie oèu les problèmes d'optimisation rencontrés font appelà des codes de simulations numériques pour lesquels, souvent, simplement un executable du codeest disponible. L'aspect "sans-dérivées" est aussi très commun car le calcul d'un gradient (quiprésuppose la fonction sous-jacente dérivable) sur des codes de simulations numériques, par exempleen utilisant une méthode d'adjoint ou de differentiation automatique peut ^etre couteux entemps de développement. Il est par ailleurs usuel que la formulation d'un problème d'optimisationchange au fur et à mesure de sa résolution, adapter le code de calcul de gradient peut alors s'avérertrès lourd et peut motiver l'utilisation d'une méthode d'optimisation boîte-noire.Ce contexte d'optimisation boîte-noire s'appelle également optimisation sans dérivées dans lacommunauté \mathematical programming" et l'acronyme anglais associé est DFO pour \derivativefree optimization". Les méthodes qualifiées de DFO sont généralement deterministes. Lesméthodes DFO les plus connues à l'heure actuelle sont l'algorithme du simplexe ou de Nelder-Mead [79, 77], les algorithmes de "pattern search" [54, 90, 6] et l'algorithme NEWUOA (NEWUnconstraint Optimization Algorithm) développé par Powell [82, 81]. Ce dernier algorithme est àl'heure actuelle considéré comme l'algorithme DFO déterministe état de l'art.Mon travail porte ainsi sur des méthodes DFO au sens littéral du terme. En revanche, lesméthodes auxquelles je me suis intéressées ont une large composante stochastique et ont étédéveloppées dans la communauté des algorithmes bio-inspirés qui se compose essentiellementd'ingénieurs et d'informaticiens. Les premiers algorithmes ont été introduits dans les années70. Un parallèle entre la théorie de Darwin de l'évolution des espèces et l'optimisation a servià l'origine de source d'inspiration pour leur développement. A l'heure actuelle, ce domaine desméthodes bio-inspirées est également appelé \Evolutionary Computation". Un terme génériquepour les algorithmes est algorithme évolutionnaire (EA). Pour beaucoup de chercheurs (dont je faispartie) dans ce domaine, l'aspect bio-inspiré n'est plus présent et le développement des algorithmesest seulement motivé par des considérations mathématiques et numériques.Parmi les algorithmes évolutionnaires, les algorithmes génétiques (GA) sont probablementencore les plus célèbres en dehors de la communauté EC. En revanche, les GAs ne sont pasdes algorithmes compétitifs pour l'optimisation numérique{ce fait est reconnu depuis plus d'unedizaine d'années. Les strategies d'évolutions (ES), introduites à la fin des annéees 70 [83], se sont imposées comme les algorithmes évolutionnaires pour l'optimisation numérique. A l'heure actuelle,l'algorithme ES le plus abouti est l'algorithme Covariance Matrix Adaptation Evolution Strategy(CMA-ES) [50]. L'algorithme adapte un vecteur Gaussien (paramétré par vecteur moyenne etmatrice de covariance) qui encode la métrique sous-jacente. Cette métrique apprend sur desfonctions convexes quadratiques l'information d'ordre 2, c'est à dire que la matrice de covariancedevient proportionnelle à l'inverse de la matrice Hessienne. Ainsi, CMA-ES peut ^etre vu comme lependant stochastique d'une méthode de quasi-Newton. Une particularité essentielle de CMA-ESet des ES en général est d^u au fait qu'ils n'utilisent que des comparaisons pour les difrérentesmises à jour. Plus précisément, nous avons vu que les ESs sont des algorithmes d'optimisationsans dérivées, ils n'utilisent cependant qu'une information \dégradée" de ce que la boîte-noire leurfournit, à savoir simplement le résultat de la comparaison des solutions candidates, i.e. étant donnédeux solutions x1 et x2, est ce que f(x1) est plus grand ou plus petit que f(x2). En conséquenceils optimisent de la m^eme façcon une fonction f : Rn ! R ou n'importe quelle fonction g o f oùg : f(Rn) ! R est une fonction strictement croissante: ils sont invariants à la composition àgauche par une fonction monotone strictement croissante.L'algorithme CMA-ES est reconnu comme la méthode état de l'art pour l'optimisation stochastiquenumérique. Il est utilisé dans de nombreuses applications dans l'industrie ou dans le mondeacadémique.Pour des raisons historiques, les algorithmes ESs ont été développés dans la communauté ECoù la mise au point d'un algorithme est la plupart du temps découplée du soucis de prouverun théorème de convergence sur la méthode et repose essentiellement sur l'utilisation de modèlesmathématiques approximatifs simplifiés et de simulations numériques sur des fonctions tests. Bienque ce découplage entre mise au point pratique et théorie puisse ^etre vu comme un inconvenient,il présente l'avantage que le développement d'une méthode n'est pas restreinte (ou bridée) parune contrainte technique liée à une preuve mathématique. Cela a permis à un algorithme commeCMA-ES de voir le jour bien avant que l'on comprenne certains de ses fondements théoriques etbien avant que l'on puisse établir une preuve de convergence. En revanche, cela implique aussique les études théoriques de convergence par exemple s'avèrent relativement compliquées.Ma recherche se situe dans ce contexte général: je suis particulièrement intéressée par l'étudemathématique d'algorithmes adaptatifs stochastiques comme les algorithmes ESs (en particulierCMA-ES) et par l'établissement de preuves de convergence. Ces algorithmes ont une particularité attractive: bien qu'introduits dans un contexte où les performances pratiques sont plusimportantes que les preuves théoriques, ils s'avèrent avoir des fondements mathématiques profondsliés en particulier aux notions d'invariance et de géométrie de l'information. Par ailleurs, ilss'inscrivent dans le cadre plus général d'algorithmes d'approximation stochastique et ils sont fortementconnectés aux méthodes Monte-Carlo par chaînes de Markov (MCMC). Ces deux dernierspoints fournissent des outils mathématiques puissants pour établir des preuves de convergence(linéaire). La comprehension de ces fondements et connexions est reliée en partie à mon travailcomme cela sera illustré dans ce mémoire.J'ai abordé plusieurs facettes de l'optimisation numérique. Bien que l'essentiel de mes travauxporte sur l'optimisation mono-objectif, i.e. minimizer f : X Rn ! R, j'ai également travaillé en optimisation multi-objectif, i.e. où l'on s'intéresse à minimiser une fonction vectoriellef : X Rn ! Rk. Dans ce cas là, la notion d'optimum est remplacée par celle d'ensemblede points de Pareto composé des meilleurs compromis possibles. Mes contributions portent surl'étude d'algorithmes à base d'hypervolume qui quantifient la qualité d'un ensemble de solutionsen calculant le volume compris entre les solutions et un point de reference. Les algorithmes utilisantl'hypervolume sont à l'heure actuelle les algorithmes état de l'art. Nous avons pu établirdes caractérisations théoriques de l'ensemble des solutions optimales au sens de l'hypervolume.En optimisation mono-objectif, j'ai travaillé sur l'optimisation bruitée où étant donné un point del'espace de recherche, on observe une distribution de valeurs de fonction objectif, sur l'optimisationà grande échelle où l'on s'intéresse à l'optimisation de problèmes avec de l'ordre de 104 à 106 variableset sur l'optimisation sous contrainte.Mes travaux s'articulent autour de trois grands axes: théorie / nouveaux algorithmes / applications (voir Figure 3.1). Ces trois axes sont complémentaires et couplés: par exemple, la miseau point de nouveaux algorithmes repose sur l'établissement de bornes théoriques de convergenceet est ensuite complémentée par des simulations numériques. Ceci est illustré au Chapitre 6. Parailleurs le développement d'algorithmes pour l'optimisation en grande dimension repose sur laconnexion entre CMA-ES et la géométrie de l'information (voir Chapitre 4). Un autre exemplede complémentarité est le suivant: les applications abordées notamment pour l'optimisation duplacement de puits de pétrole ont motivé l'introduction de nouvelles variantes de CMA-ES (voirChapitre 9).Par ailleurs, une partie non négligeable de mes travaux porte sur le test (benchmarking)d'algorithmes. La motivation principale est d'améliorer les méthodologies pour tester et comparerles algorithmes d'optimisation numériques. Ces travaux ont été accompagnés du développementd'une plateforme, Comparing COntinuous Optimizers (COCO) et ont un impact maintenant surla mise au point de nouveaux algorithmes mais également sur le test d'hypothèses théoriques
    corecore