Search CORE

15 research outputs found

Constrained optimization under uncertainty for decision-making problems: Application to Real-Time Strategy games

Author: Antuori Valentin
Richoux Florian
Publication venue
Publication date: 23/04/2019
Field of study

Decision-making problems can be modeled as combinatorial optimization problems with Constraint Programming formalisms such as Constrained Optimization Problems. However, few Constraint Programming formalisms can deal with both optimization and uncertainty at the same time, and none of them are convenient to model problems we tackle in this paper. Here, we propose a way to deal with combinatorial optimization problems under uncertainty within the classical Constrained Optimization Problems formalism by injecting the Rank Dependent Utility from decision theory. We also propose a proof of concept of our method to show it is implementable and can solve concrete decision-making problems using a regular constraint solver, and propose a bot that won the partially observable track of the 2018 {\mu}RTS AI competition. Our result shows it is possible to handle uncertainty with regular Constraint Programming solvers, without having to define a new formalism neither to develop dedicated solvers. This brings new perspective to tackle uncertainty in Constraint Programming.Comment: Published at the 2019 IEEE Congress on Evolutionary Computation (CEC'19

arXiv.org e-Print Archive

Guider la recherche arborescente pour la résolution de problèmes industriels : apprentissage par renforcement et méthodes de Monte Carlo

Author: Antuori Valentin
Publication venue: HAL CCSD
Publication date: 08/07/2022
Field of study

The resolution of many operations research problems, and more precisely combinatorial optimization problems relies on tree search algorithms. In an industrial context, combinatorial problems are usually very large and/or must be solved in a small amount of time.Consequently, the complete exploration of the search tree is often impossible, and tree-based methods should rely on their capacity to quickly find the most promising areas of the search space.It is frequent that the same problem must be solved periodically, while incorporating slight variations. Thus, machine learning seems well suited to design heuristics to guide tree search in a context where we can expect historical data sets to be highly representative of the current problem.Moreover, such an approach would allow to specialize heuristics by training the same model on several datasets from different contexts for the same problem. This learning phase, which is offline, can also be combined with an online learning mechanism. Such a mechanism allows the algorithm to adapt itself to the problem even more precisely.In this thesis, we are interested in the use of reinforcement learning methods, and Monte Carlo methods for solving industrial combinatorial problems. More precisely, we propose two approaches to guide the exploration of a tree search. The first approach consists in designing a heuristic based on a linear combination of relevant criteria for the problem.The weights of this linear combination are learnt with a reinforcement learning algorithm, and the resulting heuristic is integrated into a tree search algorithm. The second approach is a Monte Carlo tree search combined with a depth-first search, with the objective of discovering which part of the tree to explore. These two approaches are studied in two industrial application cases. The first one is the problem of routing items between machines in an assembly line while respecting the production rates. The second one is a packing problem in inbound logistics, in which we have to fill trucks while respecting constraints related to the order of the suppliers visit and on axle load balance. For these two problems, the proposed approaches outperform the methods used in the company.La résolution de nombreux problèmes de recherche opérationnelle et plus spécifiquement de problèmes d'optimisation combinatoire, s'appuie sur des algorithmes de recherche arborescente. Dans un contexte industriel, il est fréquent que les problèmes combinatoires traités soient de très grande taille et/ou qu'on ne dispose seulement que d’un faible budget temporel à consacrer à leurs résolutions. Dès lors l'exploration complète de l’arbre de recherche est impossible, et la qualité d’une méthode arborescente repose alors sur sa capacité à s'orienter rapidement vers les zones de l’espace de recherche les plus prometteuses.Il est fréquent qu'un même problème doive être résolu de manière périodique, tout en intégrant de légères variations. Il apparaît alors que la conception d’une heuristique pour guider la recherche arborescente peut passer par l’apprentissage automatique. Il semble aussi possible d'utiliser un modèle d'apprentissage, entraîné sur un ensemble de données, sur de nouvelles données qui n'auraient que très peu varier.De plus, une telle approche permettrait de spécialiser les heuristiques en entraînant le même modèle sur plusieurs ensembles de données issus de contextes différents pour un même problème. Cet apprentissage qui se fait en amont de la résolution peut également être combiné à un mécanisme d’apprentissage lors de la résolution du problème. Un tel mécanisme permet à l’algorithme une adaptation au problème plus précise encore.Dans ce manuscrit nous nous intéressons à l'apport de méthodes d'apprentissage par renforcement et de méthodes de Monte Carlo pour la résolution de problèmes d’optimisation combinatoire issus de besoins industriels. Plus particulièrement, nous proposons deux approches dont le but est de guider l’exploration d’un arbre de recherche. La première approche consiste à concevoir une heuristique basée sur une combinaison linéaire de critères pertinents pour le problème, critères pouvant provenir de connaissances métier. Les poids de cette combinaison linéaire sont réglés via un algorithme d’apprentissage par renforcement, et l’heuristique obtenue est intégrée dans un algorithme de recherche arborescente. La seconde approche est une recherche arborescente de Monte Carlo combinée avec une recherche en profondeur d’abord. Le but est alors de découvrir, par l'expérience, quelle partie de l’arbre explorer. Ces deux approches peuvent être combinées et sont suffisamment génériques pour être adaptées aux deux problèmes industriels que nous étudions dans ce manuscrit. Le premier problème concerne la planification du déplacement de chariots pour transporter des pièces dans un atelier d’assemblage tout en respectant les cadences de production. Le second est un problème de chargement de camions en logistique amont comportant des contraintes liées à l’ordre de passage chez les fournisseurs et aux réglementations sur l’équilibre de la charge aux essieux. Pour ces deux problèmes les approches proposées surpassent les méthodes utilisées dans l’entreprise

Thèses en Ligne

Guider la recherche arborescente pour la résolution de problèmes industriels : apprentissage par renforcement et méthodes de Monte Carlo

Author: Antuori Valentin
Publication venue: HAL CCSD
Publication date: 08/07/2022
Field of study

Scientific Publications of the University of Toulouse II Le Mirail

Guider la recherche arborescente pour la résolution de problèmes industriels : apprentissage par renforcement et méthodes de Monte Carlo

Author: Antuori Valentin
Publication venue: HAL CCSD
Publication date: 08/07/2022
Field of study

HAL-INSA Toulouse

Guiding tree search for industrial problem solving : reinforcement learning and Monte Carlo methods

Author: Antuori Valentin
Publication venue
Publication date: 08/07/2022
Field of study

La résolution de nombreux problèmes de recherche opérationnelle et plus spécifiquement de problèmes d'optimisation combinatoire, s'appuie sur des algorithmes de recherche arborescente. Dans un contexte industriel, il est fréquent que les problèmes combinatoires traités soient de très grande taille et/ou qu'on ne dispose seulement que d’un faible budget temporel à consacrer à leurs résolutions. Dès lors l'exploration complète de l’arbre de recherche est impossible, et la qualité d’une méthode arborescente repose alors sur sa capacité à s'orienter rapidement vers les zones de l’espace de recherche les plus prometteuses.Il est fréquent qu'un même problème doive être résolu de manière périodique, tout en intégrant de légères variations. Il apparaît alors que la conception d’une heuristique pour guider la recherche arborescente peut passer par l’apprentissage automatique. Il semble aussi possible d'utiliser un modèle d'apprentissage, entraîné sur un ensemble de données, sur de nouvelles données qui n'auraient que très peu varier.De plus, une telle approche permettrait de spécialiser les heuristiques en entraînant le même modèle sur plusieurs ensembles de données issus de contextes différents pour un même problème. Cet apprentissage qui se fait en amont de la résolution peut également être combiné à un mécanisme d’apprentissage lors de la résolution du problème. Un tel mécanisme permet à l’algorithme une adaptation au problème plus précise encore.Dans ce manuscrit nous nous intéressons à l'apport de méthodes d'apprentissage par renforcement et de méthodes de Monte Carlo pour la résolution de problèmes d’optimisation combinatoire issus de besoins industriels. Plus particulièrement, nous proposons deux approches dont le but est de guider l’exploration d’un arbre de recherche. La première approche consiste à concevoir une heuristique basée sur une combinaison linéaire de critères pertinents pour le problème, critères pouvant provenir de connaissances métier. Les poids de cette combinaison linéaire sont réglés via un algorithme d’apprentissage par renforcement, et l’heuristique obtenue est intégrée dans un algorithme de recherche arborescente. La seconde approche est une recherche arborescente de Monte Carlo combinée avec une recherche en profondeur d’abord. Le but est alors de découvrir, par l'expérience, quelle partie de l’arbre explorer. Ces deux approches peuvent être combinées et sont suffisamment génériques pour être adaptées aux deux problèmes industriels que nous étudions dans ce manuscrit. Le premier problème concerne la planification du déplacement de chariots pour transporter des pièces dans un atelier d’assemblage tout en respectant les cadences de production. Le second est un problème de chargement de camions en logistique amont comportant des contraintes liées à l’ordre de passage chez les fournisseurs et aux réglementations sur l’équilibre de la charge aux essieux. Pour ces deux problèmes les approches proposées surpassent les méthodes utilisées dans l’entreprise.The resolution of many operations research problems, and more precisely combinatorial optimization problems relies on tree search algorithms. In an industrial context, combinatorial problems are usually very large and/or must be solved in a small amount of time.Consequently, the complete exploration of the search tree is often impossible, and tree-based methods should rely on their capacity to quickly find the most promising areas of the search space.It is frequent that the same problem must be solved periodically, while incorporating slight variations. Thus, machine learning seems well suited to design heuristics to guide tree search in a context where we can expect historical data sets to be highly representative of the current problem.Moreover, such an approach would allow to specialize heuristics by training the same model on several datasets from different contexts for the same problem. This learning phase, which is offline, can also be combined with an online learning mechanism. Such a mechanism allows the algorithm to adapt itself to the problem even more precisely.In this thesis, we are interested in the use of reinforcement learning methods, and Monte Carlo methods for solving industrial combinatorial problems. More precisely, we propose two approaches to guide the exploration of a tree search. The first approach consists in designing a heuristic based on a linear combination of relevant criteria for the problem.The weights of this linear combination are learnt with a reinforcement learning algorithm, and the resulting heuristic is integrated into a tree search algorithm. The second approach is a Monte Carlo tree search combined with a depth-first search, with the objective of discovering which part of the tree to explore. These two approaches are studied in two industrial application cases. The first one is the problem of routing items between machines in an assembly line while respecting the production rates. The second one is a packing problem in inbound logistics, in which we have to fill trucks while respecting constraints related to the order of the suppliers visit and on axle load balance. For these two problems, the proposed approaches outperform the methods used in the company

Theses.fr

Guider la recherche arborescente pour la résolution deproblèmes industriels : apprentissage par renforcement etméthodes de Monte Carlo

Author: Antuori Valentin
Publication venue: HAL CCSD
Publication date: 08/07/2022
Field of study

National audienceThe resolution of many operation research problems, and more precisely combinatorialoptimization problems relies on tree search algorithms. In an industrialcontext, combinatorial problems are usually very large and/or must be solved in asmall amount of time. Consequently, the complete exploration of the search tree isoften impossible, and tree-based methods should rely on their capacity to quicklyfind the most promising areas of the search space.It is frequent that the same problem must be solved periodically, while incorporatingslight variations. Thus, machine learning seems well suited to design heuristicsto guide tree search in a context where we can expect historical data sets to behighly representative of the current problem.Moreover, such an approach would allow to specialize heuristics by trainingthe same model on several datasets from different contexts for the same problem.This learning phase, which is offline, can also be combined with an online learningmechanism. Such a mechanism allows the algorithm to adapt itself to the problemeven more precisely.In this thesis, we are interested in the use of reinforcement learning methods, andMonte Carlo methods for solving industrial combinatorial problems. More precisely,we propose two approaches to guide the exploration of a tree search. The firstapproach consists in designing a heuristic based on a linear combination of relevantcriteria for the problem. The weights of this linear combination are learnt with areinforcement learning algorithm, and the resulting heuristic is integrated into atree search algorithm. The second approach is a Monte Carlo tree search combinedwith a depth-first search, with the objective of discovering which part of the tree toexplore. These two approaches are studied in two industrial application cases. Thefirst one is the problem of routing items between machines in an assembly line whilerespecting the production rates. The second one is a packing problem in inboundlogistics, in which we have to fill trucks while respecting constraints related to theorder of the suppliers visit and on axle load balance. For these two problems, theproposed approaches outperform the methods used in the company.La résolution de nombreux problèmes de recherche opérationnelle et plus spécifiquementde problèmes d’optimisation combinatoire, s’appuie sur des algorithmesde recherche arborescente. Dans un contexte industriel, il est fréquent que les problèmescombinatoires traités soient de très grande taille et/ou qu’on ne disposeseulement que d’un faible budget temporel à consacrer à leurs résolutions. Dès lorsl’exploration complète de l’arbre de recherche est impossible, et la qualité d’uneméthode arborescente repose alors sur sa capacité à s’orienter rapidement vers leszones de l’espace de recherche les plus prometteuses.Il est fréquent qu’un même problème doive être résolu de manière périodique,tout en intégrant de légères variations. Il apparaît alors que la conception d’uneheuristique pour guider la recherche arborescente peut passer par l’apprentissageautomatique. Il semble ainsi possible d’utiliser un modèle d’apprentissage, entraînésur un ensemble de données, sur de nouvelles données qui n’auraient que très peuvariées.De plus, une telle approche permettrait de spécialiser les heuristiques en entraînantle même modèle sur plusieurs ensembles de données issus de contextesdifférents pour un même problème. Cet apprentissage qui se fait en amont de larésolution peut également être combiné à un mécanisme d’apprentissage lors de larésolution du problème. Un tel mécanisme permet à l’algorithme une adaptation auproblème plus précise encore.Dans ce manuscrit nous nous intéressons à l’apport de méthodes d’apprentissagepar renforcement et de méthodes de Monte Carlo pour la résolution de problèmesd’optimisation combinatoire issus de besoins industriels. Plus particulièrement, nousproposons deux approches dont le but est de guider l’exploration d’un arbre de recherche.La première approche consiste à concevoir une heuristique basée sur unecombinaison linéaire de critères pertinents pour le problème, critères pouvant provenirde connaissances métier. Les poids de cette combinaison linéaire sont réglésvia un algorithme d’apprentissage par renforcement, et l’heuristique obtenue estintégrée dans un algorithme de recherche arborescente. La seconde approche estune recherche arborescente de Monte Carlo combinée avec une recherche en profondeurd’abord. Le but est alors de découvrir, par l’expérience, quelle partie del’arbre explorer. Ces deux approches peuvent être combinées et sont suffisammentgénériques pour être adaptées aux deux problèmes industriels que nous étudionsdans ce manuscrit. Le premier problème concerne la planification du déplacementde chariots pour transporter des pièces dans un atelier d’assemblage tout en respectantles cadences de production. Le second est un problème de chargement decamions en logistique amont comportant des contraintes liées à l’ordre de passagechez les fournisseurs et aux réglementations sur l’équilibre de la charge aux essieux.Pour ces deux problèmes les approches proposées surpassent les méthodes utiliséesdans l’entreprise

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL-INSA Toulouse

Hal-Diderot

Guider la recherche arborescente pour la résolution deproblèmes industriels : apprentissage par renforcement etméthodes de Monte Carlo

Author: Antuori Valentin
Publication venue: HAL CCSD
Publication date: 08/07/2022
Field of study

Hal-Diderot