Search CORE

32 research outputs found

Accélération de méthodes de résolution classiques par l'utilisation de stratégies de séparation locale comme outil d'hybridation

Author: Rei Walter
Publication venue
Publication date: 01/01/2006
Field of study

Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal

Dépôt Institutionnel Numérique

On the vehicle routing problem with stochastic demands and duration constraints: formulations and a hybrid metaheuristic

Author: Mendoza Jorge E.
Rousseau Louis-Martin
Villegas Juan
Publication venue: HAL CCSD
Publication date: 01/01/2013
Field of study

International audienceThe vehicle routing problem with stochastic demands (VRPSD) consists in designing transportation routes of minimal expected cost to satisfy a set of customers with random demands of known probability distributions. In this research we present two strategies to deal with route duration constraints in the VRPSD. To solve the resulting problem, we proposed a greedy randomized adaptive search procedure (GRASP) with a post optimization procedure. The GRASP component uses a set of randomized route-first, cluster-second heuristics to generate starting solutions and a variable neighborhood descent (VND) procedure to carry on the local search phase. The post optimizer selects the best possible routes to assemble the final solution from the set of all routes found in the local optima reached by the GRASP. We discuss extensive computational experiments analysing the cost of considering route duration constraints on the VRPSD. In addition, we report state-of-the-art solutions for a established set of benchmarks for the classical VRPSD

Okina

Nouvelles coupes pour le problème de tournées de véhicule avec demandes stochastiques

Author: Leuliet Alexandre
Publication venue
Publication date: 01/12/2014
Field of study

RÉSUMÉ : Dans ce mémoire, on se propose de résoudre le problème de tournées de véhicules avec demandes stochastiques à l’aide de l’algorithme L-shaped en nombres entiers. Des coupes de type LBF (Lower Bounding Functionals) sont générées pour accélérer la résolution. Le problème est semblable aux problèmes de tournées de véhicules classiques mais considère que les demandes des clients sont des variables aléatoires dont la valeur n’est révélée qu’au moment de leur visite. Ces variables suivent une loi Normale, sont indépendantes et identiquement distribuées. Le problème est formulé comme un programme stochastique en deux étapes en nombres entiers. Les variables de décisions de première étape servent à définir des routes a priori qui devront minimiser le coût total espéré de parcours. Chaque fois qu’un véhicule arrive chez un client, si la demande ne peut pas être servie en totalité alors on dit qu’un échec apparaît. Dans une telle situation, les décisions de seconde étape sont prises et consistent à effectuer un aller-retour entre le client courant et le dépôt pour se recharger ou se décharger en marchandise. Ce recours est communément appelé le recours simple. Une étape préliminaire à la résolution consiste à relaxer le modèle en enlevant temporairement les contraintes de capacité et d’élimination de sous-tours ainsi que les contraintes d’intégrité. La fonction de recours est remplacée par une variable réelle positive représentant une borne inférieure sur le coût de recours espéré. L’intégrité des variables est retrouvée grâce à une procédure d’énumération implicite. Les contraintes de capacité et de sous-tours violées sont ajoutées dynamiquement au modèle chaque fois qu’elles sont identifiées. Des coupes d’optimalité sont générées et assurent la convergence de l’algorithme vers la solution optimale. Pour accélérer le processus de résolution par rapport à ce qui existe déjà dans la littérature, on développe deux nouvelles familles de coupes LBF. Les premières sont basées sur l’identification de chaînes dans les solutions intermédiaires rencontrées aux différents nœuds de l’arbre d’énumération. Ces coupes sont ajoutées chaque fois qu’on en identifie une qui est violée par la solution courante. Elles imposent à la borne inférieure sur le coût de recours de prendre une certaine valeur si la solution courante visite les clients des chaînes dans le même ordre. Les deuxièmes sont basées sur des ensembles non structurés de noeuds. Elles sont générées de façon semblable aux coupes LBF précédentes et présentent L’avantage d’être actives sur un plus grand ensemble de solutions entières et fractionnaires. La contrepartie à cela est la faiblesse de la borne associée. Pour identifier les coupes violées, on a développé des algorithmes de séparation heuristiques basés sur un même principe. Celui-ci préconise leur construction en augmentant la taille de l’ensemble des variables concernées de façon itérative jusqu’à ce que la borne de la coupe associée soit suffisante pour constituer une coupe violée. Enfin, on produit des tests numériques sur un ensemble riche d’instances qui prouvent l’efficacité de nos travaux puisque nous résolvons 13 nouvelles instances de la littérature en moins de 10000 secondes. De plus, on réduit les temps de calcul des instances résolues de 30% en moyenne.----------ABSTRACT : In this master’s thesis, we intend to solve the vehicle routing problem with stochastic demands by means of an integer L-shaped algorithm. We use lower bounding functionals (LBF) to speed up the resolution process. The problem is similar to classic vehicle routing problems, except that customer demands are random variables which values are only revealed when they are visited. These variables follow a normal distribution and are independantly and equally distributed. The problem is formulated as an integer two-stages stochastic programming model. The first stage decision variables are used to define a priori routes designed to minimize the total expected recourse cost. Each time a vehicle reaches a client, if his demand can’t be fully served then a failure is said to occur. In such a situation, second-stage decisions are made and consist in returning to the depot to load or unload goods and going back to the current client to resume the planned route. This recourse action is commonly referred to as the simple recourse. A preliminary step to the resolution consists in relaxing the model by temporarily removing To identify violated cuts, we developped heuristic separation procedures based on one principle. Their purpose is to construct cuts by increasing iteratively the size of the involved variables set until the associated lower bound is enough to form a violated cut. Finally, we produce numerical experiments involving a rich set of instances which prove the efficiency of our work as 13 new instances from the literature could be solved to optimality in less than 10000 seconds. Moreover, we reduce the computing times of the solved instances by 30% on average

PolyPublie

Un algorithme de génération de colonnes pour le problème de tournées de véhicule avec demandes stochastiques

Author: Gauvin Charles
Publication venue
Publication date: 01/12/2012
Field of study

RÉSUMÉ : Ce mémoire présente un algorithme exact de génération de colonnes avec plans coupants pour le problème de tournées de véhicules avec demandes stochastiques. Nous posons le problème comme un programme stochastique en deux étapes en nombres entiers et adoptons une formulation se basant sur le graphe espace-état associé. Nous utilisons ensuite la décomposition de Dantzig-Wolfe pour produire un problème maître de partitionnement d'ensemble et un sous-problème de plus court chemin avec contraintes de ressources. Nous proposons de résoudre ce modèle à l'aide d'un algorithme exploitant des techniques à la fine pointe de l'état de l'art. Lors de la résolution du sous-problème, nous ne nous limitons pas uniquement aux routes sans 2-cycles; nous effectuons également des expériences avec les

ng

-routes ainsi qu'avec les chemins élémentaires. Pour implémenter ces concepts et éliminer de plus grands cycles, nous ajoutons des ressources de visite binaires indiquant si un client peut encore être visité dans une prolongation de la route élémentaire courante. Afin de résoudre le sous-problème, nous utilisons un algorithme d'étiquetage bidirectionnel tirant parti de l'acyclicité du graphe espace-état et qui considère uniquement une fois chaque nœud. Dans le but de limiter le nombre d'étiquettes générées à chaque itération de cette procédure, nous introduisons une règle de dominance améliorée qui exploite la structure du graphe sous-jacent. Nous utilisons également le concept de clients non atteignables pour favoriser l'élimination d'étiquettes inutiles. Par ailleurs, nous implantons une méthode de recherche taboue qui accélère l'obtention de chemins réalisables de coût réduit négatif. Pour augmenter la borne inférieure trouvée à chaque itération de l'algorithme de génération de colonnes, nous ajoutons deux types d'inégalités valides au problème maître: des contraintes de capacité et des contraintes de sous-ensemble de lignes. Nous modifions la structure du sous-problème afin de prendre en compte ces coupes que nous générons dynamiquement à chaque nœud de branchement de façon heuristique. Si l'algorithme de séparation ne parvient pas à trouver d'inégalités valides suffisamment violées par la solution fractionnaire actuelle, alors nous procédons à un branchement basé sur les inter-tâches. Finalement, nous présentons des résultats numériques qui démontrent la compétitivité de notre algorithme. Notre méthode permet effectivement de résoudre 20 nouvelles instances tirées de la littérature en moins de 20 minutes en plus d'accélérer considérablement la résolution des instances déjà résolues. Seulement 2 des 40 instances de notre ensemble de tests demeurent irrésolues.----------ABSTRACT : This master's thesis presents an exact branch-cut-and-price algorithm for the vehicle Routing problem with stochastic demands. We formulate the problem as a two stage integer stochastic program with fixed recourse and adopt a formulation based on the associated space-capacity graph. We explain how this model can be transformed into a set partitioning master problem and an associated shortest path problem with resource constraint subproblem using Dantzig-Wolfe decomposition. We use a column generation algorithm based on state of the art techniques. During the resolution of the subproblem, we do not limit ourselves to the generation of routes without 2-cycles. We also experiment with

ng

-routes as well as elementary routes. In order to implement these concepts and eliminate larger cycles, we introduce additional binary resource variables each indicating wether a client can be visited by an extension of the current route. We use a bidirectional label setting algorithm that exploits the acyclicity of the underlying graph and only needs to consider each vertex exactly once. To limit the number of labels that can be generated at any iteration of that algorithm, we introduce an improved dominance rule that exploits the structure of the space-capacity graph. We also promote elimination of dominated labels by using the concept of unreachable vertices. In addition, we utilize a tabu search heuristic to speed up the identification of feasible negative reduced cost routes. To improve the lower bound found at each iteration of the column generation procedure, we introduce valid inequalities in the master problem. We specifically consider capacity cuts and Subset-Row Inequalities. We identify violated cuts dynamically at each node of the Branch-and-Bound tree by using a heuristic procedure. If the separation algorithm fails to identify violated cuts, we proceed to normal branching based on inter-tasks. The dominance rule and structure of the subproblem are modified to take these new inequalities into account. Finally, we present numerical results that prove the competitiveness of our algorithm. Indeed, we manage to solve to optimality 20 new instances taken from the literature in less than 20 minutes and we considerably improve the computational time for those already closed. Only 2 out of the 40 instances of our test set remain unsolved

PolyPublie

Problème de tournées de véhicules multipériodiques : classification et heuristique pour la planification tactique

Author: Mourgaya M.
Vanderbeck F.
Publication venue
Publication date: 01/01/2006
Field of study

Numérisation de Documents Anciens Mathématiques

Recourse policies in the vehicle routing problem with stochastic demands

Author: Salavati-Khoshghalb Majid
Publication venue
Publication date: 01/09/2017
Field of study

Dans le domaine de la logistique, de nombreux problèmes pratiques peuvent être formulés comme le problème de tournées de véhicules (PTV). Dans son image la plus large, le PTV vise à concevoir un ensemble d’itinéraires de collecte ou de livraison des marchandises à travers un ensemble de clients avec des coûts minimaux. Dans le PTV déterministe, tous les paramètres du problème sont supposés connus au préalable. Dans de nombreuses variantes de la vie réelle du PTV, cependant, ils impliquent diverses sources d’aléatoire. Le PTV traite du caractère aléatoire inhérent aux demandes, présence des clients, temps de parcours ou temps de service. Les PTV, dans lesquels un ou plusieurs paramètres sont stochastiques, sont appelés des problèmes stochastiques de tournées de véhicules (PSTV). Dans cette dissertation, nous étudions spécifiquement le problème de tournées de véhicules avec les demandes stochastiques (PTVDS). Dans cette variante de PSTV, les demandes des clients ne sont connues qu’en arrivant à l’emplacement du client et sont définies par des distributions de probabilité. Dans ce contexte, le véhicule qui exécute une route planifiée peut ne pas répondre à un client, lorsque la demande observée dépasse la capacité résiduelle du véhicule. Ces événements sont appelés les échecs de l’itinéraire; dans ce cas, l’itinéraire planifié devient non-réalisable. Il existe deux approches face aux échecs de l’itinéraire. Au client où l’échec s’est produit, on peut récupérer la realisabilite en exécutant un aller-retour vers le dépôt, pour remplir la capacité du véhicule et compléter le service. En prévision des échecs d’itinéraire, on peut exécuter des retours préventifs lorsque la capacité résiduelle est inférieure à une valeur seuil. Toutes les décisions supplémentaires, qui sont sous la forme de retours au dépôt dans le contexte PTVDS, sont appelées des actions de recours. Pour modéliser le PTVDS, une politique de recours, régissant l’exécution des actions de recours, doit être conçue. L’objectif de cette dissertation est d’élaborer des politiques de recours rentables, dans lesquelles les conventions opérationnelles fixes peuvent régir l’exécution des actions de recours. Nous fournissons un cadre général pour classer les conventions opérationnelles fixes pour être utilisées dans le cadre PTVDS. Dans cette classification, les conventions opérationnelles fixes peuvent être regroupées dans (i) les politiques basées sur le volume, (ii) les politiques basées sur le risque et (iii) les politiques basées sur le distance. Les politiques hybrides, dans lesquelles plusieurs règles fixes sont incorporées, peuvent être envisagées. Dans la première partie de cette thèse, nous proposons une politique fixe basée sur les règles, par laquelle l’exécution des retours préventifs est régie par les seuils prédéfinis. Nous proposons notamment trois politiques basées sur le volume qui tiennent compte de la capacité du véhicule, de la demande attendue du prochain client et de la demande attendue des clients non visités. La méthode “Integer L-Shaped" est réaménagée pour résoudre le PTVDS selon la politique basée sur les règles. Dans la deuxième partie, nous proposons une politique de recours hybride, qui combine le risque d’échec et de distance à parcourir en une seule règle de recours, régissant l’exécution des recours. Nous proposons d’abord une mesure de risque pour contrôler le risque d’échec au prochain client. Lorsque le risque d’échec n’est ni trop élevé ni trop bas, nous utilisons une mesure de distance, ce qui compare le coût de retour préventif avec les coûts d’échecs futurs. Dans la dernière partie de cette thèse, nous développons une méthodologie de solution exacte pour résoudre le VRPSD dans le cadre d’une politique de restockage optimale. La politique de restockage optimale résulte d’un ensemble de seuils spécifiques au client, de sorte que le coût de recours prévu soit réduit au minimum.In the field of logistics, many practical problems can be formulated as the vehicle routing problem (VRP). In its broadest picture, the VRP aims at designing a set of vehicle routes to pickup or delivery goods through a set of customers with the minimum costs. In the deterministic VRP, all problem parameters are assumed known beforehand. The VRPs in real-life applications, however, involve various sources of uncertainty. Uncertainty is appeared in several parameters of the VRPs like demands, customer, service or traveling times. The VRPs in which one or more parameters appear to be uncertain are called stochastic VRPs (SVRPs). In this dissertation, we examine vehicle routing problem with stochastic demands (VRPSD). In this variant of SVRPs, the customer demands are only known upon arriving at the customer location and are defined through probability distributions. In this setting, the vehicle executing a planned route may fail to service a customer, whenever the observed demand exceeds the residual capacity of the vehicle. Such occurrences are called route failures; in this case the planned route becomes infeasible. There are two approaches when facing route failures. At the customer where the failure occurred, one can recover routing feasibility by executing back-and-forth trips to the depot to replenish the vehicle capacity and complete the service. In anticipation of route failures, one can perform preventive returns whenever the residual capacity falls below a threshold value. All the extra decisions, which are in the form of return trips to the depot in the VRPSD context, preserving routing feasibility are called recourse actions. To model the VRPSD, a recourse policy, governing the execution of such recourse actions, must be designed. The goal of this dissertation is to develop cost-effective recourse policies, in which the fixed operational conventions can govern the execution of recourse actions. In the first part of this dissertation, we propose a fixed rule-based policy, by which the execution of preventive returns is governed through the preset thresholds. We particularly introduce three volume based policies which consider the vehicle capacity, expected demand of the next customer and the expected demand of the remaining unvisited customers. Then, the integer L-shaped algorithm is redeveloped to solve the VRPSD under the rule-based policy. The contribution with regard to this study has been submitted to the Journal of Transportation Science. In the second part, we propose a hybrid recourse policy, which combines the risk of failure and distances-to-travel into a single recourse rule, governing the execution of recourse actions. We employ a risk measure to control the risk of failure at the next customer. When the risk of failure is neither too high nor too low, we apply a distance measure, which compares the preventive return cost with future failures cost. The contribution with regard to this study has been submitted to the EURO Journal on Transportation and Logistics. In the last part of this dissertation, we develop an exact solution methodology to solve the VRPSD under an optimal restocking policy. The optimal restocking policy derives a set of customer-specific thresholds such that the expected recourse cost is minimized. The contribution with regard to this study will be submitted to the European Journal of Operational Research

Dépôt Institutionnel Numérique

Développement d'algorithmes dynamiques et stochastiques pour le problème de transport de patients dans les hôpitaux

Author: Torkhani Mohamed Zied
Publication venue
Publication date
Field of study

Ce mémoire traite un problème de transport de personnes dans un contexte hospitalier, connu sous le nom du problème de brancardier. L'objectif est de construire des itinéraires qui répondent aux demandes de transports émergentes entre les différents services d'un grand centre hospitalier en temps réel, en minimisant le temps total de retard pondéré. Ce problème est traité comme un problème de cueillettes et de livraisons multitrajets qui considère des fenêtres de temps souples, une flotte hétérogène de véhicules et des contraintes liées à la capacité. Les requêtes de transport de patients sont imprévisibles et dynamiques. Elles sont révélées lorsqu'un patient nécessite un service de transport pour des raisons médicales. Ce travail présente trois approches de résolution du problème de transport de patients, à noter une première approche statique, une deuxième dynamique et une troisième stochastique. De plus, une stratégie d'attente et deux stratégies de relocalisation de véhicules ont été développées. Les approches sont évaluées sur des données réelles d'un grand hôpital, le Policlinico Sant'Orsola-Malpighi de la mairie de Bologne en Italie.The following study presents the problem of transportation of patients in the medical field. Demand in this context is unpredictable and revealed dynamically. The objective is to develop an algorithm capable of constructing efficient and effective routes in real time while minimizing the total weighted lateness. This problem is considered as a multitrip pickup and delivery problem with soft time windows, heterogeneous fleet, and capacity constraints. This work presents a detailed description of the discussed problem and proposes three approaches to solve it: a static approach, a dynamic approach and a stochastic one. Moreover, it presents a waiting and two relocalisation strategies. These approaches have all been tested and evaluated using real data collected from the medical campus of Policlinico Sant'Orsola-Malpighi of the town Hall of Bologne in Italy

CorpusUL

Deep Learning and Reinforcement Learning for Inventory Control

Author: Khanidahaj Zahra
Publication venue
Publication date: 01/12/2018
Field of study

RÉSUMÉ : La gestion d’inventaire est l’un des problèmes les plus importants dans la fabrication de produits. Les décisions de commande sont prises par des agents qui observent les demandes, stochastiques, ainsi que les informations locales tels que le niveau d’inventaire afin de prendre des décisions sur les prochaines valeurs de commande. Étant donné que l’inventaire sur place (la quantité disponible de stock en inventaire), les demandes non satisfaites (commandes en attente), et l’existence de commander sont coûteux, le problème d’optimisation est conçu afin de minimiser les coûts. Par conséquent, la fonction objective est de réduire le coût à long terme) dont les composantes sont des inventaires en stock, commandes en attente linéaires (pénalité), et des coûts de commandes fixes. Généralement, des algorithmes de processus de décision markovien, et de la programmation dynamique, ont été utilisés afin de résoudre le problème de contrôle d’inventaire. Ces algorithmes ont quelques désavantages. Ils sont conçus pour un environnement avec des informations disponibles, telles que la capacité de stockage ou elles imposent des limitations sur le nombre d’états. Résultat, les algorithmes du processus de décision markovien, et de la programmation dynamique sont inadéquats pour les situations mentionnées ci hauts, à cause de de la croissance exponentielle de l’espace d’état. En plus, les plus fameuses politique de getsion d’inventaire, telles que politiques standards et ne fonctionne que dans les systèmes où les demandes d’entrées obtiennent une distribution statistique connues. Afin de résoudre le problème, un apprentissage par renforcement approximée est développé dans le but d’éviter les défaillances mentionnées ci hauts. Ce projet applique une technique d’apprentissage de machine nommé ‘Deep Q-learning’, qui est capable d’apprendre des politiques de contrôle en utilisant directement le ‘end-to-end RL’, malgré le nombre énorme d’états. Aussi, le modèle est un ‘Deep Neural Network’ (DNN), formé avec une variante de ‘Q-learning’, dont l’entrée et la sortie sont l’information locale d’inventaire et la fonction de valeur utilisée pour estimer les récompenses futures, respectivement. Le Deep Q-learning, qui s’appelle ‘Deep Q-Network’ (DQN), est l’une des techniques pionnières ‘DRL’ qui inclut une approche à base de simulation dans laquelle les approximations d’actions sont menées en utilisant un réseau DNN. Le système prend des décisions sur les valeurs de commande. Étant donnée que la fonction de coût est calculée selon l’ordre ‘O’ et le niveau d’inventaire ‘IL’, les valeurs desquelles sont affectées par la demande ‘D’, la demande d’entrée ainsi que l’ordre et le niveau d’inventaire peuvent être considérés en tant qu’information individuelle d’inventaire. De plus, il y a un délai de mise en œuvre exprimant la latence dans l’envoi des informations et dans la réception des commandes. Le délai de mise en œuvre fournit davantage d’information locale incluant ‘IT’ et ‘OO’. Le ‘IT’ et ‘OO’ sont calculés et suivis durant les périodes de temps différents afin d’explorer plus d’informations sur l’environnement de l’agent d’inventaire. Par ailleurs, la principale information individuelle et la demande correspondante comprennent les états d’agents. Les systèmes ‘PO’ sont davantage observés dans les modèles à étapes multiples dont les agents peuvent ne pas être au courant de l’information individuelle des autres agents. Dans le but de créer une approche basée sur le ‘ML’ et fournir quelques aperçus dans la manière de résoudre le type d’agent multiple ‘PO’ du problème actuel de contrôle d’inventaire, un agent simple est étudié. Cet un agent examine si on peut mettre sur pied une technique ‘ML’ basée sur le ‘DL’ afin d’aider à trouver une décision de valeur de commande quasi optimale basée sur la demande et information individuelle sur une période à long terme. Afin de le réaliser, dans un premier temps, la différence entre la valeur de commande (action) et la demande comme résultat d’un ‘DNN’ est estimée. Ensuite, la commande est mise à jour basée sur la commande à jour et la demande suivante. Enfin, le coût total (récompense cumulative) dans chaque étape de temps est mis à jour. En conséquence, résoudre le problème de valeur de commande d’agent simple suffit pour diminuer le coût total sur le long terme. Le modèle développé est validé à l’aide de différents ratios des coefficients de coût. Aussi, le rendement de la présente méthode est considéré satisfaisant en comparaison avec le ‘RRL’ (RL de régression), la politique et le politique . Le RL de régression n’est pas capable d’apprendre aussi bien et avec autant de précision que le ‘DQN’. En dernier lieu, des recherches supplémentaires peuvent être menées afin d’observer les réseaux de chaînes d’approvisionnement multi-agents en série partiellement observables.----------ABSTRACT : Inventory control is one of the most significant problems in product manufacturing. A decision maker (agent) observes the random stochastic demands and local information of inventory such as inventory levels as its inputs to make decisions about the next ordering values as its actions. Since inventory on-hand (the available amount of stock in inventory), unmet demands (backorders), and the existence of ordering are costly, the optimization problem is designed to minimize the cost. As a result, the objective function is to reduce the long-run cost (cumulative reward) whose components are linear holding, linear backorder (penalty), and fixed ordering costs. Generally, Markov Decision Process (MDP) and Dynamic Programming (DP) algorithms have been utilized to solve the inventory control problem. These algorithms have some drawbacks. They are designed for the environment with available local information such as holding capacity or they impose limitations on the number of the states while these information and limitations are not available in some cases such as Partially Observable (PO) environments. As a result, DP or MDP algorithms are not suitable for the above-mentioned conditions due to the enormity of the state spaces. In addition, the most famous inventory management policies such as normal and policies are desirable only for the systems whose input demands obtain normal distribution. To solve the problem, an approximate Reinforcement Learning (RL) is developed so as to avoid having the afore-mentioned shortcomings. This project applies a Machine Leaning (ML) technique termed Deep Q-learning, which is able to learn control policies directly using end-to-end RL, even though the number of states is enormous. Also, the model is a Deep Neural Network (DNN), trained with a variant of Q-learning, whose input and output are the local information of inventory and the value function utilized to estimate future rewards, respectively. Deep Q-learning, which is also called Deep Q-Network (DQN), is one of the types of the pioneer Deep Reinforcement Learning (DRL) techniques that includes a simulation-based approach in which the action approximations are carried out using a Deep Neural Network (DNN). To end this, the agents observe the random stochastic demands and make decisions about the ordering values. Since the cost function is calculated in terms of Order (O) and Inventory Level (IL) whose values are affected by Demand (D), input demand as well as the order and inventory level can be considered as the individual information of the inventory. Also, there is a lead-time expressing the latency on sending information or receiving orders. The lead-time provides more local information including Inventory Transit (IT) and On-Order (OO). IT and OO are calculated and tracked during different time periods so as to explore more information about the environment of the inventory agent. Furthermore, the main individual information and the corresponding demand comprise the states of the agent. PO systems are observed more in multi-stage models whose agents can be unaware of the individual information of the other agents. In order to create a ML-based approach and provide some insight into how to resolve the PO multi-agent type of the present inventory control problem, a single-agent is studied. This agent examines if one can implement a ML technique based on Deep Learning (DL) to assist to learn near-optimal ordering value decision based on demand and individual information over long-run time. To achieve this, first, the difference between the ordering value (action) and demand as the output of a DNN is approximated. Then, the order is updated after observing the next demand. Next, the main individual information of the agent called input features of a DNN is updated based on the updated order and the following demand. Lastly, the total cost (cumulative reward) in each time step is updated. Accordingly, solving the ordering value problem of single-agent suffices to diminish the total cost over long-run time. The developed model is validated using different ratios of the cost coefficients. Also, the performance of the present method is found to be satisfactory in comparison with Regression Reinforcement Learning (Regression RL), policy, and policy. The regression RL is not able to learn as well and accurately as DQN. Finally, further research can be directed to solve the partial-observable multi-agent supply chain networks

PolyPublie

Learning-Based Matheuristic Solution Methods for Stochastic Network Design

Author: Sarayloo Fatemeh
Publication venue
Publication date: 01/09/2018
Field of study

Cette dissertation consiste en trois études, chacune constituant un article de recherche. Dans tous les trois articles, nous considérons le problème de conception de réseaux multiproduits, avec coût fixe, capacité et des demandes stochastiques en tant que programmes stochastiques en deux étapes. Dans un tel contexte, les décisions de conception sont prises dans la première étape avant que la demande réelle ne soit réalisée, tandis que les décisions de flux de la deuxième étape ajustent la solution de la première étape à la réalisation de la demande observée. Nous considérons l’incertitude de la demande comme un nombre fini de scénarios discrets, ce qui est une approche courante dans la littérature. En utilisant l’ensemble de scénarios, le problème mixte en nombre entier (MIP) résultant, appelé formulation étendue (FE), est extrêmement difficile à résoudre, sauf dans des cas triviaux. Cette thèse vise à faire progresser le corpus de connaissances en développant des algorithmes efficaces intégrant des mécanismes d’apprentissage en matheuristique, capables de traiter efficacement des problèmes stochastiques de conception pour des réseaux de grande taille. Le premier article, s’intitulé "A Learning-Based Matheuristc for Stochastic Multicommodity Network Design". Nous introduisons et décrivons formellement un nouveau mécanisme d’apprentissage basé sur l’optimisation pour extraire des informations concernant la structure de la solution du problème stochastique à partir de solutions obtenues avec des combinaisons particulières de scénarios. Nous proposons ensuite une matheuristique "Learn&Optimize", qui utilise les méthodes d’apprentissage pour déduire un ensemble de variables de conception prometteuses, en conjonction avec un solveur MIP de pointe pour résoudre un problème réduit. Le deuxième article, s’intitulé "A Reduced-Cost-Based Restriction and Refinement Matheuristic for Stochastic Network Design". Nous étudions comment concevoir efficacement des mécanismes d’apprentissage basés sur l’information duale afin de guider la détermination des variables dans le contexte de la conception de réseaux stochastiques. Ce travail examine les coûts réduits associés aux variables hors base dans les solutions déterministes pour guider la sélection des variables dans la formulation stochastique. Nous proposons plusieurs stratégies pour extraire des informations sur les coûts réduits afin de fixer un ensemble approprié de variables dans le modèle restreint. Nous proposons ensuite une approche matheuristique utilisant des techniques itératives de réduction des problèmes. Le troisième article, s’intitulé "An Integrated Learning and Progressive Hedging Method to Solve Stochastic Network Design". Ici, notre objectif principal est de concevoir une méthode de résolution capable de gérer un grand nombre de scénarios. Nous nous appuyons sur l’algorithme Progressive Hedging (PHA), ou les scénarios sont regroupés en sous-problèmes. Nous intégrons des methodes d’apprentissage au sein de PHA pour traiter une grand nombre de scénarios. Dans notre approche, les mécanismes d’apprentissage developpés dans le premier article de cette thèse sont adaptés pour résoudre les sous-problèmes multi-scénarios. Nous introduisons une nouvelle solution de référence à chaque étape d’agrégation de notre ILPH en exploitant les informations collectées à partir des sous problèmes et nous utilisons ces informations pour mettre à jour les pénalités dans PHA. Par conséquent, PHA est guidé par les informations locales fournies par la procédure d’apprentissage, résultant en une approche intégrée capable de traiter des instances complexes et de grande taille. Dans les trois articles, nous montrons, au moyen de campagnes expérimentales approfondies, l’intérêt des approches proposées en termes de temps de calcul et de qualité des solutions produites, en particulier pour traiter des cas très difficiles avec un grand nombre de scénarios.This dissertation consists of three studies, each of which constitutes a self-contained research article. In all of the three articles, we consider the multi-commodity capacitated fixed-charge network design problem with uncertain demands as a two-stage stochastic program. In such setting, design decisions are made in the first stage before the actual demand is realized, while second-stage flow-routing decisions adjust the first-stage solution to the observed demand realization. We consider the demand uncertainty as a finite number of discrete scenarios, which is a common approach in the literature. By using the scenario set, the resulting large-scale mixed integer program (MIP) problem, referred to as the extensive form (EF), is extremely hard to solve exactly in all but trivial cases. This dissertation is aimed at advancing the body of knowledge by developing efficient algorithms incorporating learning mechanisms in matheuristics, which are able to handle large scale instances of stochastic network design problems efficiently. In the first article, we propose a novel Learning-Based Matheuristic for Stochastic Network Design Problems. We introduce and formally describe a new optimizationbased learning mechanism to extract information regarding the solution structure of a stochastic problem out of the solutions of particular combinations of scenarios. We subsequently propose the Learn&Optimize matheuristic, which makes use of the learning methods in inferring a set of promising design variables, in conjunction with a state-ofthe- art MIP solver to address a reduced problem. In the second article, we introduce a Reduced-Cost-Based Restriction and Refinement Matheuristic. We study on how to efficiently design learning mechanisms based on dual information as a means of guiding variable fixing in the context of stochastic network design. The present work investigates how the reduced cost associated with non-basic variables in deterministic solutions can be leveraged to guide variable selection within stochastic formulations. We specifically propose several strategies to extract reduced cost information so as to effectively identify an appropriate set of fixed variables within a restricted model. We then propose a matheuristic approach using problem reduction techniques iteratively (i.e., defining and exploring restricted region of global solutions, as guided by applicable dual information). Finally, in the third article, our main goal is to design a solution method that is able to manage a large number of scenarios. We rely on the progressive hedging algorithm (PHA) where the scenarios are grouped in subproblems. We propose a two phase integrated learning and progressive hedging (ILPH) approach to deal with a large number of scenarios. Within our proposed approach, the learning mechanisms from the first study of this dissertation have been adapted as an efficient heuristic method to address the multi-scenario subproblems within each iteration of PHA.We introduce a new reference point within each aggregation step of our proposed ILPH by exploiting the information garnered from subproblems, and using this information to update the penalties. Consequently, the ILPH is governed and guided by the local information provided by the learning procedure, resulting in an integrated approach capable of handling very large and complex instances. In all of the three mentioned articles, we show, by means of extensive experimental campaigns, the interest of the proposed approaches in terms of computation time and solution quality, especially in dealing with very difficult instances with a large number of scenarios

Dépôt Institutionnel Numérique