32 research outputs found

    Accélération de méthodes de résolution classiques par l'utilisation de stratégies de séparation locale comme outil d'hybridation

    Full text link
    ThÚse numérisée par la Direction des bibliothÚques de l'Université de Montréal

    On the vehicle routing problem with stochastic demands and duration constraints: formulations and a hybrid metaheuristic

    Get PDF
    International audienceThe vehicle routing problem with stochastic demands (VRPSD) consists in designing transportation routes of minimal expected cost to satisfy a set of customers with random demands of known probability distributions. In this research we present two strategies to deal with route duration constraints in the VRPSD. To solve the resulting problem, we proposed a greedy randomized adaptive search procedure (GRASP) with a post optimization procedure. The GRASP component uses a set of randomized route-first, cluster-second heuristics to generate starting solutions and a variable neighborhood descent (VND) procedure to carry on the local search phase. The post optimizer selects the best possible routes to assemble the final solution from the set of all routes found in the local optima reached by the GRASP. We discuss extensive computational experiments analysing the cost of considering route duration constraints on the VRPSD. In addition, we report state-of-the-art solutions for a established set of benchmarks for the classical VRPSD

    Nouvelles coupes pour le problÚme de tournées de véhicule avec demandes stochastiques

    Get PDF
    RÉSUMÉ : Dans ce mĂ©moire, on se propose de rĂ©soudre le problĂšme de tournĂ©es de vĂ©hicules avec demandes stochastiques Ă  l’aide de l’algorithme L-shaped en nombres entiers. Des coupes de type LBF (Lower Bounding Functionals) sont gĂ©nĂ©rĂ©es pour accĂ©lĂ©rer la rĂ©solution. Le problĂšme est semblable aux problĂšmes de tournĂ©es de vĂ©hicules classiques mais considĂšre que les demandes des clients sont des variables alĂ©atoires dont la valeur n’est rĂ©vĂ©lĂ©e qu’au moment de leur visite. Ces variables suivent une loi Normale, sont indĂ©pendantes et identiquement distribuĂ©es. Le problĂšme est formulĂ© comme un programme stochastique en deux Ă©tapes en nombres entiers. Les variables de dĂ©cisions de premiĂšre Ă©tape servent Ă  dĂ©finir des routes a priori qui devront minimiser le coĂ»t total espĂ©rĂ© de parcours. Chaque fois qu’un vĂ©hicule arrive chez un client, si la demande ne peut pas ĂȘtre servie en totalitĂ© alors on dit qu’un Ă©chec apparaĂźt. Dans une telle situation, les dĂ©cisions de seconde Ă©tape sont prises et consistent Ă  effectuer un aller-retour entre le client courant et le dĂ©pĂŽt pour se recharger ou se dĂ©charger en marchandise. Ce recours est communĂ©ment appelĂ© le recours simple. Une Ă©tape prĂ©liminaire Ă  la rĂ©solution consiste Ă  relaxer le modĂšle en enlevant temporairement les contraintes de capacitĂ© et d’élimination de sous-tours ainsi que les contraintes d’intĂ©gritĂ©. La fonction de recours est remplacĂ©e par une variable rĂ©elle positive reprĂ©sentant une borne infĂ©rieure sur le coĂ»t de recours espĂ©rĂ©. L’intĂ©gritĂ© des variables est retrouvĂ©e grĂące Ă  une procĂ©dure d’énumĂ©ration implicite. Les contraintes de capacitĂ© et de sous-tours violĂ©es sont ajoutĂ©es dynamiquement au modĂšle chaque fois qu’elles sont identifiĂ©es. Des coupes d’optimalitĂ© sont gĂ©nĂ©rĂ©es et assurent la convergence de l’algorithme vers la solution optimale. Pour accĂ©lĂ©rer le processus de rĂ©solution par rapport Ă  ce qui existe dĂ©jĂ  dans la littĂ©rature, on dĂ©veloppe deux nouvelles familles de coupes LBF. Les premiĂšres sont basĂ©es sur l’identification de chaĂźnes dans les solutions intermĂ©diaires rencontrĂ©es aux diffĂ©rents nƓuds de l’arbre d’énumĂ©ration. Ces coupes sont ajoutĂ©es chaque fois qu’on en identifie une qui est violĂ©e par la solution courante. Elles imposent Ă  la borne infĂ©rieure sur le coĂ»t de recours de prendre une certaine valeur si la solution courante visite les clients des chaĂźnes dans le mĂȘme ordre. Les deuxiĂšmes sont basĂ©es sur des ensembles non structurĂ©s de noeuds. Elles sont gĂ©nĂ©rĂ©es de façon semblable aux coupes LBF prĂ©cĂ©dentes et prĂ©sentent L’avantage d’ĂȘtre actives sur un plus grand ensemble de solutions entiĂšres et fractionnaires. La contrepartie Ă  cela est la faiblesse de la borne associĂ©e. Pour identifier les coupes violĂ©es, on a dĂ©veloppĂ© des algorithmes de sĂ©paration heuristiques basĂ©s sur un mĂȘme principe. Celui-ci prĂ©conise leur construction en augmentant la taille de l’ensemble des variables concernĂ©es de façon itĂ©rative jusqu’à ce que la borne de la coupe associĂ©e soit suffisante pour constituer une coupe violĂ©e. Enfin, on produit des tests numĂ©riques sur un ensemble riche d’instances qui prouvent l’efficacitĂ© de nos travaux puisque nous rĂ©solvons 13 nouvelles instances de la littĂ©rature en moins de 10000 secondes. De plus, on rĂ©duit les temps de calcul des instances rĂ©solues de 30% en moyenne.----------ABSTRACT : In this master’s thesis, we intend to solve the vehicle routing problem with stochastic demands by means of an integer L-shaped algorithm. We use lower bounding functionals (LBF) to speed up the resolution process. The problem is similar to classic vehicle routing problems, except that customer demands are random variables which values are only revealed when they are visited. These variables follow a normal distribution and are independantly and equally distributed. The problem is formulated as an integer two-stages stochastic programming model. The first stage decision variables are used to define a priori routes designed to minimize the total expected recourse cost. Each time a vehicle reaches a client, if his demand can’t be fully served then a failure is said to occur. In such a situation, second-stage decisions are made and consist in returning to the depot to load or unload goods and going back to the current client to resume the planned route. This recourse action is commonly referred to as the simple recourse. A preliminary step to the resolution consists in relaxing the model by temporarily removing To identify violated cuts, we developped heuristic separation procedures based on one principle. Their purpose is to construct cuts by increasing iteratively the size of the involved variables set until the associated lower bound is enough to form a violated cut. Finally, we produce numerical experiments involving a rich set of instances which prove the efficiency of our work as 13 new instances from the literature could be solved to optimality in less than 10000 seconds. Moreover, we reduce the computing times of the solved instances by 30% on average

    Un algorithme de génération de colonnes pour le problÚme de tournées de véhicule avec demandes stochastiques

    Get PDF
    RÉSUMÉ : Ce mĂ©moire prĂ©sente un algorithme exact de gĂ©nĂ©ration de colonnes avec plans coupants pour le problĂšme de tournĂ©es de vĂ©hicules avec demandes stochastiques. Nous posons le problĂšme comme un programme stochastique en deux Ă©tapes en nombres entiers et adoptons une formulation se basant sur le graphe espace-Ă©tat associĂ©. Nous utilisons ensuite la dĂ©composition de Dantzig-Wolfe pour produire un problĂšme maĂźtre de partitionnement d'ensemble et un sous-problĂšme de plus court chemin avec contraintes de ressources. Nous proposons de rĂ©soudre ce modĂšle Ă  l'aide d'un algorithme exploitant des techniques Ă  la fine pointe de l'Ă©tat de l'art. Lors de la rĂ©solution du sous-problĂšme, nous ne nous limitons pas uniquement aux routes sans 2-cycles; nous effectuons Ă©galement des expĂ©riences avec les ngng-routes ainsi qu'avec les chemins Ă©lĂ©mentaires. Pour implĂ©menter ces concepts et Ă©liminer de plus grands cycles, nous ajoutons des ressources de visite binaires indiquant si un client peut encore ĂȘtre visitĂ© dans une prolongation de la route Ă©lĂ©mentaire courante. Afin de rĂ©soudre le sous-problĂšme, nous utilisons un algorithme d'Ă©tiquetage bidirectionnel tirant parti de l'acyclicitĂ© du graphe espace-Ă©tat et qui considĂšre uniquement une fois chaque nƓud. Dans le but de limiter le nombre d'Ă©tiquettes gĂ©nĂ©rĂ©es Ă  chaque itĂ©ration de cette procĂ©dure, nous introduisons une rĂšgle de dominance amĂ©liorĂ©e qui exploite la structure du graphe sous-jacent. Nous utilisons Ă©galement le concept de clients non atteignables pour favoriser l'Ă©limination d'Ă©tiquettes inutiles. Par ailleurs, nous implantons une mĂ©thode de recherche taboue qui accĂ©lĂšre l'obtention de chemins rĂ©alisables de coĂ»t rĂ©duit nĂ©gatif. Pour augmenter la borne infĂ©rieure trouvĂ©e Ă  chaque itĂ©ration de l'algorithme de gĂ©nĂ©ration de colonnes, nous ajoutons deux types d'inĂ©galitĂ©s valides au problĂšme maĂźtre: des contraintes de capacitĂ© et des contraintes de sous-ensemble de lignes. Nous modifions la structure du sous-problĂšme afin de prendre en compte ces coupes que nous gĂ©nĂ©rons dynamiquement Ă  chaque nƓud de branchement de façon heuristique. Si l'algorithme de sĂ©paration ne parvient pas Ă  trouver d'inĂ©galitĂ©s valides suffisamment violĂ©es par la solution fractionnaire actuelle, alors nous procĂ©dons Ă  un branchement basĂ© sur les inter-tĂąches. Finalement, nous prĂ©sentons des rĂ©sultats numĂ©riques qui dĂ©montrent la compĂ©titivitĂ© de notre algorithme. Notre mĂ©thode permet effectivement de rĂ©soudre 20 nouvelles instances tirĂ©es de la littĂ©rature en moins de 20 minutes en plus d'accĂ©lĂ©rer considĂ©rablement la rĂ©solution des instances dĂ©jĂ  rĂ©solues. Seulement 2 des 40 instances de notre ensemble de tests demeurent irrĂ©solues.----------ABSTRACT : This master's thesis presents an exact branch-cut-and-price algorithm for the vehicle Routing problem with stochastic demands. We formulate the problem as a two stage integer stochastic program with fixed recourse and adopt a formulation based on the associated space-capacity graph. We explain how this model can be transformed into a set partitioning master problem and an associated shortest path problem with resource constraint subproblem using Dantzig-Wolfe decomposition. We use a column generation algorithm based on state of the art techniques. During the resolution of the subproblem, we do not limit ourselves to the generation of routes without 2-cycles. We also experiment with ngng-routes as well as elementary routes. In order to implement these concepts and eliminate larger cycles, we introduce additional binary resource variables each indicating wether a client can be visited by an extension of the current route. We use a bidirectional label setting algorithm that exploits the acyclicity of the underlying graph and only needs to consider each vertex exactly once. To limit the number of labels that can be generated at any iteration of that algorithm, we introduce an improved dominance rule that exploits the structure of the space-capacity graph. We also promote elimination of dominated labels by using the concept of unreachable vertices. In addition, we utilize a tabu search heuristic to speed up the identification of feasible negative reduced cost routes. To improve the lower bound found at each iteration of the column generation procedure, we introduce valid inequalities in the master problem. We specifically consider capacity cuts and Subset-Row Inequalities. We identify violated cuts dynamically at each node of the Branch-and-Bound tree by using a heuristic procedure. If the separation algorithm fails to identify violated cuts, we proceed to normal branching based on inter-tasks. The dominance rule and structure of the subproblem are modified to take these new inequalities into account. Finally, we present numerical results that prove the competitiveness of our algorithm. Indeed, we manage to solve to optimality 20 new instances taken from the literature in less than 20 minutes and we considerably improve the computational time for those already closed. Only 2 out of the 40 instances of our test set remain unsolved

    Recourse policies in the vehicle routing problem with stochastic demands

    Full text link
    Dans le domaine de la logistique, de nombreux problĂšmes pratiques peuvent ĂȘtre formulĂ©s comme le problĂšme de tournĂ©es de vĂ©hicules (PTV). Dans son image la plus large, le PTV vise Ă  concevoir un ensemble d’itinĂ©raires de collecte ou de livraison des marchandises Ă  travers un ensemble de clients avec des coĂ»ts minimaux. Dans le PTV dĂ©terministe, tous les paramĂštres du problĂšme sont supposĂ©s connus au prĂ©alable. Dans de nombreuses variantes de la vie rĂ©elle du PTV, cependant, ils impliquent diverses sources d’alĂ©atoire. Le PTV traite du caractĂšre alĂ©atoire inhĂ©rent aux demandes, prĂ©sence des clients, temps de parcours ou temps de service. Les PTV, dans lesquels un ou plusieurs paramĂštres sont stochastiques, sont appelĂ©s des problĂšmes stochastiques de tournĂ©es de vĂ©hicules (PSTV). Dans cette dissertation, nous Ă©tudions spĂ©cifiquement le problĂšme de tournĂ©es de vĂ©hicules avec les demandes stochastiques (PTVDS). Dans cette variante de PSTV, les demandes des clients ne sont connues qu’en arrivant Ă  l’emplacement du client et sont dĂ©finies par des distributions de probabilitĂ©. Dans ce contexte, le vĂ©hicule qui exĂ©cute une route planifiĂ©e peut ne pas rĂ©pondre Ă  un client, lorsque la demande observĂ©e dĂ©passe la capacitĂ© rĂ©siduelle du vĂ©hicule. Ces Ă©vĂ©nements sont appelĂ©s les Ă©checs de l’itinĂ©raire; dans ce cas, l’itinĂ©raire planifiĂ© devient non-rĂ©alisable. Il existe deux approches face aux Ă©checs de l’itinĂ©raire. Au client oĂč l’échec s’est produit, on peut rĂ©cupĂ©rer la realisabilite en exĂ©cutant un aller-retour vers le dĂ©pĂŽt, pour remplir la capacitĂ© du vĂ©hicule et complĂ©ter le service. En prĂ©vision des Ă©checs d’itinĂ©raire, on peut exĂ©cuter des retours prĂ©ventifs lorsque la capacitĂ© rĂ©siduelle est infĂ©rieure Ă  une valeur seuil. Toutes les dĂ©cisions supplĂ©mentaires, qui sont sous la forme de retours au dĂ©pĂŽt dans le contexte PTVDS, sont appelĂ©es des actions de recours. Pour modĂ©liser le PTVDS, une politique de recours, rĂ©gissant l’exĂ©cution des actions de recours, doit ĂȘtre conçue. L’objectif de cette dissertation est d’élaborer des politiques de recours rentables, dans lesquelles les conventions opĂ©rationnelles fixes peuvent rĂ©gir l’exĂ©cution des actions de recours. Nous fournissons un cadre gĂ©nĂ©ral pour classer les conventions opĂ©rationnelles fixes pour ĂȘtre utilisĂ©es dans le cadre PTVDS. Dans cette classification, les conventions opĂ©rationnelles fixes peuvent ĂȘtre regroupĂ©es dans (i) les politiques basĂ©es sur le volume, (ii) les politiques basĂ©es sur le risque et (iii) les politiques basĂ©es sur le distance. Les politiques hybrides, dans lesquelles plusieurs rĂšgles fixes sont incorporĂ©es, peuvent ĂȘtre envisagĂ©es. Dans la premiĂšre partie de cette thĂšse, nous proposons une politique fixe basĂ©e sur les rĂšgles, par laquelle l’exĂ©cution des retours prĂ©ventifs est rĂ©gie par les seuils prĂ©dĂ©finis. Nous proposons notamment trois politiques basĂ©es sur le volume qui tiennent compte de la capacitĂ© du vĂ©hicule, de la demande attendue du prochain client et de la demande attendue des clients non visitĂ©s. La mĂ©thode “Integer L-Shaped" est rĂ©amĂ©nagĂ©e pour rĂ©soudre le PTVDS selon la politique basĂ©e sur les rĂšgles. Dans la deuxiĂšme partie, nous proposons une politique de recours hybride, qui combine le risque d’échec et de distance Ă  parcourir en une seule rĂšgle de recours, rĂ©gissant l’exĂ©cution des recours. Nous proposons d’abord une mesure de risque pour contrĂŽler le risque d’échec au prochain client. Lorsque le risque d’échec n’est ni trop Ă©levĂ© ni trop bas, nous utilisons une mesure de distance, ce qui compare le coĂ»t de retour prĂ©ventif avec les coĂ»ts d’échecs futurs. Dans la derniĂšre partie de cette thĂšse, nous dĂ©veloppons une mĂ©thodologie de solution exacte pour rĂ©soudre le VRPSD dans le cadre d’une politique de restockage optimale. La politique de restockage optimale rĂ©sulte d’un ensemble de seuils spĂ©cifiques au client, de sorte que le coĂ»t de recours prĂ©vu soit rĂ©duit au minimum.In the field of logistics, many practical problems can be formulated as the vehicle routing problem (VRP). In its broadest picture, the VRP aims at designing a set of vehicle routes to pickup or delivery goods through a set of customers with the minimum costs. In the deterministic VRP, all problem parameters are assumed known beforehand. The VRPs in real-life applications, however, involve various sources of uncertainty. Uncertainty is appeared in several parameters of the VRPs like demands, customer, service or traveling times. The VRPs in which one or more parameters appear to be uncertain are called stochastic VRPs (SVRPs). In this dissertation, we examine vehicle routing problem with stochastic demands (VRPSD). In this variant of SVRPs, the customer demands are only known upon arriving at the customer location and are defined through probability distributions. In this setting, the vehicle executing a planned route may fail to service a customer, whenever the observed demand exceeds the residual capacity of the vehicle. Such occurrences are called route failures; in this case the planned route becomes infeasible. There are two approaches when facing route failures. At the customer where the failure occurred, one can recover routing feasibility by executing back-and-forth trips to the depot to replenish the vehicle capacity and complete the service. In anticipation of route failures, one can perform preventive returns whenever the residual capacity falls below a threshold value. All the extra decisions, which are in the form of return trips to the depot in the VRPSD context, preserving routing feasibility are called recourse actions. To model the VRPSD, a recourse policy, governing the execution of such recourse actions, must be designed. The goal of this dissertation is to develop cost-effective recourse policies, in which the fixed operational conventions can govern the execution of recourse actions. In the first part of this dissertation, we propose a fixed rule-based policy, by which the execution of preventive returns is governed through the preset thresholds. We particularly introduce three volume based policies which consider the vehicle capacity, expected demand of the next customer and the expected demand of the remaining unvisited customers. Then, the integer L-shaped algorithm is redeveloped to solve the VRPSD under the rule-based policy. The contribution with regard to this study has been submitted to the Journal of Transportation Science. In the second part, we propose a hybrid recourse policy, which combines the risk of failure and distances-to-travel into a single recourse rule, governing the execution of recourse actions. We employ a risk measure to control the risk of failure at the next customer. When the risk of failure is neither too high nor too low, we apply a distance measure, which compares the preventive return cost with future failures cost. The contribution with regard to this study has been submitted to the EURO Journal on Transportation and Logistics. In the last part of this dissertation, we develop an exact solution methodology to solve the VRPSD under an optimal restocking policy. The optimal restocking policy derives a set of customer-specific thresholds such that the expected recourse cost is minimized. The contribution with regard to this study will be submitted to the European Journal of Operational Research

    DĂ©veloppement d'algorithmes dynamiques et stochastiques pour le problĂšme de transport de patients dans les hĂŽpitaux

    Get PDF
    Ce mĂ©moire traite un problĂšme de transport de personnes dans un contexte hospitalier, connu sous le nom du problĂšme de brancardier. L'objectif est de construire des itinĂ©raires qui rĂ©pondent aux demandes de transports Ă©mergentes entre les diffĂ©rents services d'un grand centre hospitalier en temps rĂ©el, en minimisant le temps total de retard pondĂ©rĂ©. Ce problĂšme est traitĂ© comme un problĂšme de cueillettes et de livraisons multitrajets qui considĂšre des fenĂȘtres de temps souples, une flotte hĂ©tĂ©rogĂšne de vĂ©hicules et des contraintes liĂ©es Ă  la capacitĂ©. Les requĂȘtes de transport de patients sont imprĂ©visibles et dynamiques. Elles sont rĂ©vĂ©lĂ©es lorsqu'un patient nĂ©cessite un service de transport pour des raisons mĂ©dicales. Ce travail prĂ©sente trois approches de rĂ©solution du problĂšme de transport de patients, Ă  noter une premiĂšre approche statique, une deuxiĂšme dynamique et une troisiĂšme stochastique. De plus, une stratĂ©gie d'attente et deux stratĂ©gies de relocalisation de vĂ©hicules ont Ă©tĂ© dĂ©veloppĂ©es. Les approches sont Ă©valuĂ©es sur des donnĂ©es rĂ©elles d'un grand hĂŽpital, le Policlinico Sant'Orsola-Malpighi de la mairie de Bologne en Italie.The following study presents the problem of transportation of patients in the medical field. Demand in this context is unpredictable and revealed dynamically. The objective is to develop an algorithm capable of constructing efficient and effective routes in real time while minimizing the total weighted lateness. This problem is considered as a multitrip pickup and delivery problem with soft time windows, heterogeneous fleet, and capacity constraints. This work presents a detailed description of the discussed problem and proposes three approaches to solve it: a static approach, a dynamic approach and a stochastic one. Moreover, it presents a waiting and two relocalisation strategies. These approaches have all been tested and evaluated using real data collected from the medical campus of Policlinico Sant'Orsola-Malpighi of the town Hall of Bologne in Italy

    Deep Learning and Reinforcement Learning for Inventory Control

    Get PDF
    RÉSUMÉ : La gestion d’inventaire est l’un des problĂšmes les plus importants dans la fabrication de produits. Les dĂ©cisions de commande sont prises par des agents qui observent les demandes, stochastiques, ainsi que les informations locales tels que le niveau d’inventaire afin de prendre des dĂ©cisions sur les prochaines valeurs de commande. Étant donnĂ© que l’inventaire sur place (la quantitĂ© disponible de stock en inventaire), les demandes non satisfaites (commandes en attente), et l’existence de commander sont coĂ»teux, le problĂšme d’optimisation est conçu afin de minimiser les coĂ»ts. Par consĂ©quent, la fonction objective est de rĂ©duire le coĂ»t Ă  long terme) dont les composantes sont des inventaires en stock, commandes en attente linĂ©aires (pĂ©nalitĂ©), et des coĂ»ts de commandes fixes. GĂ©nĂ©ralement, des algorithmes de processus de dĂ©cision markovien, et de la programmation dynamique, ont Ă©tĂ© utilisĂ©s afin de rĂ©soudre le problĂšme de contrĂŽle d’inventaire. Ces algorithmes ont quelques dĂ©savantages. Ils sont conçus pour un environnement avec des informations disponibles, telles que la capacitĂ© de stockage ou elles imposent des limitations sur le nombre d’états. RĂ©sultat, les algorithmes du processus de dĂ©cision markovien, et de la programmation dynamique sont inadĂ©quats pour les situations mentionnĂ©es ci hauts, Ă  cause de de la croissance exponentielle de l’espace d’état. En plus, les plus fameuses politique de getsion d’inventaire, telles que politiques standards et ne fonctionne que dans les systĂšmes oĂč les demandes d’entrĂ©es obtiennent une distribution statistique connues. Afin de rĂ©soudre le problĂšme, un apprentissage par renforcement approximĂ©e est dĂ©veloppĂ© dans le but d’éviter les dĂ©faillances mentionnĂ©es ci hauts. Ce projet applique une technique d’apprentissage de machine nommĂ© ‘Deep Q-learning’, qui est capable d’apprendre des politiques de contrĂŽle en utilisant directement le ‘end-to-end RL’, malgrĂ© le nombre Ă©norme d’états. Aussi, le modĂšle est un ‘Deep Neural Network’ (DNN), formĂ© avec une variante de ‘Q-learning’, dont l’entrĂ©e et la sortie sont l’information locale d’inventaire et la fonction de valeur utilisĂ©e pour estimer les rĂ©compenses futures, respectivement. Le Deep Q-learning, qui s’appelle ‘Deep Q-Network’ (DQN), est l’une des techniques pionniĂšres ‘DRL’ qui inclut une approche Ă  base de simulation dans laquelle les approximations d’actions sont menĂ©es en utilisant un rĂ©seau DNN. Le systĂšme prend des dĂ©cisions sur les valeurs de commande. Étant donnĂ©e que la fonction de coĂ»t est calculĂ©e selon l’ordre ‘O’ et le niveau d’inventaire ‘IL’, les valeurs desquelles sont affectĂ©es par la demande ‘D’, la demande d’entrĂ©e ainsi que l’ordre et le niveau d’inventaire peuvent ĂȘtre considĂ©rĂ©s en tant qu’information individuelle d’inventaire. De plus, il y a un dĂ©lai de mise en Ɠuvre exprimant la latence dans l’envoi des informations et dans la rĂ©ception des commandes. Le dĂ©lai de mise en Ɠuvre fournit davantage d’information locale incluant ‘IT’ et ‘OO’. Le ‘IT’ et ‘OO’ sont calculĂ©s et suivis durant les pĂ©riodes de temps diffĂ©rents afin d’explorer plus d’informations sur l’environnement de l’agent d’inventaire. Par ailleurs, la principale information individuelle et la demande correspondante comprennent les Ă©tats d’agents. Les systĂšmes ‘PO’ sont davantage observĂ©s dans les modĂšles Ă  Ă©tapes multiples dont les agents peuvent ne pas ĂȘtre au courant de l’information individuelle des autres agents. Dans le but de crĂ©er une approche basĂ©e sur le ‘ML’ et fournir quelques aperçus dans la maniĂšre de rĂ©soudre le type d’agent multiple ‘PO’ du problĂšme actuel de contrĂŽle d’inventaire, un agent simple est Ă©tudiĂ©. Cet un agent examine si on peut mettre sur pied une technique ‘ML’ basĂ©e sur le ‘DL’ afin d’aider Ă  trouver une dĂ©cision de valeur de commande quasi optimale basĂ©e sur la demande et information individuelle sur une pĂ©riode Ă  long terme. Afin de le rĂ©aliser, dans un premier temps, la diffĂ©rence entre la valeur de commande (action) et la demande comme rĂ©sultat d’un ‘DNN’ est estimĂ©e. Ensuite, la commande est mise Ă  jour basĂ©e sur la commande Ă  jour et la demande suivante. Enfin, le coĂ»t total (rĂ©compense cumulative) dans chaque Ă©tape de temps est mis Ă  jour. En consĂ©quence, rĂ©soudre le problĂšme de valeur de commande d’agent simple suffit pour diminuer le coĂ»t total sur le long terme. Le modĂšle dĂ©veloppĂ© est validĂ© Ă  l’aide de diffĂ©rents ratios des coefficients de coĂ»t. Aussi, le rendement de la prĂ©sente mĂ©thode est considĂ©rĂ© satisfaisant en comparaison avec le ‘RRL’ (RL de rĂ©gression), la politique et le politique . Le RL de rĂ©gression n’est pas capable d’apprendre aussi bien et avec autant de prĂ©cision que le ‘DQN’. En dernier lieu, des recherches supplĂ©mentaires peuvent ĂȘtre menĂ©es afin d’observer les rĂ©seaux de chaĂźnes d’approvisionnement multi-agents en sĂ©rie partiellement observables.----------ABSTRACT : Inventory control is one of the most significant problems in product manufacturing. A decision maker (agent) observes the random stochastic demands and local information of inventory such as inventory levels as its inputs to make decisions about the next ordering values as its actions. Since inventory on-hand (the available amount of stock in inventory), unmet demands (backorders), and the existence of ordering are costly, the optimization problem is designed to minimize the cost. As a result, the objective function is to reduce the long-run cost (cumulative reward) whose components are linear holding, linear backorder (penalty), and fixed ordering costs. Generally, Markov Decision Process (MDP) and Dynamic Programming (DP) algorithms have been utilized to solve the inventory control problem. These algorithms have some drawbacks. They are designed for the environment with available local information such as holding capacity or they impose limitations on the number of the states while these information and limitations are not available in some cases such as Partially Observable (PO) environments. As a result, DP or MDP algorithms are not suitable for the above-mentioned conditions due to the enormity of the state spaces. In addition, the most famous inventory management policies such as normal and policies are desirable only for the systems whose input demands obtain normal distribution. To solve the problem, an approximate Reinforcement Learning (RL) is developed so as to avoid having the afore-mentioned shortcomings. This project applies a Machine Leaning (ML) technique termed Deep Q-learning, which is able to learn control policies directly using end-to-end RL, even though the number of states is enormous. Also, the model is a Deep Neural Network (DNN), trained with a variant of Q-learning, whose input and output are the local information of inventory and the value function utilized to estimate future rewards, respectively. Deep Q-learning, which is also called Deep Q-Network (DQN), is one of the types of the pioneer Deep Reinforcement Learning (DRL) techniques that includes a simulation-based approach in which the action approximations are carried out using a Deep Neural Network (DNN). To end this, the agents observe the random stochastic demands and make decisions about the ordering values. Since the cost function is calculated in terms of Order (O) and Inventory Level (IL) whose values are affected by Demand (D), input demand as well as the order and inventory level can be considered as the individual information of the inventory. Also, there is a lead-time expressing the latency on sending information or receiving orders. The lead-time provides more local information including Inventory Transit (IT) and On-Order (OO). IT and OO are calculated and tracked during different time periods so as to explore more information about the environment of the inventory agent. Furthermore, the main individual information and the corresponding demand comprise the states of the agent. PO systems are observed more in multi-stage models whose agents can be unaware of the individual information of the other agents. In order to create a ML-based approach and provide some insight into how to resolve the PO multi-agent type of the present inventory control problem, a single-agent is studied. This agent examines if one can implement a ML technique based on Deep Learning (DL) to assist to learn near-optimal ordering value decision based on demand and individual information over long-run time. To achieve this, first, the difference between the ordering value (action) and demand as the output of a DNN is approximated. Then, the order is updated after observing the next demand. Next, the main individual information of the agent called input features of a DNN is updated based on the updated order and the following demand. Lastly, the total cost (cumulative reward) in each time step is updated. Accordingly, solving the ordering value problem of single-agent suffices to diminish the total cost over long-run time. The developed model is validated using different ratios of the cost coefficients. Also, the performance of the present method is found to be satisfactory in comparison with Regression Reinforcement Learning (Regression RL), policy, and policy. The regression RL is not able to learn as well and accurately as DQN. Finally, further research can be directed to solve the partial-observable multi-agent supply chain networks

    Learning-Based Matheuristic Solution Methods for Stochastic Network Design

    Full text link
    Cette dissertation consiste en trois Ă©tudes, chacune constituant un article de recherche. Dans tous les trois articles, nous considĂ©rons le problĂšme de conception de rĂ©seaux multiproduits, avec coĂ»t fixe, capacitĂ© et des demandes stochastiques en tant que programmes stochastiques en deux Ă©tapes. Dans un tel contexte, les dĂ©cisions de conception sont prises dans la premiĂšre Ă©tape avant que la demande rĂ©elle ne soit rĂ©alisĂ©e, tandis que les dĂ©cisions de flux de la deuxiĂšme Ă©tape ajustent la solution de la premiĂšre Ă©tape Ă  la rĂ©alisation de la demande observĂ©e. Nous considĂ©rons l’incertitude de la demande comme un nombre fini de scĂ©narios discrets, ce qui est une approche courante dans la littĂ©rature. En utilisant l’ensemble de scĂ©narios, le problĂšme mixte en nombre entier (MIP) rĂ©sultant, appelĂ© formulation Ă©tendue (FE), est extrĂȘmement difficile Ă  rĂ©soudre, sauf dans des cas triviaux. Cette thĂšse vise Ă  faire progresser le corpus de connaissances en dĂ©veloppant des algorithmes efficaces intĂ©grant des mĂ©canismes d’apprentissage en matheuristique, capables de traiter efficacement des problĂšmes stochastiques de conception pour des rĂ©seaux de grande taille. Le premier article, s’intitulĂ© "A Learning-Based Matheuristc for Stochastic Multicommodity Network Design". Nous introduisons et dĂ©crivons formellement un nouveau mĂ©canisme d’apprentissage basĂ© sur l’optimisation pour extraire des informations concernant la structure de la solution du problĂšme stochastique Ă  partir de solutions obtenues avec des combinaisons particuliĂšres de scĂ©narios. Nous proposons ensuite une matheuristique "Learn&Optimize", qui utilise les mĂ©thodes d’apprentissage pour dĂ©duire un ensemble de variables de conception prometteuses, en conjonction avec un solveur MIP de pointe pour rĂ©soudre un problĂšme rĂ©duit. Le deuxiĂšme article, s’intitulĂ© "A Reduced-Cost-Based Restriction and Refinement Matheuristic for Stochastic Network Design". Nous Ă©tudions comment concevoir efficacement des mĂ©canismes d’apprentissage basĂ©s sur l’information duale afin de guider la dĂ©termination des variables dans le contexte de la conception de rĂ©seaux stochastiques. Ce travail examine les coĂ»ts rĂ©duits associĂ©s aux variables hors base dans les solutions dĂ©terministes pour guider la sĂ©lection des variables dans la formulation stochastique. Nous proposons plusieurs stratĂ©gies pour extraire des informations sur les coĂ»ts rĂ©duits afin de fixer un ensemble appropriĂ© de variables dans le modĂšle restreint. Nous proposons ensuite une approche matheuristique utilisant des techniques itĂ©ratives de rĂ©duction des problĂšmes. Le troisiĂšme article, s’intitulĂ© "An Integrated Learning and Progressive Hedging Method to Solve Stochastic Network Design". Ici, notre objectif principal est de concevoir une mĂ©thode de rĂ©solution capable de gĂ©rer un grand nombre de scĂ©narios. Nous nous appuyons sur l’algorithme Progressive Hedging (PHA), ou les scĂ©narios sont regroupĂ©s en sous-problĂšmes. Nous intĂ©grons des methodes d’apprentissage au sein de PHA pour traiter une grand nombre de scĂ©narios. Dans notre approche, les mĂ©canismes d’apprentissage developpĂ©s dans le premier article de cette thĂšse sont adaptĂ©s pour rĂ©soudre les sous-problĂšmes multi-scĂ©narios. Nous introduisons une nouvelle solution de rĂ©fĂ©rence Ă  chaque Ă©tape d’agrĂ©gation de notre ILPH en exploitant les informations collectĂ©es Ă  partir des sous problĂšmes et nous utilisons ces informations pour mettre Ă  jour les pĂ©nalitĂ©s dans PHA. Par consĂ©quent, PHA est guidĂ© par les informations locales fournies par la procĂ©dure d’apprentissage, rĂ©sultant en une approche intĂ©grĂ©e capable de traiter des instances complexes et de grande taille. Dans les trois articles, nous montrons, au moyen de campagnes expĂ©rimentales approfondies, l’intĂ©rĂȘt des approches proposĂ©es en termes de temps de calcul et de qualitĂ© des solutions produites, en particulier pour traiter des cas trĂšs difficiles avec un grand nombre de scĂ©narios.This dissertation consists of three studies, each of which constitutes a self-contained research article. In all of the three articles, we consider the multi-commodity capacitated fixed-charge network design problem with uncertain demands as a two-stage stochastic program. In such setting, design decisions are made in the first stage before the actual demand is realized, while second-stage flow-routing decisions adjust the first-stage solution to the observed demand realization. We consider the demand uncertainty as a finite number of discrete scenarios, which is a common approach in the literature. By using the scenario set, the resulting large-scale mixed integer program (MIP) problem, referred to as the extensive form (EF), is extremely hard to solve exactly in all but trivial cases. This dissertation is aimed at advancing the body of knowledge by developing efficient algorithms incorporating learning mechanisms in matheuristics, which are able to handle large scale instances of stochastic network design problems efficiently. In the first article, we propose a novel Learning-Based Matheuristic for Stochastic Network Design Problems. We introduce and formally describe a new optimizationbased learning mechanism to extract information regarding the solution structure of a stochastic problem out of the solutions of particular combinations of scenarios. We subsequently propose the Learn&Optimize matheuristic, which makes use of the learning methods in inferring a set of promising design variables, in conjunction with a state-ofthe- art MIP solver to address a reduced problem. In the second article, we introduce a Reduced-Cost-Based Restriction and Refinement Matheuristic. We study on how to efficiently design learning mechanisms based on dual information as a means of guiding variable fixing in the context of stochastic network design. The present work investigates how the reduced cost associated with non-basic variables in deterministic solutions can be leveraged to guide variable selection within stochastic formulations. We specifically propose several strategies to extract reduced cost information so as to effectively identify an appropriate set of fixed variables within a restricted model. We then propose a matheuristic approach using problem reduction techniques iteratively (i.e., defining and exploring restricted region of global solutions, as guided by applicable dual information). Finally, in the third article, our main goal is to design a solution method that is able to manage a large number of scenarios. We rely on the progressive hedging algorithm (PHA) where the scenarios are grouped in subproblems. We propose a two phase integrated learning and progressive hedging (ILPH) approach to deal with a large number of scenarios. Within our proposed approach, the learning mechanisms from the first study of this dissertation have been adapted as an efficient heuristic method to address the multi-scenario subproblems within each iteration of PHA.We introduce a new reference point within each aggregation step of our proposed ILPH by exploiting the information garnered from subproblems, and using this information to update the penalties. Consequently, the ILPH is governed and guided by the local information provided by the learning procedure, resulting in an integrated approach capable of handling very large and complex instances. In all of the three mentioned articles, we show, by means of extensive experimental campaigns, the interest of the proposed approaches in terms of computation time and solution quality, especially in dealing with very difficult instances with a large number of scenarios
    corecore