11 research outputs found

    Mean-Field Langevin Dynamics and Energy Landscape of Neural Networks

    Get PDF
    Our work is motivated by a desire to study the theoretical underpinning for the convergence of stochastic gradient type algorithms widely used for non-convex learning tasks such as training of neural networks. The key insight, already observed in the works of Mei, Montanari and Nguyen (2018), Chizat and Bach (2018) as well as Rotskoff and Vanden-Eijnden (2018), is that a certain class of the finite-dimensional non-convex problems becomes convex when lifted to infinite-dimensional space of measures. We leverage this observation and show that the corresponding energy functional defined on the space of probability measures has a unique minimiser which can be characterised by a first-order condition using the notion of linear functional derivative. Next, we study the corresponding gradient flow structure in 2-Wasserstein metric, which we call Mean-Field Langevin Dynamics (MFLD), and show that the flow of marginal laws induced by the gradient flow converges to a stationary distribution, which is exactly the minimiser of the energy functional. We observe that this convergence is exponential under conditions that are satisfied for highly regularised learning tasks. Our proof of convergence to stationary probability measure is novel and it relies on a generalisation of LaSalle's invariance principle combined with HWI inequality. Importantly, we assume neither that interaction potential of MFLD is of convolution type nor that it has any particular symmetric structure. Furthermore, we allow for the general convex objective function, unlike, most papers in the literature that focus on quadratic loss. Finally, we show that the error between finite-dimensional optimisation problem and its infinite-dimensional limit is of order one over the number of parameters.Comment: 31 page

    The Wellposedness of Path-dependent Multidimensional Forward-backward SDE

    No full text
    We study in this paper the wellposedness of path-dependent multidimensional forward-backward stochastic differential equations (FBSDE). By path-dependent we mean that the coefficients of the forward-backward SDE at time t can depend on the whole path of the forward process up to time t. These kinds of forward-backward SDE appear when solving path-dependent stochastic control problem by means of variational calculus. At the heart of our analysis is the construction of a decoupling random field on the path space. We first prove the existence and the uniqueness of decoupling field on small time interval. Then by introducing the characteristic BSDE, we show that a global decoupling field can be constructed by patching local solutions together as long as the solution of the characteristic BSDE remains bounded. Finally, we show that the solution of a path-dependent forward-backward SDE is stable

    Non-Markovian stochastic differential games and mean-field Langevin dynamics

    No full text
    Cette thèse se compose de deux parties indépendantes et la première regroupant deux problématiques distinctes. Dans la première partie, nous étudions d’abord le problème de Principal-Agent dans des systèmes dégénérés, qui apparaissent naturellement dans des environnements à l’observation partielle où l’Agent et le Principal n’observent qu’une partie du système. Nous présentons une approche se basant sur le principe du maximum stochastique, dont le but est d’étendre les travaux existants qui utilisent le principe de la programmation dynamique dans des systèmes non-dégénérés. D’abord nous résolvons le problème du Principal dans un ensembledes contrats élargi donné par la condition du premier ordre du problème de l’Agent sous forme d’une équation différentielle stochastique progressive-rétrograde (abrégée EDSPR) dépendante de la trajectoire. Ensuite nous utilisons la condition suffisante du problème de l’Agent pour vérifier que le contrat optimal obtenu est bien implémentable. Une étude parallèle est consacrée à l’existence et l’unicité de la solution d'EDSPRs dépendantes de la trajectoire dans le chapitre IV. Nous étendons la méthode de champ de découplage aux cas où les coefficients des équations peuvent dépendre de la trajectoire du processus forward. Nous démontrons également une propriété de stabilité pour ce genre d'EDSPRs. Enfin, nous étudions le problème de hasard moral avec plusieurs Principals. L’Agent ne peut travailler que pour un seul Principal à la fois et fait donc face à un problème de switching optimal. En utilisant la méthode de randomisation nous montrons que la fonction valeur de l’Agent et son effort optimal sont donnés par un processus d’Itô. Cette représentation nous aide à résoudre ensuite le problème du Principal lorsqu’il y a une infinité de Principals en équilibre selon un jeu à champ-moyen. Nous justifions la formulation à champ-moyen par un argument de propagation de chaos.La deuxième partie de cette thèse est constituée des chapitres V et VI. La motivation de ces travaux est de donner un fondement théorique rigoureux pour la convergence des algorithmes du type descente de gradient très souvent utilisés dans la résolution des problème non-convexes comme la calibration d’un réseau de neurones. Pour les problèmes non-convexes du type réseaux de neurones à une couche cachée, l’idée clé est de transformer le problème en un problème convexe en le relevant dans l’espace des mesures. Nous montrons que la fonction d’énergie correspondante admet un unique minimiseur qui peut être caractérisé par une condition du premier ordre utilisant la dérivation dans l’espace des mesures au sens de Lions. Nous présentons ensuite une analyse du comportement à long terme de la dynamique de Langevin à champ-moyen, qui possède une structure de flot de gradient dans la métrique de 2-Wasserstein. Nous montrons que le flot de la loi marginale induite par la dynamique de Langevin à champ-moyen converge vers une loi stationnaire en utilisant le principe d’invariance de La Salle, qui est le minimiseur de la fonction d’énergie.Dans le cas des réseaux de neurones profonds, nous les modélisons à l’aide d’un problème de contrôle optimal en temps continu. Nous donnons d’abord la conditiondu premier ordre à l’aide du principe de Pontryagin, qui nous aidera ensuiteà introduire le système d’équation de Langevin à champ-moyen, dont la mesure invariante correspond au minimiseur du problème de contrôle optimal. Enfin, avec la méthode de couplage par réflexion nous montrons que la loi marginale du système de Langevin à champ-moyen converge vers la mesure invariante avec une vitesse exponentielle.Two independent subjects are studied in this thesis, the first of which consists of two distinct problems.In the first part, we begin with the Principal-Agent problem in degenerate systems, which appear naturally in partially observed random environment in which the Agent and the Principal can only observe one part of the system. Our approach is based on the stochastic maximum principle, the goal of which is to extend the existing results using dynamic programming principle to the degenerate case. We first solve the Principal's problem in an enlarged set of contracts given by the first order condition of the Agent's problem in form of a path-dependent forward-backward stochastic differential equation (abbreviated FBSDE). Afterward, we use the sufficient condition of the Agent's problem to verify that the previously obtained optimal contract is indeed implementable. Meanwhile, a parallel study is devoted to the wellposedness of path-dependent FBSDEs in the chapter IV. We generalize the decoupling field method to the case where the coefficients of the equations can depend on the whole path of the forward process and show the stability property of this type of FBSDEs. Finally, we study the Principal-Agent problem with multiple Principals. The Agent can only work for one Principal at a time and therefore needs to solve an optimal switching problem. By using randomization, we show that the value function of the Agent's problem and his optimal control are given by an Itô process. This representation allows us to solve the Principal's problem in the mean-field case when there is an infinite number of Principals. We justify the mean-field formulation using an argument of backward propagation of chaos.The second part of the thesis consists of chapter V and VI. The motivation of this work is to give a rigorous theoretical underpinning for the convergence of gradient-descent type of algorithms frequently used in non-convex optimization problems like calibrating a deep neural network.For one-layer neural networks, the key insight is to convexify the problem by lifting it to the measure space. We show that the corresponding energy function has a unique minimiser which can be characterized by some first order condition using derivatives in measure space. We present a probabilistic analysis of the long-time behavior of the mean-field Langevin dynamics, which have a gradient flow structure in 2-Wasserstein metric. By using a generalization of LaSalle's invariance principle, we show that the flow of marginal laws induced by the mean-field Langevin dynamics converges to the stationary distribution, which is exactly the minimiser of the energy function.As for deep neural networks, we model them as some continuous-time optimal control problems. Firstly, we find the first order condition by using Pontryagin maximum principle, which later helps us find the associated mean-field Langevin system, the invariant measure of which is again the minimiser of the optimal control problem. As last, by using the reflection coupling, we show that the marginal distribution of the mean-field Langevin system converges to the unique invariant measure exponentially

    Jeux différentiels stochastiques non-Markoviens etdynamiques de Langevin à champ-moyen

    No full text
    Two independent subjects are studied in this thesis, the first of which consists of two distinct problems.In the first part, we begin with the Principal-Agent problem in degenerate systems, which appear naturally in partially observed random environment in which the Agent and the Principal can only observe one part of the system. Our approach is based on the stochastic maximum principle, the goal of which is to extend the existing results using dynamic programming principle to the degenerate case. We first solve the Principal's problem in an enlarged set of contracts given by the first order condition of the Agent's problem in form of a path-dependent forward-backward stochastic differential equation (abbreviated FBSDE). Afterward, we use the sufficient condition of the Agent's problem to verify that the previously obtained optimal contract is indeed implementable. Meanwhile, a parallel study is devoted to the wellposedness of path-dependent FBSDEs in the chapter IV. We generalize the decoupling field method to the case where the coefficients of the equations can depend on the whole path of the forward process and show the stability property of this type of FBSDEs. Finally, we study the Principal-Agent problem with multiple Principals. The Agent can only work for one Principal at a time and therefore needs to solve an optimal switching problem. By using randomization, we show that the value function of the Agent's problem and his optimal control are given by an Itô process. This representation allows us to solve the Principal's problem in the mean-field case when there is an infinite number of Principals. We justify the mean-field formulation using an argument of backward propagation of chaos.The second part of the thesis consists of chapter V and VI. The motivation of this work is to give a rigorous theoretical underpinning for the convergence of gradient-descent type of algorithms frequently used in non-convex optimization problems like calibrating a deep neural network.For one-layer neural networks, the key insight is to convexify the problem by lifting it to the measure space. We show that the corresponding energy function has a unique minimiser which can be characterized by some first order condition using derivatives in measure space. We present a probabilistic analysis of the long-time behavior of the mean-field Langevin dynamics, which have a gradient flow structure in 2-Wasserstein metric. By using a generalization of LaSalle's invariance principle, we show that the flow of marginal laws induced by the mean-field Langevin dynamics converges to the stationary distribution, which is exactly the minimiser of the energy function.As for deep neural networks, we model them as some continuous-time optimal control problems. Firstly, we find the first order condition by using Pontryagin maximum principle, which later helps us find the associated mean-field Langevin system, the invariant measure of which is again the minimiser of the optimal control problem. As last, by using the reflection coupling, we show that the marginal distribution of the mean-field Langevin system converges to the unique invariant measure exponentially.Cette thèse se compose de deux parties indépendantes et la première regroupant deux problématiques distinctes. Dans la première partie, nous étudions d’abord le problème de Principal-Agent dans des systèmes dégénérés, qui apparaissent naturellement dans des environnements à l’observation partielle où l’Agent et le Principal n’observent qu’une partie du système. Nous présentons une approche se basant sur le principe du maximum stochastique, dont le but est d’étendre les travaux existants qui utilisent le principe de la programmation dynamique dans des systèmes non-dégénérés. D’abord nous résolvons le problème du Principal dans un ensembledes contrats élargi donné par la condition du premier ordre du problème de l’Agent sous forme d’une équation différentielle stochastique progressive-rétrograde (abrégée EDSPR) dépendante de la trajectoire. Ensuite nous utilisons la condition suffisante du problème de l’Agent pour vérifier que le contrat optimal obtenu est bien implémentable. Une étude parallèle est consacrée à l’existence et l’unicité de la solution d'EDSPRs dépendantes de la trajectoire dans le chapitre IV. Nous étendons la méthode de champ de découplage aux cas où les coefficients des équations peuvent dépendre de la trajectoire du processus forward. Nous démontrons également une propriété de stabilité pour ce genre d'EDSPRs. Enfin, nous étudions le problème de hasard moral avec plusieurs Principals. L’Agent ne peut travailler que pour un seul Principal à la fois et fait donc face à un problème de switching optimal. En utilisant la méthode de randomisation nous montrons que la fonction valeur de l’Agent et son effort optimal sont donnés par un processus d’Itô. Cette représentation nous aide à résoudre ensuite le problème du Principal lorsqu’il y a une infinité de Principals en équilibre selon un jeu à champ-moyen. Nous justifions la formulation à champ-moyen par un argument de propagation de chaos.La deuxième partie de cette thèse est constituée des chapitres V et VI. La motivation de ces travaux est de donner un fondement théorique rigoureux pour la convergence des algorithmes du type descente de gradient très souvent utilisés dans la résolution des problème non-convexes comme la calibration d’un réseau de neurones. Pour les problèmes non-convexes du type réseaux de neurones à une couche cachée, l’idée clé est de transformer le problème en un problème convexe en le relevant dans l’espace des mesures. Nous montrons que la fonction d’énergie correspondante admet un unique minimiseur qui peut être caractérisé par une condition du premier ordre utilisant la dérivation dans l’espace des mesures au sens de Lions. Nous présentons ensuite une analyse du comportement à long terme de la dynamique de Langevin à champ-moyen, qui possède une structure de flot de gradient dans la métrique de 2-Wasserstein. Nous montrons que le flot de la loi marginale induite par la dynamique de Langevin à champ-moyen converge vers une loi stationnaire en utilisant le principe d’invariance de La Salle, qui est le minimiseur de la fonction d’énergie.Dans le cas des réseaux de neurones profonds, nous les modélisons à l’aide d’un problème de contrôle optimal en temps continu. Nous donnons d’abord la conditiondu premier ordre à l’aide du principe de Pontryagin, qui nous aidera ensuiteà introduire le système d’équation de Langevin à champ-moyen, dont la mesure invariante correspond au minimiseur du problème de contrôle optimal. Enfin, avec la méthode de couplage par réflexion nous montrons que la loi marginale du système de Langevin à champ-moyen converge vers la mesure invariante avec une vitesse exponentielle

    Continuous-Time Principal-Agent Problem in Degenerate Systems

    No full text
    25 pagesIn this paper we present a variational calculus approach to Principal-Agent problem with a lump-sum payment on finite horizon in degenerate stochastic systems, such as filtered partially observed linear systems. Our work extends the existing methodologies in the Principal-Agent literature using dynamic programming and BSDE representation of the contracts in the non-degenerate controlled stochastic systems. We first solve the Principal's problem in an enlarged set of contracts defined by a forward-backward SDE system given by the first order condition of the Agent's problem using variational calculus. Then we use the sufficient condition of the Agent's problem to verify that the optimal contract that we obtain by solving the Principal's problem is indeed implementable (i.e. belonging to the admissible contract set). Importantly we consider the control problem in a weak formulation. Finally, we give explicit solution of the Principal-Agent problem in partially observed linear systems and extend our results to some mean field interacting Agents case

    Mean-field Langevin System, Optimal Control and Deep Neural Networks

    Get PDF
    In this paper, we study a regularised relaxed optimal control problem and, in particular, we are concerned with the case where the control variable is of large dimension. We introduce a system of mean-field Langevin equations, the invariant measure of which is shown to be the optimal control of the initial problem under mild conditions. Therefore, this system of processes can be viewed as a continuous-time numerical algorithm for computing the optimal control. As an application, this result endorses the solvability of the stochastic gradient descent algorithm for a wide class of deep neural networks

    Principal-agent problem with multiple principals

    Get PDF
    We consider a moral hazard problem with multiple principals in a continuous-time model. The agent can only work exclusively for one principal at a given time, so faces an optimal switching problem. Using a randomized formulation, we manage to represent the agent's value function and his optimal effort by an Itô process. This representation further helps to solve the principals' problem in case we have infinite number of principals in the sense of mean field game. Finally the mean field formulation is justified by an argument of propagation of chaos

    Analysis of Jet Structure and Physical Properties in the Coalfields of Northern China

    No full text
    Archeological discoveries have identified China as one of the first countries in the world to use jet. However, many differences are evident between the jet currently found in existing mines and the archaeological discoveries of cultural relics in terms of texture and quality according to the definition of organic gem jet in gemology. This paper reports the results of microscopic analysis and coal quality analysis of the coal and jet samples from coal seams in Fushun Open-pit Mine and Datong Coalfield. The findings reveal that the physical and chemical composition of coal in different mining areas differs markedly. However, the differences between jet and coal in both mining areas are similar; that is, jet has lighter density and greater hardness (2–4) compared to coal, as well as elasticity (engravability), and both jet and coal occur in the (rock slurry) hydrothermal environment. Lastly, the analysis shows that the formation of jet depends on rubber-like hydrocarbon coal with a high degree of corruption in a sedimentary environment under the vulcanization of a hydrothermal, high-sulfur environment
    corecore