2 research outputs found

    Bolstering Stochastic Gradient Descent with Model Building

    Full text link
    Stochastic gradient descent method and its variants constitute the core optimization algorithms that achieve good convergence rates for solving machine learning problems. These rates are obtained especially when these algorithms are fine-tuned for the application at hand. Although this tuning process can require large computational costs, recent work has shown that these costs can be reduced by line search methods that iteratively adjust the stepsize. We propose an alternative approach to stochastic line search by using a new algorithm based on forward step model building. This model building step incorporates second-order information that allows adjusting not only the stepsize but also the search direction. Noting that deep learning model parameters come in groups (layers of tensors), our method builds its model and calculates a new step for each parameter group. This novel diagonalization approach makes the selected step lengths adaptive. We provide convergence rate analysis, and experimentally show that the proposed algorithm achieves faster convergence and better generalization in well-known test problems. More precisely, SMB requires less tuning, and shows comparable performance to other adaptive methods

    Modules Valués: en vue d'applications à la théorie des corps valués de caractéristique positive

    No full text
    This thesis examines valued modules over twisted polynomial rings of the form R = K[t,φ] where φ is an endomorphism of the field K . The motivating examples are the valued fields (M, v) in characteristic p > 0 . where R = K [t ;x ↦ XP ] is the ring of additive polynomials with coefficients in a subfield K of M . In chapters 3 et 4 we establish Ax-Kochen and Ershov type theorems in a two sorted language, with hypotheses analogue to the case of I algebraically maximal Kaplansky fields. In chapter 5 we apply these results to give a complete characterisation of C- minimal valued modules. Rings of Puiseux series on a finite field Fq. considered as valued modules over Fq[t; x ↦xP ] , and algebraically maximal Kaplansky fields with a divisible value group over its ring of additive polynomials are the main examples of C-minimal valued modules. Chapter 6 studies the case of a discrete valuation, in a one sorted language, where the properties related to the valuation are expressed by means of a chain of subgroups. It shows a result of local elimination of quantifiers, which is valid for example for the field Fq((X))Cette thèse étudie les modules values sur des anneaux de polynômes tordus de la forme R := K[t:φ] où φ est un endomorphisme du corps K . Les exemples motivants sont les corps values (M/,v) de caractéristique p>(). où R = K [t ;x ↦ XP ], l'anneau des polynômes additifs à coefficient dans un sous-corps K de M. , Le coeur de la thèse se trouve dans les chapitres 3,4 et 5 où l'on considère les R -modules munis d'une valuation à valeurs dans un ensemble ordonné, muni lui-même d'une action de R , qui, dans un corps value de caractéristique p > 0 , est donnée par la fonction P :γ↦γ̣ · P:=min{p̕ γ+v(α)}. Cette action est notée plus généralement comme ·r. où r ∈ R . Notre idée directrice a été d'exprimer dans ee contexte des propriétés comme comme le lemme de Hensel, la maximalité ou la maximalité algébrique. Cela nécessite l'étude des points irréguliers : ce sont les éléments x ∈ M tels que v(x.r) > v(x) • r pour un r ∈ R \ {0} . Cela permet d'établir divers théorèmes Hensel du type Ax-Kochen et Lrshov dans les chapitres 3 et 4 (cf. 3.3.8-3.3.10 et 4.6.3), et de caraetériser les modules values C -minimaux dans le chapitre 5 (cf. 5,0.7-9). Le chapitre 6 traite le cas d'une valuation discrète, dans un langage à une sorte, où les propriétés valuatives sont exprimées à l'aide d'une chaîne de sous-groupes. On y démontre un résultat local d'élimination des quantificateurs (cf. 6.5.2
    corecore