409 research outputs found

    Stochastic Training of Neural Networks via Successive Convex Approximations

    Full text link
    This paper proposes a new family of algorithms for training neural networks (NNs). These are based on recent developments in the field of non-convex optimization, going under the general name of successive convex approximation (SCA) techniques. The basic idea is to iteratively replace the original (non-convex, highly dimensional) learning problem with a sequence of (strongly convex) approximations, which are both accurate and simple to optimize. Differently from similar ideas (e.g., quasi-Newton algorithms), the approximations can be constructed using only first-order information of the neural network function, in a stochastic fashion, while exploiting the overall structure of the learning problem for a faster convergence. We discuss several use cases, based on different choices for the loss function (e.g., squared loss and cross-entropy loss), and for the regularization of the NN's weights. We experiment on several medium-sized benchmark problems, and on a large-scale dataset involving simulated physical data. The results show how the algorithm outperforms state-of-the-art techniques, providing faster convergence to a better minimum. Additionally, we show how the algorithm can be easily parallelized over multiple computational units without hindering its performance. In particular, each computational unit can optimize a tailored surrogate function defined on a randomly assigned subset of the input variables, whose dimension can be selected depending entirely on the available computational power.Comment: Preprint submitted to IEEE Transactions on Neural Networks and Learning System

    Substantiation of the backpropagation technique via the Hamilton—Pontryagin formalism for training nonconvex nonsmooth neural networks

    No full text
    The paper observes the similarity between the stochastic optimal control over discrete dynamical systems and the lear ning multilayer neural networks. It focuses on contemporary deep networks with nonconvex nonsmooth loss and activation functions. The machine learning problems are treated as nonconvex nonsmooth stochastic optimization ones. As a model of nonsmooth nonconvex dependences, the so-called generalized differentiable functions are used. A method for calculating the stochastic generalized gradients of a learning quality functional for such systems is substantiated basing on the Hamilton—Pontryagin formalism. This method extends a well-known “backpropagation” machine learning technique to nonconvex nonsmooth networks. Stochastic generalized gradient learning algorithms are extended for training nonconvex nonsmooth neural networks.Простежується аналогія між задачами оптимального керування дискретними стохастичними динамічними системами та задачами навчання багатошарових нейронних мереж. Увага концентрується на вивченні сучасних глибоких мереж з негладкими цільовими функціоналами і зв'язками. Показано, що задачі машинного навчання можуть трактуватися як задачі стохастичного програмування, і для їхнього аналізу застосовано теорію неопуклого негладкого стохастичного програмування. Як модель негладких неопуклих залежностей використано так звані узагальнено диференційовані функції. Обґрунтовано метод обчислення стохастичних узагальнених градієнтів функціонала якості навчання для таких систем на основі формалізму Гамільтона—Понтрягіна. Цей метод узагальнює відомий метод “зворотного просування похибки” на задачі навчання негладких неопуклих мереж. Узагальнені (стохастичні) градієнтні алгоритми навчання поширено на неопуклі негладкі нейронні мережі.Прослеживается аналогия между задачами оптимального управления дискретными стохастическими динамическими системами и задачами обучения многослойных нейронных сетей. Внимание концентрируется на изучении современных глубоких сетей с негладкими целевыми функционалами и связями. Показано, что задачи машинного обучения могут трактоваться как задачи стохастического программирования, и для их анализа применена теория невыпуклого негладкого стохастического программирования. В качестве модели негладких невыпуклых зависимостей использованы так называемые обобщенно дифференцируемые функции. Обоснован метод вычисления стохастических обобщенных градиентов функционала качества обучения для таких систем на основе формализма Гамильтона—Понтрягина. Этот метод обобщает известный метод “обратного распространения ошибки” на задачи обучения негладких невыпуклых сетей. Обобщенные (стохастические) градиентные алгоритмы обучения распространены на невыпуклые негладкие нейронные сети
    corecore