546 research outputs found
A Brief Introduction to Machine Learning for Engineers
This monograph aims at providing an introduction to key concepts, algorithms,
and theoretical results in machine learning. The treatment concentrates on
probabilistic models for supervised and unsupervised learning problems. It
introduces fundamental concepts and algorithms by building on first principles,
while also exposing the reader to more advanced topics with extensive pointers
to the literature, within a unified notation and mathematical framework. The
material is organized according to clearly defined categories, such as
discriminative and generative models, frequentist and Bayesian approaches,
exact and approximate inference, as well as directed and undirected models.
This monograph is meant as an entry point for researchers with a background in
probability and linear algebra.Comment: This is an expanded and improved version of the original posting.
Feedback is welcom
Improved training of generative models
Cette thèse explore deux idées différentes: — Une méthode améliorée d’entraînement de réseaux de neurones récurrents. Communément, l’entraînement des réseaux de neurones récurrents se fait à l’aide d’une méthode connue sous le nom de ‘teacher forcing’. Cette méthode consiste à utiliser les valeurs de la séquence observée en tant qu’entrées du réseau pendant la phase d’entraînement, alors que l’on utilise la séquence des valeurs prédites par le modèle lors de la phase de génération. Nous présentons ici un algorithme appelé ‘professor forcing’ qui utilise l’adaptation de domaine adversaire pour encourager la dynamique du réseau récurrent à être la même lors de la phase d’entraînement et lors de la phase de génération. Ce travail a été accepté a la session de posters de la conférence NIPS 2016. — Un nouveau modèle pour l’entraînement de modèles génératifs. Un obstacle connu lors de l’entraînement de modèles graphiques non orientés avec variables latentes, tels que les machines de Boltzmann, est que la procédure d’entraînement par maximum de vraisemblance nécessite une chaîne de Markov pour échantillonner. Or le temps de mixage de la chaîne de Markov dans la boucle interne de l’entraînement peut être très long. Dans cette thèse, nous proposons d’abord l’idée qu’il suffit de découper localement la fonction d´énergie de sorte que son gradient pointe dans la bonne direction (c'est-à -dire vers la génération des données). Cela correspond à une nouvelle procédure d’apprentissage qui s’éloigne d’abord des données en suivant l’opérateur de transition du modèle, et qui ensuite entraîne cet opérateur à revenir en arrière à chaque étape, en revenant vers les données. Ce travail a été accepté en tant que poster à la conférence NIPS 2017. Dans le premier chapitre, je présente quelques notions élémentaires sur les modèles génératifs (en particulier les modèles graphiques orientés et non orientés). Je montre en quoi la méthode proposée dans le chapitre 3 est liée à ces modèles. Dans le deuxième chapitre, je décris notre méthode proposée (appelée ‘professor forcing’) pour améliorer l’entraînement des réseaux de neurones récurrents. Dans le troisième chapitre, je décris notre méthode proposée pour entraîner un modèle génératif en paramétrant directement un opérateur de transition.This thesis explores ideas along 2 different directions:
— Improved Training of Recurrent Neural Networks - Recurrent Neural
Networks are trained using teacher forcing which works by supplying
observed sequence values as inputs during training, and using the network’s
own one-step ahead predictions to do multi-step sampling. We introduce the
Professor Forcing algorithm, which uses adversarial domain adaptation to
encourage the dynamics of the recurrent network to be the same when training
the network and when sampling from the network over multiple time
steps. This work was accepted as a conference poster at NIPS 2016.
— Training iterative generative models A recognized obstacle to training
undirected graphical models with latent variables such as Boltzmann machines
is that the maximum likelihood training procedure requires sampling
from Monte-Carlo Markov chains which may not mix well, in the inner loop
of training, for each example. In this thesis, we first propose the idea that it
is sufficient to locally carve the energy function everywhere so that its gradient
points in the right direction (i.e., towards generating the data). This
corresponds to a new learning procedure that first walks away from data
points by following the model transition operator and then trains that operator
to walk backwards for each of these steps, back towards the training
example. This work was accepted as a conference poster at NIPS 2017.
Chapter One is dedicated to background knowledge about generative models.
This covers directed and undirectored graphical models and how the proposed method
in Chapter 3 are related to these. In the following chapter, I will describe our
proposed method to improve training of recurrent neural networks using Professor
Forcing Goyal et al. [2016]. The third chapter describes the Variational Walkback
[Goyal et al., 2017a] algorithm. This is an algorithm for training an iterative generative
model by directly learns a parameterized transition operator
Learning to Prune Instances of Steiner Tree Problem in Graphs
We consider the Steiner tree problem on graphs where we are given a set of
nodes and the goal is to find a tree sub-graph of minimum weight that contains
all nodes in the given set, potentially including additional nodes. This is a
classical NP-hard combinatorial optimisation problem. In recent years, a
machine learning framework called learning-to-prune has been successfully used
for solving a diverse range of combinatorial optimisation problems. In this
paper, we use this learning framework on the Steiner tree problem and show that
even on this problem, the learning-to-prune framework results in computing
near-optimal solutions at a fraction of the time required by commercial ILP
solvers. Our results underscore the potential of the learning-to-prune
framework in solving various combinatorial optimisation problems
- …