thesis

Learning to skip state updates in recurrent neural networks

Abstract

Recurrent Neural Networks (RNNs) continue to show outstanding performance in sequence modeling tasks. However, training RNNs on long sequences often face challenges like slow inference, vanishing gradients and dificulty in capturing long term dependencies. In backpropagation through time settings, these issues are tightly coupled with the large, sequential computational graph resulting from unfolding the RNN in time. We introduce the Skip RNN model which extends existing RNN models by learning to skip state updates and shortens the effective size of the computational graph. This network can be encouraged to perform fewer state updates through a novel loss term. We evaluate the proposed model on various tasks and show how it can reduce the number of required RNN updates while preserving, and sometimes even improving, the performance of the baseline models.Les Xarxes Neuronals Recurrents (de l’anglès, RNNs) mostren un alt rendiment en tasques de modelat de seqüències. Tot i així, entrenar RNNs en seqüències llargues sol provocar dificultats com una inferència lenta, gradients que s’esvaeixen i dificultats per capturar dependències temporals a llarg terme. En escenaris amb backpropagation through time, aquests problemes estan estretament relacionats amb la longitud i la seqüencialitat del graf computacional resultant de desdoblar la RNN en el temps. Presentem Skip RNN, model que extén arquitectures recurrents existents, permetent-les aprendre quan ometre actualitzacions del seu estat i escurçant així la longitud efectiva del graf computacional. Aquesta xarxa pot ser estimulada per efectuar menys actualitzacions d’estat a través d’un nou terme a la funció de cost. Avaluem el model proposat en una sèrie de tasques i demostrem com pot reduir el nombre d’actualitzacions de la RNN mentre preserva, o fins i tot millora, el rendiment dels models de referència.Las Redes Neuronales Recurrentes (del inglés, RNNs) muestran un alto rendimiento en tareas de modelado de secuencias. Aún así, entrenar RNNs en secuencias largas suele provocar difi- cultades como una inferencia lenta, gradientes que se desvanecen y dificultades para capturar dependencias temporales a largo plazo. En escenarios con backpropagation through time, estos problemas están estrechamente relacionados con la longitud y la secuencialidad del grafo computacional resultante de desdoblar la RNN en el tiempo. Presentamos Skip RNN, un modelo que extiende arquitecturas recurrentes existentes, permitiéndoles aprender cuándo omitir actualizaciones de su estado y acortando así la longitud efectiva del grafo computacional. Esta red puede ser estimulada para efectuar menos actualizaciones de estado a través de un nuevo elemento en la función de coste. Evaluamos el modelo propuesto en una serie de tareas y demostramos cómo puede reducir el número de actualizaciones de la RNN mientras preserva, o incluso mejora, el rendimiento de los modelos de referencia

    Similar works