1,704 research outputs found

    Applications of recurrent neural networks in batch reactors. Part II: Nonlinear inverse and predictive control of the heat transfer fluid temperature

    Get PDF
    Although nonlinear inverse and predictive control techniques based on artificial neural networks have been extensively applied to nonlinear systems, their use in real time applications is generally limited. In this paper neural inverse and predictive control systems have been applied to the real-time control of the heat transfer fluid temperature in a pilot chemical reactor. The training of the inverse control system is carried out using both generalised and specialised learning. This allows the preparation of weights of the controller acting in real-time and appropriate performances of inverse neural controller can be achieved. The predictive control system makes use of a neural network to calculate the control action. Thus, the problems related to the high computational effort involved in nonlinear model-predictive control systems are reduced. The performance of the neural controllers is compared against the self-tuning PID controller currently installed in the plant. The results show that neural-based controllers improve the performance of the real plant.Publicad

    Advances in parameterisation, optimisation and pruning of neural networks

    Full text link
    Les réseaux de neurones sont une famille de modèles de l'apprentissage automatique qui sont capable d'apprendre des tâches complexes directement des données. Bien que produisant déjà des résultats impressionnants dans beaucoup de domaines tels que la reconnaissance de la parole, la vision par ordinateur ou encore la traduction automatique, il y a encore de nombreux défis dans l'entraînement et dans le déploiement des réseaux de neurones. En particulier, entraîner des réseaux de neurones nécessite typiquement d'énormes ressources computationnelles, et les modèles entraînés sont souvent trop gros ou trop gourmands en ressources pour être déployés sur des appareils dont les ressources sont limitées, tels que les téléphones intelligents ou les puces de faible puissance. Les articles présentés dans cette thèse étudient des solutions à ces différents problèmes. Les deux premiers articles se concentrent sur l'amélioration de l'entraînement des réseaux de neurones récurrents (RNNs), un type de réseaux de neurones particulier conçu pour traiter des données séquentielles. Les RNNs sont notoirement difficiles à entraîner, donc nous proposons d'améliorer leur paramétrisation en y intégrant la normalisation par lots (BN), qui était jusqu'à lors uniquement appliquée aux réseaux non-récurrents. Dans le premier article, nous appliquons BN aux connections des entrées vers les couches cachées du RNN, ce qui réduit le décalage covariable entre les différentes couches; et dans le second article, nous montrons comment appliquer BN aux connections des entrées vers les couches cachées et aussi des couches cachée vers les couches cachée des réseau récurrents à mémoire court et long terme (LSTM), une architecture populaire de RNN, ce qui réduit également le décalage covariable entre les pas de temps. Nos expériences montrent que les paramétrisations proposées permettent d'entraîner plus rapidement et plus efficacement les RNNs, et ce sur différents bancs de tests. Dans le troisième article, nous proposons un nouvel optimiseur pour accélérer l'entraînement des réseaux de neurones. Les optimiseurs diagonaux traditionnels, tels que RMSProp, opèrent dans l'espace des paramètres, ce qui n'est pas optimal lorsque plusieurs paramètres sont mis à jour en même temps. A la place, nous proposons d'appliquer de tels optimiseurs dans une base dans laquelle l'approximation diagonale est susceptible d'être plus efficace. Nous tirons parti de l'approximation K-FAC pour construire efficacement cette base propre Kronecker-factorisée (KFE). Nos expériences montrent une amélioration en vitesse d'entraînement par rapport à K-FAC, et ce pour différentes architectures de réseaux de neurones profonds. Le dernier article se concentre sur la taille des réseaux de neurones, i.e. l'action d'enlever des paramètres du réseau, afin de réduire son empreinte mémoire et son coût computationnel. Les méthodes de taille typique se base sur une approximation de Taylor de premier ou de second ordre de la fonction de coût, afin d'identifier quels paramètres peuvent être supprimés. Nous proposons d'étudier l'impact des hypothèses qui se cachent derrière ces approximations. Aussi, nous comparons systématiquement les méthodes basées sur des approximations de premier et de second ordre avec la taille par magnitude (MP), et montrons comment elles fonctionnent à la fois avant, mais aussi après une phase de réapprentissage. Nos expériences montrent que mieux préserver la fonction de coût ne transfère pas forcément à des réseaux qui performent mieux après la phase de réapprentissage, ce qui suggère que considérer uniquement l'impact de la taille sur la fonction de coût ne semble pas être un objectif suffisant pour développer des bon critères de taille.Neural networks are a family of Machine Learning models able to learn complex tasks directly from the data. Although already producing impressive results in many areas such as speech recognition, computer vision or machine translation, there are still a lot of challenges in both training and deployment of neural networks. In particular, training neural networks typically requires huge amounts of computational resources, and trained models are often too big or too computationally expensive to be deployed on resource-limited devices, such as smartphones or low-power chips. The articles presented in this thesis investigate solutions to these different issues. The first couple of articles focus on improving the training of Recurrent Neural Networks (RNNs), networks specially designed to process sequential data. RNNs are notoriously hard to train, so we propose to improve their parameterisation by upgrading them with Batch Normalisation (BN), a very effective parameterisation which was hitherto used only in feed-forward networks. In the first article, we apply BN to the input-to-hidden connections of the RNNs, thereby reducing internal covariate shift between layers. In the second article, we show how to apply it to both input-to-hidden and hidden-to-hidden connections of the Long Short-Term Memory (LSTM), a popular RNN architecture, thus also reducing internal covariate shift between time steps. Our experiments show that these proposed parameterisations allow for faster and better training of RNNs on several benchmarks. In the third article, we propose a new optimiser to accelerate the training of neural networks. Traditional diagonal optimisers, such as RMSProp, operate in parameters coordinates, which is not optimal when several parameters are updated at the same time. Instead, we propose to apply such optimisers in a basis in which the diagonal approximation is likely to be more effective. We leverage the same approximation used in Kronecker-factored Approximate Curvature (K-FAC) to efficiently build this Kronecker-factored Eigenbasis (KFE). Our experiments show improvements over K-FAC in training speed for several deep network architectures. The last article focuses on network pruning, the action of removing parameters from the network, in order to reduce its memory footprint and computational cost. Typical pruning methods rely on first or second order Taylor approximations of the loss landscape to identify which parameters can be discarded. We propose to study the impact of the assumptions behind such approximations. Moreover, we systematically compare methods based on first and second order approximations with Magnitude Pruning (MP), showing how they perform both before and after a fine-tuning phase. Our experiments show that better preserving the original network function does not necessarily transfer to better performing networks after fine-tuning, suggesting that only considering the impact of pruning on the loss might not be a sufficient objective to design good pruning criteria

    End-to-End Deep Learning in Optical Fibre Communication Systems

    Get PDF
    Conventional communication systems consist of several signal processing blocks, each performing an individual task at the transmitter or receiver, e.g. coding, modulation, or equalisation. However, there is a lack of optimal, computationally feasible algorithms for nonlinear fibre communications as most techniques are based upon classical communication theory, assuming a linear or perturbed by a small nonlinearity channel. Consequently, the optimal end-to-end system performance cannot be achieved using transceivers with sub-optimum modules. Carefully chosen approximations are required to exploit the data transmission potential of optical fibres. In this thesis, novel transceiver designs tailored to the nonlinear dispersive fibre channel using the universal function approximator properties of artificial neural networks (ANNs) are proposed and experimentally verified. The fibre-optic system is implemented as an end-to-end ANN to allow transceiver optimisation over all channel constraints in a single deep learning process. While the work concentrates on highly nonlinear short-reach intensity modulation/direct detection (IM/DD) fibre links, the developed concepts are general and applicable to different models and systems. Found in many data centre, metro and access networks, the IM/DD links are severely impaired by the dispersion-induced inter-symbol interference and square-law photodetection, rendering the communication channel nonlinear with memory. First, a transceiver based on a simple feedforward ANN (FFNN) is investigated and a training method for robustness to link variations is proposed. An improved recurrent ANN-based design is developed next, addressing the FFNN limitations in handling the channel memory. The systems' performance is verified in first-in-field experiments, showing substantial increase in transmission distances and data rates compared to classical signal processing schemes. A novel algorithm for end-to-end optimisation using experimentally-collected data and generative adversarial networks is also developed, tailoring the transceiver to the specific properties of the transmission link. The research is a key milestone towards end-to-end optimised data transmission over nonlinear fibre systems
    • …
    corecore