7 research outputs found

    Supervised Learning in Multilayer Spiking Neural Networks

    Get PDF
    The current article introduces a supervised learning algorithm for multilayer spiking neural networks. The algorithm presented here overcomes some limitations of existing learning algorithms as it can be applied to neurons firing multiple spikes and it can in principle be applied to any linearisable neuron model. The algorithm is applied successfully to various benchmarks, such as the XOR problem and the Iris data set, as well as complex classifications problems. The simulations also show the flexibility of this supervised learning algorithm which permits different encodings of the spike timing patterns, including precise spike trains encoding.Comment: 38 pages, 4 figure

    Reference time in SpikeProp

    Get PDF
    Although some studies have been done on the learning algorithm for spiking neural networks SpikeProp, little has been mentioned about the required input bias neuron that sets the reference time start. This paper examines the importance of the reference time in neural networks based on temporal encoding. The findings refute previous assumptions about the reference start time

    A review of learning in biologically plausible spiking neural networks

    Get PDF
    Artificial neural networks have been used as a powerful processing tool in various areas such as pattern recognition, control, robotics, and bioinformatics. Their wide applicability has encouraged researchers to improve artificial neural networks by investigating the biological brain. Neurological research has significantly progressed in recent years and continues to reveal new characteristics of biological neurons. New technologies can now capture temporal changes in the internal activity of the brain in more detail and help clarify the relationship between brain activity and the perception of a given stimulus. This new knowledge has led to a new type of artificial neural network, the Spiking Neural Network (SNN), that draws more faithfully on biological properties to provide higher processing abilities. A review of recent developments in learning of spiking neurons is presented in this paper. First the biological background of SNN learning algorithms is reviewed. The important elements of a learning algorithm such as the neuron model, synaptic plasticity, information encoding and SNN topologies are then presented. Then, a critical review of the state-of-the-art learning algorithms for SNNs using single and multiple spikes is presented. Additionally, deep spiking neural networks are reviewed, and challenges and opportunities in the SNN field are discussed

    Nouvelle approche analytique pour l'apprentissage du quantron

    Get PDF
    RÉSUMÉ : Le quantron est un neurone artificiel inspiré d’un modèle stochastique de la diffusion synaptique. Ce type de neurone biologiquement réaliste a le potentiel d’améliorer les capacités de classification des réseaux de neurones utilisés en reconnaissance de formes. Cependant, le quantron présente des difficultés pour l’implémentation d’un algorithme d’apprentissage efficace. Ceci est dû à la présence de discontinuités dans la fonction de réponse qui caractérise l’émission ou l’absence d’émission de neurotransmetteurs en réaction à la stimulation des synapses d’entrée. Ces discontinuités nuisent à l’apprentissage par modification itérative des paramètres du neurone. Ainsi, nous adoptons une approche analytique pour contourner ces difficultés et développer de nouveaux algorithmes d’apprentissage pour entraîner un quantron ou un réseau de quantrons. D’abord, nous nous intéressons au maximum de la fonction représentant le potentiel électrique du quantron, appelée fonction d’activation. Par comparaison à un seuil d’excitabilité, ce maximum détermine l’état d’activité du quantron, qui est alors utilisé comme classificateur. En utilisant des potentiels post-synaptiques ayant un profil rectangulaire, nous obtenons une approximation du maximum en substituant des fonctions quadratiques aux signaux provenant des synapses d’entrée. Avec cette approximation analytique, nous démontrons expérimentalement la possibilité d’entraîner le quantron en minimisant une surface d’erreur par descente du gradient. De plus, pour certains problèmes, nous observons une amélioration des résultats d’un algorithme de recherche directe. Ensuite, en utilisant une configuration particulière du quantron, nous trouvons une forme analytique simple pour la fonction d’activation dans le cas où les potentiels post-synaptiques possèdent un profil rectangulaire ou en rampe. Cette expression permet de lier les paramètres du quantron aux caractéristiques géométriques de sa frontière de décision. En se basant sur ces résultats, nous développons deux algorithmes d’apprentissage distincts, l’un procédant par l’analyse des configurations de la frontière de décision, et l’autre par l’inversion directe d’un système d’équations. Ces algorithmes permettent une résolution efficace de problèmes de classification pour lesquels le quantron admet une représentation sans erreur. Enfin, nous portons attention au problème de l’apprentissage d’un réseau de quantrons. Dans le cas de potentiels post-synaptique avec un potentiel triangulaire, nous proposons une approximation analytique du temps où s’active le quantron, qui est déterminé par le premier instant où la fonction d’activation atteint le seuil d’excitabilité. L’expression mathématique résultante, utilisée comme valeur de réponse du neurone, permet d’adapter l’algorithme de rétropropagation de l’erreur au réseau. Nous montrons qu’il devient alors possible d’entraîner des neurones qui autrement resteraient inactifs lors de l’apprentissage. De plus, nous illustrons la capacité des réseaux de quantrons à résoudre certains problèmes de classification en nécessitant moins de paramètres que des réseaux de neurones impulsionnels ou des réseaux de perceptrons. Les trois aspects du quantron étudiés dans cette thèse mènent à des algorithmes qui se distinguent des approches antérieures utilisées pour l’apprentissage des réseaux de neurones impulsionnels. En effet, notre approche analytique permet d’éviter les discontinuités qui perturbent le processus d’apprentissage grâce au lissage résultant de l’approximation analytique du maximum de la fonction d’activation et du temps d’activation. De plus, l’analyse géométrique de la frontière de décision est rendue possible par l’expression analytique de la fonction d’activation. Le résultat le plus probant est la tentative fructueuse de résolution du problème associé à l’entraînement des neurones inactifs, appelé problème des neurones silencieux. Par notre approche analytique de l’apprentissage du quantron, nous proposons donc des algorithmes originaux et innovateurs qui contribuent à une meilleure compréhension de l’apprentissage dans les réseaux de neurones biologiquement réalistes.---------- ABSTRACT : The quantron is an artificial neuron inspired by a stochastic model of synaptic diffusion. This type of biologically realistic neuron can improve the classification capacity of neural networks used in pattern recognition. However, the implementation of an efficient learning algorithm for the quantron proves to be challenging. This is due to the presence of discontinuities in the output function which characterizes the emission of neurotransmitters, or lack thereof, as a reaction to the stimulus applied to synaptic inputs. These discontinuities disrupt the iterative training of the neuron’s parameters. Thus, in this work, we follow an analytical approach to avoid these difficulties and develop new learning algorithms adapted to the quantron and to networks of quantrons. First, we study the maximum of the function representing the electrical potential of the quantron, called the activation function. By comparing this function to an excitability threshold, this maximum determines the activity state of the neuron, which can be used as a classifier. Using post-synaptic potentials with a rectangular profile, we obtain an analytical approximation of the maximum by substituting quadratic functions for the signals stemming from the synaptic inputs. With this analytical approximation, we provide an experimental demonstration of the quantron being trained by minimizing an error surface via gradient search. Also, for certain problems, we observe an improvement of the results obtained by using a direct search algorithm. Second, using a specific configuration of the quantron, we find a simple analytical form for the activation function when the post-synaptic potentials have a rectangular or ramp profile. This expression links the parameters of the quantron to the geometrical characteristics of its decision boundary. Building upon these results, we obtain two distinct learning algorithms, one proceeding by analyzing the configurations of the decision boundary, and the other by solving directly a system of equations. These algorithms are able to solve efficiently classification problems for which the quantron admits an errorless representation. Third, we focus on the problem of training a network of quantrons. For post-synaptic potentials having a triangular profile, we propose an analytical approximation of the time when the quantron’s activation function reaches the excitability threshold. The resulting mathematical expression, used as the neuron’s output, enables the adaptation of the error backpropagation algorithm to the network. We show that it is then possible to modify the parameters of neurons which would otherwise remain inactive during training. Furthermore, we show that networks of quantrons can solve particular classification problems using fewer parameters than networks of spiking neurons or networks of perceptrons. The three aspects of the quantron studied in this thesis yield algorithms which differ from previous attempts to train spiking neural networks. Indeed, we avoid the discontinuities that disturb the training process due to the smoothing effect of the analytical approximation of the activation function’s maximum and of the activation time. Also, the geometrical analysis of the decision boundary is made possible by the analytical expression of the activation function. The most important result is the successful attempt to solve the problem of training inactive neurons, called the silent neuron problem. By following an analytical approach in the study of the quantron, we propose original and innovative algorithms which contribute to a better understanding of the learning process in networks of biologically realistic neurons

    Algorithme d’apprentissage du quantron basé sur Spikeprop

    Get PDF
    RÉSUMÉ : Le quantron est un modèle de neurone artificiel basé sur la modélisation de la diffusion des neurotransmetteurs dans la fente synaptique. Son potentiel en reconnaissance de formes a été maintes fois démontré sur des tâches de classification à frontières hautement non linéaires. Actuellement, l’exploitation de ce potentiel est restreint par l’absence d’un algorithme d’apprentissage efficace pour entraîner le quantron dans sa formulation originale. Deux obstacles majeurs entravent l’entraînement de ce neurone. D’abord, sa sortie analogique comporte des discontinuités et ne peut être ramenée à une expression analytique et dérivable faisant intervenir les paramètres du modèle. D’autre part, à cause du formalisme de seuil d’activation inspiré du neurone biologique, il arrive que le quantron ne soit pas suffisamment excité pour transmettre l’information. La façon de gérer de tels neurones silencieux dans un contexte d’apprentissage requiert le développement de nouveaux principes. Ainsi, l’objectif principal de ce mémoire est de concevoir un algorithme qui puisse entraîner des réseaux de quantrons en proposant divers moyens pour contourner les difficultés décrites. Le quantron partage certaines caractéristiques (sommation spatio-temporelle de potentiels postsynaptiques et mécanisme de seuil d’activation) avec la toute dernière génération de neurones artificiels, à savoir les neurones à impulsions. Ces similarités ont motivé une revue des algorithmes d’apprentissage développés pour ceux-ci ayant mené à l’identification du modèle de neurone SpikeProp (un dérivé du Spike Response Model) ressemblant particulièrement au quantron. L’algorithme SpikeProp associé, qui procède par rétropropagation de l’erreur et par linéarisation du potentiel de membrane autour de l’instant où le seuil est atteint, a ainsi pu être adapté au quantron avec succès. L’approximation sous-jacente à SpikeProp permet de franchir le premier obstacle associé à la non-dérivabilité de la sortie du quantron en fonction des paramètres. Concernant le phénomène des neurones silencieux, bien qu’il survienne aussi pour les neurones impulsionnels, aucune méthode de gestion systématique et rigoureuse n’a été développée. En conséquence, on propose ici des heuristiques mesurant l’effet de chaque type de paramètre (poids synaptique, délai synaptique et demi-largeur des potentiels postsynaptiques) sur l’état d’activation du quantron dans le but de définir symboliquement certaines dérivées apparaissant dans le formalisme de rétropropagation de l’erreur. Celles-ci se fondent à la fois sur des approximations étudiées dans des travaux antérieurs, sur des résultats démontrés dans ce mémoire et sur des raisonnements intuitifs. Pour chaque type de paramètre, cinq heuristiques sont ainsi proposées et un processus de sélection en deux étapes est mis en place pour retenir celles qui s’avèrent optimales. Six tâches de classification binaire servent d’assise pour la comparaison des performances. Elles consistent à classer les pixels d’images de caractères alphabétiques préalablement générées par des quantrons individuels en utilisant des valeurs cibles pour la sortie du neurone et pour son état d’activation. En considérant la combinaison optimale d’heuristiques identifiée, le taux moyen de classification correcte sur les six tâches dépasse les 98 %. L’algorithme élaboré peut aussi être appliqué en utilisant des états d’activation cibles exclusivement : les problèmes précédents ont donc été repris de cette manière. On conclut des résultats observés qu’il faut un réseau 2-10-1 pour retrouver des taux moyens de classification comparables à ceux obtenus lorsque les sorties analogiques cibles sont disponibles. Afin de poursuivre l’analyse dans ce contexte, six nouveaux problèmes de classification aux surfaces de décision variées — incluant le OU exclusif — sont introduits. La méthode est alors appliquée avec des réseaux comportant de 0 (quantron seul) à 10 unités cachées. Tandis que peu de problèmes sont résolus avec des architectures à moins de deux neurones cachés, la proportion augmente régulièrement avec la taille de la couche cachée, signe de la capacité de l’algorithme à exploiter la puissance de calcul fournie par les unités additionnelles. L’observation d’une baisse de performance des réseaux 2-1-1 par rapport aux quantrons seuls est expliquée par le fait qu’un quantron à une entrée agit comme une porte à seuil (threshold gate) ce qui augmente généralement la complexité de la tâche à effectuer par le neurone caché de ces réseaux. Sur cinq des six problèmes, des taux moyens de classification supérieurs à 95 % sont atteints avec des réseaux 2-10-1. L’algorithme proposé possède plusieurs avantages, le premier étant qu’il supporte les mécanismes originaux du quantron. Effectivement, les modifications apportées à la fonction d’activation et à la sortie analogique ne modifient pas le comportement et le réalisme biologique du quantron. Comme déjà discuté, la capacité de la procédure à tirer profit de la puissance de neurones cachés supplémentaires se révèle être un autre point positif. Un dernier avantage de la méthode est la simplicité et la rapidité d’évaluation des règles d’apprentissage, puisqu’elles se basent sur les caractéristiques de la fonction d’activation en un instant seulement. L’envers de la médaille est que l’effet des paramètres sur la forme de cette dernière risque d’être mal évalué par le fait même de cette simplicité. Considérer un instant précis signifie également considérer un nombre réduit de potentiels postsynaptiques et il est possible que cela soit la cause de plusieurs essais divergents pour lesquels l’algorithme donne une trop grande magnitude au poids d’une entrée tout en étouffant les autres. Un dernier inconvénient apparaît dans une situation bien spécifique où l’apprentissage stagne momentanément lorsque toute une couche de neurones reste simultanément silencieuse suite à un stimulus. De telles circonstances demeurent toutefois assez rares. Les bonnes performances livrées par ce nouvel algorithme encouragent à l’investiguer davantage et à proposer des ajouts et des modifications pour en accroître l’efficacité. Les travaux futurs consisteraient notamment à implémenter des règles d’apprentissage tenant compte de l’aspect global de la fonction d’activation (par opposition à ses propriétés en un temps précis), à élaborer une méthode d’initialisation des paramètres d’un réseau qui minimiserait la proportion d’essais divergents, et d’appliquer la méthode à des problèmes multiclasses en recourant à de multiples neurones de sortie.----------ABSTRACT : The quantron is an advanced artificial neuron based on the mathematical modelling of neurotransmitter diffusion in the synaptic cleft. Its potential in pattern recognition was established on classification tasks showing highly nonlinear decision boundaries. Currently, this potential can not be fully exploited since no learning algorithm has been proposed to train the quantron in its exact form. Two main aspects hinders the training of the quantron. On one hand, its analog output suffers from discontinuities and does not have an analytic and differentiable expression with respect to model parameters. On the other hand, due to the underlying threshold firing mechanism inspired from biological neurons, the quantron can block information transmission if not sufficiently excited by the input pattern. The question of how to manage such silent neurons in a learning context is complex and new principles needs to be developed in this regard. Therefore, the main objective of this work is to design an algorithm for training multilayer quantrons implementing various means to overcome the aforementioned impediments. The quantron shares some characteristics (the spatiotemporal summation of postsynaptic potentials and the threshold firing mechanism) with the latest generation of artificial neurons, namely the spiking neurons. These similarities motivated a literature review of spiking neuron learning algorithms which led to the identification of the SpikeProp neuron (a simplified form of the Spike Response Model) as a model highly similar to the quantron. This allowed the associated SpikeProp algorithm — implementing error backpropagation and membrane potential linearization around the firing time — to be successfully adapted to the quantron to overcome the problem of the non-differentiability of the analog output with respect to parameters. Even though spiking neurons are also subject to block information, no systematic, rigorous method was developed to deal with such silent units. Consequently, this work proposes heuristics assessing the effect of each type of parameter (synaptic weight, synaptic delay and postsynaptic potential half-width) on the activation state of the quantron. This way, activation state derivatives appearing in the error backpropagation paradigm are defined unambiguously. These heuristics are based on previous work approximations, results proven in this dissertation and intuitive reasoning. For each parameter type, five heuristics are built and a two-step selection process is set up to retain the optimal ones. Six binary classification tasks are used to assess performance. Each consists in classifying the pixels of a binary image representing an alphabetic character reviously generated by single quantrons using target values for the neuron’s analog output and activation state. When run using the optimal set of heuristics, the method yields a classification rate exceeding 98 % when averaged over all six tasks. Since the algorithm can be applied using target activation states only, the previous problems were reconsidered in this fashion. Results show that 2-10-1 networks are necessary to achieve comparable mean classification rates than those obtained when target analog output values are available. To investigate further in this direction, six new classification problems having varied decision boundaries — including the well-known XOR problem — are introduced. Architectures with hidden layer size ranging from 0 (single quantron) to 10 hidden neurons are trained. While very few problems are perfectly solved with networks having less than two hidden units, this proportion steadily increases with hidden layer size. This behavior is evidence of the ability of the algorithm to exploit extra computation power made available by additional units. The performance drop observed for 2-1-1 networks is explained by the fact that a single-input quantron acts as a threshold gate and that this generally increases the complexity of the problem to be solved by the hidden neuron. On five problems out of six, mean classification rates exceeding 95 % are obtained with 2-10-1 architectures. The new method exhibits many advantages, the first being that it works with the original quantron mechanism. Indeed, even though modifications were made to the activation function and to the analog output, neither of them alters its behavior or its biological realism. As was mentioned previously, another positive aspect is that it is able to take advantage of additional hidden neurons to solve complex problems. Also, the evaluation of learning rules is simple and quick since it relies on properties of the activation function at a single time. The inherent drawback is that it may oversimplify the effect of a parameter modification on the shape of the activation function. Moreover, considering a single time often means considering a small number of postsynaptic potentials: that is possibly the cause for many divergent runs where the algorithm gave too much importance to a single input (by increasing its weight) and neglecting or suppressing the others. Another drawback appears in a very special case where learning momentarily stops if a whole layer of neurons remains silent following an input pattern. Fortunately, such a condition is hardly ever met. The good performance delivered by this novel algorithm suggests that it is worth investigating further in this direction to devise extensions increasing its efficacy. Future work would include creating improved heuristics taking into account the global shape of the activation function instead of relying on a single point, designing a better parameter initialization procedure minimizing the proportion of divergent runs, and applying the method to multiclass problems using multiple output neurons

    Towards Neuromorphic Gradient Descent: Exact Gradients and Low-Variance Online Estimates for Spiking Neural Networks

    Get PDF
    Spiking Neural Networks (SNNs) are biologically-plausible models that can run on low-powered non-Von Neumann neuromorphic hardware, positioning them as promising alternatives to conventional Deep Neural Networks (DNNs) for energy-efficient edge computing and robotics. Over the past few years, the Gradient Descent (GD) and Error Backpropagation (BP) algorithms used in DNNs have inspired various training methods for SNNs. However, the non-local and the reverse nature of BP, combined with the inherent non-differentiability of spikes, represent fundamental obstacles to computing gradients with SNNs directly on neuromorphic hardware. Therefore, novel approaches are required to overcome the limitations of GD and BP and enable online gradient computation on neuromorphic hardware. In this thesis, I address the limitations of GD and BP with SNNs by proposing three algorithms. First, I extend a recent method that computes exact gradients with temporally-coded SNNs by relaxing the firing constraint of temporal coding and allowing multiple spikes per neuron. My proposed method generalizes the computation of exact gradients with SNNs and enhances the tradeoffs between performance and various other aspects of spiking neurons. Next, I introduce a novel alternative to BP that computes low-variance gradient estimates in a local and online manner. Compared to other alternatives to BP, the proposed method demonstrates an improved convergence rate and increased performance with DNNs. Finally, I combine these two methods and propose an algorithm that estimates gradients with SNNs in a manner that is compatible with the constraints of neuromorphic hardware. My empirical results demonstrate the effectiveness of the resulting algorithm in training SNNs without performing BP

    Cognitive Learning and Memory Systems Using Spiking Neural Networks

    Get PDF
    Ph.DDOCTOR OF PHILOSOPH
    corecore