127 research outputs found

    Going Deeper With Directly-Trained Larger Spiking Neural Networks

    Full text link
    Spiking neural networks (SNNs) are promising in a bio-plausible coding for spatio-temporal information and event-driven signal processing, which is very suited for energy-efficient implementation in neuromorphic hardware. However, the unique working mode of SNNs makes them more difficult to train than traditional networks. Currently, there are two main routes to explore the training of deep SNNs with high performance. The first is to convert a pre-trained ANN model to its SNN version, which usually requires a long coding window for convergence and cannot exploit the spatio-temporal features during training for solving temporal tasks. The other is to directly train SNNs in the spatio-temporal domain. But due to the binary spike activity of the firing function and the problem of gradient vanishing or explosion, current methods are restricted to shallow architectures and thereby difficult in harnessing large-scale datasets (e.g. ImageNet). To this end, we propose a threshold-dependent batch normalization (tdBN) method based on the emerging spatio-temporal backpropagation, termed "STBP-tdBN", enabling direct training of a very deep SNN and the efficient implementation of its inference on neuromorphic hardware. With the proposed method and elaborated shortcut connection, we significantly extend directly-trained SNNs from a shallow structure ( < 10 layer) to a very deep structure (50 layers). Furthermore, we theoretically analyze the effectiveness of our method based on "Block Dynamical Isometry" theory. Finally, we report superior accuracy results including 93.15 % on CIFAR-10, 67.8 % on DVS-CIFAR10, and 67.05% on ImageNet with very few timesteps. To our best knowledge, it's the first time to explore the directly-trained deep SNNs with high performance on ImageNet.Comment: 12 pages, 6 figures, conference or other essential inf

    Visible and Invisible: Causal Variable Learning and its Application in a Cancer Study

    Full text link
    Causal visual discovery is a fundamental yet challenging problem in many research fields. Given visual data and the outcome of interest, the goal is to infer the cause-effect relation. Aside from rich visual ('visible') variables, oftentimes, the outcome is also determined by 'invisible' variables, i.e. the variables from non-visual modalities that do not have visual counterparts. This combination is particularly common in the clinical domain. Built upon the promising invariant causal prediction (ICP) framework, we propose a novel -ICP algorithm to resolve the (visible, invisible) setting. To efficiently discover -plausible causal variables and to estimate the cause-effect relation, the -ICP is learned under a min-min optimisation scheme. Driven by the need for clinical reliability and interpretability, the -ICP is implemented with a typed neural-symbolic functional language. With the built-in program synthesis method, we can synthesize a type-safe program that is comprehensible to the clinical experts. For concept validation of the -ICP, we carefully design a series of synthetic experiments on the type of visual-perception tasks that are encountered in daily life. To further substantiate the proposed method, we demonstrate the application of -ICP on a real-world cancer study dataset, Swiss CRC. This population-based cancer study has spanned over two decades, including 25 fully annotated tissue micro-array (TMA) images with at least resolution and a broad spectrum of clinical meta data for 533 patients. Both the synthetic and clinical experiments demonstrate the advantages of -ICP over the state-of-the-art methods. Finally, we discuss the limitations and challenges to be addressed in the future. Code Of Ethics: I acknowledge that I and all co-authors of this work have read and commit to adhering to the ICLR Code of Ethic

    Generation of Synthetic Solar Images with GANs

    Get PDF
    This works presents an alternative solution to the already existing physical simulations for the Sun's photosphere which are used to output a single tex- ture image from the Sun's surface. This simulations are slow and require huge computational power, a cheaper alternative in time and resources is introduced. Architectures for a Generative Adversarial Network and a Variational Au- toeconder are considered and trained in the generation of small image tiles (128x128px) that resemble the surface of the Sun around an area of approxi- mately 2:62 107km2 which with the proposed method can be composed into an image of arbitrarily any size given enough tiles. Di erent architectures along with ne tuning is used to obtain the best net- work possible in both cases. Their results are compared, but the Generative Adversarial Network shows a powerful improvement on the generation of said tiles compared to the Variational Autoencoder. Lastly some methodologies for stitching together the generated tiles are pre- sented including a technique that uses a Genetic Algorithm approach to modify the generated tiles

    Tools for efficient Deep Learning

    Get PDF
    In the era of Deep Learning (DL), there is a fast-growing demand for building and deploying Deep Neural Networks (DNNs) on various platforms. This thesis proposes five tools to address the challenges for designing DNNs that are efficient in time, in resources and in power consumption. We first present Aegis and SPGC to address the challenges in improving the memory efficiency of DL training and inference. Aegis makes mixed precision training (MPT) stabler by layer-wise gradient scaling. Empirical experiments show that Aegis can improve MPT accuracy by at most 4\%. SPGC focuses on structured pruning: replacing standard convolution with group convolution (GConv) to avoid irregular sparsity. SPGC formulates GConv pruning as a channel permutation problem and proposes a novel heuristic polynomial-time algorithm. Common DNNs pruned by SPGC have maximally 1\% higher accuracy than prior work. This thesis also addresses the challenges lying in the gap between DNN descriptions and executables by Polygeist for software and POLSCA for hardware. Many novel techniques, e.g. statement splitting and memory partitioning, are explored and used to expand polyhedral optimisation. Polygeist can speed up software execution in sequential and parallel by 2.53 and 9.47 times on Polybench/C. POLSCA achieves 1.5 times speedup over hardware designs directly generated from high-level synthesis on Polybench/C. Moreover, this thesis presents Deacon, a framework that generates FPGA-based DNN accelerators of streaming architectures with advanced pipelining techniques to address the challenges from heterogeneous convolution and residual connections. Deacon provides fine-grained pipelining, graph-level optimisation, and heuristic exploration by graph colouring. Compared with prior designs, Deacon shows resource/power consumption efficiency improvement of 1.2x/3.5x for MobileNets and 1.0x/2.8x for SqueezeNets. All these tools are open source, some of which have already gained public engagement. We believe they can make efficient deep learning applications easier to build and deploy.Open Acces

    Conditional Behavior Prediction of Interacting Agents on Map Graphs with Neural Networks

    Get PDF
    Solange Verkehrsteilnehmer ihre Manöverabsicht und ihre geplante Trajektorie automatischen Fahrzeugen nicht mitteilen können, ist eine Verhaltensvorhersage für alle beteiligten Verkehrsteilnehmer erforderlich. Mit einer solchen Vorhersage kann das Verhalten eines automatischen Fahrzeugs vorausschauend generiert und damit komfortabler und energieeffizienter gemacht werden, was den Verkehrsfluss verbessert. Es wird ein künstliches neuronales Netz für Graphen (GNN) vorgestellt, das verschiedene probabilistische Positionsvorhersagen für interagierende Agenten zur Analyse bereitstellt. Das vorliegende Anwendungsbeispiel ist die Verkehrssituationsanalyse für das automatische Fahren, für welches ein diskretisierter Vorhersagezeitraum von einigen Sekunden als relevant angesehen wird. Das GNN propagiert einen vollvernetzten, gerichteten Agentengraphen probabilistisch durch einen dünnvernetzten, gerichteten Kartengraphen. Merkmale des Agentengraphen, der aus Verkehrsteilnehmern und deren Beziehungen besteht, sowie Merkmale des Kartengraphen, der aus Fahrbahnstücken und deren geometrischer, sowie verkehrsregelbezogenen Verbindungen besteht, können für die Vorhersage verwertet werden. Das Modell prädiziert für jeden Agenten zu jedem Prädiktionszeitpunkt eine diskrete Aufenthaltswahrscheinlichkeitsverteilung über alle Fahrbahnstücke des Kartengraphen. Eine solche Prädiktion ist in der wissenschaftlichen Literatur zwar üblich, setzt aber für deren stochastische Interpretierbarkeit und damit Anwendbarkeit statistische Unabhängigkeit des zukünftigen Verhaltens der Verkehrsteilnehmer voraus. Da diese Annahme bei interagierenden Agenten als unzulässig erachtet wird, prädiziert das Modell darüber hinaus für alle Agentenpaare diskrete Verbundwahrscheinlichkeitsverteilungen. Aus diesen können bedingte Prädiktionen gegeben möglicher zukünftiger Positionen einer der beiden Agenten berechnet werden. In der Evaluierung werden gängige Metriken für den vorliegenden Fall angepasst und verschiedene Modellierungstiefen einander gegenübergestellt. Sowohl die individuelle Prädiktion als auch die bedingte Prädiktion werden erfolgreich auf Genauigkeit und statistischer Zuverlässigkeit untersucht

    Conditional Behavior Prediction of Interacting Agents on Map Graphs with Neural Networks

    Get PDF
    Solange Verkehrsteilnehmer ihre Manöverabsicht und ihre geplante Trajektorie automatischen Fahrzeugen nicht mitteilen können, ist eine Verhaltensvorhersage für alle beteiligten Verkehrsteilnehmer erforderlich. Mit einer solchen Vorhersage kann das Verhalten eines automatischen Fahrzeugs vorausschauend generiert und damit komfortabler und energieeffizienter gemacht werden, was den Verkehrsfluss verbessert. Es wird ein künstliches neuronales Netz für Graphen (GNN) vorgestellt, das verschiedene probabilistische Positionsvorhersagen für interagierende Agenten zur Analyse bereitstellt. Das vorliegende Anwendungsbeispiel ist die Verkehrssituationsanalyse für das automatische Fahren, für welches ein diskretisierter Vorhersagezeitraum von einigen Sekunden als relevant angesehen wird. Das GNN propagiert einen vollvernetzten, gerichteten Agentengraphen probabilistisch durch einen dünnvernetzten, gerichteten Kartengraphen. Merkmale des Agentengraphen, der aus Verkehrsteilnehmern und deren Beziehungen besteht, sowie Merkmale des Kartengraphen, der aus Fahrbahnstücken und deren geometrischer, sowie verkehrsregelbezogenen Verbindungen besteht, können für die Vorhersage verwertet werden. Das Modell prädiziert für jeden Agenten zu jedem Prädiktionszeitpunkt eine diskrete Aufenthaltswahrscheinlichkeitsverteilung über alle Fahrbahnstücke des Kartengraphen. Eine solche Prädiktion ist in der wissenschaftlichen Literatur zwar üblich, setzt aber für deren stochastische Interpretierbarkeit und damit Anwendbarkeit statistische Unabhängigkeit des zukünftigen Verhaltens der Verkehrsteilnehmer voraus. Da diese Annahme bei interagierenden Agenten als unzulässig erachtet wird, prädiziert das Modell darüber hinaus für alle Agentenpaare diskrete Verbundwahrscheinlichkeitsverteilungen. Aus diesen können bedingte Prädiktionen gegeben möglicher zukünftiger Positionen einer der beiden Agenten berechnet werden. In der Evaluierung werden gängige Metriken für den vorliegenden Fall angepasst und verschiedene Modellierungstiefen einander gegenübergestellt. Sowohl die individuelle Prädiktion als auch die bedingte Prädiktion werden erfolgreich auf Genauigkeit und statistischer Zuverlässigkeit untersucht

    Uncertainty in Artificial Intelligence: Proceedings of the Thirty-Fourth Conference

    Get PDF

    Automatic machine learning:methods, systems, challenges

    Get PDF

    Automatic machine learning:methods, systems, challenges

    Get PDF
    This open access book presents the first comprehensive overview of general methods in Automatic Machine Learning (AutoML), collects descriptions of existing systems based on these methods, and discusses the first international challenge of AutoML systems. The book serves as a point of entry into this quickly-developing field for researchers and advanced students alike, as well as providing a reference for practitioners aiming to use AutoML in their work. The recent success of commercial ML applications and the rapid growth of the field has created a high demand for off-the-shelf ML methods that can be used easily and without expert knowledge. Many of the recent machine learning successes crucially rely on human experts, who select appropriate ML architectures (deep learning architectures or more traditional ML workflows) and their hyperparameters; however the field of AutoML targets a progressive automation of machine learning, based on principles from optimization and machine learning itself
    corecore