1,836 research outputs found

    Contribution au calcul sur GPU: considérations arithmétiques et architecturales

    Get PDF
    L’optimisation du calcul passe par une gestion conjointe du matĂ©riel et du logiciel. Cette rĂšgle se trouve renforcĂ©e lorsque l’on aborde le domaine des architectures multicoeurs oĂč les paramĂštres Ă  considĂ©rer sont plus nombreux que sur une architecture superscalaire classique. Ces architectures offrent une grande variĂ©tĂ© d’unitĂ© de calcul, de format de reprĂ©sentation, de hiĂ©rarchie mĂ©moire et de mĂ©canismes de transfert de donnĂ©e.Dans ce mĂ©moire, nous dĂ©crivons quelques-uns de nos rĂ©sultats obtenus entre 2004 et 2013 au sein de l'Ă©quipe DALI de l'UniversitĂ© de Perpignan relatifs Ă  l'amĂ©lioration de l’efficacitĂ© du calcul dans sa globalitĂ©, c'est-Ă -dire dans la suite d’opĂ©rations dĂ©crite au niveau algorithmique et exĂ©cutĂ©es par les Ă©lĂ©ments architecturaux, en nous concentrant sur les processeurs graphiques.Nous commençons par une description du fonctionnement de ce type d'architecture, en nous attardant sur le calcul flottant. Nous prĂ©sentons ensuite des implĂ©mentations efficaces d'opĂ©rateurs arithmĂ©tiques utilisant des reprĂ©sentations non-conventionnelles comme l'arithmĂ©tique multiprĂ©cision, par intervalle, floue ou logarithmique. Nous continuerons avec nos contributions relatives aux Ă©lĂ©ments architecturaux associĂ©s au calcul Ă  travers la simulation fonctionnelle, les bancs de registres, la gestion des branchements ou les opĂ©rateurs matĂ©riels spĂ©cialisĂ©s. Enfin, nous terminerons avec une analyse du comportement du calcul sur les GPU relatif Ă  la rĂ©gularitĂ©, Ă  la consommation Ă©lectrique, Ă  la fiabilisation des calculs ainsi qu'Ă  laprĂ©dictibilitĂ©

    First impressions: A survey on vision-based apparent personality trait analysis

    Get PDF
    © 2019 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes,creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.Personality analysis has been widely studied in psychology, neuropsychology, and signal processing fields, among others. From the past few years, it also became an attractive research area in visual computing. From the computational point of view, by far speech and text have been the most considered cues of information for analyzing personality. However, recently there has been an increasing interest from the computer vision community in analyzing personality from visual data. Recent computer vision approaches are able to accurately analyze human faces, body postures and behaviors, and use these information to infer apparent personality traits. Because of the overwhelming research interest in this topic, and of the potential impact that this sort of methods could have in society, we present in this paper an up-to-date review of existing vision-based approaches for apparent personality trait recognition. We describe seminal and cutting edge works on the subject, discussing and comparing their distinctive features and limitations. Future venues of research in the field are identified and discussed. Furthermore, aspects on the subjectivity in data labeling/evaluation, as well as current datasets and challenges organized to push the research on the field are reviewed.Peer ReviewedPostprint (author's final draft

    Philosophy & Architecture

    Get PDF
    Philosophy & Architecture special number of philosophy@LISBON (International eJournal) 5 | 2016 edited by TomĂĄs N. Castro with Maribel Mendes Sobreira Centro de Filosofia da Universidade de Lisboa ISSN 2182-437

    ModÚle particulaire 2D et 3D sur GPU pour plasma froid magnétisé : application à un filtre magnétique

    Get PDF
    La mĂ©thode PIC MCC (Particle-In-Cell Monte-Carlo Collision) est un outils trĂšs performant et efficace en ce qui concerne l'Ă©tude des plasmas (dans notre cas, pour des plasmas froids) car il permet de dĂ©crire l'Ă©volution dans le temps et dans l'espace, des particules chargĂ©es sous l'effet des champs auto-consistants et des collisions. Dans un cas purement Ă©lectrostatique, la mĂ©thode consiste Ă  suivre les trajectoires d'un nombre reprĂ©sentatif de particules chargĂ©es, des Ă©lectrons et des ions, dans l'espace des phases, et de dĂ©crire l'interaction collective de ces particules par la rĂ©solution de l'Ă©quation de Poisson. Dans le cas de plasmas froid, les trajectoires dans l'espace des phase sont dĂ©terminĂ©es par le champ Ă©lectrique auto-consistant et par les collisions avec les atomes neutres ou les molĂ©cules et, pour des densitĂ©s relativement importantes, par les collisions entre les particules chargĂ©es. Le coĂ»t des simulations pour ce type de mĂ©thode est trĂšs Ă©levĂ© en termes de ressources (CPU et mĂ©moire). Ceci est dĂ» aux fortes contraintes (dans les simulations PIC explicites) sur le pas de temps (plus petit qu'une fraction de la pĂ©riode plasma et inverse Ă  la frĂ©quence de giration Ă©lectronique), sur le pas d'espace (de l'ordre de la longueur de Debye), et sur le nombre de particules par longueur de Debye dans la simulation (gĂ©nĂ©ralement de l'ordre de plusieurs dizaines). L'algorithme PIC MCC peut ĂȘtre parallĂ©lisĂ© sur des fermes de calculs de CPU (le traitement de la trajectoires des particules est facilement parallĂ©lisable, mais la parallĂ©lisation de Poisson l'est beaucoup moins). L'Ă©mergence du GPGPU (General Purpose on Graphics Processing Unit) dans la recherche en informatique a ouvert la voie aux simulations massivement parallĂšle Ă  faible coĂ»t et ceci par l'utilisation d'un trĂšs grand nombre de processeurs disponible sur les cartes graphiques permettant d'effectuer des opĂ©rations Ă©lĂ©mentaires (e.g. calcul de la trajectoires des particules) en parallĂšle. Un certain nombre d'outils numĂ©rique pour le calcul sur GPU ont Ă©tĂ© dĂ©veloppĂ©s lors de ces 10 derniĂšres annĂ©es. De plus, le constructeur de cartes graphiques NVIDIA a dĂ©veloppĂ© un environnement de programmation appelĂ© CUDA (Compute Unified Device Architecture) qui permet une parallĂ©lisation efficace des codes sur GPU. La simulation PIC avec l'utilisation des cartes graphiques ou de la combinaison des GPU et des CPU a Ă©tĂ© reportĂ© par plusieurs auteurs, cependant les modĂšles PIC avec les collisions Monte-Carlo sur GPU sont encore en pleine Ă©tude. A l'heure actuelle, de ce que nous pouvons savoir, ce travail est le premier a montrer des rĂ©sultats d'un code PIC MCC 2D et 3D entiĂšrement parallĂ©lisĂ© sur GPU et dans le cas de l'Ă©tude de plasma froid magnĂ©tisĂ©. Dans les simulation PIC, il est relativement facile de suivre les particules lorsqu'il n'y a ni pertes ni crĂ©ation (e.g. limites pĂ©riodiques ou pas d'ionisation) de particules au cours du temps. Cependant il devient nĂ©cessaire de rĂ©ordonner les particules Ă  chaque pas en temps dans le cas contraire (ionisation, recombinaison, absorption, etc). Cette ThĂšse met en lumiĂšre les stratĂ©gies qui peuvent ĂȘtre utilisĂ©es dans les modĂšles PIC MCC sur GPU permettant d'outre passer les difficultĂ©s rencontrĂ©es lors du rĂ©arrangement des particules aprĂšs chaque pas de temps lors de la crĂ©ation et/ou des pertes. L'intĂ©rĂȘt principal de ce travail est de proposer un algorithme implĂ©mentĂ© sur GPU du modĂšle PIC MCC, de mesurer l'efficacitĂ© de celui-ci (parallĂ©lisation) et de le comparer avec les calculs effectuĂ©s sur GPU et enfin d'illustrer les rĂ©sultats de ce modĂšle par la simulation de plasma froid magnĂ©tisĂ©. L'objectif est de prĂ©senter en dĂ©tail le code utilisĂ© en de montrer les contraintes et les avantages liĂ©es Ă  la programmation de code PIC MCC sur GPU. La discussion est largement ciblĂ© sur le cas en 2D, cependant un algorithme 3D a Ă©galement Ă©tĂ© dĂ©veloppĂ© et testĂ© comme il est montrĂ© Ă  la fin de cette thĂšse.The PIC MCC (Particle-In-Cell Monte-Carlo Collision) method is a very powerful tool to study plasmas (we focus here on low temperature plasmas) since it can provide the space and time evolution of the charged particle velocity distribution functions under the effect of self-consistent fields and collisions. In an electrostatic problem, the method consists of following the trajectories of a representative number of charged particles, electrons and ions, in phase space, and to describe the collective interaction of the particles by solving Poisson's equation as the particles move. In a low temperature plasma, the trajectories in phase space are determined by the self-consistent electric field and by collisions with neutral atoms or molecules and, for large enough plasma densities, by collisions between charged particles. The computational cost of the method is very high in terms of CPU and memory resources, especially when multidimensional conditions must be taken into account and when steady state regimes are studied. This is because of the constraints (at least in explicit PIC simulations) on the time step (smaller than a fraction of the plasma period and inverse of the electron gyro frequency), on the grid spacing (on the order of the Debye length), and on the number of particles per Debye length in the simulation (larger than a few tens). The PIC MCC algorithm can be parallelized on CPU clusters (the treatment of particle trajectories is easy to parallelize, but the parallelization of Poisson's equation is less straightforward). The emergence of GPGPU (General Purpose computing on Graphics Processing Unit) in scienti fic computing opens the way to low cost massively parallel simulations by using the large number of processors of a graphic card to perform elementary calculations (e.g. computation of electron trajectories) in parallel. A number of numerical tools for GPU computing have been developed in the last 10 years. Furthermore, NVIDIA developed a programming environment called CUDA (Compute Unified Device Architecture, [1]) that allows to create efficient GPU codes. PIC modeling using GPU or a combination of GPU and CPU has been reported by several authors, however PIC models with Monte Carlo Collisions on GPU is an expanding area. To the best of our knowledge this work first reports results using a full GPU based implementation of 2D PIC-MCC model focused on low temperature magnetized plasma. Tracking of particles in PIC simulations involving no creation or loss of charged particles (e.g. periodic boundary conditions, no ionization) is straightforward. However, we need special reordering strategy when charged particle creation or loss is taken into account (e.g. ionization, absorption, attachment etc.). This thesis highlights the strategies which can be used in GPU PIC-MCC models to overcome the difficulties with particle reordering during particle creation and loss. The aim of this work is to propose PIC MCC algorithms to be implemented on GPU, to measure the efficiency of these algorithms (parallelization) and compare them with calculations on a single CPU, and to illustrate the method with an example of plasma simulation in a low temperature magnetized plasma. Our purpose is to describe the detailed features of the CUDA code that has been developed and to give an overview of the possibilities and constraints of programming a PIC MCC algorithm on a GPU, and to provide an estimate of the gain in computation time that can be obtained with respect to a standard CPU simulation. The discussion is focused on 2D simulations. The method we have developed has however already been implemented for 3D problems. The manuscript is organized as follows. Chapter I gives a state of art of CPU and GPU architectures and an overview of GPU computing and of the CUDA environment. The basic principles of PIC MCC simulations are presented in chapter II. Our implementation of the PIC MCC algorithms (particle position updating, charge density assignment, Poisson solver, field interpolation, Monte Carlo collisions, generation of Maxwellian distributions of particles) is described also in this chapter. Chapter III presents simulation results for the example of a low temperature magnetized plasma under conditions similar to those of a negative ion source for neutral beam injection in fusion plasmas. We discuss in the chapter II the computation times of different parts of the simulation and the total computation time as a function of parameters such as the number of particles or the number of grid cells. In the Chapter III, we discuss about the physics of a magnetic filter for the negative ion sources and a theoretical analysis of the electronic transport through the magnetic barrier is shown. Finally, 3D simulations are used to compare results with 2D simulations, but a more detailed analysis still have to be done

    Interaction intermodale dans les réseaux neuronaux profonds pour la classification et la localisation d'évÚnements audiovisuels

    Get PDF
    La comprĂ©hension automatique du monde environnant a de nombreuses applications telles que la surveillance et sĂ©curitĂ©, l'interaction Homme-Machine, la robotique, les soins de santĂ©, etc. Plus prĂ©cisĂ©ment, la comprĂ©hension peut s'exprimer par le biais de diffĂ©rentes taches telles que la classification et localisation dans l'espace d'Ă©vĂšnements. Les ĂȘtres vivants exploitent un maximum de l'information disponible pour comprendre ce qui les entoure. En s'inspirant du comportement des ĂȘtres vivants, les rĂ©seaux de neurones artificiels devraient Ă©galement utiliser conjointement plusieurs modalitĂ©s, par exemple, la vision et l'audition. PremiĂšrement, les modĂšles de classification et localisation, basĂ©s sur l'information audio-visuelle, doivent ĂȘtre Ă©valuĂ©s de façon objective. Nous avons donc enregistrĂ© une nouvelle base de donnĂ©es pour complĂ©ter les bases actuellement disponibles. Comme aucun modĂšle audio-visuel de classification et localisation n'existe, seule la partie sonore de la base est Ă©valuĂ©e avec un modĂšle de la littĂ©rature. DeuxiĂšmement, nous nous concentrons sur le cƓur de la thĂšse: comment utiliser conjointement de l'information visuelle et sonore pour rĂ©soudre une tĂąche spĂ©cifique, la reconnaissance d'Ă©vĂšnements. Le cerveau n'est pas constituĂ© d'une "simple" fusion mais comprend de multiples interactions entre les deux modalitĂ©s. Il y a un couplage important entre le traitement de l'information visuelle et sonore. Les rĂ©seaux de neurones offrent la possibilitĂ© de crĂ©er des interactions entre les modalitĂ©s en plus de la fusion. Dans cette thĂšse, nous explorons plusieurs stratĂ©gies pour fusionner les modalitĂ©s visuelles et sonores et pour crĂ©er des interactions entre les modalitĂ©s. Ces techniques ont les meilleures performances en comparaison aux architectures de l'Ă©tat de l'art au moment de la publication. Ces techniques montrent l'utilitĂ© de la fusion audio-visuelle mais surtout l'importance des interactions entre les modalitĂ©s. Pour conclure la thĂšse, nous proposons un rĂ©seau de rĂ©fĂ©rence pour la classification et localisation d'Ă©vĂšnements audio-visuels. Ce rĂ©seau a Ă©tĂ© testĂ© avec la nouvelle base de donnĂ©es. Les modĂšles prĂ©cĂ©dents de classification sont modifiĂ©s pour prendre en compte la localisation dans l'espace en plus de la classification.Abstract: The automatic understanding of the surrounding world has a wide range of applications, including surveillance, human-computer interaction, robotics, health care, etc. The understanding can be expressed in several ways such as event classification and its localization in space. Living beings exploit a maximum of the available information to understand the surrounding world. Artificial neural networks should build on this behavior and jointly use several modalities such as vision and hearing. First, audio-visual networks for classification and localization must be evaluated objectively. We recorded a new audio-visual dataset to fill a gap in the current available datasets. We were not able to find audio-visual models for classification and localization. Only the dataset audio part is evaluated with a state-of-the-art model. Secondly, we focus on the main challenge of the thesis: How to jointly use visual and audio information to solve a specific task, event recognition. The brain does not comprise a simple fusion but has multiple interactions between the two modalities to create a strong coupling between them. The neural networks offer the possibility to create interactions between the two modalities in addition to the fusion. We explore several strategies to fuse the audio and visual modalities and to create interactions between modalities. These techniques have the best performance compared to the state-of-the-art architectures at the time of publishing. They show the usefulness of audio-visual fusion but above all the contribution of the interaction between modalities. To conclude, we propose a benchmark for audio-visual classification and localization on the new dataset. Previous models for the audio-visual classification are modified to address the localization in addition to the classification

    EU Competition Policy Revisited: Economic Doctrines Within European Political Work

    Get PDF
    European Union competition policy is often described as neoliberal, without this leading to more investigation. This paper highlights how the European Competition policy doctrine has been shaped, how the ordoliberal movement and the Chicago school ideas have been implemented and supported by the political work of some key actors. We show that, contrary to what is sometimes said in literature, ordoliberal actors were neither hegemonic nor leaders between Rome Treaty and the eighties, even if some neoliberal principles were introduced in antitrust law. These laws are much more a compromise between French and German representatives, and between neo-mercantilists and ordoliberals. However, things have dramatically changed since the eighties, when both (1) new political work from members of the Commission introduced in the European competition policy elements of Chicago School doctrine to complete the European market and (2) some decisions from the ECJ clarified the doctrine of EU Competition law. Nowadays, European competition policy is a mix between an ordoliberal spirit and some Chicago School doctrinal elements.competition, policy, European Union, neoliberalism, ordoliberalism, political work

    Reconnaissance de contexte stable pour l'habitat intelligent

    Get PDF
    L'habitat intelligent est l'objet de nombreux travaux de recherche. Il permet d'assister des personnes ùgées ou handicapées, d'améliorer le confort, la sécurité ou encore d'économiser de l'énergie. Aujourd'hui, l'informatique ubiquitaire se développe et s'intÚgre dans l'habitat intelligent notamment en apportant la sensibilité au contexte. Malheureusement, comprendre ce qui se passe dans une maison n'est pas toujours facile. Dans cette thÚse, nous explicitons comment le contexte peut permettre de déployer des services adaptés aux activités et aux besoins des habitants. La compréhension du contexte passe par l'installation de capteurs mais aussi par l'abstraction des données brutes en données intelligibles facilement exploitables par des humains et des services. Nous mettons en avant une architecture multi-couches de fusion de données permettant d'obtenir des données contextuelles de niveaux d'abstraction différents. La mise en place des couches basses y est présentée en détail avec l'application de la théorie des fonctions de croyance pour l'abstraction de données brutes issues de capteurs. Enfin, sont présentés le déploiement d'un prototype nous ayant permis de valider notre approche, ainsi que les services déployés.Smart home is a major subject of interest. It helps to assist elderly or disabled people, improve comfort, safety, and also save energy. Today, ubiquitous computing is developed and integrated into the smart home providing context-awareness. Unfortunately, understanding what happens in a home is not always easy. In this thesis, we explain how context can be used to deploy services tailored to the activities and needs of residents. Understanding context requires the installation of sensors but also the abstraction of raw data into easily understandable data usable by humans and services. We present a multi-layer architecture of data fusion used to obtain contextual information of different levels of abstraction. The implementation of the lower layers is presented in detail with the application of the theory of belief functions for the abstraction of raw sensor data. Finally, are presented the deployment of a prototype that allowed us to validate our approach and the deployed services.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Visual question answering with modules and language modeling

    Get PDF
    L’objectif principal de cette thĂšse est d’apprendre les reprĂ©sentations modulaires pour la tĂąche de rĂ©ponse visuelle aux questions (VQA). Apprendre de telles reprĂ©sentations a le potentiel de gĂ©nĂ©raliser au raisonnement d’ordre supĂ©rieur qui prĂ©vaut chez l’ĂȘtre humain. Le chapitre 1 traite de la littĂ©rature relative Ă  VQA, aux rĂ©seaux modulaires et Ă  l’optimisation de la structure neuronale. En particulier, les diffĂ©rents ensembles de donnĂ©es proposĂ©s pour Ă©tudier cette tĂąche y sont dĂ©taillĂ©s. Les modĂšles de VQA peuvent ĂȘtre classĂ©s en deux catĂ©gories en fonction des jeux de donnĂ©es auxquels ils conviennent. La premiĂšre porte sur les questions ouvertes sur les images naturelles. Ces questions concernent principalement quelques objets/personnes prĂ©sents dans l’image et n’exigent aucune capacitĂ© de raisonnement significative pour y rĂ©pondre. La deuxiĂšme catĂ©gorie comprend des questions (principalement sur des images synthĂ©tiques) qui testent la capacitĂ© des modĂšles Ă  effectuer un raisonnement compositionnel. Nous discutons de diffĂ©rentes variantes architecturales de rĂ©seaux de modules neuronaux (NMN). Finalement nous discutons des approches pour apprendre les structures ou modules de rĂ©seau neuronal pour des tĂąches autres que VQA. Au chapitre 2, nous dĂ©crivons un moyen d’exĂ©cuter de maniĂšre parcimonieuse un modĂšle CNN (ResNeXt [110]) et d’enregistrer les calculs effectuĂ©s dans le processus. Ici, nous avons utilisĂ© un mĂ©lange de formulations d’experts pour n’exĂ©cuter que les K meilleurs experts dans chaque bloc convolutionnel. Le groupe d’experts le plus important est sĂ©lectionnĂ© sur la base d’un contrĂŽleur qui utilise un systĂšme d’attention guidĂ© par une question suivie de couches entiĂšrement connectĂ©es dans le but d’attribuer des poids Ă  l’ensemble d’experts. Nos expĂ©riences montrent qu’il est possible de rĂ©aliser des Ă©conomies Ă©normes sur le nombre de FLOP avec un impact minimal sur la performance. Le chapitre 3 est un prologue du chapitre 4. Il mentionne les contributions clĂ©s et fournit une introduction au problĂšme de recherche que nous essayons de traiter dans l’article. Le chapitre 4 contient le contenu de l’article. Ici, nous nous intĂ©ressons Ă  l’apprentissage de la structure interne des modules pour les rĂ©seaux de modules neuronaux (NMN) [3, 37]. Nous introduisons une nouvelle forme de structure de module qui utilise des opĂ©rations arithmĂ©tiques Ă©lĂ©mentaires et la tĂąche consiste maintenant Ă  connaĂźtre les poids de ces opĂ©rations pour former la structure de module. Nous plaçons le problĂšme dans une technique d’optimisation Ă  deux niveaux, dans laquelle le modĂšle prend des gradients de descente alternĂ©s dans l’architecture et des espaces de poids. Le chapitre 5 traite d’autres expĂ©riences et Ă©tudes d’ablation rĂ©alisĂ©es dans le contexte de l’article prĂ©cĂ©dent. La plupart des travaux dans la littĂ©rature utilisent un rĂ©seau de neurones rĂ©current tel que LSTM [33] ou GRU [13] pour modĂ©liser les caractĂ©ristiques de la question. Cependant, les LSTM peuvent Ă©chouer Ă  encoder correctement les caractĂ©ristiques syntaxiques de la question qui pourraient ĂȘtre essentielles [87]. RĂ©cemment, [76] a montrĂ© l’utilitĂ© de la modĂ©lisation du langage pour rĂ©pondre aux questions. Avec cette motivation, nous essayons d’apprendre un meilleur modĂšle linguistique qui peut ĂȘtre formĂ© de maniĂšre non supervisĂ©e. Dans le chapitre 6, nous dĂ©crivons un rĂ©seau rĂ©cursif de modĂ©lisation de langage dont la structure est alignĂ©e pour le langage naturel. Plus techniquement, nous utilisons un modĂšle d’analyse non supervisĂ©e (Parsing Reading Predict Network ou PPRN [86]) et augmentons son Ă©tape de prĂ©diction avec un modĂšle TreeLSTM [99] qui utilise l’arborescence intermĂ©diaire fournie par le modĂšle PRPN dans le but de un Ă©tat cachĂ© en utilisant la structure arborescente. L’étape de prĂ©diction du modĂšle PRPN utilise l’état cachĂ©, qui est une combinaison pondĂ©rĂ©e de l’état cachĂ© du TreeLSTM et de celui obtenu Ă  partir d’une attention structurĂ©e. De cette façon, le modĂšle peut effectuer une analyse non supervisĂ©e et capturer les dĂ©pendances Ă  long terme, car la structure existe maintenant explicitement dans le modĂšle. Nos expĂ©riences dĂ©montrent que ce modĂšle conduit Ă  une amĂ©lioration de la tĂąche de modĂ©lisation du langage par rapport au rĂ©fĂ©rentiel PRPN sur le jeu de donnĂ©es Penn Treebank.The primary focus in this thesis is to learn modularized representations for the task of Visual Question Answering. Learning such representations holds the potential to generalize to higher order reasoning as is prevalent in human beings. Chapter 1 discusses the literature related to VQA, modular networks and neural structure optimization. In particular, it first details different datasets proposed to study this task. The models for VQA can be categorized into two categories based on the datasets they are suitable for. The first one is open-ended questions about natural images. These questions are mostly about a few objects/persons present in the image and don’t require any significant reasoning capability to answer them. The second category comprises of questions (mostly on synthetic images) which tests the ability of models to perform compositional reasoning. We discuss the different architectural variants of Neural Module Networks (NMN). Finally, we discuss approaches to learn the neural network structures or modules for tasks other than VQA. In Chapter 2, we discuss a way to sparsely execute a CNN model (ResNeXt [110]) and save computations in the process. Here, we used a mixture of experts formulation to execute only the top-K experts in each convolutional block. The most important set of experts are selected based on a gate controller which uses a question-guided attention map followed by fully-connected layers to assign weights to the set of experts. Our experiments show that it is possible to get huge savings in the FLOP count with only a minimal degradation in performance. Chapter 3 is a prologue to Chapter 4. It mentions the key contributions and provides an introduction to the research problem which we try to address in the article. Chapter 4 contains the contents of the article. Here, we are interested in learning the internal structure of the modules for Neural Module Networks (NMN) [3, 37]. We introduce a novel form of module structure which uses elementary arithmetic operations and now the task is to learn the weights of these operations to form the module structure. We cast the problem into a bi-level optimization technique in which the model takes alternating gradient descent steps in architecture and weight spaces. Chapter 5 discusses additional experiments and ablation studies that were done in the context of the previous article. Most works in the literature use a recurrent neural network like LSTM [33] or GRU [13] to model the question features. However, LSTMs can fail to properly encode syntactic features of the question which could be vital to answering some VQA questions [87]. Recently, [76] has shown the utility of language modeling for question-answering. With this motivation, we try to learn a better language model which can be trained in an unsupervised manner. In Chapter 6, we discuss a recursive network for language modeling whose structure aligns with the natural language. More technically, we make use of an unsupervised parsing model (Parsing Reading Predict Network or PPRN [86]) and augment its prediction step with a TreeLSTM [99] model which makes use of the intermediate tree structure given by PRPN model to output a hidden state by utilizing the tree structure. The predict step of PRPN model makes use of a hidden state which is a weighted combination of the TreeLSTM’s hidden state and the one obtained from structured attention. This way it helps the model to do unsupervised parsing and also capture long-term dependencies as the structure now explicitly exists in the model. Our experiments demonstrate that this model leads to improvement on language modeling task over the PRPN baseline on Penn Treebank dataset
    • 

    corecore