1,836 research outputs found
Contribution au calcul sur GPU: considérations arithmétiques et architecturales
Lâoptimisation du calcul passe par une gestion conjointe du matĂ©riel et du logiciel. Cette rĂšgle se trouve renforcĂ©e lorsque lâon aborde le domaine des architectures multicoeurs oĂč les paramĂštres Ă considĂ©rer sont plus nombreux que sur une architecture superscalaire classique. Ces architectures offrent une grande variĂ©tĂ© dâunitĂ© de calcul, de format de reprĂ©sentation, de hiĂ©rarchie mĂ©moire et de mĂ©canismes de transfert de donnĂ©e.Dans ce mĂ©moire, nous dĂ©crivons quelques-uns de nos rĂ©sultats obtenus entre 2004 et 2013 au sein de l'Ă©quipe DALI de l'UniversitĂ© de Perpignan relatifs Ă l'amĂ©lioration de lâefficacitĂ© du calcul dans sa globalitĂ©, c'est-Ă -dire dans la suite dâopĂ©rations dĂ©crite au niveau algorithmique et exĂ©cutĂ©es par les Ă©lĂ©ments architecturaux, en nous concentrant sur les processeurs graphiques.Nous commençons par une description du fonctionnement de ce type d'architecture, en nous attardant sur le calcul flottant. Nous prĂ©sentons ensuite des implĂ©mentations efficaces d'opĂ©rateurs arithmĂ©tiques utilisant des reprĂ©sentations non-conventionnelles comme l'arithmĂ©tique multiprĂ©cision, par intervalle, floue ou logarithmique. Nous continuerons avec nos contributions relatives aux Ă©lĂ©ments architecturaux associĂ©s au calcul Ă travers la simulation fonctionnelle, les bancs de registres, la gestion des branchements ou les opĂ©rateurs matĂ©riels spĂ©cialisĂ©s. Enfin, nous terminerons avec une analyse du comportement du calcul sur les GPU relatif Ă la rĂ©gularitĂ©, Ă la consommation Ă©lectrique, Ă la fiabilisation des calculs ainsi qu'Ă laprĂ©dictibilitĂ©
First impressions: A survey on vision-based apparent personality trait analysis
© 2019 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes,creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.Personality analysis has been widely studied in psychology, neuropsychology, and signal processing fields, among others. From the past few years, it also became an attractive research area in visual computing. From the computational point of view, by far speech and text have been the most considered cues of information for analyzing personality. However, recently there has been an increasing interest from the computer vision community in analyzing personality from visual data. Recent computer vision approaches are able to accurately analyze human faces, body postures and behaviors, and use these information to infer apparent personality traits. Because of the overwhelming research interest in this topic, and of the potential impact that this sort of methods could have in society, we present in this paper an up-to-date review of existing vision-based approaches for apparent personality trait recognition. We describe seminal and cutting edge works on the subject, discussing and comparing their distinctive features and limitations. Future venues of research in the field are identified and discussed. Furthermore, aspects on the subjectivity in data labeling/evaluation, as well as current datasets and challenges organized to push the research on the field are reviewed.Peer ReviewedPostprint (author's final draft
Philosophy & Architecture
Philosophy & Architecture
special number of
philosophy@LISBON (International eJournal)
5 | 2016
edited by TomĂĄs N. Castro with Maribel Mendes Sobreira
Centro de Filosofia da Universidade de Lisboa
ISSN 2182-437
ModÚle particulaire 2D et 3D sur GPU pour plasma froid magnétisé : application à un filtre magnétique
La mĂ©thode PIC MCC (Particle-In-Cell Monte-Carlo Collision) est un outils trĂšs performant et efficace en ce qui concerne l'Ă©tude des plasmas (dans notre cas, pour des plasmas froids) car il permet de dĂ©crire l'Ă©volution dans le temps et dans l'espace, des particules chargĂ©es sous l'effet des champs auto-consistants et des collisions. Dans un cas purement Ă©lectrostatique, la mĂ©thode consiste Ă suivre les trajectoires d'un nombre reprĂ©sentatif de particules chargĂ©es, des Ă©lectrons et des ions, dans l'espace des phases, et de dĂ©crire l'interaction collective de ces particules par la rĂ©solution de l'Ă©quation de Poisson. Dans le cas de plasmas froid, les trajectoires dans l'espace des phase sont dĂ©terminĂ©es par le champ Ă©lectrique auto-consistant et par les collisions avec les atomes neutres ou les molĂ©cules et, pour des densitĂ©s relativement importantes, par les collisions entre les particules chargĂ©es. Le coĂ»t des simulations pour ce type de mĂ©thode est trĂšs Ă©levĂ© en termes de ressources (CPU et mĂ©moire). Ceci est dĂ» aux fortes contraintes (dans les simulations PIC explicites) sur le pas de temps (plus petit qu'une fraction de la pĂ©riode plasma et inverse Ă la frĂ©quence de giration Ă©lectronique), sur le pas d'espace (de l'ordre de la longueur de Debye), et sur le nombre de particules par longueur de Debye dans la simulation (gĂ©nĂ©ralement de l'ordre de plusieurs dizaines). L'algorithme PIC MCC peut ĂȘtre parallĂ©lisĂ© sur des fermes de calculs de CPU (le traitement de la trajectoires des particules est facilement parallĂ©lisable, mais la parallĂ©lisation de Poisson l'est beaucoup moins). L'Ă©mergence du GPGPU (General Purpose on Graphics Processing Unit) dans la recherche en informatique a ouvert la voie aux simulations massivement parallĂšle Ă faible coĂ»t et ceci par l'utilisation d'un trĂšs grand nombre de processeurs disponible sur les cartes graphiques permettant d'effectuer des opĂ©rations Ă©lĂ©mentaires (e.g. calcul de la trajectoires des particules) en parallĂšle. Un certain nombre d'outils numĂ©rique pour le calcul sur GPU ont Ă©tĂ© dĂ©veloppĂ©s lors de ces 10 derniĂšres annĂ©es. De plus, le constructeur de cartes graphiques NVIDIA a dĂ©veloppĂ© un environnement de programmation appelĂ© CUDA (Compute Unified Device Architecture) qui permet une parallĂ©lisation efficace des codes sur GPU. La simulation PIC avec l'utilisation des cartes graphiques ou de la combinaison des GPU et des CPU a Ă©tĂ© reportĂ© par plusieurs auteurs, cependant les modĂšles PIC avec les collisions Monte-Carlo sur GPU sont encore en pleine Ă©tude. A l'heure actuelle, de ce que nous pouvons savoir, ce travail est le premier a montrer des rĂ©sultats d'un code PIC MCC 2D et 3D entiĂšrement parallĂ©lisĂ© sur GPU et dans le cas de l'Ă©tude de plasma froid magnĂ©tisĂ©. Dans les simulation PIC, il est relativement facile de suivre les particules lorsqu'il n'y a ni pertes ni crĂ©ation (e.g. limites pĂ©riodiques ou pas d'ionisation) de particules au cours du temps. Cependant il devient nĂ©cessaire de rĂ©ordonner les particules Ă chaque pas en temps dans le cas contraire (ionisation, recombinaison, absorption, etc). Cette ThĂšse met en lumiĂšre les stratĂ©gies qui peuvent ĂȘtre utilisĂ©es dans les modĂšles PIC MCC sur GPU permettant d'outre passer les difficultĂ©s rencontrĂ©es lors du rĂ©arrangement des particules aprĂšs chaque pas de temps lors de la crĂ©ation et/ou des pertes. L'intĂ©rĂȘt principal de ce travail est de proposer un algorithme implĂ©mentĂ© sur GPU du modĂšle PIC MCC, de mesurer l'efficacitĂ© de celui-ci (parallĂ©lisation) et de le comparer avec les calculs effectuĂ©s sur GPU et enfin d'illustrer les rĂ©sultats de ce modĂšle par la simulation de plasma froid magnĂ©tisĂ©. L'objectif est de prĂ©senter en dĂ©tail le code utilisĂ© en de montrer les contraintes et les avantages liĂ©es Ă la programmation de code PIC MCC sur GPU. La discussion est largement ciblĂ© sur le cas en 2D, cependant un algorithme 3D a Ă©galement Ă©tĂ© dĂ©veloppĂ© et testĂ© comme il est montrĂ© Ă la fin de cette thĂšse.The PIC MCC (Particle-In-Cell Monte-Carlo Collision) method is a very powerful tool to study plasmas (we focus here on low temperature plasmas) since it can provide the space and time evolution of the charged particle velocity distribution functions under the effect of self-consistent fields and collisions. In an electrostatic problem, the method consists of following the trajectories of a representative number of charged particles, electrons and ions, in phase space, and to describe the collective interaction of the particles by solving Poisson's equation as the particles move. In a low temperature plasma, the trajectories in phase space are determined by the self-consistent electric field and by collisions with neutral atoms or molecules and, for large enough plasma densities, by collisions between charged particles. The computational cost of the method is very high in terms of CPU and memory resources, especially when multidimensional conditions must be taken into account and when steady state regimes are studied. This is because of the constraints (at least in explicit PIC simulations) on the time step (smaller than a fraction of the plasma period and inverse of the electron gyro frequency), on the grid spacing (on the order of the Debye length), and on the number of particles per Debye length in the simulation (larger than a few tens). The PIC MCC algorithm can be parallelized on CPU clusters (the treatment of particle trajectories is easy to parallelize, but the parallelization of Poisson's equation is less straightforward). The emergence of GPGPU (General Purpose computing on Graphics Processing Unit) in scienti
fic computing opens the way to low cost massively parallel simulations by using the large number of processors of a graphic card to perform elementary calculations (e.g. computation of electron trajectories) in parallel. A number of numerical tools for GPU computing have been developed in the last 10 years. Furthermore, NVIDIA developed a programming environment called CUDA (Compute Unified Device Architecture, [1]) that allows to create efficient GPU codes. PIC modeling using GPU or a combination of GPU and CPU has been reported by several authors, however PIC models with Monte Carlo Collisions on GPU is an expanding area. To the best of our knowledge this work first reports results using a full GPU based implementation of 2D PIC-MCC model focused on low temperature magnetized plasma. Tracking of particles in PIC simulations involving no creation or loss of charged particles (e.g. periodic boundary conditions, no ionization) is straightforward. However, we need special reordering strategy when charged particle creation or loss is taken into account (e.g. ionization, absorption, attachment etc.). This thesis highlights the strategies which can be used in GPU PIC-MCC models to overcome the difficulties with particle reordering during particle creation and loss. The aim of this work is to propose PIC MCC algorithms to be implemented on GPU, to measure the efficiency of these algorithms (parallelization) and compare them with calculations on a single CPU, and to illustrate the method with an example of plasma simulation in a low temperature magnetized plasma. Our purpose is to describe the detailed features of the CUDA code that has been developed and to give an overview of the possibilities and constraints of programming a PIC MCC algorithm on a GPU, and to provide an estimate of the gain in computation time that can be obtained with respect to a standard CPU simulation. The discussion is focused on 2D simulations. The method we have developed has however already been implemented for 3D problems. The manuscript is organized as follows. Chapter I gives a state of art of CPU and GPU architectures and an overview of GPU computing and of the CUDA environment. The basic principles of PIC MCC simulations are presented in chapter II. Our implementation of the PIC MCC algorithms (particle position updating, charge density assignment, Poisson solver, field interpolation, Monte Carlo collisions, generation of Maxwellian distributions of particles) is described also in this chapter. Chapter III presents simulation results for the example of a low temperature magnetized plasma under conditions similar to those of a negative ion source for neutral beam injection in fusion plasmas. We discuss in the chapter II the computation times of different parts of the simulation and the total computation time as a function of parameters such as the number of particles or the number of grid cells. In the Chapter III, we discuss about the physics of a magnetic
filter for the negative ion sources and a theoretical analysis of the electronic transport through the magnetic barrier is shown. Finally, 3D simulations are used to compare results with 2D simulations, but a more detailed analysis still have to be done
Interaction intermodale dans les réseaux neuronaux profonds pour la classification et la localisation d'évÚnements audiovisuels
La compréhension automatique du monde environnant a de nombreuses applications
telles que la surveillance et sécurité, l'interaction Homme-Machine,
la robotique, les soins de santé, etc. Plus précisément, la compréhension peut
s'exprimer par le biais de différentes taches telles que la classification et localisation
dans l'espace d'Ă©vĂšnements. Les ĂȘtres vivants exploitent un maximum
de l'information disponible pour comprendre ce qui les entoure. En s'inspirant
du comportement des ĂȘtres vivants, les rĂ©seaux de neurones artificiels devraient
également utiliser conjointement plusieurs modalités, par exemple, la vision et
l'audition.
PremiÚrement, les modÚles de classification et localisation, basés sur l'information
audio-visuelle, doivent ĂȘtre Ă©valuĂ©s de façon objective. Nous avons donc
enregistré une nouvelle base de données pour compléter les bases actuellement
disponibles. Comme aucun modĂšle audio-visuel de classification et localisation
n'existe, seule la partie sonore de la base est évaluée avec un modÚle de la
littérature.
DeuxiĂšmement, nous nous concentrons sur le cĆur de la thĂšse: comment
utiliser conjointement de l'information visuelle et sonore pour résoudre une
tùche spécifique, la reconnaissance d'évÚnements. Le cerveau n'est pas constitué d'une "simple" fusion mais comprend de multiples interactions entre
les deux modalités. Il y a un couplage important entre le traitement de
l'information visuelle et sonore. Les réseaux de neurones offrent la possibilité de créer des interactions entre les modalités en plus de la fusion. Dans
cette thÚse, nous explorons plusieurs stratégies pour fusionner les modalités
visuelles et sonores et pour créer des interactions entre les modalités. Ces techniques
ont les meilleures performances en comparaison aux architectures de
l'état de l'art au moment de la publication. Ces techniques montrent l'utilité
de la fusion audio-visuelle mais surtout l'importance des interactions entre les
modalités.
Pour conclure la thÚse, nous proposons un réseau de référence pour la classification et localisation d'évÚnements audio-visuels. Ce réseau a été testé avec
la nouvelle base de données. Les modÚles précédents de classification sont
modifiés pour prendre en compte la localisation dans l'espace en plus de la
classification.Abstract: The automatic understanding of the surrounding world has a wide range of applications, including surveillance, human-computer interaction, robotics, health care, etc. The understanding can be expressed in several ways such as event classification and its localization in space. Living beings exploit a maximum of the available information to understand the surrounding world. Artificial neural networks should build on this behavior and jointly use several modalities such as vision and hearing. First, audio-visual networks for classification and localization must be evaluated objectively. We recorded a new audio-visual dataset to fill a gap in the current available datasets. We were not able to find audio-visual models for classification and localization. Only the dataset audio part is evaluated with a state-of-the-art model. Secondly, we focus on the main challenge of the thesis: How to jointly use visual and audio information to solve a specific task, event recognition. The brain does not comprise a simple fusion but has multiple interactions between the two modalities to create a strong coupling between them. The neural networks offer the possibility to create interactions between the two modalities in addition to the fusion. We explore several strategies to fuse the audio and visual modalities and to create interactions between modalities. These techniques have the best performance compared to the state-of-the-art architectures at the time of publishing. They show the usefulness of audio-visual fusion but above all the contribution of the interaction between modalities. To conclude, we propose a benchmark for audio-visual classification and localization on the new dataset. Previous models for the audio-visual classification are modified to address the localization in addition to the classification
EU Competition Policy Revisited: Economic Doctrines Within European Political Work
European Union competition policy is often described as neoliberal, without this leading to more investigation. This paper highlights how the European Competition policy doctrine has been shaped, how the ordoliberal movement and the Chicago school ideas have been implemented and supported by the political work of some key actors. We show that, contrary to what is sometimes said in literature, ordoliberal actors were neither hegemonic nor leaders between Rome Treaty and the eighties, even if some neoliberal principles were introduced in antitrust law. These laws are much more a compromise between French and German representatives, and between neo-mercantilists and ordoliberals. However, things have dramatically changed since the eighties, when both (1) new political work from members of the Commission introduced in the European competition policy elements of Chicago School doctrine to complete the European market and (2) some decisions from the ECJ clarified the doctrine of EU Competition law. Nowadays, European competition policy is a mix between an ordoliberal spirit and some Chicago School doctrinal elements.competition, policy, European Union, neoliberalism, ordoliberalism, political work
Reconnaissance de contexte stable pour l'habitat intelligent
L'habitat intelligent est l'objet de nombreux travaux de recherche. Il permet d'assister des personnes ùgées ou handicapées, d'améliorer le confort, la sécurité ou encore d'économiser de l'énergie. Aujourd'hui, l'informatique ubiquitaire se développe et s'intÚgre dans l'habitat intelligent notamment en apportant la sensibilité au contexte. Malheureusement, comprendre ce qui se passe dans une maison n'est pas toujours facile. Dans cette thÚse, nous explicitons comment le contexte peut permettre de déployer des services adaptés aux activités et aux besoins des habitants. La compréhension du contexte passe par l'installation de capteurs mais aussi par l'abstraction des données brutes en données intelligibles facilement exploitables par des humains et des services. Nous mettons en avant une architecture multi-couches de fusion de données permettant d'obtenir des données contextuelles de niveaux d'abstraction différents. La mise en place des couches basses y est présentée en détail avec l'application de la théorie des fonctions de croyance pour l'abstraction de données brutes issues de capteurs. Enfin, sont présentés le déploiement d'un prototype nous ayant permis de valider notre approche, ainsi que les services déployés.Smart home is a major subject of interest. It helps to assist elderly or disabled people, improve comfort, safety, and also save energy. Today, ubiquitous computing is developed and integrated into the smart home providing context-awareness. Unfortunately, understanding what happens in a home is not always easy. In this thesis, we explain how context can be used to deploy services tailored to the activities and needs of residents. Understanding context requires the installation of sensors but also the abstraction of raw data into easily understandable data usable by humans and services. We present a multi-layer architecture of data fusion used to obtain contextual information of different levels of abstraction. The implementation of the lower layers is presented in detail with the application of the theory of belief functions for the abstraction of raw sensor data. Finally, are presented the deployment of a prototype that allowed us to validate our approach and the deployed services.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF
Visual question answering with modules and language modeling
Lâobjectif principal de cette thĂšse est dâapprendre les reprĂ©sentations modulaires pour la tĂąche
de réponse visuelle aux questions (VQA). Apprendre de telles représentations a le potentiel de
gĂ©nĂ©raliser au raisonnement dâordre supĂ©rieur qui prĂ©vaut chez lâĂȘtre humain. Le chapitre 1 traite
de la littĂ©rature relative Ă VQA, aux rĂ©seaux modulaires et Ă lâoptimisation de la structure neuronale.
En particulier, les différents ensembles de données proposés pour étudier cette tùche y sont
dĂ©taillĂ©s. Les modĂšles de VQA peuvent ĂȘtre classĂ©s en deux catĂ©gories en fonction des jeux de
données auxquels ils conviennent. La premiÚre porte sur les questions ouvertes sur les images naturelles.
Ces questions concernent principalement quelques objets/personnes prĂ©sents dans lâimage
et nâexigent aucune capacitĂ© de raisonnement significative pour y rĂ©pondre. La deuxiĂšme catĂ©gorie
comprend des questions (principalement sur des images synthétiques) qui testent la capacité des
modÚles à effectuer un raisonnement compositionnel. Nous discutons de différentes variantes architecturales
de réseaux de modules neuronaux (NMN). Finalement nous discutons des approches
pour apprendre les structures ou modules de réseau neuronal pour des tùches autres que VQA.
Au chapitre 2, nous dĂ©crivons un moyen dâexĂ©cuter de maniĂšre parcimonieuse un modĂšle CNN
(ResNeXt [110]) et dâenregistrer les calculs effectuĂ©s dans le processus. Ici, nous avons utilisĂ© un
mĂ©lange de formulations dâexperts pour nâexĂ©cuter que les K meilleurs experts dans chaque bloc
convolutionnel. Le groupe dâexperts le plus important est sĂ©lectionnĂ© sur la base dâun contrĂŽleur
qui utilise un systĂšme dâattention guidĂ© par une question suivie de couches entiĂšrement connectĂ©es
dans le but dâattribuer des poids Ă lâensemble dâexperts. Nos expĂ©riences montrent quâil est
possible de réaliser des économies énormes sur le nombre de FLOP avec un impact minimal sur la
performance.
Le chapitre 3 est un prologue du chapitre 4. Il mentionne les contributions clés et fournit une
introduction au problĂšme de recherche que nous essayons de traiter dans lâarticle. Le chapitre 4
contient le contenu de lâarticle. Ici, nous nous intĂ©ressons Ă lâapprentissage de la structure interne des modules pour les rĂ©seaux de modules neuronaux (NMN) [3, 37]. Nous introduisons une nouvelle
forme de structure de module qui utilise des opérations arithmétiques élémentaires et la tùche
consiste maintenant à connaßtre les poids de ces opérations pour former la structure de module.
Nous plaçons le problĂšme dans une technique dâoptimisation Ă deux niveaux, dans laquelle le
modĂšle prend des gradients de descente alternĂ©s dans lâarchitecture et des espaces de poids. Le
chapitre 5 traite dâautres expĂ©riences et Ă©tudes dâablation rĂ©alisĂ©es dans le contexte de lâarticle
précédent.
La plupart des travaux dans la littérature utilisent un réseau de neurones récurrent tel que LSTM
[33] ou GRU [13] pour modéliser les caractéristiques de la question. Cependant, les LSTM peuvent
Ă©chouer Ă encoder correctement les caractĂ©ristiques syntaxiques de la question qui pourraient ĂȘtre
essentielles [87]. RĂ©cemment, [76] a montrĂ© lâutilitĂ© de la modĂ©lisation du langage pour rĂ©pondre
aux questions. Avec cette motivation, nous essayons dâapprendre un meilleur modĂšle linguistique
qui peut ĂȘtre formĂ© de maniĂšre non supervisĂ©e. Dans le chapitre 6, nous dĂ©crivons un rĂ©seau rĂ©cursif
de modélisation de langage dont la structure est alignée pour le langage naturel. Plus techniquement,
nous utilisons un modĂšle dâanalyse non supervisĂ©e (Parsing Reading Predict Network
ou PPRN [86]) et augmentons son étape de prédiction avec un modÚle TreeLSTM [99] qui utilise
lâarborescence intermĂ©diaire fournie par le modĂšle PRPN dans le but de un Ă©tat cachĂ© en utilisant
la structure arborescente. LâĂ©tape de prĂ©diction du modĂšle PRPN utilise lâĂ©tat cachĂ©, qui est une
combinaison pondĂ©rĂ©e de lâĂ©tat cachĂ© du TreeLSTM et de celui obtenu Ă partir dâune attention
structurée. De cette façon, le modÚle peut effectuer une analyse non supervisée et capturer les
dépendances à long terme, car la structure existe maintenant explicitement dans le modÚle. Nos
expériences démontrent que ce modÚle conduit à une amélioration de la tùche de modélisation du
langage par rapport au référentiel PRPN sur le jeu de données Penn Treebank.The primary focus in this thesis is to learn modularized representations for the task of Visual
Question Answering. Learning such representations holds the potential to generalize to higher
order reasoning as is prevalent in human beings. Chapter 1 discusses the literature related to VQA,
modular networks and neural structure optimization. In particular, it first details different datasets
proposed to study this task. The models for VQA can be categorized into two categories based
on the datasets they are suitable for. The first one is open-ended questions about natural images.
These questions are mostly about a few objects/persons present in the image and donât require
any significant reasoning capability to answer them. The second category comprises of questions
(mostly on synthetic images) which tests the ability of models to perform compositional reasoning.
We discuss the different architectural variants of Neural Module Networks (NMN). Finally, we
discuss approaches to learn the neural network structures or modules for tasks other than VQA.
In Chapter 2, we discuss a way to sparsely execute a CNN model (ResNeXt [110]) and save
computations in the process. Here, we used a mixture of experts formulation to execute only the
top-K experts in each convolutional block. The most important set of experts are selected based on
a gate controller which uses a question-guided attention map followed by fully-connected layers
to assign weights to the set of experts. Our experiments show that it is possible to get huge savings
in the FLOP count with only a minimal degradation in performance.
Chapter 3 is a prologue to Chapter 4. It mentions the key contributions and provides an introduction
to the research problem which we try to address in the article. Chapter 4 contains the
contents of the article. Here, we are interested in learning the internal structure of the modules for
Neural Module Networks (NMN) [3, 37]. We introduce a novel form of module structure which
uses elementary arithmetic operations and now the task is to learn the weights of these operations
to form the module structure. We cast the problem into a bi-level optimization technique in which
the model takes alternating gradient descent steps in architecture and weight spaces. Chapter 5 discusses additional experiments and ablation studies that were done in the context of the previous
article.
Most works in the literature use a recurrent neural network like LSTM [33] or GRU [13] to
model the question features. However, LSTMs can fail to properly encode syntactic features of the
question which could be vital to answering some VQA questions [87]. Recently, [76] has shown
the utility of language modeling for question-answering. With this motivation, we try to learn a
better language model which can be trained in an unsupervised manner. In Chapter 6, we discuss a
recursive network for language modeling whose structure aligns with the natural language. More
technically, we make use of an unsupervised parsing model (Parsing Reading Predict Network
or PPRN [86]) and augment its prediction step with a TreeLSTM [99] model which makes use
of the intermediate tree structure given by PRPN model to output a hidden state by utilizing the
tree structure. The predict step of PRPN model makes use of a hidden state which is a weighted
combination of the TreeLSTMâs hidden state and the one obtained from structured attention. This
way it helps the model to do unsupervised parsing and also capture long-term dependencies as the
structure now explicitly exists in the model. Our experiments demonstrate that this model leads to
improvement on language modeling task over the PRPN baseline on Penn Treebank dataset
- âŠ