Vizualizace konceptů pomocí generování obrazu

Abstract

Název: Vizualizace konceptů pomocí generování obrazu Autor: Tien Dat Nguyen Katedra: Ústav formální a aplikované lingvistiky Vedoucí práce: RNDr. Pavel Pecina, Ph.D., Ústav formální a aplikované lingvistiky MFF UK a Angeliki Lazaridou, Ra_aella Bernardi, Marco Baroni (University of Trento), Počítačová lingvistika a počítačové vidění mají společný způsob, jak zachytit sémantiku lingvistických/vizuálních jednotek pomocí vektorové reprezentace. Navíc kvalitní sémantická reprezentace může být efektivně sestrojena pomocí nedávných pokroků v metodách neuronových sítí. Avšak jejich pochopení zůstává omezené a je nutné je posuzovat intuitivně. Mezimodální mapování je mapování mezi vektorovou sémantikou zabudovanou do slov a vizuálních reprezentací odpovídajících objektů v obrazu. Invertování obrazové reprezentace zahrnuje učení inverze obrazu vizuálních vektorů (SIFT, HOG a CNN rysy) pro rekonstrukci původní informace. Cílem této práce je vybudování úplné pipeline, ve které jsou slovní reprezentace transformovány do obrazových vektorů pomocí mezimodálního mapování a tyto vektory jsou promítnuty do pixelového prostoru použitím inverze. Ukazuje se, že tento způsob může být průlomovým prostředkem, jakým lze zkontrolovat a vyhodnotit sémantiku zakódovanou v reprezentaci slov generováním obrázků, které jej reprezentují.Title: Toward concept visualization through image generation Author: Tien Dat Nguyen Department: Institute of Formal and Applied Linguistics Supervisors: Pavel Pecina (Charles University in Prague), Angeliki Lazaridou, Raffaella Bernardi, Marco Baroni (University of Trento), Abstract: Computational linguistic and computer vision have a common way to embed the semantics of linguistic/visual units through vector representation. In addition, high-quality semantic representations can be effectively constructed thanks to recent advances in neural network methods. Nevertheless, the under- standing of these representations remains limited, so they need to be assessed in an intuitive way. Cross-modal mapping is mapping between vector semantic embedding of words and the visual representations of the corresponding objects from images. Inverting image representation involves learning an image inversion of visual vectors (SIFT, HOG and CNN features) to reconstruct the original one. The goal of this project is to build a complete pipeline, in which word represen- tations are transformed into image vectors using cross modal mapping and these vectors are projected to pixel space using inversion. This suggests that there might be a groundbreaking way to inspect and evaluate the semantics encoded in word representations by...Institute of Formal and Applied LinguisticsÚstav formální a aplikované lingvistikyMatematicko-fyzikální fakultaFaculty of Mathematics and Physic

    Similar works