37 research outputs found

    μ‹œκ° 기반 좔둠을 μœ„ν•œ 닀쀑 μ–‘νƒœμ˜ κΉŠμ€ ν•™μŠ΅

    No full text
    ν•™μœ„λ…Όλ¬Έ (박사)-- μ„œμšΈλŒ€ν•™κ΅ λŒ€ν•™μ› : μΈλ¬ΈλŒ€ν•™ ν˜‘λ™κ³Όμ • 인지과학전곡, 2018. 8. μž₯병탁.컴퓨터 μ‹œκ°κ³Ό μžμ—°μ–΄ 처리 기술의 λ°œλ‹¬μ€ 일반 인곡 지λŠ₯에 λŒ€ν•œ 연ꡬλ₯Ό 가속화 ν•˜μ˜€λ‹€. μ‹œκ°κ³Ό μžμ—°μ–΄λŠ” 인간이 μ‚¬μš©ν•˜λŠ” κ°€μž₯ μƒν˜Έ μž‘μš©μ μΈ μ–‘νƒœμ΄λ―€λ‘œ μ‹œκ°κ³Ό 언어에 λͺ¨λ‘ κΈ°λ°˜ν•œ 이해와 좔둠은 일반 인곡 지λŠ₯의 핡심 κ³Όμ œκ°€ λœλ‹€. μ‹œκ° 질의 응닡(VQA)은 μ‹œκ° 튜링 ν…ŒμŠ€νŠΈμ˜ ν•œ μ˜ˆλ‘œμ„œ, μ΄ˆμ„μ΄ λ˜λŠ” 튜링 ν…ŒμŠ€νŠΈ [Turing, 1950] 연ꡬ에 κΈ°λ°˜ν•œλ‹€. VQA 데이터셋 [Agrawal et al., 2017]은 λŒ€μš©λŸ‰μ˜ 이미지 데이터셋을 μ΄μš©ν•΄ 지도 ν•™μŠ΅μ„ μœ„ν•œ 질문-λ‹΅ μŒμ„ μˆ˜μ§‘ν•˜μ˜€λ‹€. 예λ₯Ό λ“€λ©΄ "λˆ„κ°€ μ•ˆκ²½μ„ μ“°κ³  μžˆλ‚˜?", "μš°μ‚°μ΄ 뒀집어져 μžˆλ‚˜?", "μΉ¨λŒ€μ—λŠ” λͺ‡ λͺ…μ˜ 아이듀이 μžˆλŠ” κ°€?"와 같은 μ§ˆλ¬Έμ— κΈ°κ³„λŠ” μˆ˜μ§‘ν•œ 닡듀을 μ΄μš©ν•΄ ν•™μŠ΅ν•œ ν›„ 이미지와 μ§ˆλ¬Έλ§Œμ„ 보고 닡을 λ‚΄μ–΄μ•Ό ν•œλ‹€. λ³Έ μ—°κ΅¬μ—μ„œλŠ” μ‹œκ° 질의 응닡 과제λ₯Ό 닀쀑 μ–‘νƒœ ν•™μŠ΅ 문제둜 μΌλ°˜ν™”ν•˜κ³ , 닀쀑 μ–‘νƒœ ν•™μŠ΅μ˜ λ°œμ „μ„ λ‹€μΈ΅ ꡬ쑰 μ‹ κ²½λ§μ˜ λ‹€μ–‘ν•œ ν˜•νƒœλ₯Ό ν™œμš©ν•˜μ—¬ 계측적 ν‘œμƒμ„ ν•™μŠ΅ν•˜λŠ”κΉŠμ€ν•™μŠ΅,λ‹€μ€‘μ–‘νƒœκΉŠμ€ν•™μŠ΅ κ΄€μ μ—μ„œμ‚΄νŽ΄λ³Έλ‹€.λ‹€μ€‘μ–‘νƒœκΉŠμ€ν•™ μŠ΅μ„ μ„Έ 가지 λΆ„λ₯˜ κΈ°μ€€, 닀쀑 μ–‘νƒœ μœ΅ν•©, ꡐ차 μ–‘νƒœ, 곡유 ν‘œμƒ ν•™μŠ΅μœΌλ‘œ λ‚˜λˆ„μ–΄ μ†Œκ°œν•œλ‹€. 또, 이전 연ꡬ듀 Kim et al. [2016b, 2017a, 2018]λ₯Ό λ°”νƒ•μœΌλ‘œ μ„Έ 가지 μ£Όμš” 연ꡬ, 닀쀑 μ–‘νƒœ μž”μ°¨ ν•™μŠ΅, 닀쀑 μ–‘νƒœ μ €κ³„μˆ˜ 쌍일차 μΆ”μΆœ, 쌍일차 주의 망 의 λ‚΄μš©λ“€μ„ λ…Όμ˜ν•œλ‹€. 닀쀑 μ–‘νƒœ μž”μ°¨ ν•™μŠ΅μ€ μž”μ°¨ ν•™μŠ΅μ„ 기반으둜 μ‹œκ°-μ–Έμ–΄ 닀쀑 μ–‘νƒœμ˜ κ²°ν•© ν‘œμƒ 을 μ°ΎλŠ”λ‹€. μ—¬κΈ°μ—μ„œ μ‹ κ²½λ§μ˜ μΌλΆ€λŠ” μ•ž λΆ€λΆ„μ˜ 신경망이 ν‘œν˜„ν•˜λŠ” λͺ©μ  ν•¨μˆ˜μ˜ μž”μ°¨ 였λ₯˜λ₯Ό ν•™μŠ΅ν•˜λ„λ‘ κ°•μ œν•œλ‹€. 반면, 닀쀑 μ–‘νƒœ μ €κ³„μˆ˜ 쌍일차 μΆ”μΆœμ€ 각 μ–‘νƒœ κ°€ μ μ ˆν•˜κ²Œ μ„ ν˜• μ‚¬μ˜λœ μ‘°κ±΄μ—μ„œ μ›μ†Œκ³±μ΄ κ²°ν•© ν•¨μˆ˜λ‘œμ„œ κ°€μ§€λŠ” μˆ˜ν•™μ  의미λ₯Ό μ„€λͺ…ν•  수 있게 ν•œλ‹€. 쌍일차 주의 망은 이전 두 연ꡬλ₯Ό ν†΅ν•©ν•œλ‹€. μ €κ³„μˆ˜ 쌍일차 μΆ”μΆœμ— λŒ€ν•œ 해석을 λ°”νƒ•μœΌλ‘œ ν–‰λ ¬ μ—°κ²° 곱을 μ΄μš©ν•΄ 단일 주의 기제λ₯Ό 쌍일차 주의둜 μ„±κ³΅μ μœΌλ‘œ μΌλ°˜ν™”ν•˜μ—¬ 계산 λΉ„μš©μ€ 단일 주의 망과 λΉ„μŠ·ν•œ μˆ˜μ€€μœΌλ‘œ νš¨μœ¨μ μ΄λ‹€. 더 λ‚˜μ•„κ°€, 주의 μž”μ°¨ ν•™μŠ΅μ„ μ œμ•ˆν•˜μ—¬ μ—¬λŸ 개의 쌍일차 주의 지도λ₯Ό μΆ”λ‘  κ³Όμ •μ—μ„œ ν™œμš©ν•  수 있게 ν•˜μ—¬ λ‹€μΈ΅ 주의 λ§μ—μ„œ λ°œμƒν•˜λŠ” 과쑰정을 λ°©μ§€ν•œλ‹€. κ·Έ κ²°κ³Ό, 닀쀑 μ–‘νƒœ μž”μ°¨ 망 (MRN)은 VQA μ±Œλ¦°μ§€ 2016μ—μ„œ 4μœ„λ₯Ό κΈ°λ‘ν•˜μ˜€ κ³ , 2016λ…„ 11μ›” 좜판 μ‹œμ μ—λŠ” 보닀 적은 νŒŒλΌλ―Έν„°λ₯Ό μ΄μš©ν•˜μ—¬ 닀쀑 μ–‘νƒœ μ €κ³„μˆ˜ 쌍일차 주의 망 (MLB)을 μ œμ•ˆν•˜κ³  세계 졜고 μ„±λŠ₯을 κ°±μ‹ ν•˜μ˜€λ‹€. 쌍일차 주의 망 (BAN)은 VQA μ±Œλ¦°μ§€ 2018μ—μ„œ μ€€μš°μŠΉ(곡동 2μœ„)λ₯Ό ν•˜μ˜€μœΌλ‚˜ 단일 λͺ¨λΈλ‘œλŠ” 졜고 μ„±λŠ₯을 λ³΄μ˜€λ‹€. 이 κ²°κ³ΌλŠ” 2018λ…„ 6μ›” 18일, CVPR 2018 ν•™νšŒ(λ―Έκ΅­ μ†”νŠΈλ ˆμ΄ν¬ μ‹œν‹°) μ›Œν¬μƒ΅μ— μ΄ˆμ²­λ˜μ–΄ ꡬ두 λ°œν‘œν•˜μ˜€λ‹€. μ‹œκ° λ˜λŠ” μžμ—°μ–΄ μ²˜λ¦¬λŠ” 계속 λ°œμ „ 쀑인 λΆ„μ•Όμ΄λ―€λ‘œ μ œμ•ˆν•˜λŠ” 닀쀑 μ–‘νƒœ κΉŠμ€ ν•™μŠ΅ 방법듀은 컴퓨터 μ‹œκ°κ³Ό μžμ—°μ–΄ 처리 기술의 λ°œλ‹¬κ³Ό λ”λΆˆμ–΄ 더 ν–₯상될 수 μžˆλŠ” κ°€λŠ₯성이 μžˆλ‹€.Abstract i Chapter 1 Introduction 1 Chapter 2 Multimodal Deep Learning 6 2.1 Introduction 6 2.2 Linear Model 8 2.3 Multimodal Deep Learning 10 2.3.1 Multimodal Fusion 10 2.3.2 Cross Modality Learning 11 2.3.3 Shared Representation Learning 13 2.4 Cognitive Models 13 2.5 Conclusions 15 Chapter 3 Multimodal Residual Learning 16 3.1 Introduction 16 3.2 Related Works 18 3.2.1 Deep Residual Learning 18 3.2.2 Stacked Attention Networks 19 3.3 Multimodal Residual Networks 20 3.3.1 Background 20 3.3.2 Multimodal Residual Networks 21 3.4 Experiments 22 3.4.1 Visual QA Dataset 22 3.4.2 Implementation 24 3.4.3 Exploring Alternative Models 26 3.5 Results 27 3.5.1 Quantitative Analysis 27 3.5.2 Qualitative Analysis 29 3.6 Conclusions 30 Chapter 4 Multimodal Low-rank Bilinear Pooling 37 4.1 Introduction 37 4.2 Low-rank Bilinear Model 39 4.3 Low-rank Bilinear Pooling 40 4.3.1 Full Model 41 4.3.2 Nonlinear Activation 41 4.3.3 Shortcut Connection 42 4.4 Multimodal Low-rank Bilinear Attention Networks 43 4.4.1 Low-rank Bilinear Pooling in Attention Mechanism 43 4.4.2 Multimodal Low-rank Bilinear Attention Networks 43 4.4.3 Model Schema 44 4.5 Experiments 45 4.5.1 Preprocessing 48 4.5.2 Vision Embedding 48 4.5.3 Hyperparameters 49 4.6 Results 49 4.6.1 Six Experiment Results 50 4.6.2 Comparison with State-of-the-Art 52 4.6.3 Ensemble of Seven Models 52 4.7 Related Works 52 4.7.1 Multimodal Residual Networks 53 4.7.2 Higher-Order Boltzmann Machines 53 4.7.3 Multiplicative Integration with Recurrent Neural Networks 54 4.7.4 Compact Bilinear Pooling 55 4.8 Discussions 56 4.8.1 Understanding of Multimodal Compact Bilinear Pooling 56 4.8.2 Replacement of Low-rank Bilinear Pooling 58 4.9 Conclusions 59 Chapter 5 Bilinear Attention Networks 62 5.1 Introduction 62 5.2 Low-rank Bilinear Pooling 64 5.3 Bilinear Attention Networks 66 5.4 Related Works 68 5.5 Experiments 69 5.5.1 Datasets 69 5.5.2 Preprocessing 71 5.5.3 Nonlinearity 72 5.6 Variants of BAN 72 5.6.1 Enhancing Glove Word Embedding 72 5.6.2 Integrating Counting Module 73 5.6.3 Integrating Multimodal Factorized Bilinear (MFB) Pooling 75 5.6.4 Classifier 75 5.6.5 Hyperparameters and Regularization 76 5.7 VQA Results and Discussions 77 5.7.1 Quantitative Results 77 5.7.2 Residual Learning of Attention 78 5.7.3 Qualitative Analysis 80 5.8 Flickr30k Entities Results and Discussions 80 5.9 Conclusions 82 Chapter 6 Conclusions 89 Bibliography 91 초둝 106Docto
    corecore