88 research outputs found
Enhancing Robustness of Deep Reinforcement Learning based Semiconductor Packaging Lines Scheduling with Regularized Training
ํ์๋
ผ๋ฌธ(์์ฌ)--์์ธ๋ํ๊ต ๋ํ์ :๊ณต๊ณผ๋ํ ์ฐ์
๊ณตํ๊ณผ,2019. 8. ๋ฐ์ข
ํ.์ต๊ทผ ๊ณ ์ฑ๋ฅ ์ ์ ์ ํ์ ๋ํ ์์๊ฐ ๋์์ง๋ฉด์ ๋ค์ค ์นฉ ์ ํ ์์ฐ์ ์ค์ฌ์ผ๋ก ๋ฐ๋์ฒด ์ ์กฐ๊ณต์ ์ด ๋ฐ์ ํ๊ณ ์๋ค. ๋ค์ค ์นฉ ์ ํ์ ํจํค์ง ๋ผ์ธ์์ ๊ณต์ ์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ ์ฌ์ ์
์ด ๋ฐ์ํ๊ฒ ๋๋ฉฐ, ๊ณต์ ์ค๋น์ ์
์
๊ต์ฒด๊ฐ ๋น๋ฒํ ์ผ์ผํค๊ฒ ๋๋ค. ์ด๋ ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ์ ์ค์ผ์ค๋ง์ ์ด๋ ต๊ฒ ๋ง๋๋ ์ฃผ์ํ ์์์ด๋ค. ๋ํ, ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ์ ์ ์กฐ๊ณต์ ๋ด,์ธ์ ์ผ๋ก ๋ค์ํ ๋ณ๋ ์ฌํญ์ ์ํด ์์ฐํ๊ฒฝ์ด ๋น๋ฒํ ๋ณํํ๋ฉฐ, ์ ์กฐ ํ์ฅ์์๋ ์ค์ผ์ค๋ง์ ์ํด ์๊ตฌ๋๋ ๊ณ์ฐ ์๊ฐ์ด ๋งค์ฐ ์ค์ํ๊ธฐ ๋๋ฌธ์ ์ ์ํ ์ค์ผ์ค ๋์ถ์ด ์๊ตฌ๋๋ค. ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ์ ์ค์ผ์ค๋ง ์ฐ๊ตฌ๊ฐ ํ๋ฐํด์ง๋ฉด์ ์ ์ญ ์ต์ ํ๋ฅผ ๋ชฉํ๋ก ํ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ค์ผ์ค๋ง ์ฐ๊ตฌ๊ฐ ๋์ด๋๊ณ ์๋ค. ๊ฐํํ์ต ๊ธฐ๋ฐ์ ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ ์ค์ผ์ค๋ง ์ฐ๊ตฌ๋ ๊ทธ ํ์ฉ ์ธก๋ฉด์์ ๋ค์ํ ์์ฐํ๊ฒฝ ๋ณํ์ ๊ฐ๊ฑดํ ๋์ํ๋ฉฐ, ์งง์ ์๊ฐ ์์ ์ข์ ์ค์ผ์ค์ ์ป์ ์ ์์ด์ผ ํ๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ค์ผ์ค๋ง ๋ชจ๋ธ์ ๊ฐ๊ฑด์ฑ ํ๋ณด๋ฅผ ๋ชฉํ๋ก ํ๋ค. ์๋ก์ด ์์ฐํ๊ฒฝ์ด ํ
์คํธ๋ก ์ฃผ์ด์ก์ ๋, ์ฌํ์ต์ ์ํํ์ง ์๊ณ ์ฑ๋ฅ์ ํฐ ์ ํ์๋ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ ์ค์ผ์ค๋ง์ ์ํ ์ ๊ทํ ํ์ต๊ธฐ๋ฒ์ ์ ์ํ๋ค. ์ ์ฐ ์ก์ต ์ค์ผ์ค๋ง ๋ฌธ์ ์ ๊ฐํํ์ต์ ์ ์ฉํ๊ธฐ ์ํด ์ ์ฒด ๊ณต์ ์ํฉ์ ๊ณ ๋ คํ ์ํ์ ํ๋, ๋ณด์์ ์ค๊ณํ์๊ณ , ์ฌ์ธต ๊ฐํํ์ต์ ๋ํ ์๊ณ ๋ฆฌ์ฆ์ธ ์ฌ์ธต Q ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ์ฌ ์ค์ผ์ค๋ง ๋ฌธ์ ๋ฅผ ํ์ตํ์๋ค. ๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ๋ ์ ๊ทํ ํ์ต ๊ธฐ๋ฒ์ 4๋จ๊ณ๋ก ๋๋์ด ๊ฐ ๋จ๊ณ์์ ์ฌ๋ฌ ์์ฐํ๊ฒฝ ๋ณํ๊ฐ ๋ฐ์๋ ๋ฌธ์ ์ ์ผ๋ฐ์ฑ๊ณผ ๊ฐ ๋ฌธ์ ์ ํน์์ฑ์ ํ์ตํ๋๋ก ์ค๊ณํ์๋ค. ์๋ก ๋ค๋ฅธ ๋ณต์ก๋์ ์ค์ผ์ค๋ง ๋ฌธ์ ๋ฅผ ์ด์ฉํ์ฌ ์คํ์ ์งํํ์์ผ๋ฉฐ, ๋ฃฐ ๊ธฐ๋ฐ ๋ฐ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ์ ๋ค๋ฅธ ์ค์ผ์ค๋ง ๋ชจ๋ธ์ ๋นํด ๋์ฒด์ ์ผ๋ก ์ฑ๋ฅ์ ์ฐ์ํจ์ ๊ฒ์ฆํ์๋ค.
๋ณธ ์ฐ๊ตฌ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ค์ผ์ค๋ง ์ฐ๊ตฌ์์ ๋ชจ๋ธ์ ๊ฐ๊ฑด์ฑ์ ์ฐ๊ตฌ์ ์ด์ ์ ๋ง์ถ ์ฒซ ์ฐ๊ตฌ์ด๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ ์ค์ ๊ณต์ฅ์์ ์ฐ๊ตฌ์ ํ์ฉ์ฑ์ ํ์ธต ๋์ฌ์ค ์ฐ๊ตฌ์ด๋ค.As the demand for high-performance electronic devices has increased, the semiconductor manufacturing process is being developed centering on the production of multi-chip products. In multi-chip products, re-entrance occurs by repeating the process several times in the packaging line, and the setup change of equipment is frequently incurred. These are major factors that make the scheduling of the semiconductor packaging line difficult. The production environment frequently changes due to internal and external variabilities. In addition, since the calculation time required for scheduling is very important at the manufacturing site, prompt schedule generation is required. As the research of the semiconductor packaging line scheduling becomes active, the reinforcement learning based scheduling research aiming at the global optimization is increasing. In view of the utilization of scheduling research based on reinforcement learning, there is a need for a method capable of reacting to various production environment changes and obtaining a good schedule in a short time.
This study aims at obtaining the robustness of the scheduling model based on deep reinforcement learning. We propose a regularzied training method for semiconductor packaging lines scheduling based on deep reinforcement learning without performance degradation and re-training when a new production environment is given as a test data. In order to apply reinforcement learning to flexible job-shop scheduling problem, we designed state, action and reward considering overall process and trained deep Q network which is a representative algorithm of deep reinforcement learning. The regularzied training method proposed in this study is divided into four stages and designed to train the generalities of the problems reflected in various production environment and the specificity of each problem. Experiments were conducted using scheduling problems of different complexity, and it was verified that the performance was superior to other scheduling models based on rule-based and deep reinforcement learning.
This study is the first research that focuses on the robustness of the model in the reinforcement learning based scheduling. Moreover, the result of this study enhances the practicality of research in real factory application.์ด๋ก
๋ชฉ์ฐจ
ํ ๋ชฉ์ฐจ
๊ทธ๋ฆผ ๋ชฉ์ฐจ
์ 1 ์ฅ ์๋ก
1.1 ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋๊ธฐ
1.2 ์ฐ๊ตฌ ๋ชฉ์
1.3 ์ฐ๊ตฌ ๋์ ์ ์
1.4 ์ฐ๊ตฌ ๋ด์ฉ ๋ฐ ๊ตฌ์ฑ
์ 2 ์ฅ ๋ฐฐ๊ฒฝ์ด๋ก ๋ฐ ๊ด๋ จ์ฐ๊ตฌ
2.1 ๋ฐฐ๊ฒฝ์ด๋ก
2.1.1 ์ฌ์ธต ๊ฐํํ์ต
2.1.2 ์ ๊ทํ
2.2 ๊ด๋ จ์ฐ๊ตฌ
2.2.1 ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ ์ค์ผ์ค๋ง ์ฐ๊ตฌ
2.2.2 ๊ฐํํ์ต ๊ธฐ๋ฐ ์ค์ผ์ค๋ง ์ฐ๊ตฌ
2.2.3 ๊ฐํํ์ต ๊ฐ๊ฑด์ฑ ์ฐ๊ตฌ
์ 3 ์ฅ ๊ฐํํ์ต ๊ธฐ๋ฐ ๋ฐ๋์ฒด ํจํค์ง ๋ผ์ธ ์ค์ผ์ค๋ง
3.1 ๊ฐํํ์ต ๊ธฐ๋ฐ ์ค์ผ์ค๋ง ์์ฌ ๊ฒฐ์
3.2 ์ํ, ํ๋, ๋ณด์ ์ ์
3.3 ๊ฐํํ์ต ์์ด์ ํธ ํ์ต๊ณผ ํ
์คํธ
3.3.1 ์ฌ์ธต Q ๋คํธ์ํฌ ๊ตฌ์กฐ
3.3.2 ๊ฐํํ์ต ์์ด์ ํธ ํ์ต ๋จ๊ณ
3.3.3 ๊ฐํํ์ต ์์ด์ ํธ ํ
์คํธ ๋จ๊ณ
์ 4 ์ฅ ๊ฐํํ์ต ๊ฐ๊ฑด์ฑ ํ๋ณด๋ฅผ ์ํ ์ ๊ทํ ํ์ต ๊ธฐ๋ฒ
4.1 ์ ๊ทํ ํ์ต ๊ฐ์
4.2 ์ ๊ทํ ํ์ต ๊ณผ์
4.2.1 ์ฌ์ธต Q ๋คํธ์ํฌ ํ์ต
4.2.2 Q์ธต ํ์ต
4.2.3 ์ ๊ทํ ๊ฐ์ค์น ํ์ต
4.2.4 ์๋ก์ด Q์ธต ํ์ต
์ 5 ์ฅ ์คํ ๊ฒฐ๊ณผ
5.1 ๋ฐ์ดํฐ์
5.2 ์คํ ๊ณผ์
5.3 ์คํ ์ธํ
5.3.1 ๊ฐํํ์ต ์คํ ์ธํ
5.3.2 ์ ๊ทํ ํ์ต ์คํ ์ธํ
5.4 ์คํ ๊ฒฐ๊ณผ
์ 6 ์ฅ ๊ฒฐ๋ก
6.1 ๊ฒฐ๋ก
6.2 ํ๊ณ์ ๋ฐ ํฅํ ์ฐ๊ตฌ
์ฐธ๊ณ ๋ฌธํ
AbstractMaste
ํ๋ฅ ์ ์์ ์ฑ ๊ฒ์ฆ์ ์ํ ์์ ๊ฐํํ์ต: ๋ดํธ๋ ธ๋ธ ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ก
ํ์๋
ผ๋ฌธ (์์ฌ) -- ์์ธ๋ํ๊ต ๋ํ์ : ๊ณต๊ณผ๋ํ ์ ๊ธฐยท์ ๋ณด๊ณตํ๋ถ, 2020. 8. ์์ธ์.Emerging applications in robotic and autonomous systems, such as autonomous driving and robotic surgery, often involve critical safety constraints that must be satisfied even when information about system models is limited. In this regard, we propose a model-free safety specification method that learns the maximal probability of safe operation by carefully combining probabilistic reachability analysis and safe reinforcement learning (RL). Our approach constructs a Lyapunov function with respect to a safe policy to restrain each policy improvement stage. As a result, it yields a sequence of safe policies that determine the range of safe operation, called the safe set, which monotonically expands and gradually converges. We also develop an efficient safe exploration scheme that accelerates the process of identifying the safety of unexamined states.
Exploiting the Lyapunov shieding, our method regulates the exploratory policy to avoid dangerous states with high confidence.
To handle high-dimensional systems, we further extend our approach to deep RL by introducing a Lagrangian relaxation technique to establish a tractable actor-critic algorithm.
The empirical performance of our method is demonstrated through continuous control benchmark problems, such as a reaching task on a planar robot arm.์์จ์ฃผํ, ๋ก๋ด ์์ ๋ฑ ์์จ์์คํ
๋ฐ ๋ก๋ณดํฑ์ค์ ๋ ์ค๋ฅด๋ ์์ฉ ๋ถ์ผ์ ์ ๋ ๋ค์๋ ์์ ํ ๋์์ ๋ณด์ฅํ๊ธฐ ์ํด ์ผ์ ํ ์ ์ฝ์ ํ์๋ก ํ๋ค. ํนํ, ์์ ์ ์ฝ์ ์์คํ
๋ชจ๋ธ์ ๋ํด ์ ํ๋ ์ ๋ณด๋ง ์๋ ค์ ธ ์์ ๋์๋ ๋ณด์ฅ๋์ด์ผ ํ๋ค. ์ด์ ๋ฐ๋ผ, ๋ณธ ๋
ผ๋ฌธ์์๋ ํ๋ฅ ์ ๋๋ฌ์ฑ ๋ถ์(probabilistic reachability analysis)๊ณผ ์์ ๊ฐํํ์ต(safe reinforcement learning)์ ๊ฒฐํฉํ์ฌ ์์คํ
์ด ์์ ํ๊ฒ ๋์ํ ํ๋ฅ ์ ์ต๋๊ฐ์ผ๋ก ์ ์๋๋ ์์ ์ฌ์์ ๋ณ๋์ ๋ชจ๋ธ ์์ด ์ถ์ ํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ค. ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ ๋งค๋ฒ ์ ์ฑ
์ ์๋ก ๊ตฌํ๋ ๊ณผ์ ์์ ๊ทธ ๊ฒฐ๊ณผ๋ฌผ์ด ์์ ํจ์ ๋ํ ๊ธฐ์ค์ ์ถฉ์กฑ์ํค๋๋ก ์ ํ์ ๊ฑฐ๋ ๊ฒ์ผ๋ก, ์ด๋ฅผ ์ํด ์์ ํ ์ ์ฑ
์ ๊ดํ ๋ดํธ๋
ธํ ํจ์๋ฅผ ๊ตฌ์ถํ๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก ์ฐ์ถ๋๋ ์ผ๋ จ์ ์ ์ฑ
์ผ๋ก๋ถํฐ ์์ ์งํฉ(safe set)์ด๋ผ ๋ถ๋ฆฌ๋ ์์ ํ ๋์์ด ๋ณด์ฅ๋๋ ์์ญ์ด ๊ณ์ฐ๋๊ณ , ์ด ์งํฉ์ ๋จ์กฐ๋กญ๊ฒ ํ์ฅํ์ฌ ์ ์ฐจ ์ต์ ํด๋ก ์๋ ดํ๋๋ก ๋ง๋ค. ๋ํ, ์ฐ๋ฆฌ๋ ์กฐ์ฌ๋์ง ์์ ์ํ์ ์์ ์ฑ์ ๋ ๋น ๋ฅด๊ฒ ํ์
ํ ์ ์๋ ํจ์จ์ ์ธ ์์ ํ์ฌ ์ฒด๊ณ๋ฅผ ๊ฐ๋ฐํ์๋ค. ๋ดํธ๋
ธ๋ธ ์ฐจํ๋ฅผ ์ด์ฉํ ๊ฒฐ๊ณผ, ์ฐ๋ฆฌ๊ฐ ์ ์ํ๋ ํํ ์ ์ฑ
์ ๋์ ํ๋ฅ ๋ก ์ํํ๋ค ์ฌ๊ฒจ์ง๋ ์ํ๋ฅผ ํผํ๋๋ก ์ ํ์ด ๊ฑธ๋ฆฐ๋ค. ์ฌ๊ธฐ์ ๋ํด ์ฐ๋ฆฌ๋ ๊ณ ์ฐจ์ ์์คํ
์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ ์ํ ๋ฐฉ๋ฒ์ ์ฌ์ธต๊ฐํํ์ต์ผ๋ก ํ์ฅํ๊ณ , ๊ตฌํ ๊ฐ๋ฅํ ์กํฐ-ํฌ๋ฆฌํฑ ์๊ณ ๋ฆฌ์ฆ์ ๋ง๋ค๊ธฐ ์ํด ๋ผ๊ทธ๋์ฃผ ์ด์๋ฒ์ ์ฌ์ฉํ์๋ค. ๋๋ถ์ด ๋ณธ ๋ฐฉ๋ฒ์ ์คํจ์ฑ์ ์ฐ์์ ์ธ ์ ์ด ๋ฒค์น๋งํฌ์ธ 2์ฐจ์ ํ๋ฉด์์ ๋์ํ๋ 2-DOF ๋ก๋ด ํ์ ํตํด ์คํ์ ์ผ๋ก ์
์ฆ๋์๋ค.Chapter 1 Introduction 1
Chapter 2 Related work 4
Chapter 3 Background 6
3.1 Probabilistic Reachability and Safety Specifications 6
3.2 Safe Reinforcement Learning 8
Chapter 4 Lyapunov-Based Safe Reinforcement Learning for Safety Specification 10
4.1 Lyapunov Safety Specification 11
4.2 Efficient Safe Exploration 14
4.3 Deep RL Implementation 19
Chapter 5 Simulation Studies 23
5.1 Tabular Q-Learning 25
5.2 Deep RL 27
5.3 Experimental Setup 31
5.3.1 Deep RL Implementation 31
5.3.2 Environments 32
Chapter 6 Conclusion 35
Bibliography 35
์ด๋ก 41
Acknowledgements 42Maste
๊ฐํํ์ต์ ํ์ฉํ ๊ณ ์๋๋ก ๊ฐ๋ณ์ ํ์๋ ๋ฐ ๋จํ๋ฏธํฐ๋ง ์ ๋ต ๊ฐ๋ฐ
ํ์๋
ผ๋ฌธ(์์ฌ) -- ์์ธ๋ํ๊ต๋ํ์ : ๊ณต๊ณผ๋ํ ๊ฑด์คํ๊ฒฝ๊ณตํ๋ถ, 2022.2. ๊น๋๊ท.Recently, to resolve societal problems caused by traffic congestion, traffic control strategies have been developed to operate freeways efficiently. The representative strategies to effectively manage freeway flow are variable speed limit (VSL) control and the coordinated ramp metering (RM) strategy. This paper aims to develop a dynamic VSL and RM control algorithm to obtain efficient traffic flow on freeways using deep reinforcement learning (DRL). The traffic control strategies applying the deep deterministic policy gradient (DDPG) algorithm are tested through traffic simulation in the freeway section with multiple VSL and RM controls. The results show that implementing the strategy alleviates the congestion in the on-ramp section and shifts to the overall sections. For most cases, the VSL or RM strategy improves the overall flow rates by reducing the density and improving the average speed of the vehicles. However, VSL or RM control may not be appropriate, particularly at the high level of traffic flow. It is required to introduce the selective application of the integrated control strategies according to the level of traffic flow. It is found that the integrated strategy can be used when including the relationship between each state detector in multiple VSL sections and lanes by applying the adjacency matrix in the neural network layer. The result of this study implies the effectiveness of DRL-based VSL and the RM strategy and the importance of the spatial correlation between the state detectors.์ต๊ทผ์๋ ๊ตํตํผ์ก์ผ๋ก ์ธํ ์ฌํ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋๋ก๋ฅผ ํจ์จ์ ์ผ๋ก ์ด์ํ๊ธฐ ์ํ ๊ตํตํต์ ์ ๋ต์ด ๋ค์ํ๊ฒ ๊ฐ๋ฐ๋๊ณ ์๋ค. ๊ณ ์๋๋ก ๊ตํต๋ฅ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ด๋ฆฌํ๊ธฐ ์ํ ๋ํ์ ์ธ ์ ๋ต์ผ๋ก๋ ์ฐจ๋ก๋ณ ์ ํ์๋๋ฅผ ๋ค๋ฅด๊ฒ ์ ์ฉํ๋ ๊ฐ๋ณ ์๋ ์ ํ(VSL) ์ ์ด์ ์ง์
๋จํ์์ ์ ํธ๋ฅผ ํตํด ์ฐจ๋์ ํต์ ํ๋ ๋จํ ๋ฏธํฐ๋ง(RM) ์ ๋ต ๋ฑ์ด ์๋ค. ๋ณธ ์ฐ๊ตฌ์ ๋ชฉํ๋ ์ฌ์ธต ๊ฐํ ํ์ต(deep reinforcement learning)์ ํ์ฉํ์ฌ ๊ณ ์๋๋ก์ ํจ์จ์ ์ธ ๊ตํต ํ๋ฆ์ ์ป๊ธฐ ์ํด ๋์ VSL ๋ฐ RM ์ ์ด ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด๋ค. ๊ณ ์๋๋ก์ ์ฌ๋ฌ VSL๊ณผ RM ๊ตฌ๊ฐ์์ ์๋ฎฌ๋ ์ด์
์ ํตํด ์ฌ์ธต ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ธ deep deterministic policy gradient (DDPG) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ ๊ตํต๋ฅ ์ ์ด ์ ๋ต์ ๊ฒ์ฆํ๋ค. ์คํ ๊ฒฐ๊ณผ, ๊ฐํํ์ต ๊ธฐ๋ฐ VSL ๋๋ RM ์ ๋ต์ ์ ์ฉํ๋ ๊ฒ์ด ๋จํ ์ง์
๋ก ๊ตฌ๊ฐ์ ํผ์ก์ ์ํํ๊ณ ๋์๊ฐ ์ ์ฒด ๊ตฌ๊ฐ์ ํผ์ก์ ์ค์ด๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ๋ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ VSL์ด๋ RM ์ ๋ต์ ๋ณธ์ ๊ณผ ์ง์
๋ก ๊ตฌ๊ฐ์ ๋ฐ๋๋ฅผ ์ค์ด๊ณ ์ฐจ๋์ ํ๊ท ํตํ ์๋๋ฅผ ์ฆ๊ฐ์์ผ ์ ์ฒด ๊ตํต ํ๋ฆ์ ํฅ์์ํจ๋ค. VSL ๋๋ RM ์ ๋ต๋ค์ ๋์ ์์ค์ ๊ตํต๋ฅ์์ ์ ์ ํ์ง ์์ ์ ์์ด ๊ตํต๋ฅ ์์ค์ ๋ฐ๋ฅธ ์ ๋ต์ ์ ํ์ ๋์
์ด ํ์ํ๋ค. ๋ํ ๊ฒ์ง๊ธฐ๊ฐ ์ง๋ฆฌ์ ๊ฑฐ๋ฆฌ์ ๊ด๋ จํ ์ธ์ ํ๋ ฌ์ ํฌํจํ๋ graph neural network layer์ด ์ฌ๋ฌ ์ง์ ๊ฒ์ง๊ธฐ์ ๊ณต๊ฐ์ ์๊ด ๊ด๊ณ๋ฅผ ๊ฐ์งํ๋ ๋ฐ ์ด์ฉ๋ ์ ์๋ค. ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ VSL๊ณผ RM ์ ๋ต ๋์
์ ํ์์ฑ๊ณผ ์ง์ ๊ฒ์ง๊ธฐ ๊ฐ์ ๊ณต๊ฐ์ ์๊ด๊ด๊ณ์ ์ค์์ฑ์ ๋ฐ์ํ๋ ์ ๋ต ๋์
์ ํจ๊ณผ๋ฅผ ์์ฌํ๋ค.Chapter 1. Introduction 1
Chapter 2. Literature Review 4
Chapter 3. Methods 8
3.1. Study Area and the Collection of Data 8
3.2. Simulation Framework 11
3.3. Trip Generation and Route Choice 13
3.4. Deep Deterministic Policy Gradient (DDPG) Algorithm 14
3.5. Graph Convolution Network (GCN) Layer 17
3.6. RL Formulation 18
Chapter 4. Results 20
4.1. VSL and RM 20
4.2. Efficiency according to the flow rate 28
4.3. Effectiveness of the GCN Layer 33
Chapter 5. Conclusion 34
Bibliography 37
Abstract in Korean 44์
์คํธ๋ ์ค๊ฐ ์์ฌ๊ฒฐ์ ์ ๋ฏธ์น๋ ์ํฅ
ํ์๋
ผ๋ฌธ (๋ฐ์ฌ)-- ์์ธ๋ํ๊ต ๋ํ์ : ์ฌ๋ฆฌํ๊ณผ, 2015. 2. ์ต์ง์.๋ฌด์์ ๊ฒฐ์ ํ๊ฑฐ๋ ์ ํํ ๋, ๋ ์ข
๋ฅ์ ์ธ์ง์ ๊ฒฝํ์ ์กฐ์ ์์คํ
๊ฐ ๊ฒฝ์์ ์ธ ํ๋์ ์ํด ํ๋์ด ๊ฒฐ์ ๋๋ค๋ ๊ฐ์ ์ด ์ผ๋ฐ์ ์ด๋ค. ํ๋๋ ์ฆ๊ฐ์ ์ธ ๊ฐํ ์ฌ๋ถ์ ๋ฐ๋ผ ํ๋์ ๊ฒฐ์ ํ๋ ์ต๊ด์ habit ํน์ ๋ชจํ ๋ถ์ฌmodel-freeํ๋ ์์คํ
์ด๋ฉฐ, ๋ค๋ฅธ ํ๋๋ ํ์์์ ๋ด์ ์ํ๋ ์ธ์ ํ๊ฒฝ์ ๋ํ ์ง์ ๋ฐ ์ ๋ณด๋ฅผ ์ ๊ทน์ ์ผ๋ก ์ด์ฉํ์ฌ ํ๋์ ๊ฒฐ์ ํ๋ ๋ชฉํ์งํฅ์ goal-directed ํน์ ๋ชจํ ๊ธฐ๋ฐmodel-based ํ๋ ์์คํ
์ด๋ค. ์คํธ๋ ์ค๋ ๋ชฉํ์งํฅ์ ์ธ ํ๋์ ๋ฐฉํดํ๊ณ ์ต๊ด์ ํ๋์ ์ด์งํ๋ ๊ฒ์ผ๋ก ๋ฐํ์ ธ ์์ผ๋ฉฐ, ์ด๋ ์คํธ๋ ์ค๊ฐ ๋ ํ๋ ์กฐ์ ์์คํ
์ ๊ฒฝ์์ ํ๋ ๊ณผ์ ์ ๊ฐ์
ํ ๊ฐ๋ฅ์ฑ์ ์์ฌํ๋ค. ๊ทธ๋ฌ๋ ์คํธ๋ ์ค๊ฐ ํ๋ ์ ํ ๋ฐ ํ์ต์ ์ฌ๋ฌ ์์ธ์ ๋ฏธ์น๋ ๊ตฌ์ฒด์ ์ธ ๊ธฐ์ ์ ๋ํด์๋ ์์ง ์ฒด๊ณ์ ์ฐ๊ตฌ๊ฐ ๋ถ์กฑํ๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ 2๊ฐ ์ฐ๊ตฌ๋ฅผ ํตํด, ์คํธ๋ ์ค๊ฐ ํ๋ ์ ํ์ ๊ณผ์ ๋ฐ ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ๋ค๋ฉด์ ์ธ ์ํฅ์ ๋ํด ๋ฉด๋ฐํ๊ฒ ํ์ํ๋ค. ์ฐ๊ตฌ 1์์๋ ์ต๊ด์ ํ๋ ์ฒ๋ฆฌ๊ณผ์ ๊ณผ ๋ชฉํ์งํฅ์ ํ๋ ์ฒ๋ฆฌ๊ณผ์ ์ ๊ตฌ๋ถํ๋ ์์ฌ๊ฒฐ์ ๊ณผ์ , 2 ๋จ๊ณ ๋ฐ์ ํ์ต ๊ณผ์ ๋ฅผ ๊ฐ๋ฐํ์ฌ, ์คํ์ค์์ ์ ๋ฐ๋ ๊ธ์ฑ ์คํธ๋ ์ค๊ฐ ์ด ๋ ์ฒ๋ฆฌ๊ณผ์ ์ ์ด๋ป๊ฒ ๊ด์ฌํ๋์ง๋ฅผ ํ์ํ๋ค. ์ ์ ๋ํ์์ ์คํธ๋ ์ค ์ฒ์น ์กฐ๊ฑด๊ณผ ๋น๊ตํต์ ์กฐ๊ฑด์ ๋ฌด์ ํ ๋นํ๊ณ , ํผํ์๋ค์ ๊ณผ์ ์ํ ํ๋์ ๊ฐํํ์ต์ ๊ณ์ฐ๋ชจํ์ ์ ์ฉํ์ฌ ๋ชจํ ๊ธฐ๋ฐmodel-based, ๋ชจํ ๋ถ์ฌmodel-free ํ๋ ๊ฒฝํฅ์ฑ๊ณผ ํ์ต๋ฅ learning rate์ ์ถ์ ํ๋ค. ์คํ ์กฐ๊ฑด ๊ฐ ๊ณผ์ ์ํ ํ๋ ๋ฐ ๊ฐํํ์ต ๋ชจํ ๋ชจ์ ์ถ์ ์น๋ค์ ๋น๊ตํ ๊ฒฐ๊ณผ, ์คํธ๋ ์ค ์ฒ์น ์กฐ๊ฑด์์๋ ๋น๊ตํต์ ์กฐ๊ฑด์ ๋นํด ๋ชจํ ๊ธฐ๋ฐmodel-based ํ๋์ด ์ ์กฐํ๊ณ , ๊ฐํ ์๋ ์ํฉ์์์ ๋ชจํ ๋ถ์ฌmodel-free ํ๋ ๊ฒฝํฅ์ด ๋์์ผ๋ฉฐ, ํ๋ ์ ํ ์ ์๋ก์ด ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ ๊ฒฝํฅ, ์ฆ ํ์ต๋ฅ learning rate์ด ์ ์กฐํ๋ค.
์ด์ด์ ์ฐ๊ตฌ 2์์๋ ๊ธฐ๋ฅ์ ์๊ธฐ๊ณต๋ช
๋ ์์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์์ฌ๊ฒฐ์ ์ ๋ํ ์คํธ๋ ์ค ํจ๊ณผ๋ฅผ ์ ๊ฒฝํ๋ ์์ค์์ ํ์ํ์ผ๋ฉฐ, ์คํธ๋ ์ค์ ํ๋์ ๋ํ ์ํฅ์ด ์ฒ์น ์ ๋์ ๋ฐ๋ผ ์ผ๊ด์ ์ธ์ง ์ฌํค์ค-๋์จ ๋ฒ์นYerkes-Dodson law์ ๋ฐ๋ฅด๋์ง ํ์ธํ๋ค. ์ ์ ์ฑ์ธ๋ค์ ์คํธ๋ ์ค ๋ฌด์ฒ์น ์กฐ๊ฑด, ์คํธ๋ ์ค ๋จ์ผ์ฒ์น ์กฐ๊ฑด๊ณผ ์คํธ๋ ์ค ์ด์ค์ฒ์น ์กฐ๊ฑด์ ๋ฌด์ ํ ๋นํ์๊ณ , 2 ๋จ๊ณ ๋ฐ์ ํ์ต ๊ณผ์ ๋ฅผ ์ํํ๋ ๋์ ๊ธฐ๋ฅ์ ๋ ์์์ ์ดฌ์ํ๋ค. ์กฐ๊ฑด ๊ฐ ๊ณผ์ ์ํ ํ๋ ๋ฐ ๊ฐํํ์ต ๋ชจํ ๋ชจ์ ์ถ์ ์น๋ค์ ๋น๊ตํ ๊ฒฐ๊ณผ, ์คํธ๋ ์ค ๋จ์ผ์ฒ์น ์กฐ๊ฑด์ ํผํ์๋ค์ ๋ฌด์ฒ์น ์กฐ๊ฑด์ ๋นํด ๋ชจํ ๊ธฐ๋ฐ์model-based ๋ชฉํ์งํฅ์ ํ๋์ด ์ฆ๊ฐํ๊ณ ๋ชจํ ๋ถ์ฌ์model-free ํ๋ ๊ฒฝํฅ์ด ๊ฐ์๋์์ผ๋, ์คํธ๋ ์ค ์์ค์ด ๋ ๋์ ์คํธ๋ ์ค ์ด์ค์ฒ์น ์กฐ๊ฑด์์๋ ๋จ์ผ์ฒ์น ์กฐ๊ฑด์ ๋นํด ๋ชจํ ๊ธฐ๋ฐ model-based ํ๋์ด ์ ์กฐํ๊ฒ ๋ํ๋ฌ๋ค. ์คํธ๋ ์ค์ ๊ด๋ จ๋ ์ธ์งํ๋์ ์๋ฐฉํฅ์ ๋ณํ๋ ๋์ ๊ฒฝ ํ๋ ์์ค์์๋ ํ์ธ๋์๋ค. ์ฆ, ์์ฌ๊ฒฐ์ ์ ๋ด์ธก ์ ์ ๋์ฝmedial prefrontal cortex, ์์ธก ์ธก๋์ฝsuperior temporal cortex์ ์ ๊ฒฝํ์ฑํ๊ฐ ์คํธ๋ ์ค ์ฒ์น ์์ค์ ๋ฐ๋ผ ์ฆ์ง๋๊ฑฐ๋ ์ ํ๋๋ ๊ฒ์ผ๋ก ํ์ธ๋์๋ค. ์ด ๋ ์์ญ์ ์ ๊ฒฝํ์ฑํ๋ ๋ชจํ ๊ธฐ๋ฐ model-based ํ๋ ๊ฒฝํฅ์ ๋ฐ์ํ๋ ๋ชจ์ ์ถ์ ์น์ ์ ์ ์๊ด๊ด๊ณ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ผ๋ฉฐ, ํนํ ๋ด์ธก ์ ์ ๋์ฝmedial prefrontal corttex์ ์์ฌ๊ฒฐ์ ๊ด๋ จ ์ ๊ฒฝํ์ฑํ๋ ์ต๊ด์ ํ๋ ์งํ์๋ ๋ถ์ ์๊ด๊ด๊ณ์๋ค. ๋ํ ์คํธ๋ ์ค ์ฒ์น๋ ์ฐ์ธก ํด๋งhippocampus์ ์ ํ ํ๋์ ๊ธฐ๋์นchosen value ๊ด๋ จ ์ ๊ฒฝํ์ฑํ๋ฅผ ์ ํ์์ผฐ์ผ๋ฉฐ, ์ด๋ ํ๋์ ์ผ๋ก๋ ๋ฐ์ ํ์ตreversal learning ์ํ ์ ํ๋ก ๋ํ๋ฌ๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์คํธ๋ ์ค๊ฐ ์์ฌ๊ฒฐ์ ์ ์ต๊ด์ ํ๋์ ์ฆ์ง์ํค๋ ์ธ์งํ๋์ ๊ธฐ์ ์ ๋ฐํ๋ ๋์์, ์คํธ๋ ์ค์ ํจ๊ณผ๊ฐ ๊ทธ ์ ๋์ ๋ฐ๋ผ ํ๋ ์ ํ์ ์ฌ๋ฌ ์ธ์ง์ ๊ฒฝํ์ ์์ธ์ ๋ค๋ฉด์ ์ธ ์ํฅ์ ๋ฏธ์นจ์ ํ์ธํ๋ค. ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๊ณผ๋ ์คํธ๋ ์ค์ ๊ด๋ จ๋ ์ค๋
ํ๋ ๋ฐ ๊ฐ๋ฐ ํ๋ ๋ฑ ๋ถ์ ์์ ํ๋์ ๋ณ๋ฆฌ์ ๊ธฐ์ ๋ฐ ๊ฐ์
๋ฐฉ๋ฒ์ ๋ํ ์์์ ํจ์๋ฅผ ๊ฐ๋๋ค.โ
. ์ ๋ก 1
1. ์คํธ๋ ์ค์ ์คํธ๋ ์ค ๋ฐ์ 2
2. ์คํธ๋ ์ค์ ์์ฌ๊ฒฐ์ 7
3. ์์ฌ๊ฒฐ์ ์ ๋ํ ๊ณ์ฐ ๋ชจํ 11
4. ์ฐ๊ตฌ ๋ชฉ์ 16
โ
ก. ์ฐ ๊ตฌ 1 19
1. ์ฐ๊ตฌ๋ฐฉ๋ฒ 22
2. ์ฐ๊ตฌ๊ฒฐ๊ณผ 40
3. ๋
ผ ์ 1 52
โ
ข. ์ฐ ๊ตฌ 2 59
1. ์ฐ๊ตฌ๋ฐฉ๋ฒ 60
2. ์ฐ๊ตฌ๊ฒฐ๊ณผ 74
3. ๋
ผ ์ 2 95
โ
ฃ. ์ข
ํฉ ๋
ผ์ 102
์ฐธ๊ณ ๋ฌธํ 106Docto
AD4RL: Autonomous Driving Benchmarks for Offline Reinforcement Learning with Value-based Dataset
Offline reinforcement learning has emerged as a promising technology by
enhancing its practicality through the use of pre-collected large datasets.
Despite its practical benefits, most algorithm development research in offline
reinforcement learning still relies on game tasks with synthetic datasets. To
address such limitations, this paper provides autonomous driving datasets and
benchmarks for offline reinforcement learning research. We provide 19 datasets,
including real-world human driver's datasets, and seven popular offline
reinforcement learning algorithms in three realistic driving scenarios. We also
provide a unified decision-making process model that can operate effectively
across different scenarios, serving as a reference framework in algorithm
design. Our research lays the groundwork for further collaborations in the
community to explore practical aspects of existing reinforcement learning
methods. Dataset and codes can be found in https://sites.google.com/view/ad4rl.Comment: ICRA 2024 Website at: https://sites.google.com/view/ad4r
Setup Change Scheduling Under Due-date Constraints Using Deep Reinforcement Learning with Self-supervision
ํ์๋
ผ๋ฌธ(๋ฐ์ฌ) -- ์์ธ๋ํ๊ต๋ํ์ : ๊ณต๊ณผ๋ํ ์ฐ์
ยท์กฐ์ ๊ณตํ๋ถ, 2021.8. ๋ฐ์ข
ํ.๋ฉ๊ธฐ ์ ์ฝ ํ์์ ์
์
์ค์ผ์ค์ ์๋ฆฝํ๋ ๊ฒ์ ํ์ค์ ์ฌ๋ฌ ์ ์กฐ ์ฐ์
์์ ์ฝ๊ฒ ์ฐพ์ ๋ณผ ์ ์์ผ๋ฉฐ ํ๊ณ์ ๋ง์ ๊ด์ฌ์ ๋๊ณ ์๋ ์ค๋ํ ๋ฌธ์ ์ด๋ค. ๊ทธ๋ฌ๋ ๋ฉ๊ธฐ์ ์
์
์ ์ฝ์ด ๋์์ ์กด์ฌํจ์ ๋ฐ๋ผ ๋ฌธ์ ์ ๋ณต์ก๋๊ฐ ์ฆ๊ฐํ๊ฒ ๋๋ฉฐ, ์์๊ฐ๊ฐ ์๋ก์ด ์์ฐ ๊ณํ์ด ์ฃผ์ด์ง๊ณ ์ด๊ธฐ ์ค๋น ์ํ๊ฐ ๋ณํ๋๋ ํ๊ฒฝ์์ ๊ณ ํ์ง์ ์ค์ผ์ค ์๋ฆฝ์ ๋ ์ด๋ ค์์ง๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ํ์ต๋ ์ฌ์ธต์ ๊ฒฝ๋ง์ด ์๊ธฐํ ๋ณํ๊ฐ ๋ฐ์ํ ์ค์ผ์ค๋ง ๋ฌธ์ ๋ ์ฌํ์ต ์์ด ํด๊ฒฐํ ์ ์๋๋ก, ์๊ธฐ์ง๋ ๊ธฐ๋ฐ ์ฌ์ธต๊ฐํํ์ต ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ํ์ ํ๋ ํํ์ ์์ฐ ๊ณํ๊ณผ ์ค๋น ์ํ์ ๋ฌด๊ดํ ์ฐจ์์ ๊ฐ๋๋ก ์ค๊ณํ๋ค. ๋์์ ์ฃผ์ด์ง ์ํ๋ก๋ถํฐ ํจ์จ์ ์ผ๋ก ์ ๊ฒฝ๋ง์ ํ์ตํ๊ธฐ ์ํด ํ๋ผ๋ฏธํฐ ๊ณต์ ๊ตฌ์กฐ๋ฅผ ๋์
ํ๋ค. ์ด์ ๋ํ์ฌ, ์ค์ผ์ค๋ง ๋ฌธ์ ์ ์ ํฉํ ์๊ธฐ์ง๋๋ฅผ ๊ณ ์ํ์ฌ ์ค๋น์ ์ก์ ์, ์์ฐ ๊ณํ์ ๋ถํฌ๊ฐ ์์ดํ ํ๊ฐ ํ๊ฒฝ์ผ๋ก๋ ์ผ๋ฐํ ๊ฐ๋ฅํ ์ฌ์ธต์ ๊ฒฝ๋ง์ ํ์ตํ๋ค. ์ ์ ๊ธฐ๋ฒ์ ์ ํจ์ฑ์ ๊ฒ์ฆํ๊ธฐ ์ํด ํ์ค์ ๋ณ๋ ฌ์ค๋น ๋ฐ ์ก์ต ๊ณต์ ์ ๋ชจ์ฌํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์์ ์ง์ฝ์ ์ธ ์คํ์ ์ํํ์๋ค. ์ ์ ๊ธฐ๋ฒ์ ๋ฉํํด๋ฆฌ์คํฑ ๊ธฐ๋ฒ๊ณผ ๋ค๋ฅธ ๊ฐํํ์ต ๊ธฐ๋ฐ ๊ธฐ๋ฒ, ๊ท์น ๊ธฐ๋ฐ ๊ธฐ๋ฒ๊ณผ ๋น๊ตํจ์ผ๋ก์จ ๋ฉ๊ธฐ ์ค์ ์ฑ๋ฅ๊ณผ ์ฐ์ฐ ์๊ฐ ๊ด์ ์์ ์ฐ์์ฑ์ ์
์ฆํ์๋ค.
๋๋ถ์ด ์ํ ํํ, ํ๋ผ๋ฏธํฐ ๊ณต์ , ์๊ธฐ์ง๋ ๊ฐ๊ฐ์ผ๋ก ์ธํ ํจ๊ณผ๋ฅผ ์กฐ์ฌํ ๊ฒฐ๊ณผ, ๊ฐ๋ณ์ ์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ์ ๊ธฐ์ฌํจ์ ๋ฐํ๋๋ค.Setup change scheduling under due-date constraints has attracted much attention from academia and industry due to its practical applications. In a real-world manufacturing system, however, solving the scheduling problem becomes challenging since it is required to address urgent and frequent changes in demand and due-dates of products, and initial machine status. In this thesis, we propose a scheduling framework based on deep reinforcement learning (RL) with self-supervision in which trained neural networks (NNs) are able to solve unseen scheduling problems without re-training even when such changes occur. Specifically, we propose state and action representations whose dimensions are independent of production requirements and due-dates of jobs while accommodating family setups. At the same time, an NN architecture with parameter sharing was utilized to improve the training efficiency. Finally, we devise an additional self-supervised loss specific to the scheduling problem for training the NN scheduler robust to the variations in the numbers of machines and jobs, and distribution of production plans.
We carried out extensive experiments in large-scale datasets that simulate the real-world wafer preparation facility and semiconductor packaging line. Experiment results demonstrate that the proposed method outperforms the recent metaheuristics, rule-based, and other RL-based methods in terms of the schedule quality and computation time for obtaining a schedule. Besides, we investigated individual contributions of the state representation, parameter sharing, and self-supervision on the performance improvements.์ 1 ์ฅ ์๋ก 1
1.1 ์ฐ๊ตฌ ๋๊ธฐ ๋ฐ ๋ฐฐ๊ฒฝ 1
1.2 ์ฐ๊ตฌ ๋ชฉ์ ๋ฐ ๊ณตํ 4
1.3 ๋
ผ๋ฌธ๊ตฌ์ฑ 6
์ 2 ์ฅ ๋ฐฐ๊ฒฝ 7
2.1 ์์ ์์กด์ ์
์
์ด ์๋ ๋ฉ๊ธฐ ์ ์ฝ ํ์์์ ์ค์ผ์ค๋ง ๋ฌธ์ 7
2.1.1 ๋ฉ๊ธฐ ์ ์ฝ ํ์์์ ์ค์ผ์ค๋ง ๋ฌธ์ 7
2.1.2 ํจ๋ฐ๋ฆฌ ์
์
์ ๊ณ ๋ คํ ๋ณ๋ ฌ์ค๋น ์ค์ผ์ค๋ง 8
2.1.3 ์
์
์ ์ฝ์ด ์๋ ์ก์ต ์ค์ผ์ค๋ง 9
2.2 ๊ฐํํ์ต ๊ธฐ๋ฐ ์ค์ผ์ค๋ง 12
2.2.1 ์ด๋ก ์ ๋ฐฐ๊ฒฝ 12
2.2.2 ๊ฐํํ์ต์ ์ด์ฉํ ์ ์กฐ ๋ผ์ธ ์ค์ผ์ค๋ง 13
2.2.3 ์ค์ผ์ค๋ง ๋ฌธ์ ์์์ ์ฌ์ธต๊ฐํํ์ต 15
2.3 ์๊ธฐ์ง๋ ๊ธฐ๋ฐ ์ฌ์ธต๊ฐํํ์ต 19
์ 3 ์ฅ ๋ฌธ์ ์ ์ 22
3.1 ๋ณ๋ ฌ์ค๋น ์ค์ผ์ค๋ง ๋ฌธ์ 22
3.1.1 ์ง์ฐ์๊ฐ ์ต์ํ๋ฅผ ์ํ ๋ณ๋ ฌ์ค๋น ์ค์ผ์ค๋ง ๋ฌธ์ 22
3.1.2 ํผํฉ์ ์๊ณํ ๋ชจํ 24
3.1.3 ์์ ๊ณต์ 25
3.2 ์ก์ต ์ค์ผ์ค๋ง ๋ฌธ์ 26
3.2.1 ํฌ์
๋ ์ต๋ํ๋ฅผ ์ํ ์ ์ฐ์ก์ต ์ค์ผ์ค๋ง 26
3.2.2 ์์ ๊ณต์ 27
์ 4 ์ฅ ์๊ธฐ์ง๋ ๊ธฐ๋ฐ ์ฌ์ธต๊ฐํํ์ต์ ์ด์ฉํ ๋ณ๋ ฌ์ค๋น ์ค์ผ์ค๋ง 31
4.1 MDP ๋ชจํ 31
4.1.1 ํ๋ ์ ์ 31
4.1.2 ์ํ ํํ 32
4.1.3 ๋ณด์ ์ ์ 37
4.1.4 ์ํ ์ ์ด 38
4.1.5 ์์ 39
4.2 ์ ๊ฒฝ๋ง ํ์ต 41
4.2.1 ์ฌ์ธต์ ๊ฒฝ๋ง ๊ตฌ์กฐ 41
4.2.2 ์์ค ํจ์ 42
4.2.3 DQN ํ์ต ์ ์ฐจ 43
4.2.4 DQN ํ๊ฐ ์ ์ฐจ 44
4.3 ์ค์ผ์ค๋ง ๋ฌธ์ ์์์ ์๊ธฐ์ง๋ 46
4.3.1 ๋ด์ฌ์ ๋ณด์ ์ค๊ณ 46
4.3.2 ์
์
์ค์ผ์ค๋ง์ ์ํ ์ ํธ๋ ์ ์ ์ค๊ณ 47
4.4 ์๊ธฐ์ง๋ ๊ธฐ๋ฐ DQN ํ์ต 49
4.4.1 ์๊ธฐ์ง๋ ์์ค ํจ์ 49
4.4.2 ํ์ต ์ ์ฐจ 50
์ 5 ์ฅ ์๊ธฐ์ง๋ ๊ธฐ๋ฐ ์ฌ์ธต๊ฐํํ์ต์ ์ด์ฉํ ์ก์ต ์ค์ผ์ค๋ง 53
5.1 ์ค์ผ์ค๋ง ํ๋ ์์ํฌ 53
5.1.1 ๋ณ๋ชฉ ๊ณต์ ์ ์ 53
5.1.2 ๋์คํจ์น ๊ท์น 54
5.1.3 ์ด์ฐ ์ฌ๊ฑด ์๋ฎฌ๋ ์ดํฐ 55
5.1.4 ์ค์ผ์ค๋ฌ ํ์ต 56
5.2 ํฌ์
์ ์ฑ
๊ณผ ์๊ธฐ์ง๋ 58
5.3 MDP ๋ชจํ ์์ 59
5.3.1 ํ๋ ์ ์ 59
5.3.2 ์ํ ํํ 59
5.3.3 ๋ณด์ ์ ์ 61
์ 6 ์ฅ ์คํ ๋ฐ ๊ฒฐ๊ณผ 62
6.1 ๋ณ๋ ฌ์ค๋น ์ค์ผ์ค๋ง ๋ฌธ์ 62
6.1.1 ๋ฐ์ดํฐ์
62
6.1.2 ์คํ ์ธํ
64
6.1.3 ์ง์ฐ์๊ฐ ์ดํฉ ์ฑ๋ฅ ๋น๊ต 67
6.1.4 ์ํ ํํ ๋ฐฉ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต 72
6.2 ์ก์ต ์ค์ผ์ค๋ง ๋ฌธ์ 74
6.2.1 ๋ฐ์ดํฐ์
74
6.2.2 ์คํ ์ธํ
75
6.2.3 ํฌ์
๋ ์ฑ๋ฅ ๋น๊ต 77
6.2.4 ํ๋ ์ ์ ๋ฐฉ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋น๊ต 80
6.3 ์๊ธฐ์ง๋๋ก ์ธํ ํจ๊ณผ 84
6.3.1 ๋ฐ์ดํฐ์
84
6.3.2 ์คํ ์ธํ
86
6.3.3 ํ๋ผ๋ฏธํฐ ๊ณต์ ์ฌ๋ถ์ ๋ฐ๋ฅธ ์๊ธฐ์ง๋์ ํจ๊ณผ 87
6.3.4 ํ์ต ์์ ๋ค๋ฅธ ๋ฐ์ดํฐ์
์์์ ์ฑ๋ฅ ํ๊ฐ 91
์ 7 ์ฅ ๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ 96
7.1 ๊ฒฐ๋ก 96
7.2 ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ 98
์ฐธ๊ณ ๋ฌธํ 100
Abstract 118
๊ฐ์ฌ์ ๊ธ 120๋ฐ
An integration of neuroscience and computational reinforcement learning
ํ์๋
ผ๋ฌธ(๋ฐ์ฌ) -- ์์ธ๋ํ๊ต๋ํ์ : ์์ฐ๊ณผํ๋ํ ๋์ธ์ง๊ณผํ๊ณผ, 2021.8. ๊นํ์.์๋ก : ๋ชฉ์ -์งํฅ์ ํ๋์ ๋ต๊ณผ ์ต๊ด์ ํ๋์ ๋ต ์ฌ์ด์ ์กฐ์จ ๋ถ๊ท ํ์ผ๋ก ๋ฐ์ํ๋ ์ต๊ด ํธํฅ์ ๊ฐ๋ฐ์ฅ์ (OCD) ์ฃผ์ฆ์์ธ ๊ฐ๋ฐํ๋์ ๊ธฐ์ ๋ฅผ ์ด๋ฃฌ๋ค. ๊ฐํํ์ต ์ธ๊ณต์ง๋ฅ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐํ ๊ณ์ฐ์ ๊ฒฝ๊ณผํ ๋ชจ๋ธ์ ์ด๋ฌํ ๋ ํ๋์ ๋ต ์ฌ์ด์ ์กฐ์จ ๊ธฐ์ ์ ์ค๋ช
ํ ์ ์๋ค. ์ฌ๋์ ๋๋ ๋ชฉ์ -์งํฅ์ (๋ชจ๋ธ-๊ธฐ๋ฐ) ํ์ต ์์คํ
๊ณผ ์ต๊ด์ (๋ชจ๋ธ-์์ ) ํ์ต ์์คํ
์ ์ํ/๋ณด์ ์์ธก ์ ๋ขฐ๋๋ฅผ ๊ณ์ฐํ๊ณ , ์ ๋ขฐ๋๊ฐ ๋์ ํ์ต ์์คํ
์ ์ ํํ์ฌ ์์ฌ๊ฒฐ์ ์ ์กฐ์จํ๋ค. ํ์ง๋ง, ๊ฐ๋ฐ์ฅ์ ํ์์์ ๋ํ๋๋ ์์ฌ๊ฒฐ์ ์กฐ์จ ๋ถ๊ท ํ์ด ์๋ชป๋ ํ์ต์ ๋ต ์ ๋ขฐ๋ ์ถ์ ์ ์์ธ์ ๋ ๊ฒ์ธ์ง ์์ง ๋ถ๋ถ๋ช
ํ๋ค. ๋ํ, ํ์ต์ ๋ต ์ ๋ขฐ๋ ๊ณ์ฐ์ ๋ด๋นํ๋ ํ์ ๋ํ(IFG)์ ์ ๋๊ทนํผ์ง(FPC)์ ๊ธฐ๋ฅ ์์์ด ์ด๋ฌํ ์กฐ์จ ๋ถ๊ท ํ์ ์ ๊ฒฝ์๋ฌผํ์ ๊ธฐ์ ์ธ์ง ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
๋ฐฉ๋ฒ: ์ฐ๊ตฌ์ฐธ์ฌ์๋ค์ ๋ชจ๋ธ-๊ธฐ๋ฐ ํ์ต์ ๋ต๊ณผ ๋ชจ๋ธ-์์ ํ์ต์ ๋ต ํ๋์ ๋ถ๋ฆฌํด ๊ด์ฐฐํ๊ธฐ ์ํด ๋ง๋ฅด์ฝํ ์์ฌ๊ฒฐ์ ๊ณผ์ (sequential two-choice Markov decision task)๋ฅผ ์ฌ์ฉํ๋ค. 30๋ช
์ ๊ฐ๋ฐ์ฅ์ ํ์์ 31๋ช
์ ๊ฑด๊ฐ ๋์กฐ๊ตฐ์ด ์ฐ๊ตฌ์ ์ฐธ์ฌํ์ผ๋ฉฐ, ์์ฌ๊ฒฐ์ ๊ณผ์ ๋ฅผ ์ํํจ๊ณผ ๋์์ ๊ธฐ๋ฅ์ ๋ ์๊ธฐ๊ณต๋ช
์์(fMRI)์ ์ดฌ์ํ๋ค. ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐํ ๊ณ์ฐ๋ชจ๋ธ์ ์ด์ฉํด ์์ฌ๊ฒฐ์ ์กฐ์จ ๊ณผ์ ๋์์ ํ๋์ ์ถ์ ํ๋ค. ๋ชจ๋ธ ํ๋๋ณ์ ๋ฐ ๊ด๋ จ ๋ ๊ธฐ๋ฅ์ ๋ํด ํ์๊ตฐ๊ณผ ๋์กฐ๊ตฐ ์ฌ์ด์ ์ฐจ์ด๋ฅผ ํต๊ณ์ ์ผ๋ก ๊ฒ์ฆํ์ผ๋ฉฐ, ํด๋น ๋ ๊ธฐ๋ฅ ์ฐจ์ด๊ฐ ์ ๋ขฐ๋ ์ถ์ ์ค๋ฅ ๋ฐ ๊ฐ๋ฐํ๋ ์ฆ์์ ์ค๋ช
ํ๋์ง ํ๊ท๋ถ์์ ํตํด ํ์ธํ๋ค.
๊ฒฐ๊ณผ: ๊ฐ๋ฐ์ฅ์ ํ์๋ค์ ๋์กฐ๊ตฐ์ ๋นํด ์์ฌ๊ฒฐ์ ๊ณผ์ ์ํ ์ ๋ณด์ ํ๋์ ๋ ํฐ ์ด๋ ค์์ ๊ฒช๊ณ ๋ ๋ณด์์ ์ผ๋ก ํ๋ํ๋ค. ๋ชจ๋ธ-๊ธฐ๋ฐ ํ์ต์ ๋ต์ด ํ์ํ ์ํฉ์์, ํ์๋ค์ ์คํ๋ ค ๋ชจ๋ธ-์์ ํ์ต์ ๋ต์ ๊ณผ๋ํ ์ ๋ขฐํ๋ค. ๊ทธ ๊ฒฐ๊ณผ, ํ์๋ค์์ ๋ ํ์ต์ ๋ต ์ฌ์ด์ ์กฐ์จ ์์ ์ฑ์ด ๋ ๋์์ผ๋ฉฐ, ๋ชจ๋ธ-์์ ํ์ต์ ๋ต์ผ๋ก์ ํธํฅ์ด ํ์ธ๋์๋ค. ํ์์์ ๊ณผ๋ํ ๋์ ์กฐ์จ ์์ ์ฑ์ ์ ๋๊ทนํผ์ง ์์ญ ์ค ์ ์ธ์ธก ์์์ ๋ํผ์ง(anterolateral OFC)์ ๊ณผํ์ฑํ์ ๊ด๋ จ์์์ผ๋ฉฐ, ์ ๋ขฐ๋ ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ํ์ต์ ๋ต์ ์ ํํ ๋ ์ ์ธ์ธก ์์์ ๋ํผ์ง๊ณผ ์๊ธฐ์์์ฝ ์ฌ์ด์ ๊ธฐ๋ฅ์ ์ฐ๊ฒฐ์ฑ์ด ๋น์ ์์ ์ผ๋ก ๊ฐํ๋์๋ค. ๋ฐ๋ฉด, ํ์์์ ๊ณผํ์ฑํ๋ ํ์ ๋ํ๋ ์กฐ์จ ์์ ์ฑ ๋ฐ ๊ฐ๋ฐํ๋ ์ค์ฆ๋์ ๋ถ์ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์๋ค.
๊ฒฐ๋ก : ๋ณธ ์ฐ๊ตฌ๋ ๊ฐ๋ฐ์ฅ์ ์ ์์ฌ๊ฒฐ์ ์กฐ์จ ๋ถ๊ท ํ์ด ๋ชจ๋ธ-์์ ํ์ต์ ๋ต์ ํธํฅ๋ ์กฐ์จ์ ์ผ๊ธฐํ๋ ๋ ๊ธฐ๋ฅ ์ด์์ ์์ธ์ด ์์์ ๋ฐํ๋ค. ๋์๊ฐ, ์์ธก ์ ๋ขฐ๋๋ฅผ ์ถ์ ํ๋ ํ์ ๋ํ ๋ฐ ์ ๋๊ทนํผ์ง์ ๊ฐ๋ฐํ๋ ๋ฐ ์ต๊ด ํธํฅ์ ๋ํ ์ ๊ฒฝํ๋ก-๊ธฐ๋ฐ ์น๋ฃ์ ๋ ์๋ฌผ์งํ๋ก ์ ์ํ๋ค.Introduction: Habit bias, resulted from imbalanced arbitration between goal-directed and habitual controls, is thought to underlie compulsive symptoms of patients with obsessive-compulsive disorder (OCD). A computational reinforcement learning (RL) model accounts for that, between the goal-directed (model-based; MB) and habitual (model-free; MF) RL systems, brain allocates weight to a controller with higher reliability in state or reward prediction. However, it remains unclear whether the impaired arbitration in OCD is attributed to faulty estimation of the reliability in the RLs and if inferior frontal gyrus (IFG) and/or frontopolar cortex (FPC), known to track the reliability signals, are grounded on this impairment.
Methods: The sequential two-choice Markov decision task was used to dissociate the MB and MF learning strategies. Thirty patients with OCD and thirty-one healthy controls (HCs) underwent a fMRI scan while performing the behavioral task. Behaviors of the arbitration process were estimated through a computational model based on RL algorithms. The model parameters and their neural estimates were compared between groups. Regression analyses were conducted to examine if neural differences explained faulty estimation of the reliability, in addition to compulsion severity, in OCD.
Results: Patients with OCD earned less reward and showed higher perseveration than HCs. During MB-favored trials, the uncertainty of prediction based on the MF strategy was lower in patients, which led to higher maximum reliability of the RL systems arbitrating behaviors (i.e., stability of the arbitration) and higher probability to choose the MF strategy. The higher stability of the arbitration was associated with hyperactive signal of the lateral orbitofrontal cortex (OFC)/FPC in patients. Patients increased connectivity strength between the OFC/FPC and precuneus when choosing an action strategy. On the other hand, the hyperactive IFG signal was inversely associated with the lower stability of the arbitration and less severe compulsion in patients.
Conclusions: It was demonstrated that the hyperactive neural arbitrators encoding the excessively stable arbitration in which the MF reliability was predominant underlay the imbalanced arbitration in OCD. Therefore, the findings suggest the IFG and FPC as brain biomarkers useful to plan a neurocircuit-based treatment for habit biases and compulsions of OCD.Background 1
Clinical characteristics of obsessive-compulsive disorder 1
Theoretical models for OCD symptomatology 3
Neurocircuitry mechanisms of OCD 4
Treatment strategies and unsatisfactory responses in patients with OCD 7
Current issues to be addressed in developing neurobiological evidence-based treatments for OCD 8
Chapter 1. Reliability-based competition between model-based and model-free learning strategies in OCD 11
Introduction 12
Methods 15
Results 26
Discussion 35
Chapter 2. Aberrant neural arbitrators underlying the imbalanced arbitration between decision-making strategies in OCD 37
Introduction 38
Methods 40
Results 45
Discussion 55
General Discussion 57
References 62
Abstract in Korean 74๋ฐ
์ธ๊ทธ๋จผํธ ๊ต์ฒด ๊ธฐ๋ฒ์ ํ์ฉํ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ์ ABR ์๊ณ ๋ฆฌ์ฆ
ํ์๋
ผ๋ฌธ (์์ฌ) -- ์์ธ๋ํ๊ต ๋ํ์ : ๊ณต๊ณผ๋ํ ์ปดํจํฐ๊ณตํ๋ถ, 2021. 2. ๊น์ข
๊ถ.์ ์ํ ๋นํธ๋ ์ดํธ ์๊ณ ๋ฆฌ์ฆ์ ์จ๋ผ์ธ ๋น๋์ค ์๋น์ค์ ์ฌ์ ํ์ง, ์ฆ ์ฌ์ฉ์ ์ฒด๊ฐ ํ์ง์ ์ฌ๋ฆฌ๊ธฐ ์ํ์ฌ ์ฌ์ฉ๋๋ ๋ํ์ ๊ธฐ์ ์ค ํ๋์ด๋ค. ์ง๊ธ๊น์ง ์ ์ํ ๋นํธ๋ ์ดํธ ์๊ณ ๋ฆฌ์ฆ์ ๋ค์ํ ์ต์ ํ ๊ธฐ๋ฒ์ ๊ธฐ๋ฐํ์ฌ ์ฌ์ฉ์ ์ฒด๊ฐ ํ์ง์ ์ต์ ํํ์๋ค. ๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ ์ ์ํ ๋นํธ๋ ์ดํธ ์๊ณ ๋ฆฌ์ฆ์ ๊ณตํต๋ ํ๊ณ์ ์ ์ง๋๋ค. ์ฌ์ฉ์ ์ฒด๊ฐ ํ์ง์ ์ต์ ํํ๊ธฐ ์ํด ๋จ์ํ ๋ค์์ผ๋ก ๋ค์ด๋ก๋ ํด์ผํ๋ ์ธ๊ทธ๋จผํธ์ ๋นํธ๋ ์ดํธ๋ง์ ๊ฒฐ์ ํ๋ค๋ ์ ์ด ๊ทธ ํ๊ณ์ ์ผ๋ก, ์ด๋ฌํ ์ ํ์ ์ํ๋ ์ ์ํ ๋นํธ๋ ์ดํธ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ณํํ๋ ๋คํธ์ํฌ ํ๊ฒฝ์ ๋ง์ถฐ ์์ผ๋ก ๋ค์ด๋ก๋ํ ์ธ๊ทธ๋จผํธ์ ๋นํธ๋ ์ดํธ๋ ์ต์ ์ผ๋ก ์กฐ์ ํ ์ ์์ง๋ง ์ด๋ฏธ ๋ค์ด๋ก๋ํ ์ธ๊ทธ๋จผํธ์ ๋ํด์ ์ด๋ ํ ์ต์ ํ๋ ์งํํ ์ ์๋ค. ๊ทธ๋ ๊ธฐ์ ์ฌ์ฉ์์ ๋คํธ์ํฌ ํ๊ฒฝ์ด ๊ทน๋จ์ ์ผ๋ก ๊ฐ์ ๋๋๋ผ๋ ์ด์ ๋ํ ํ์ฉ๋๊ฐ ๋จ์ด์ง๋ค.
์ด๋ฌํ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ LAWS ๊ธฐ๋ฒ, ํ์ต ๊ธฐ๋ฐ์ ์ธ๊ทธ๋จผํธ ๊ต์ฒด ์ ๋ต์ ํฌํจํ ์ ์ํ ๋นํธ๋ ์ดํธ ์๊ณ ๋ฆฌ์ฆ, ์ ์ ์ํ๋ค. ์ ์ ๋ชจ๋ธ์ ์ฌ์ฉ์์ ๋คํธ์ํฌ ํ๊ฒฝ ๋ฑ์ ๋ฐ๋ผ์ ๋ ๋์ ๋นํธ๋ ์ดํธ๋ก ์ธ๊ทธ๋จผํธ๋ฅผ ๊ต์ฒดํ ์ ์๋ค. ์ ์ ๊ธฐ๋ฒ์ ์คํํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ ์๋ก์ด ํํ์ ๋ฆฌ์๋๋ฅผ ๋์์ธํ๋ค. ์ด๋ฅผ ํตํด ์ ์ ๊ธฐ๋ฒ์ ์ธ๊ทธ๋จผํธ ๊ต์ฒด ์ ๋ต์ ํฌํจํ ํํ๋ก ์ฌ์ฉ์ ์ฒด๊ฐ ํ์ง์ ์ต์ ํํ ์ ์๋ค. ๋ํ ์ธ๊ทธ๋จผํธ ๊ต์ฒด ์ ๋ต์ ํฌํจํจ์ ๋ฐ๋ผ ์ฆ๊ฐํ๋ ๋ฌธ์ ์ ๋ณต์ก๋์ ๋์ํ๊ธฐ ์ํด ๊ท์น ๊ธฐ๋ฐ ํ๋ ์ ์ฝ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ต์ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ ๋ํ๋ค. ์ฐ๋ฆฌ๋ ์ต์ข
์ ์ผ๋ก ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์ ์ํ ๋นํธ๋ ์ดํธ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๋ค. ๋คํธ์ํฌ ํธ๋ ์ด์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค์ํ ์คํ์์๋ ์ ์ ๊ธฐ๋ฒ์ด ๊ธฐ์กด์ ๊ธฐ๋ฒ๋ค์ ๋นํด ์ฌ์ฉ์ ์ฒด๊ฐ ํ์ง์ 13.1%๊น์ง ๊ฐ์ ์ํค๋ ๊ฒ์ผ๋ก ํ์ธ๋๋คAdaptive bitrate (ABR) algorithm is one of the representative techniques used to optimize the playback quality of online video services, namely Quality of Experience (QoE). So far, ABR algorithms based on various optimization techniques have optimized QoE. However, most of the ABR algorithms proposed to date have common limitations; the range of options for optimization. Currently, most ABR algorithms only determine the bit rate of the next segment for QoE optimization. This type of ABR algorithm can optimize the bit rate of a segment to be downloaded in the future in a dynamic network environment. However, it is not possible to optimize any segment previously downloaded, so the changed network environment cannot be utilized to the maximum.
To overcome this limitation, we propose LAWS, learning based ABR algorithm with segment replacement. LAWS can be replaced with a better bit rate, even for previously downloaded segments, in conditions such as an improved network environment. First for this, we design a novel form of reward for optimization, including segment replacement. Through this, QoE, the optimization objective of the ABR algorithm, can be optimized in the form of segment replacement. In addition, we propose a rule-based learning method to solve the challenges arising in the model learning process. We finally propose an ABR algorithm with segment replacement based on deep reinforcement learning. Experiments based on network traces show that the newly proposed technique has a QoE improvement of 13.1% compared to the existing ABR techniques.I. Introduction 1
II. Related Work 4
2.1 DASH 4
2.2 Adaptive BitRate Algorithm 6
III. Motivation and Approach 9
3.1 Motivation 9
3.2 Approach 11
IV. Neural ABR algorithm with Segment Replacement 13
4.1 Action 15
4.2 State 15
4.3 Reward 18
4.4 Rule based learning 26
4.5 Implementation 27
V. Experiments 28
5.1 Experiment Setup 28
5.2 Baselines 29
5.3 Comparison with Existing ABR algorithms 33
5.4 Analyze Replacement Characteristics 35
5.5 Comparison Between Learning Based Algorithms 35
VI. Conclusion 37Maste
์ ๋ต์ ๊ณ ๊ฐ ํ๋์ ๊ณ ๋ คํ ์ฌ์ธต ๊ฐํํ์ต ๊ธฐ๋ฐ ํญ๊ณต์ฌ ๋์ ๊ฐ๊ฒฉ ๊ฒฐ์ ์ฐ๊ตฌ
ํ์๋
ผ๋ฌธ(์์ฌ) -- ์์ธ๋ํ๊ต๋ํ์ : ๊ณต๊ณผ๋ํ ์ฐ์
๊ณตํ๊ณผ, 2023. 2. ๋ฌธ์ผ๊ฒฝ.This thesis considers an airline dynamic pricing problem in the presence of patient customers. Nowadays, customers behave strategically to pay lower than their willingness to pay because they know airlines are implementing dynamic pricing strategies. To capture the non-myopic characteristic, we propose a Markov decision process (MDP) including a history of offered prices as a state variable. In contrast to previous studies, distributions of customers' properties are assumed to be unknown in advance.
Deep reinforcement learning (DRL) algorithms are utilized to solve it, and the results of numerical experiments are presented to show that their performance can be improved with the proposed formulation. Comparisons between algorithms are also made to determine which can construct appropriate pricing structures for the patient and non-stationary demand. The structures of pricing policies generated from the bootstrapped deep Q-network algorithm imply that airlines should offer high and low prices alternately from the beginning of the sales period rather than increasing prices as time goes on. We also ascertain that more frequent consecutive high-priced periods can increase airlines' revenue in environments with higher customer patience levels.๋ณธ ์ฐ๊ตฌ์์๋ ์ ๋ต์ ์๋น์๊ฐ ์กด์ฌํ๋ ์์ฅ์์ ํญ๊ณต์ฌ ๋์ ๊ฐ๊ฒฉ ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ์๋ค. ์ต๊ทผ ์๋น์๋ค์ ํญ๊ณต์ฌ์์ ๋์ ๊ฐ๊ฒฉ ์ ์ฑ
์ ์ํํ๋ ๊ฒ์ ์ธ์งํ๊ณ ์๊ธฐ ๋๋ฌธ์, ๊ทธ๋ค์ ์ง๋ถ ์ฉ์๋ณด๋ค ๋ฎ์ ๊ฐ๊ฒฉ์ ์ง๋ถํ๊ธฐ ์ํด ์ ๋ต์ ์ผ๋ก ํ๋ํ๋ค. ์ด๋ฌํ ์๋น์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ, ๋ณธ ์ฐ๊ตฌ์์๋ ๊ณผ๊ฑฐ์ ์ ์๋ ๊ฐ๊ฒฉ ๊ธฐ๋ก์ ์ํ ๋ณ์๋ก ํฌํจํ๋ ๋ง๋ฅด์ฝํ ์์ฌ๊ฒฐ์ ๊ณผ์ ๋ชจ๋ธ์ ์ ์ํ์๋ค. ์ด ๋ ๊ณ ๊ฐ ํน์ฑ์ ๋ํ ํ๋ฅ ๋ถํฌ๋ค์ ์ฌ์ ์ ์๋ ค์ ธ ์์ง ์๋ค๊ณ ๊ฐ์ ํ์๋ค. ๋ฌธ์ ํด๊ฒฐ์ ์ํด ์ฌ์ธต ๊ฐํํ์ต ๋ฐฉ๋ฒ๋ก ์ด ํ์ฉ๋์์ผ๋ฉฐ, ์๊ณ ๋ฆฌ์ฆ ๋ณ ๋น๊ต๋ฅผ ํตํด ์ ๋ต์ ์ด๊ณ ๋์ ์ธ ์์ ํ์์ ๊ฐ์ฅ ์ ์ ํ ๊ฐ๊ฒฉ ๊ตฌ์กฐ๋ฅผ ๋์ถํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ์๋ค. ๋ํ ํด๋น ๊ฐ๊ฒฉ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ์ฌ ์ ๋ต์ ์์๋ก๋ถํฐ ์ถ๊ฐ์ ์ธ ์์ต์ ๋ฐ์์ํค๊ธฐ ์ํ ๊ฒฝ์์ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํ๊ณ ์ ํ์๋ค.Chapter 1 Introduction 1
Chapter 2 Problem description 9
2.1 Dynamics of patient customers 9
2.2 Markov decision process 11
2.3 Airline dynamic pricing 11
Chapter 3 Solution methods 15
3.1 Deep Q-network 17
3.2 Bootstrapped DQN 18
3.3 Optimistic learning for decreasing cyclic policies 21
Chapter 4 Numerical experiments 23
4.1 Comparison between MDP formulations in the presence of patient customers 24
4.2 Comparison between pricing algorithms for non-stationary demand and insufficient inventory 27
4.3 Structure of pricing policies from the BDQN algorithm 33
4.4 Non-stationary test for the distributions of reservation prices 34
Chapter 5 Conclusions 38
Bibliography 41
๊ตญ๋ฌธ์ด๋ก 47์
- โฆ