4 research outputs found

    심층 강화학습을 통한 공정 최적 계획 및 제품 설계

    No full text
    학위논문(박사) -- 서울대학교대학원 : 공과대학 화학생물공학부(에너지환경 화학융합기술전공), 2024. 2. 이원보.In the era of rapid technological advancement, process technology is evolving into a more intricate domain, marked by an increasing array of variables. Traditional mathematical methods, while robust, are becoming increasingly computationally intensive and costly due to the escalating complexity of problems, characterized by a proliferating number of equations and variables. This complexity also necessitates repetitive simulations upon any alteration in conditions, further adding to the operational challenges. In response to these limitations, the integration of machine learning with process engineering has emerged as a promising avenue, yielding significant advancements. However, machine learning approaches are often constrained by the necessity for extensive input data and are limited to generating results within the scope of these inputs. Reinforcement learning, distinguished by its proficiency in handling uncertainty, scalability, and adaptability, presents a viable alternative to surmount these challenges. This study focuses on leveraging the unique capabilities of reinforcement learning to address two critical aspects: process planning and product design, demonstrating its potential as a transformative tool in the field of process engineering. First, in process planning, energy management in the residual energy processing process was compared with the existing mathematical programming by reinforcement learning. In the domain of energy management systems (EMS), the utilization of curtailed renewable energy is gaining paramount importance. The integration of advanced energy storage systems, including batteries and green hydrogen, is crucial for enhancing the efficiency of energy stakeholders. This study introduces a novel deep reinforcement learning (DRL) approach, employing a policy-based algorithm for optimizing energy storage system planning amidst the uncertainties of curtailed renewable energy. The effectiveness of DRL is demonstrated through a comprehensive quantitative analysis, revealing its superior performance over the traditional scenario-based stochastic optimization (SO) method, particularly in scenarios involving wide action and observation spaces. The resilience of DRL in managing uncertainties is highlighted, with results showing its robustness and ability to maximize net profits while maintaining system stability. The study's findings also reveal that the DRL agent, by adopting a policy-based approach, not only outperforms SO in scenarios with varying degrees of uncertainty but also demonstrates a profit accuracy exceeding 90% compared to deterministic mixed-integer linear programming (MILP) solutions. Furthermore, the research delves into the influence of various factors such as the state of charge (SOC), electricity prices, and curtailed energy levels on the decision-making process of the DRL agent. The action mapping analysis conducted in the study provides intuitive insights into the agent's decision-making process, demonstrating that the DRL agent's actions align with logical decision criteria based on these variables. Second, in the field of product design, particularly in material and drug discovery, reinforcement learning (RL) emerges as a transformative tool for generating molecules with specific desired properties. Traditional heuristic methods and conventional machine learning approaches, including deep learning with autoencoders and recurrent neural networks (RNNs), encounter limitations due to their reliance on extensive databases and their constrained ability to deviate from trained data, particularly when identifying molecules with rare properties. The presented research introduces an advanced molecular discovery model, specifically designed for drug discovery, utilizing RL. This model distinguishes itself by learning from chemical rules and rewards, rather than relying solely on large databases. It is adept at predicting various physical properties critical in drug discovery, such as logP, tPSA, QED, HBA, HBD, and molecular weight (MW). Furthermore, the model integrates the quantitative structure–activity relationship (QSAR) for biological properties, essential for evaluating a molecule's potential as a drug. Comparative analyses reveal that the RL-based model surpasses existing molecular synthesis models like the Generative Chemical Transformer (GCT) in performance. This is evidenced by its superior results in QSAR models, including high docking scores and HIV inhibition scores. These findings highlight the model's efficacy in drug discovery, particularly in pinpointing molecules with unique and valuable properties, which traditional data-driven models might not readily identify.기술의 발전으로 인해 공정 기술은 점점 더 복잡해지고 있다. 공정은 많은 변수를 가지고 있으며, 큰 범위의 문제를 해결하기 위해서는 기존의 방법으로는 많은 시간과 컴퓨팅 파워가 필요하다. 게다가 점점 문제가 커짐에 따라 더욱 많은 식들과 변수가 생기게 되고, 더 많은 비용이 소모되게 된다. 추가적으로 기존의 수학적 방법으로는 문제가 조금 달라지게 되면 다시 해답을 구해야 한다는 단점이 있다. 따라서 최근에는 수학적 방법을 보완하고자 공정과 기계학습을 결합하는 시도가 늘어나고 있으며, 좋은 결과를 보이고 있다. 하지만 기계학습 또한 학습 데이터가 많아야 하며, 학습이 이루어진 후 나오는 결과가 학습 데이터의 분포를 따른다는 제한점이 있다. 강화학습은 특정 문제에 대한 해답을 구하는 것이 아니라 정책을 학습시킴으로써, 불확실성에 강하고 좀 더 유연한 문제 해결을 가능하게 하여 이러한 기계학습의 취약점을 보완하는 방법으로 사용될 수 있다. 이 연구에서는 공정 계획법과 제품 설계 두 가지 문제에 강화학습을 적용시켜 보았다. 첫 번째로, 공정 계획법에서는 신재생 잔류 에너지 관리에서 수학적 모델과 강화학습을 비교해 보았다. 점차 증가하는 신재생 에너지 생산에 따라 에너지 관리 시스템의 역할이 중요해지고 있다. 에너지 저장 장치로는 배터리나 수전해 수소 저장 등이 사용될 수 있으며, 에너지 저장의 효율을 극대화시키기 위해서는 이런 방법들이 복합적으로 사용되어야 한다. 기존의 수학적 방법으로 이러한 방법들의 최적 해답을 구할 수 있지만, 에너지 관리와 같이 불확실성이 큰 문제나 큰 범위의 문제에서는 정확도가 떨어지거나 시간이 오래 걸린다는 단점이 있다. 우리는 여기에 심층 강화학습을 적용시켜 이를 보완해 보았다. 정책 학습 기반의 강화학습은 한번 훈련을 시켜 두면 즉각적인 결정을 내릴 수 있어, 실시간 에너지 관리 시스템에 사용될 수 있다. 강화학습 모델은 기존의 수학적 방법과 비교하여 크게 떨어지지 않는 성능을 보였으며, 불확실성이 있는 데이터에서는 확률적 최적화 (Stochastic Optimization) 와 비교하여 더 높은 성능을 보였다. 이렇게 학습이 된 강화학습 agent가 합리적인 결정을 내렸는지 확인하기 위하여 action mapping을 통하여 각 시나리오에서 강화학습이 취하는 행동을 시각화 하여 확인하였고, 특정 상황에서 행동을 분석함으로써 강화학습이 인간과 같은 논리적인 방법을 학습하여 행동할 수 있음을 보였다. 두 번째로 제품 설계에서는 물질 합성 분야에서 원하는 성질을 가지는 분자를 발견해 내는 강화학습 모델을 만들었다. 물질 합성에서 가능한 분자는 무수히 많기 때문에 기존의 경험 법칙으로는 다양한 분자를 찾기에 한계점이 있다. 따라서 VAE, Graphic DNN 등의 기계학습을 결합하여 더욱 빠르게 분자를 찾는 방법을 개발하였다. 하지만 VAE, RNN 등은 학습하기 위해 많은 수의 데이터베이스가 필요하며, 이렇게 학습된 모델도 기존의 학습 데이터의 분포를 벗어나는 결과를 찾기 어렵다는 한계가 있다. 따라서 이러한 한계를 극복하기 위해 강화학습을 사용한 분자 합성 모델을 제작하였다. 본 강화학습 모델은 화학적 결합 규칙과 보상만을 가지고 학습이 이루어지기 때문에 기존의 데이터베이스의 분포에 크게 영향을 받지 않는다는 장점이 있다. 이 연구에서는 reward를 쉽게 계산할 수 있는 약물 합성 데이터를 사용하였으며, 주로 사용되는 약물의 물성치로 logP, tPSA, QED, HBA, HBD, MW를 사용하였다. 또한 분자의 생물학적 특성인 QSAR을 사용함으로써 실제 발견된 분자가 원하는 방향으로 학습이 이루어지는지 확인하였다. 기존의 방법론과 비교를 위해 VAE기반의 GCT모델을 학습시켰고, 학습 데이터의 분포에는 없거나 희박한 물성치를 가지는 분자를 생성하게 하여 비교를 하였다. 그 결과 기존의 방법론은 거의 분자를 생성하지 못하였지만, 강화학습은 몇몇 케이스를 제외하고는 모두 분자를 생성하였으며, QSAR모델인 결합 모델과 HIV 모델에서도 기존의 데이터셋을 임의로 추출한 결과보다 좋은 결과를 보여 원하는 방향으로 학습이 잘 이루어졌음을 보았다.Abstract i Contents . v List of Figures viii List of Tables xv Chapter 1. Introduction . 17 1.1. Research Motivation . 17 1.2. Outline of the thesis 20 1.3. Associated publications 20 Chapter 2. Optimal Planning of Hybrid Energy Storage Systems through Deep Reinforcement Learning . 21 2.1. Background 21 2.2. Problem Description 27 2.2.1. Structure of the hybrid energy system 27 2.2.2. Mathematical model 30 2.2.3. Datasets 34 2.3. RL Architecture 35 2.3.1. Neural-network architecture and learning loop 35 2.3.2. Environment, state, and action 39 2.3.3. Rewards and action filtration 42 2.4. Results and Discussion 45 2.4.1. Deep Reinforcement Learning performance 45 2.4.2. Policy evaluation under uncertainty 50 2.4.3. Qualitative analysis of the trained Deep Reinforcement Learning policy 54 2.5. Supplementary Material 62 2.5.1. Reward design 62 2.5.2. Training under uncertainties 64 2.5.3. Length of period for training data 68 2.5.4. Benchmark on reinforcement learning algorithms 70 2.5.5. Composition of observable state 72 2.5.6. Economic model 74 Chapter 3. Materials Discovery with Extreme Properties via Reinforcement Learning-Guided Combinatorial Chemistry 76 3.1. Background 76 3.2. Results and Discussion 83 3.2.1. Theoretical review of probability distribution-learning models 83 3.2.2. RL-guided combinatorial chemistry with BRICS 87 3.2.3. Materials extrapolation to hit multiple extreme target properties 95 3.2.4. Application to the discovery of protein docking molecules 108 3.2.5. Application to discovery of HIV inhibitors 112 3.3. Methods 115 3.3.1. Molecular descriptors 115 3.3.2. Fragment set configuration 118 3.3.3. Action masking 119 3.3.4. Target properties and calculation of molecular descriptors 120 3.3.5. Training loop 122 3.3.6. Rewards and terminations 124 3.3.7. RL algorithm 126 3.3.8. Further findings 127 3.4. Supplementary Material 129 3.4.1. Supplementary experiment on materials extrapolation to hit five extreme targets except for MW and DRD2 129 3.4.2. Size of the fragment set 135 3.4.3. Benchmark on reinforcement learning algorithms and action masking 137 3.4.4. Parameter setting for QuickVina2 139 3.4.5. Active molecules of protein docking problem 141 3.4.6. Determination of the maximum number of fragments to use in HIV-related targets 143 3.4.7. Model accuracy of prediction model 145 Chapter 4. Concluding Remarks 154 4.1. Summary of Contributions 154 4.2. Future Works 158 Nomenclature 159 Bibliography 160 Abstract in Korean (국문초록) 168박
    corecore