순차적 오토인코더 기반 FDA 승인 약물들의 화학 공간 임베딩

Abstract

학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2021.8. 김선.Drug discovery requires decade of expensive efforts to meet sufficient needs. Computer-Aided drug discovery (CADD) is an emerging field of study that aims to systematically reduce the time and cost of a new durg development by adapting computer science to identify structural and physical properties of chemical compounds used as drugs and derive new drug candidates with similar characteristics. In particular, it is most important to identify the char acteristics of chemical compounds approved by the U.S. Food and Drug Ad ministration (FDA). FDA approved chemical compounds are validated drugs in terms of toxicity, efficacy of drug and side effects. The question arises here i how these chemical compounds are distributed in an embedding space. Tradi tionally, hand-crafted rule is the only way of constructing the chemical space. Traditional chemical compound representations have made it difficult to clas sify FDA approved chemical compounds. With the advent of the era of big data and artificial intelligence technology, deep learning is the leading technol ogy that drives to build an embedding space. However, there is few adaptive methods to identify the embedding space of FDA approved chemical com pounds. In this work, I propose a framework that encodes features of FDA approved chemical compounds by constructing a discriminative embedding space. Var ious encoding methods were used to encode information from FDA approved chemical compounds. The proposed framework consists of three stacked deep autoencoder modules. The proposed framework effectively integrate the in formation of the chemical compounds by cascade modeling. Connected three autoencoder modules in cascade is used to continuously use latent represen tation learned from previous modules. Whether FDA approved chemical com pounds have discriminative regions in the embedding space is well visualized by the proposed framework. And perform machine learning classification tasks to evaluate whether the latent representation effectively characterize the FDA approval information. The proposed framework incorporates complex repre sentation information to understand the embedding of FDA drugs. Ultimately, the framework proposed in this paper can be used as an embedding method for determining whether or not new drug candidates will be approved. Keywords: FDA Approved drug, Cascade Autoencoder, Chemical space em bedding Student Number: 2019-24822신약 개발시 여러 조건들을 충족하는 약물을 발견하기 위해 수십년의 노력이 필요 하다. 컴퓨터 보조 신약 개발(CADD)은 컴퓨터 과학을 적용시켜 약물로 사용되는 약물의 구조적 및 물리적 특성을 확인하고 유사한 특성을 가진 신약 후보를 도 출함으로써 신약 개발의 시간과 비용을 체계적으로 절감하는 것을 목표로 하는 신흥 연구 분야이다. 특히 미국 식품의약국(FDA)이 승인한 약물의 특성을 확 인하는 것이 가장 중요하다. FDA에서 승인한 약물들은 독성, 효능 및 부작용 측면에서 검증된 의약품이다. 이러한 약물들이 임베딩 공간 상에서 어떻게 분 포되어 있는지에 대한 의문점에서 시작한다. 전통적으로는 전문가의 수작업으로 만든 규칙들로 화합물의 임베딩 공간을 구성했다. 전통적인 화합물 표현만으로는 FDA 승인 약물들을 분류하는 것이 어렵다. 빅데이터와 인공지능 기술의 발전으 로 딥러닝을 이용해 임베딩 공간을 구축한다. 그러나 기존 연구들에선 FDA 승인 약물들의 임베딩 공간을 식별할 수 있는 적절한 방법이 없다. 본 연구에서는 FDA 승인 약물들의 특징을 인코딩하는 프레임워크를 사용해 차 별적인 임베딩 공간을 구축하는 방법을 제안한다. 제안된 프레임워크는 3개의 순차적 딥 오토인코더 모듈로 구성된다. 제안된 프레임워크는 순차적 모델링을 통해 약물의 정보를 효과적으로 통합한다. 순차적으로 연결된 3개의 오토인코더 모듈을 사용하여 이전 모듈에서 학습한 잠재 표현을 지속적으로 사용한다. FDA 승인 화학 화합물이 임베딩 공간상에서 차별적인 영역을 가지고 있는지 여부는 제안된 프레임워크에 의해 시각화된다. 또한 잠재된 표현이 FDA 승인 정보를 효과적으로 특성화하는지 여부를 평가하기 위해 기계 학습 분류 작업을 수행한 다. 궁극적으로, 본 논문에서 제안하는 프레임워크는 신약 후보자의 승인 여부를 결정하기 위한 임베딩 방법으로 사용될 수 있다. 주요어: FDA 승인 약물, 순차적 오토인코더, 화합물 공간 임베딩 학번: 2019-24822Chapter 1 Introduction 1 1.1 Background 1 1.1.1 Chemical space 1 1.1.2 FDA Approval of chemical drugs 2 1.2 Current Method and Limitation 4 1.3 Problem Statement and Contributions 5 Chapter 2 Related Works 7 2.1 Cascade Autoencoder 7 2.2 Chemical Space Embedding Methods 8 Chapter 3 Methods and Materials 9 3.1 Notation and Problem Definition 9 3.2 Chemical Compound Encoding Process 10 3.2.1 Morgan Fingerprints 11 3.2.2 Mol2vec 12 3.2.3 Junction Tree Variational Autoencoder 12 3.2.4 Continuous and Data-Driven Descriptors Variational Au toencoder 14 3.3 Model Architecture 14 3.3.1 Autoencoder Module 14 3.3.2 Cascade Autoencoder 16 3.4 Loss function, Optimizer 17 3.4.1 Reconstruction Loss 17 3.4.2 Metric Loss 17 3.4.3 Optimizer 18 3.5 Principal Component Analysis 18 3.6 Machine Learning Classifiers 19 3.6.1 Support Vector Machine 19 3.6.2 Naive Bayes 19 3.6.3 Random Forset 20 3.6.4 Adaboost 20 Chapter 4 Experiments 21 4.1 Datasets 21 4.1.1 Datasets for pre-trained model 21 4.1.2 FDA Approved and Discontinued dataset 22 4.2 Model Training Hyper Parameter Settings 22 4.2.1 The dimension of input data 23 4.2.2 Model Training 23 4.2.3 Embedding and Evaluation method 23 4.2.4 Comparison Models 24 Chapter 5 Results 25 5.1 Visualization of Chemical Embedding Space 25 5.2 Performance Comparisons with Traditional Machine Learning Method 26 5.3 Performance of using each input representation 27 5.4 Effect of Cascade Modeling 28 Chapter 6 Conclusion 30 국문초록 36 감사의 글 37석

    Similar works