머신러닝 모델을 사용한 2002~2020년 한국의 O3, NO2, CO 농도의 고해상도 추정

Abstract

학위논문(석사) -- 서울대학교대학원 : 보건대학원 보건학과, 2023. 2. 김호.Backrgound : Long-term exposure to ozone (O3), nitrogen dioxide (NO2), and carbon monoxide (CO) is known to cause various diseases and increase mortality. For that reason, estimating ground-level O3, NO2, and CO concentrations with a high spatial resolution is crucial for assessing the health effects associated with these air pollutants. However, related studies are limited in South Korea. This study aimed to develop machine learning-based models to predict the monthly O3 (average of daily 8-hour maximums), NO2, and CO at a spatial resolution of 1 km × 1 km across South Korea from 2002 to 2020. Methods : Approximately 80% of the monitoring stations were used to train the three machine learning models (random forest, light gradient boosting, and neural network) with a 10-fold cross-validation, and 20% of the monitoring stations were used to test the model performance. The author also applied ensemble models to integrate the variation in predictions among the models. Multiple predictors with satellite-based remote sensing data, inverse distance weighted ground-level air pollutants, land use variables, reanalysis datasets for meteorological variables, and regional socioeconmoic variables collected from various databases were included in the prediction model. Results : For O3, the overall R2 of the ensemble model was 0.841 during the entire study period. Urban areas showed a better model performance (R2 = 0.845) than rural areas (R2 = 0.762). For NO2, the highest overall R2 was 0.756, which best fit in autumn (R2 = 0.768). For CO, the overall R2 value was 0.506. This study provides high spatial resolution monthly average O3 and NO2 estimates with excellent performance (R2 > 0.75). Conclusion : The authors predictions can be used to analyze the spatial patterns in pollutants in relation to population characteristics and studies on the health effects of long-term exposure to air pollution using geocode-based health information and local health data.연구배경 : 오존(O3), 이산화질소(NO2), 일산화탄소(CO)에 장기간 노출되면 각종 질병을 유발하고 사망률을 높이는 것으로 알려져 있다. 그렇기에, 고해상도로 지표면 O3, NO2, CO 농도를 추정하는 것은 이러한 대기오염물질과 관련된 건강 영향을 평가하는 데 매우 중요하다. 하지만, 장기간에 걸쳐 고해상도로 가스상 대기오염물질(O3, NO2, CO)를 추정한 연구는 국내에서 아직 진행된 바가 없다. 따라서, 본 연구는 2002년부터 2020년까지 대한민국 전역에서 1km × 1km의 공간해상도로 월별 O3(일평균 8시간 최대치), NO2, CO를 머신러닝 기반 모델 및 그들의 앙상블 모형을 통해 예측하고자 한다. 연구방법 : 3가지 머신러닝 모델(랜덤 포레스트, 라이트 그래디언트 부스팅, 신경망)의 최적의 파라미터를 찾기 위해 모니터링 스테이션의 약 80%를 훈련 데이터로 사용하였고, 10-fold 교차검증을 통해 훈련 데이터 내에서 훈련/평가 단계를 거쳤으며, 나머지 모니터링 스테이션의 20%를 모델 평가에 사용하였다. 여기에 추가로 머신러닝 모델 간의 예측 변동을 통합하기 위해 앙상블 모델을 적용했다. 데이터에는 위성 기반 원격 감지 데이터, 역거리 가중치 기반 대기오염농도, 토지 이용 변수, 기상 재분석 자료, 다양한 데이터베이스에서 수집된 지역 사회경제적 변수 등이 포함되었다. 연구결과 : O3의 경우, 전체 연구 기간 동안 앙상블 모델의 R2가 0.841을 기록했으며, 도시 지역이 농촌 지역(R2 = 0.762)보다 우수한 예측 성능(R2 = 0.845)을 보였다. NO2의 경우, 앙상블(평균) 모델의 R2가 0.756으로 가장 높았으며, 계절로 보면 가을에 예측 성능이 가장 높았다(R2 = 0.768). CO의 경우, R2가 0.506 을 기록했다. 본 연구는 O3 및 NO2 에서 R2 > 0.75 으로 높은 예측력의 고해상도 월평균 추정치를 제공한다. 결론 : 본 연구에서 얻어진 대기오염 추정 결과는 인구 특성과 관련된 가스상 대기오염물질의 공간 패턴을 분석하거나, 위치 기반 건강 정보와 행정구역 단위 건강 데이터와 엮여서 장기간 대기오염 노출의 건강 영향을 평가하는 연구에 사용될 수 있을 것으로 기대된다.Chapter 1. Introduction 1 Chapter 2. Materials and Methods 6 2.1. Study area 6 2.2. Air pollution monitoring data 6 2.3. Satellite-based remote sensing data 7 2.3.1. Meteorological data 7 2.3.2. Land-use data 10 2.3.3. Surface reflectance 11 2.4. Regional socioeconomic predictors 12 2.5. Modeling procedures 13 2.5.1. Data Preprocessing 14 2.5.2. Machine learning-based model 15 2.5.3. Ensemble Model 16 2.5.4. Model Prediction 17 Chapter 3. Results 19 Chapter 4. Discussion 29 Chapter 5. Conclusion 34 Supplementary materials 47 국문 초록 82 Tables Table 1. Model performance for O3, NO2, and CO overall and in three- and four-year periods 21 Table S1. Detailed information about data sources 61 Table S2. Variables sorted by % missing values 65 Table S3. Results of parameter grid search using 10-fold cross-validation for O3, NO2 and CO 68 Table S4. Yearly ensemble (GAM) performance for O3, NO2, and CO 70 Table S5. Model performances for O3, NO2, and CO by season and urbanity 71 Table S6. Number of monitoring stations by year for O3, NO2 and CO in urban and rural areas 73 Figures Fig. 1. Flowchart of the modeling process. GEE: Google Earth Engine, SEDAC: Socioeconomic Data and Applications Center, RSD: Regional Socioeconomic Database from Korean Disease Control and Prevention Agency 18 Fig. 2. Density scatter plot for monthly averages of the monitored and predicted concentrations of O3, NO2, and CO 26 Fig. 3. Maps of monitored and predicted O3, NO2 and CO during 2002~2020 27 Fig. 4. Percentage decrease in R2 when excluding grouped variables from each machine learning model of O3, NO2, and CO. The closer the color is to red, the greater the effect of the variables on the model performance 28 Fig. S1. Urban/Rural and Metropolitan (Metro) area for entire contiguous regions of South Korea 74 Fig. S2. Distribution maps of predicted O3 (ppb) by year and season for contiguous South Korea 75 Fig. S3. Distribution maps of predicted NO2 (ppb) by year and season for contiguous South Korea 76 Fig. S4. Distribution maps of predicted CO (ppm) by year and season for contiguous South Korea 77 Fig. S5. Monthly fluctuations in the number of monitoring stations for O3, NO2, and CO between 2002 and 2020 78 Fig. S6. Density scatter plot for monthly averages of the monitored and predicted concentrations of O3, NO2, and CO with seasonal discrimination 79석

    Similar works