Mitigation of the lack of parallel corpus for Korean Grammatical Error Correction

Abstract

MasterThis thesis proposes two methods that use monolingual corpora to mitigate the lack of parallel data for grammatical error correction in Korean: data augmentation, and language model integration. We generate artificial grammatical errors in monolingual corpora to augment parallel data. We also integrate a recurrent neural network language model into the encoder of a neural machine translation system for identification of erroneous syllables. Our methods successfully improved the quality in translations of Lang-8 test data. Our methods are applicable to Automatic Post Editing (APE), in that APE corrects wrong translations.본 학위 논문은 한국어 문장 교정에서의 병렬 말뭉치 부족 현상을 완화하기 위하여, 작은 크기의 병렬 말뭉치를 증강하는 기법과 언어 모델을 기계 번역 기반 교정 모델의 인코더에 도입하는 기법을 제안한다. 말뭉치 증강 기법은 문법 오류를 인공적으로 단일 말뭉치에 발생시켜서 교정 모델에 필요한 학습 데이터를 풍부하게 하며, 언어 모델을 도입하는 기법은 문법 오류에 해당하는 음절을 좀 더 잘 구별할 수 있다는 장점이 존재한다. 병렬 말뭉치보다 수집하기 쉬운 단일 말뭉치를 활용하는 두 가지 제안 기법으로 Lang-8 실험 데이터에 대한 교정 성능의 향상을 확인할수 있었다

Similar works

Full text

thumbnail-image

포항공과대학교

redirect
Last time updated on 04/11/2018

This paper was published in 포항공과대학교.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.