Article thumbnail

Mitigation of the lack of parallel corpus for Korean Grammatical Error Correction

By 조승우

Abstract

MasterThis thesis proposes two methods that use monolingual corpora to mitigate the lack of parallel data for grammatical error correction in Korean: data augmentation, and language model integration. We generate artificial grammatical errors in monolingual corpora to augment parallel data. We also integrate a recurrent neural network language model into the encoder of a neural machine translation system for identification of erroneous syllables. Our methods successfully improved the quality in translations of Lang-8 test data. Our methods are applicable to Automatic Post Editing (APE), in that APE corrects wrong translations.본 학위 논문은 한국어 문장 교정에서의 병렬 말뭉치 부족 현상을 완화하기 위하여, 작은 크기의 병렬 말뭉치를 증강하는 기법과 언어 모델을 기계 번역 기반 교정 모델의 인코더에 도입하는 기법을 제안한다. 말뭉치 증강 기법은 문법 오류를 인공적으로 단일 말뭉치에 발생시켜서 교정 모델에 필요한 학습 데이터를 풍부하게 하며, 언어 모델을 도입하는 기법은 문법 오류에 해당하는 음절을 좀 더 잘 구별할 수 있다는 장점이 존재한다. 병렬 말뭉치보다 수집하기 쉬운 단일 말뭉치를 활용하는 두 가지 제안 기법으로 Lang-8 실험 데이터에 대한 교정 성능의 향상을 확인할수 있었다

Publisher: 포항공과대학교
Year: 2018
OAI identifier: oai:oasis.postech.ac.kr:2014.oak/93578
Provided by: 포항공과대학교
Download PDF:
Sorry, we are unable to provide the full text but you may find it at the following location(s):
  • http://oasis.postech.ac.kr/han... (external link)
  • http://postech.dcollection.net... (external link)
  • Suggested articles


    To submit an update or takedown request for this paper, please submit an Update/Correction/Removal Request.