3 research outputs found

    Morphological Analysis and Part-of-Speech Tagging for Applying Korean Automated Scoring of Short-Answer Questions

    Get PDF
    Through Korean short-answer questions, we can reflect the depth of students’ understanding and higher-order thinking skills, but may take long time to grade and may be an issue on consistency of grading. To alleviate the suffering, automated scoring systems are widely used in Europe and America, but are in the initial research stage in Korean. Many language modules like morphological analysis are used to improve Korean automated scoring. The previous morphological analyzer used for Koran automated scoring under development suffers from some unusal words like “우오오오오오오오오오오오오오오오오오오오오.” In this thesis, we propose a new method for Korean morphological analysis to solve this problem. The proposed method is combined with syllable-based word segmentation and versatile searching for morphological variants. The syllable-based word segmentation is based on a machine learning model like conditional random field (CRF) and based on the BIO coding scheme. The versatile searching for morphological variants comprises four steps: The first and second steps are to look up segmented words in the pre-analyzed dictionary and morphological dictionary, respectively. For unknown words, the third step is to search for the segmented word in the variant dictionary and to concatenate the variant words with the previous words and the next words. The final step is to look up the combined words in the morphological dictionary. At each step, words in the dictionary are added into nodes on the lattice structure , which is used for POS tagging and a weighted graph. The POS tagging is the best (shortest) path, i.e., the most proper sequence for a given sentence, from the beginning node to the last node on the weighted graph. The proposed morphological analyzer and POS tagger has demonstrated the recall and of 98.86% and the precision of 95.03% for the SEJONG corpus, and also can analyze all answers of subjects taken the 2014 National Level Student Assessment. Thus it can be said that the proposed systems are more effective than the morphological analyzer and POS tagger used for the automated scoring system of Koran short-answer questions.제 1 장 서 론 1 제 2 장 관련 연구 4 2.1 한국어의 특성 5 2.2 한국어 형태소 분석 기법 9 2.3 한국어 형태소 품사 부착 12 제 3 장 한국어 서답형 자동채점 시스템의 형태소 분석 및 품사 부착 기법의 문제점 분석 16 3.1 한국어 서답형 문항 자동채점 시스템 17 3.2 기존의 형태소 분석 및 품사 부착 기법 20 3.3 기존 형태소 분석기 및 품사기의 문제점 23 제 4 장 단어 분리와 사전 탐색 기법을 이용한 형태소 분석 및 품사 부착 25 4.1 제안하는 형태소 분석 및 품사 부착 기법의 구조 25 4.2 단어 분리 모델 및 사전 생성 27 4.3 음절 기반의 단어 분리 38 4.4 제안하는 형태소 분석 기법 40 4.5 통계기반의 품사 부착 51 제 5 장 실험 및 평가 53 5.1 성능 평가 대상 53 5.1.1 세종 말뭉치 53 5.1.2 2014년 국가수준 학업성취도 평가 답안 54 5.2 성능 평가 척도 54 5.3 성능 평가 결과 55 5.3.1 세종 말뭉치의 형태소 분석 및 품사 부착 결과 55 5.3.2 2014년 국가 수준 학업성취도 평가 형태소 분석 및 품사 부착 결과 57 5.4 오류분석 58 제 6 장 결론 및 향후 연구 60 참고문헌 62 감사의 글 66 부록 A 세종 말뭉치 품사 및 단순화 태그 6

    개체명 말뭉치 생성을 중심으로

    No full text
    제4차 산업혁명 시대를 맞이하여 AI와 빅데이터 기반의 연구가 활발하게 진행되고 있다. 자연언어처리 분야에서는 AI 시스템이 사람의 언어를 이해하는 기술을 실현하기 위해 활발한 연구를 진행하고 있다. 이를 위해서는 문장의 언어학적인 분석 정보를 구조화한 분석 말뭉치가 대량으로 필요하나, 한국어의 경우에는 영어, 중국어, 일본어에 비해 분석 말뭉치의 규모가 부족한 실정이다. 분석 말뭉치를 구축하는 방법은 수작업, 기계학습을 이용한 방법, 데이터 증강을 이용한 방법이 존재한다. 기존의 방법들은 분석 말뭉치를 구축하는데 시간적, 경제적 비용이 많이 들고 일관성과 신뢰성을 확보하는 일이 어렵다. 또한 수작업을 제외하고는 기존의 분석 말뭉치에 없는 미등록어나 새로운 분석 대상을 처리 능력이 부족하다는 한계점이 있다. 이런 점들을 완화하면서 대량의 분석 말뭉치를 확보하는 방법이 필요하다. 본 논문에서는 사람의 주관이 필요한 작업은 최소화하면서 일관성이 높은 분석 말뭉치를 확보하는 방법을 개체명 말뭉치 생성을 중심으로 제안한다. 본 논문에서 제안하는 방법은 문장 생성 연구에서 우수한 성능을 보이는 GPT-2의 구조를 다중 작업 학습이 가능하도록 수정하고, 다중 생성 단위 간의 관계 점수를 계산하는 신경망을 적용한다. 다중 생성 작업은 부분 단어, 품사 범주, 개체명 범주를 생성하는 작업으로 이루어져 있다. 주의집중 방법을 응용한 신경망을 이용하여 매 시점마다 생성 단위 간의 관계 점수 벡터를 만들어 최종 출력을 결정한다. 개체명 문장의 시작 열을 조건으로 주고, 시작 열 이후의 토큰 열을 완성하는 형태로 개체명 문장을 생성한다. 생성된 개체명 문장은 평균 혼잡도 이하일 때만 개체명 말뭉치에 추가된다. 제안하는 방법론으로 구축한 개체명 말뭉치의 문장 수는 40,000개이며 새롭게 등장한 개체명 단위의 수는 6,130개로 개체명 단위의 약 4.93%에 해당했다. 생성된 문장의 평균 참신성은 0.6074점, 다양성은 0.4635점으로 계산되었다. 생성된 개체명 말뭉치를 추가한 학습 말뭉치로 3종류의 개체명 인식기를 학습한 결과, 평균 정밀도가 76.81%에서 77.96%로 약 1.15%p 향상하였다. 평균 재현율은 71.49%에서 73.32%로 약 1.83%p 향상했다. 평균 -점수는 74.02%에서 75.57%로 약 1.55%p가 향상했다. 다중 생성 단위 간의 관계 점수를 고려한 결과 검증 기준의 통과율이 15% 증가한 결과를 보임으로써, 본 방법론이 유효함을 확인하였다. 입력 열을 길게 주어서 생성 후보의 혼잡도를 줄이거나, 검증 기준의 혼잡도를 높이는 방법을 통해 개체명 말뭉치의 양을 늘릴 수 있다. 본 연구는 분석 말뭉치를 자동으로 생성하는 연구의 기반 연구로서 의의가 있다.1. 서론 1 1.1. 연구 배경과 목적 1 1.2. 연구 내용과 방법 4 1.3. 논문 구성 7 2. 관련 연구 10 2.1. 개체명 인식 10 2.2. 심층신경망의 구조 21 2.3. 언어 모델과 문장 생성 28 2.3.1. 언어 모델 28 2.3.2. 문장 생성 30 2.4. 다중 작업 학습 33 2.5. 평가 척도 35 3. seqGAN-MTL을 이용한 개체명 말뭉치 생성 39 3.1. 초기 개체명 말뭉치 구축 과정 40 3.2. seqGAN-MTL의 개체명 말뭉치 생성 과정 41 3.2.1. seqGAN-MTL의 전체 구조 43 3.2.2. seqGAN-MTL의 알고리즘 44 3.2.3. seqGAN-MTL의 생성기 47 3.2.4. seqGAN-MTL의 판별기 50 3.3. seqGAN-MTL의 한계 51 4. seqGAN-GPT-MTL을 이용한 개체명 말뭉치 생성 54 4.1. seqGAN-GPT-MTL의 개체명 말뭉치 생성 과정 54 4.2. GPT-MTL의 구조 56 4.3. 실험 및 분석 61 4.3.1. 초매개변수 정보 (seqGAN-MTL과 GPT-MTL) 61 4.3.2. 생성된 개체명 문장들의 통계 정보 63 4.3.3. 참신성과 다양성 평가 결과 66 4.3.4. 개체명 인식기의 성능 평가 결과 66 4.3.5. 새로운 개체명이 포함된 문장의 예시 71 4.3.6. 생성된 문장의 오류 유형 72 4.4. seqGAM-GPT-MTL 방법의 문제점 74 5. 다중 생성 단위 간의 관계 점수를 고려한 개체명 말뭉치 생성 76 5.1. 선행 연구를 통한 연구 방향의 재정립 77 5.2. GPT-rs-MTL의 개체명 말뭉치 생성 과정 79 5.3. GPT-rs-MTL의 구조 81 5.4. 실험 및 분석 84 5.4.1. GPT-rs-MTL의 초매개변수 정보 84 5.4.2. 생성된 개체명 문장들의 통계 정보 86 5.4.3. 참신성과 다양성 평가 결과 92 5.4.4. 개체명 인식기의 성능 평가 결과 94 5.4.5. 새로운 개체명이 포함된 문장의 예시 100 5.4.6. 다중 생성 단위의 관계 점수의 효과 검증 102 5.5. GPT-rs-MTL의 한계점 104 5.6. 개체명 문장을 생성하기 위한 전략 105 6. 결론 및 향후 연구 107 6.1. 결론 107 6.2. 향후 연구 109 6.3. 연구의 기여 111Docto
    corecore