3 research outputs found

    Bilingual Lexicon Extraction Using a Modified Perceptron Algorithm

    Get PDF
    전산 언어학 분야에서 병렬 말뭉치와 이중언어 어휘는 기계번역과 교차 정보 탐색 등의 분야에서 중요한 자원으로 사용되고 있다. 예를 들어, 병렬 말뭉치는 기계번역 시스템에서 번역 확률들을 추출하는데 사용된다. 이중언어 어휘는 교차 정보 탐색에서 직접적으로 단어 대 단어 번역을 가능하게 한다. 또한 기계번역 시스템에서 번역 프로세스를 도와주는 역할을 하고 있다. 그리고 학습을 위한 병렬 말뭉치와 이중언어 어휘의 용량이 크면 클수록 기계번역 시스템의 성능이 향상된다. 그러나 이러한 이중언어 어휘를 수동으로, 즉 사람의 힘으로 구축하는 것은 많은 비용과 시간과 노동을 필요로 한다. 이러한 이유들 때문에 이중언어 어휘를 추출하는 연구가 많은 연구자들에게 각광받게 되었다. 본 논문에서는 이중언어 어휘를 추출하는 새롭고 효과적인 방법론을 제안한다. 이중언어 어휘 추출에서 가장 많이 다루어지는 벡터 공간 모델을 기반으로 하고, 신경망의 한 종류인 퍼셉트론 알고리즘을 사용하여 이중언어 어휘의 가중치를 반복해서 학습한다. 그리고 반복적으로 학습된 이중언어 어휘의 가중치와 퍼셉트론을 사용하여 최종 이중언어 어휘들을 추출한다. 그 결과, 학습되지 않은 초기의 결과에 비해서 반복 학습된 결과가 평균 3.5%의 정확도 향상을 얻을 수 있었다1. Introduction 2. Literature Review 2.1 Linguistic resources: The text corpora 2.2 A vector space model 2.3 Neural networks: The single layer Perceptron 2.4 Evaluation metrics 3. System Architecture of Bilingual Lexicon Extraction System 3.1 Required linguistic resources 3.2 System architecture 4. Building a Seed Dictionary 4.1 Methodology: Context Based Approach (CBA) 4.2 Experiments and results 4.2.1 Experimental setups 4.2.2 Experimental results 4.3 Discussions 5. Extracting Bilingual Lexicons 4.1 Methodology: Iterative Approach (IA) 4.2 Experiments and results 4.2.1 Experimental setups 4.2.2 Experimental results 4.3 Discussions 6. Conclusions and Future Work

    추상 문서 요약을 위한 게이트된 합성곱 신경망과 깊은 층 융합

    No full text
    DoctorText summarization is one of the central tasks in Natural Language Processing. Recent advances in deep neural networks and representation learning have substantially improved text summarization technology. There are largely two approaches to text summarization: extractive and abstractive. The extractive approach generate a summary by extracting salient linguistic constitutes from the document and assembling them to make grammatical sentences. In contrast, the abstractive approach write summaries using words that may or may not exist in the document using sophisticated techniques such as meaning representation, content organization and surface realization. In this thesis, we focus on abstractive summarization, and propose a model to represent and recognize salient content better from a document that is one of the major abilities to better text summarization. Furthermore, we introduce a large-scale Korean dataset for document summarization. First of all, we adopt a hierarchical structure to capture various ranges of the representation. Moreover, we propose a gating mechanism to make better intermediate representations and we utilize POS (Part-of-Speech) tags to use morphological and syntactic features. Lastly, we propose a simple and efficient deep layer fusion to extract and merge salient information from the encoder layers. We evaluate our model using ROUGE metrics on three different datasets: CNN-DM, NEWSROOM-ABS, and XSUM. Experimental results show that the proposed model outperforms the state-of-the-art abstractive models on NEWSROOM-ABS and XSUM and shows comparable scores on CNN-DM. These data-driven approaches require a large amount of data for model training. However, large-scale datasets do not exist for less well-known languages such as Korean, and building such a dataset is very labor-intensive and time-consuming. In this thesis, we propose Korean summarization datasets that are acquired automatically by leveraging the characteristics of news articles. The dataset consists of 206,822 article-summary pairs in which summaries are written in headline-style with multiple sentences. With analysis of our dataset and experimental results, we showed that the proposed dataset is being fairly large to train an abstractive summarization model, comparable to existing English news datasets and suitable for develop abstractive summarization models

    Adoption of a Neural Language Model in an Encoder for Encoder-Decoder based Korean Grammatical Error Correction

    No full text
    문법 오류 교정은 주어진 문장에서 나타난 문법적인 오류들을 탐지하고 이를 올바르게 교정하는 것으로, 특정 언어를 배우고자 하는 L2 학습자들을 돕거나 시스템의 잘못된 입출력 수정 등 다양한 응용 분야에 활용 가능하다. 본 논문에서는 한국어 문법 오류 교정 학습에 필수적인 교정 병렬 데이터가 부족한 문제를 보완하기 위하여 단일 말뭉치를 활용하는 기법을 제안한다. 단일 말뭉치로 학습시킨 신경망언어 모델을 Encoder에 도입하여, 신경망 기계 번역 기반 교정 모델이 올바르게 사용된 음절과 문법적으로 잘못 사용된 음절을 보다 명확하게 구분할 수 있게 한다. 이를 토대로, 올바르게 사용된 음절의 복사량을 증가시키면서 기존 Encoder-Decoder 모델의 잘못된 교정을 방지하는 것을 확인할 수 있었다.22Nkc
    corecore