25 research outputs found
Korean Dependency Parsing Reflected Chunking
์์ฐ์ธ์ด์ฒ๋ฆฌ์์ ๊ตฌ๋ฌธ๋ถ์์ ๋ฌธ์ฅ ๊ตฌ์ฑ ์ฑ๋ถ๋ค์ ๊ด๊ณ๋ฅผ ํ์
ํ๋ ๊ณผ์ ์ ๋งํ๋ค. ๊ตฌ๋ฌธ๋ถ์์ ํตํด ๋ฌธ์ฅ์ ๊ตฌ์กฐ๋ฅผ ๊ฒฐ์ ํจ์ผ๋ก์จ ์๋ฏธ์ ์ค์์ฑ์ ํด์ํ ์ ์๋ค. ํ๊ตญ์ด ๊ตฌ๋ฌธ๋ถ์์ ๊ตฌ๋ฌธ๋ถ์๊ธฐ์ ์
๋ ฅ์ด ๋๋ ๋ฌธ์ฅ์ ์ฑ๋ถ ์๊ฐ ๋ง์ ์ด๋ก ์ธํด ๋ถ์์ ๋ณต์ก๋๊ฐ ๋๊ณ ์ ํ๋๊ฐ ๋ฎ์ ํ์์ ๋ณด์ธ๋ค. ์ด์ ๋ํ ํด๊ฒฐ๋ฐฉ์์ผ๋ก ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ํ๊ตญ์ด ๊ตฌ๋ฌธ๋ถ์์ ์ ์ํ๋ค. ๊ตฌ๋ฌถ์์ ํํ์๋ถ์๋ ๋ฌธ์ฅ์ ๋ํด ๋ฌธ๋ฒ์ , ์๋ฏธ์ ์ผ๋ก ํ๋์ ์ญํ ์ ํ๋ ์ฐ์๋ ํํ์๋ค์ ํ๋์ ๋ง๋ฉ์ด๋ก ๋ฌถ๋ ์์
์ ๋งํ๋ค. ๊ตฌ๋ฌถ์์ ์ํํ๋ฉด ๊ตฌ๋ฌธ๋ถ์์ ์
๋ ฅ์ด ๋๋ ๋ฌธ์ฅ ์ฑ๋ถ์ ์๊ฐ ์ค์ด๋ค๋ฉฐ, ๋ฌธ์ฅ ๋ด์์ ๋ณด์กฐ์ ์ธ ์ญํ ์ ํ๋ ์์๋ค์ด ํ๋์ ๋ง๋ฉ์ด๋ก ๋ฌถ์ด๋ฏ๋ก ๋ง๋ฉ์ด ๋ด์ ์ค์ฌ์ด์ ๋ํด์๋ง ์์กด ๊ด๊ณ๋ฅผ ํ์
ํ ์ ์์ด ๊ตฌ๋ฌธ๋ถ์์ ํจ์จ์ฑ์ด ์ฆ์ง๋๋ค.
๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๊ตฌ๋ฌธ๋ถ์์ ์ํํ๊ธฐ ์ํด ํ๊ตญ์ด์ ๋ํด ๊ตฌ๋ฌถ์๊ณผ ๋ง๋ฉ์ด๋ฅผ ์ ์ํ๊ณ ์ด์ ๊ธฐ๋ฐํ์ฌ ๊ตฌ๋ฌถ์์ ์ํํ๋ค. ๋ํ, ๊ตฌ๋ฌถ์ ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๊ธฐ์กด์ ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ง๋ญ์น๋ก๋ถํฐ ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ์์กด๊ตฌ์กฐ ๋ง๋ญ์น๋ฅผ ๊ตฌ์ถํ๋ค. ์ด๋ฌํ ์์
์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๊ถ๊ทน์ ์ผ๋ก ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๊ตฌ๋ฌธ๋ถ์๊ณผ ๊ธฐ์กด์ ๊ตฌ๋ฌธ๋ถ์์ ๋น๊ตํ๊ณ ๋ถ์ํจ์ผ๋ก์จ ํ๊ตญ์ด์ฒ๋ฆฌ์ ์์ด ๊ตฌ๋ฌถ์์ ์ ํจ์ฑ๊ณผ ํ์์ฑ์ ๋ณด์ด๋ ๋ฐ ๊ทธ ์์๊ฐ ์๋ค.
์คํ ๊ฒฐ๊ณผ ์ด์ ๋จ์๋ก ์ ํ๋๋ฅผ ์ธก์ ํ์ ๋, ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๊ฒฝ์ฐ๋ UAS ๊ธฐ์ค 86.48%, LAS ๊ธฐ์ค 84.56% ์์ผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ์์ ๊ฒฝ์ฐ UAS ๊ธฐ์ค 82.98%, LAS ๊ธฐ์ค 80.45%๋ก, ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๊ฒฝ์ฐ๊ฐ ๊ฐ๊ฐ 3.5%p, 4.11%p ์์นํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๊ตฌ๋ฌธ๋ถ์์ ์ ํ๋๋ ํจ์จ์ฑ ๋ฉด์์ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ณด๋ค ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, ๊ตฌ๋ฌธ์ ์ธ ๊ด์ ๋ฟ๋ง ์๋๋ผ ์๋ฏธ์ ์ธ ์์๋ ํจ๊ป ๋ถ์ํ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ฐ๋ผ์ ํ๊ตญ์ด์ฒ๋ฆฌ์์๋ ์ง์์ ์ผ๋ก ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๊ตฌ๋ฌธ๋ถ์์ ๋ํ ์ฐ๊ตฌ๊ฐ ์ด๋ฃจ์ด์ ธ์ผ ํ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํด ๊ตฌ๋ฌถ์ ์์ฒด์ ๋ํ ์ค๋ฅ ๋ถ์๊ณผ ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ๋ง๋ญ์น์ ํจ์ฉ์ฑ์ ๊ดํ ์ฐ๊ตฌ๋ ๋ค๊ฐ๋์์ ๊ฒ์ฆ๋์ด์ผ ํ ๊ฒ์ด๋ค. ๋ํ, ๋ด์ฉ์ด์ ๊ธฐ๋ฅ์ด์ ๋น์ค์ด ๊ตฌ๋ฌธ๋ถ์์ ๋ฏธ์น๋ ์ํฅ์ ๊ดํ ์ฐ๊ตฌ๋ ํฅ๋ฏธ ์๋ ์ฃผ์ ๋ก ๋จ์์๋ค.|In natural language processing, syntactic parsing is to analyze relationship between sentence components. The parsing can resolve semantic as well as syntactic ambiguity by determining the relationship. On the other hand, in Korean parsing, usually there are a lot of components (or morphemes) in an input sentence, and these can cause high complexity and low accuracy in parsing. To alleviate this problem, we propose Korean parsing reflected chunking. Chunking is to identify constituents called chunks which are a sequence of words (or morphemes) playing a syntactic and semantic role in a given sentence. We can decrease the number of the input components of the parser by chunking. Moreover, chunking groups morphemes with auxiliary meaning like functional or grammatical meaning, so we can just focus on the head word in chunks.
The purpose of this paper is therefore threefold. The first is to define Korean chunks. The second is to build Korean dependency corpus reflected chunking, which is for experiments, according to the chunk definition. The corpus can be automatically converted from the existing Korean dependency corpus. The third is to develop a Korean dependency parser reflected chunking. The parser has been experimentally evaluated in parsing Korean text, achieving UAS and LAS of 86.48% and 84.56% respectively. The parser outperforms the Korean parser which is not reflected chunking by 3.5%p and 4.11%p, and has been shown to be better than the existing one in performance. The parser can also analyze semantic as well as syntactic structure.
In the future, the study on chunking in Korean should be conducted consistently for establishing linguistic concepts. An error analysis on the chunking and parsing is required for performance improvement. Furthermore, the difference in vector representation according to the ratio between content chunks and function chunks in a sentence still remains as an interesting subject.๋ชฉ ์ฐจ
List of Tables iv
List of Figures v
Abstract vi
์ด๋ก viii
์ 1 ์ฅ ์ ๋ก 1
์ 2 ์ฅ ๊ด๋ จ ์ฐ๊ตฌ 4
2.1 ์์กด๊ตฌ์กฐ ๋ถ์ 4
2.1.1 ์์กด๊ตฌ์กฐ ๋ถ์ ๋ฐฉ๋ฒ๋ก 5
2.1.2 ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ถ์ 8
2.2 ๊ตฌ๋ฌถ์ 10
2.2.1 ๊ตฌ๋ฌถ์๊ณผ ๋ง๋ฉ์ด 10
2.2.2 ํ๊ตญ์ด ๊ตฌ๋ฌถ์ 11
2.3 ์์กด๊ตฌ์กฐ ๋ถ์ ๋ง๋ญ์น 12
2.3.1 UD ๋ง๋ญ์น 13
2.3.2 ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ง๋ญ์น 13
์ 3 ์ฅ ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ถ์ 15
3.1 ํ๊ตญ์ด ๋ง๋ฉ์ด 16
3.1.1 ํ๊ตญ์ด ๋ง๋ฉ์ด์ ์ ์ 16
3.1.2 ๋ง๋ฉ์ด ์ข
๋ฅ ๋ฐ ํ์ง 18
3.2 ํ๊ตญ์ด ๊ตฌ๋ฌถ์ 19
3.2.1 ๊ตฌ๋ฌถ์ ๋ง๋ญ์น ๊ตฌ์ถ 19
3.2.2 ์ฌ์ธตํ์ต์ ์ด์ฉํ ํ๊ตญ์ด ๊ตฌ๋ฌถ์ 20
3.3 ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ง๋ญ์น ์์ฑ 21
3.3.1 ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ์์กด๊ตฌ์กฐ ๋ง๋ญ์น 21
3.3.2 ๋ง๋ญ์น ๋ณํ ๊ณผ์ ๋ฐ ์๊ณ ๋ฆฌ์ฆ 23
3.3.3 ๋ง๋ญ์น ๋ณํ ๊ฒฐ๊ณผ ๋ถ์ 29
3.4 ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ถ์ 31
3.4.1 ์์กด๊ตฌ์กฐ ๋ถ์ ๋ชจ๋ธ 31
3.4.2 ์
๋ ฅ ๋ฐ์ดํฐ ํ์ ๊ตฌ์กฐ 34
์ 4 ์ฅ ์คํ ๋ฐ ํ๊ฐ 36
4.1 ํ๊ตญ์ด ๊ตฌ๋ฌถ์ 36
4.1.1 ์คํ ํ๊ฒฝ 36
4.1.2 ์คํ ๊ฒฐ๊ณผ 37
4.2 ๊ตฌ๋ฌถ์์ ๋ฐ์ํ ํ๊ตญ์ด ์์กด๊ตฌ์กฐ ๋ถ์ 39
4.2.1 ์คํ ํ๊ฒฝ 39
4.2.2 ์คํ ๊ฒฐ๊ณผ 42
์ 5 ์ฅ ๊ฒฐ๋ก ๋ฐ ํฅํ ์ฐ๊ตฌ 47
์ฐธ๊ณ ๋ฌธํ 49
๊ฐ์ฌ์ ๊ธ 59Maste
ๅฐๆน่ชๆฒปๅ้ซ์์์ ใ่พฒๆผๆๆง้ ๆนๅๆฟ็ญใๅท่ก้็จ์ ๊ดํ ็ก็ฉถ
ํ์๋
ผ๋ฌธ(์์ฌ)--์์ธๅคงๅญธๆ ก ่กๆฟๅคงๅญธ้ข :่กๆฟๅญธ็ง ่กๆฟๅญธๅฐๆป,1995.Maste
์ด๋ฆฐ์ถฉ๋จ 7ํธ-[์์ฌ์นผ๋ผ]์ถฉ๋จ๋์ ์ ์ ๊ฐ๋ฐฉํฅ
โ
. ์ถ์ง๋ฐฐ๊ฒฝ
์ง๋ 94๋
, UR์ด ํ๊ฒฐ๋๊ณ WTO์ ์ ๊ตญ์ ๊ฒฝ์์ฌํ๊ฐ ์ด๋ฆฌ๋ฉด์ ์ฐ๋ฆฌ ๋์
์ ๋ํ ๊ฑฑ์ ์ ์๋ฆฌ์ ์ฐ๋ฆฌ ๋๋ฏผ๋ค์ ์๋ ์ ๋ํ ๋ถ์๊ฐ์ด ์ต๊ณ ์กฐ์ ๋ฌํ๋ค. ์ต์ ์์ฅ์ ๊ทผ์ ์ํ ์๋น๋ 1%์ ๋ฌผ๋์ด๋๋ง ์ธ๊ตญ์์ด ๊ตญ๋ด์๋ ๋ค์ด์ฌ ์ ์๊ฒ ๋์๋ค๋ ํ์๊ฒฐ๊ณผ๊ฐ ์ฐ๋ฆฌ ์ ๊ตญ๋ฏผ์๊ฒ ์ถฉ๊ฒฉ์ผ๋ก ์ ๋ฟ์์๊ณ ์ฐ๋ฆฌ ๋์
์ ์กด๋ฆฝ์ ๋ํ ์๊ธฐ๊ฐ๋ง์ ๋๋ฏผ๋ค์ ๋ฌผ๋ก ๋์ ๊ด๊ณ์๋ค์๊ฒ ๊น์ง ํฝ๋ฐฐํด ์์๋ค.
-์ดํ ์๋ต1. ์ถ์ง๋ฐฐ๊ฒฝ
2. 1์ฐจ๋
(96)์ ์ถ์ง์ฑ๊ณผ
3. 2์ฐจ๋
(97) ์ถ์ง๊ณํ
4. ์ฌํด์ ์ค์ํ ์ ์ฑ
์ฌ์
5. ๋งบ์
19ํธ-[ํด์ธํ๋ฐฉ]
1. ์ถ๋ฐ์ ์์
์ง๋ํด 11์ ์ฐ๋ฆฌ ๋์ด ํ์ฅ์์๋ ํฐ ์๋์ด ์์๋ค.
90๋
๋ง์ ๊ฐ๋ญ์ด๋ผ๋ ๋๊ด์ ๊ทน๋ณตํด๋ด๊ณ ํ์ฑํ ๊ฐ์ ๋ค๋
์์ ๊ฑฐ๋์ด ๋ค์ธ ์์ ๊ฐ๊ฒฉ์ด ์ํ์ ๊ธฐ์จ์ ์๋๊ณณํ์ง ์๊ณ ๊ณ์ ํ๋ฝํ๊ณ ์์๊ธฐ ๋๋ฌธ์ด์๋ค.
๋ฌผ๋ก ๊ทธํด์ ํํ์ ๋ฐ๋ผ ์๊ฐ์ ๋ฑ๋ฝ์ด ์์ด ์์ง๋ง ์ง๋ํด ๋งํผ ๊ฐ์์ค๋ฝ๊ฒ ํฐ ํญ์ผ๋ก ๋จ์ด์ง๋ ์๋ ์์ฃผ ๋๋ฌธ ์ผ์ด๋ค. ๋ฐ๋ผ์ ๋์
์ธ๋ค์ ๋ฌผ๋ก ์ด๊ณ ๋์ ๊ณต๋ฌด์๊ณผ ์์ธ๋ค ๋ง์ ๋ ๋ง์ ๊ฑฑ์ ์์์ ์๊ฐ์ ์์ ์ ์ํ์ฌ ๋์ฑ
์๋ฆฝ์ ๊ณ ์ฌํ์๋ค. ์ฐ์ ์ ๋ถ์๋งค๋ฅผ ์ ์ํ๊ฒ ์ถ์งํ๋๊ฐ ํ๋ฉด ์๋น์ด์ง ์ด๋์ ํผ์น๋ฉด์ ์ฐ๋ฆฌ ์์ ์ข์ ์ ์ ์๋น์์๊ฒ ์๋ฆฌ๊ณ ใ์์นจ๋ฐฅ ๋จน๊ธฐ ์บ ํ์ธใ์ ๋ฒ์ด๊ธฐ๋ ํ์๋ค.
-์ดํ ์๋ต1. ์ถ๋ฐ์ ์์
2. ์ ๋ฝ์์์ ๋์
๊ณผ ๋์ด ๊ทธ๋ฆฌ๊ณ ๋์ ์ ์ญํ
3. ์ ๋ฝ ๋์
์ ์์ฌ