[[alternative]]Advanced analysis on POS tagging

Abstract

碩士[[abstract]]  本論文提出一個演算法去改善原模型(馬可夫模型標記器、TnT標記器)的詞性標記的準確率,並以七個錯誤率較高的特徵字作為研究對象。所設計的演算法是透過原標記器去標記句子裡每一個單字的詞性,再利用字彙資訊與相對機率比值,給予特徵字有第二次標記的機會。   數據探討分成兩部分,分別為(一)七個特徵字在馬可夫模型標記器伴隨字彙資訊與馬可夫標記器的整體錯誤率比較;(二) 七個特徵字在TnT標記器伴隨字彙資訊與TnT標記器的整體錯誤率比較。經數據的分析顯示,我們的演算法確實可以提升標記器的準確率。[[abstract]]This paper presents an algorithm to improve the original model (Markov model tagger, TnT tagger) of accuracy of speech tags and take the higher error rate feature word as the object of study. The algorithm we designed is through the original tagger to tag the part of speech of each word in the sentence and then use lexical information and relative probability ratio to give the feature word a second tagged chance. The probing of data is divided in two parts, respectively ( a ) Comparison of the overall error rate of seven feature words in Markov model tagger with lexical information and Markov model tagger, ( b ) Comparison of the overall error rate of seven feature words in TnT tagger with lexical information and TnT tagger. The data analysis shows that our algorithm can improve the accuracy of tagger exactly.[[tableofcontents]]第1章 緒論 1 1.1 研究動機 1 1.2 研究目的 2 1.3 研究內容 3 1.4 研究大綱 4 第2章 知識背景與相關研究 5 第3章 研究內容與流程 7 3.1 英文句子來源及前置處理 10 3.2 詞性標記 12 3.2.1 基於馬可夫詞性標記 13 3.2.2 TnT詞性標記 17 3.2.3 未知字處理 21 3.3 字彙資訊 23 3.4 相對機率的比值 25 第4章 研究數據與結果 27 4.1 BNC語料庫前置處理結果 27 4.2 訓練資料的結果 28 4.3 詞性標記的結果 31 4.3.1 單字的錯誤資訊 32 4.3.2 單字的錯誤率 34 4.4 字彙資訊訓練資料的結果 35 4.5 研究結果與探討 37 4.5.1 特徵字在兩個詞性標記模型的分析 38 4.5.2 詞性標記伴隨前後一項字彙資訊的結果分析 41 4.5.3 詞性標記伴隨前後兩項字彙資訊的結果分析 59 第5章 結論與未來研究方向 62 5.1 結論 62 5.2 未來研究方向 62 參考文獻 64 附錄-英文論文 66 圖目錄 圖 3.1-1 BNC語料庫儲存形式 10 圖 4.1-1 BNC語料庫處理後結果 27 圖 4.2-1 詞性在BNC出現的頻率 28 圖 4.2-2 單字在BNC出現的頻率 28 圖 4.2-3 單字為某一詞性出現的頻率 29 圖 4.2-4 詞性2伴隨詞性1出現的頻率 29 圖 4.2-5 詞性3伴隨詞性1和詞性2出現的頻率 29 圖 4.2-6 單字為某一詞性出現的機率 30 圖 4.2-7 詞性2伴隨詞性1出現的機率 30 圖 4.2-8 詞性3伴隨詞性1和詞性2出現的機率 30 圖 4.3-1 基於馬可夫模型詞性標記的結果 31 圖 4.3-2 TnT詞性標記的結果 31 圖 4.3.1-3 基於馬可夫模型詞性標記的錯誤統計結果 33 圖 4.3.1-4 TnT型詞性標記的錯誤統計結果 33 圖 4.3.1-5 單字的錯誤率 34 圖 4.4-1 more為某一詞性與前一項一起出現總數 35 圖 4.4-2 more為某一詞性與前兩項一起出現總數 35 圖 4.4-3 more為某一詞性與後一項一起出現總數 36 圖 4.4-4 more為某一詞性與後兩項一起出現總數 36 表目錄 表 4.5.1-1 more在MM標記的數據 38 表 4.5.1-2 more在TnT標記的數據 38 表 4.5.1-3 七個特徵字在MM的整體表現 39 表 4.5.1-4 七個特徵字在TnT的整體表現 39 表 4.5.2-1 在MM&L下,特徵字more看前一項字彙資訊與門檻值的數據 42 表 4.5.2-2 MM與M&L(前一項)標記結果比對情形一 43 表 4.5.2-3 MM與M&L(前一項)標記結果比對情形二 44 表 4.5.2-4 MM與M&L(前一項)標記結果比對情形三 44 表 4.5.2-5 MM與M&L(前一項)標記結果比對情形四 45 表 4.5.2-6 在MM&L下,特徵字more在MM伴隨前一項字彙的數據及錯誤率 46 表 4.5.2-7 在MM&L下,特徵字more看後一項字彙資訊與門檻值的數據 47 表 4.5.2-8 MM與M&L(後一項)標記結果比對情形一 48 表 4.5.2-9 MM與M&L(後一項)標記結果比對情形二 48 表 4.5.2-10 特徵字more在MM伴隨後一項字彙的數據及錯誤率 49 表 4.5.2-11 在MM&L下,七個特徵字看字彙資訊(前一或後一)的方向 50 表 4.5.2-12 七個特徵字在門檻值的整體表現(MM伴隨前一或後一字彙資訊) 51 表 4.5.2-13 七個特徵字經過MM伴隨字彙資訊(前一或後一)的整體數據 51 表 4.5.2-14 在TnT&L下,特徵字more看前一項字彙資訊與門檻值的數據 52 表 4.5.2-15 TnT與TnT&L(前一項)標記結果比對情形一 53 表 4.5.2-16 TnT與TnT&L(前一項)標記結果比對情形二 53 表 4.5.2-17 特徵字more在TnT伴隨前一項字彙的數據及錯誤率 54 表 4.5.2-18 在TnT&L下,特徵字more看後一項字彙資訊與門檻值的數據 55 表 4.5.2-19 TnT與TnT&L(後一項)標記結果比對情形一 56 表 4.5.2-20 TnT與TnT&L(後一項)標記結果比對情形二 56 表 4.5.2-21 特徵字more在TnT伴隨後一項字彙的數據及錯誤率 57 表 4.5.2-22 在TnT&L下,七個特徵字看字彙資訊(前一或後一)的方向 58 表 4.5.2-23 七個特徵字在門檻值的整體表現(TnT伴隨前一或後一字彙資訊) 58 表 4.5.2-24 七個特徵字經過TnT伴隨字彙資訊(前一或後一)的整體數據 58 表 4.5.3-1 (在MM下)七個特徵字看字彙資訊(前二或後二)的方向 59 表 4.5.3-2 七個特徵字在門檻值的整體表現(MM伴隨前二或後二字彙資訊) 60 表 4.5.3-3 七個特徵字經過MM伴隨字彙資訊(前二或後二)的整體數據 60 表 4.5.3-4 (在TnT下)七個特徵字看字彙資訊(前二或後二)的方向 61 表 4.5.3-5 七個特徵字在門檻值的整體表現(TnT伴隨前二或後二字彙資訊) 61 表 4.5.3-6 七個特徵字經過TnT伴隨字彙資訊(前二或後二)的整體數據 61[[note]]學號: 697410818, 學年度: 9

    Similar works