14 research outputs found
Computational Analysis of Morphosyntactic Categories in Georgian.
This thesis describes the development of part-of-speech tagging resources for the Georgian language, consisting of i.) a new morphosyntactic language model for part-of-speech (POS) tagging purposes; ii.) tagging guidelines for tagging and post-editing; iii.) the KATAG tagset and iv.) the trained parameter files the probabilistic TreeTagger program needs to work on Georgian texts.
A new morphosyntactic model of Georgian for part-of-speech tagging purposes is described in the thesis. The thesis also describes a tagset (KATAG) defined in accordance with a new morphosyntactic model of the language and a set of design principles and tagging guidelines.
A stochastic methodology is used here to perform tagging in Georgian. Namely, the Treetagger - a probabilistic part-of-speech tagging program has been trained on Georgian texts. The justification for this choice is discussed. I use two tokenisation approaches in part-of-speech tagging. An accuracy of 92.41% using an enclitic tokenisation approach and accuracy of 87.13% was achieved using a non-enclitic tokenisation approach, corroborating my hypothesis that treating enclitic elements separately from the host words results in better tagging performance.
To make the tagger program easily adaptable for a range of inputs (type, variety or genre of text), the performance of the probabilistic TreeTagger program was evaluated according to the obtained test set consisting of five different genres such as academic, informal, legal, fiction and news
แแแฃแแ แแแฃ แแฎแแแ แแแแแแ
แแแ-แแแ แ แฃแกแ (แฌแแแแกแแขแงแแแแแ แแแแ แแแแแจแแแแแกแ) -- แแแฃแแ, แแแฃ แแฎแแแ แแแแแแ แฌแแแแกแแขแงแแแแแ -- แแแ แแแแ แแแฌแแแ -- แแแแ แ แแแฌแแแ -- แแแกแแแ แแแฌแแแ -- แแแแแฎแ แแแฌแแแ -- แแแฎแฃแแ แแแฌแแแ -- แแแแฅแแกแ แแแฌแแแ -- แแแแแ แ แแแฃแแ แ แแแแกแขแแแแก แกแแแแฏแแฃแ แ แแแแแแ -- แจแแแแจแแแแแ
แแ แแขแแแ. แแแแขแ แ
แแ แแขแแแ แแแขแแ แแกแแแแ; แแ แแขแแแ; 1. แกแแฅแแแแแแก แขแงแแแแแแจแ; 2. โแงแแแแฎแโ; 3. แฃแงแฃแ แแแฆแแแแ แแแแแชแแแฃแแ แฌแแแแ; 4. แแแขแแแแฅแขแฃแแแฃแ แ แแแคแแแขแแแแแแแก แฌแแแแแฆแแแแ; 5. แกแแชแ แฃแ; 6. แขแ แแแแแฃแแแแ แแแแฎแแแแแ; 7. แแแ แแแแแแก แแแฆแแแ แแฃแแขแฃแ แแกแแแแแก; 8. แแ แแ แ แแแแแแก แแ-แแแ แแ; 9. แแแแขแแก แแฎแแแ แฌแแแแ; 10. แแแแแแขแแก แฉแแ แฉแแจแ; 11. แแแแ แแแ แฏแ; 12. แแแงแแแ แแก แแแ แจแ แฃแแ แแฎแ; 13. แแแแ แแแแก แแแแแแแแ; 14. แแแแ แแฃ แแกแขแแ แแ?; 15. แแกแขแแ แแ แแ แ แแแแแ _ แแแ แแแแ แแแฌแแแ _ (ยซแแแจแแ แแแยป); 16. แแกแขแแ แแ แแ แ แแแแแ _ แแแแ แ แแแฌแแแ _ (ยซแแแแ แฆแแแยป); 17.ยซแแฎแแแ แฐแแ แแแแแขแยป; 18. ยซแแแแยป _ 1970 แฌ; 19. แกแแฅแแ แแแแแ ยซแแฆแแแกแแแแฃแ แชแแแแแแแแชแแแจแยป; 19แ. แแแชแแฃแแแแแแ แฌแแแแกแแขแงแแแแแ แแ แฃแกแฃแกแฃแ แ แ แแแแแ; 20. แแแแแแแ แแแแก แกแแชแแแ; 21. แแแขแแแแแก แแแแแแแแแแ; 22. แ แแช แแ แแ แแก แแแแแแ; 23. แ แแแแแแ (แ.แจแแแแแแซแแก _ ยซแคแแแแแแ แฃแแ แแขแแฃแแแแยป); 24. แแ แแแแ แฉแ... แกแแแแ...; 25. แฅแแ แแฃแแ แฌแแแแแก แแแ แแแแแแกแแแแแก; 26. แกแแงแฃแ แแแฆแแแ แฌแแแแ; 27. แแ แฌแแแแก แแฃ แแแแแแแ; 28. แแ แแขแแแ _ 79; 29. แชแแชแฎแแแ แฌแแ แกแฃแแ; 30. แ แแแแแแ (แจ.แแแแฃแแจแแแแแก แแแ แแแแแแ); 31. แ แแแแแแ แแ แแกแแฎแแกแขแแแ?; 32. แกแแชแแแแฃแ แ แแแฃแแแแก แฌแแแแแฆแแแแ; 33. แแแขแ แกแแแฃแกแขแแกแแแแแก; 34. แจแแแแ แแแ; 35. แกแฃแแแก แแ แแ; 36. แฌแแ แกแฃแแแ แฌแแแแกแฌแแ แแแขแงแแแแแแ; 37. แฅแแแแแแแแแ; แแแแขแ แ; 1. แแแจแแแแแแ แแฃแแแ แแแแ!; 2. ยซแญแแแญแ แแฅแแกโ แแแฎแแแก แจแแแแแ; 3. แแ แแแ แแฃ แแ แแแแขแฃแ แแแ?; 4. แแแแแแแฎแฃแญแฃแแ แกแแแแแแก แแ แแแ; 5. แแฃแจแแแแแแแ แแฆแแก; 6. แแแแ แแ แแแแขแฃแ แแแ แแแขแแ แแขแฃแ แแก แแแ แแ?; 7. แจแแแแแแแแแก แแฆแ; 8. แแแแแแแแ; 9. แจแแฃแซแแแแแแ; 10. แแแฎแแแฉแแแ แแฃแแ; 11. แฎแแแแแแแแแ แแฆแแกแแแแแก; 12. แขแแแแฌแแ แแแแแแแแแแก แจแแกแแฎแแ; 13. แ แแแแ แแฃแจแแแแแ แฅแฃแแแแกแแก แแแแขแ แก?
แแแ แแฃ แแแฃ แแ แแแแ แ แแแแฅแแซแแก แชแฎแแแ แแแ แแ แฆแแแฌแแ; แแแแแแแแแฃแ แ แแแแแแ; แแแแแฌแงแแแฃแแ แแแแ
แแแ แแฃ แแแฃ แแ แแแแ แ แแแแฅแแซแแก แชแฎแแแ แแแ แแ แฆแแแฌแแ; แแแแแแแแแก แแแ แแฆแ; แแแ แขแ แแขแ; แกแฌแแแแ; แแฏแแฎแ; แแแแแก แแแแแแขแแแ; แแแ แแ แ แแแแแฃแชแแ; แแแแฏแแแ แแแแแ; แแฎแแแ แแ แแแแ; แแฎแแแ แแแ แแ; แแแ แแแแฃแแ แแแแ แฃแแแแ; แแแแ แแฎแแแ; แแแแก แแแ แฅแแแ; แแแ แแแขแแฎแ; โแฐแฃแแแแ แฐแฒแฃแแแโ; แชแแฃแแแแ; แกแแแแ แแแ; แกแฎแแแฒ แฉแแแ; แแแแแแชแแ; แแแแแแแแแฃแ แ แแแแแแ; แแแ แแแแแฅแแ; แแแแแแกแแก แแแแแแแแแแแแแ; โแแแแแ แแก แแแขแแชแแแโ; แแแแฅแแก แกแแแแแแแ; แแแแแแแ แแแแแก แแแแแแแฃแแ แแแชแแก แขแ แแแแแแ; แกแแแแแแแกแแแแ แแแแแแฎแแแแแ; แแแแ แ แแแแแจแ; โแฎแแแแแก แแแแแแโ แแ โแขแแแฃโ; โแกแแแแแแ แแโ; โแแฃแ แแ แแแ แแแแแแแโ; แแแแแแกแแก แขแ แแแแแแ; แกแแแ แซแแ แกแแชแแแแกแ; แแแแแแฅแแ; แแแแแขแแแ; แแแแ-แคแจแแแแแ แแ แแแแแกแ; 1. โแแแแแแก แแญแแแแแโ; 2. โแแแฎแขแ แแแแโ; แแแ แแแแแแ แแฎแแ; แแแแแฌแงแแแฃแแ แแแแ; แแฌแแงแ, แจแแแแแ แฌแแ แกแฃแแแกแแแแ; แฅแแแแฒ แแ แแแแแแแฒ; แง แ แ แ แ แ แก แ แ แ แฃ แ แ แ แ; แแกแแ โแฅแแแแฒแกโ แแแแ; โแฅแแแแฒโ แแแขแแแแฅแขแแก แแแแแจแ; แแแแแฌแงแแแฃแแ แแแแ; แแแแแแแก แแกแขแแ แแแแกแ; แคแแ แ-แแแ แแฏแแ; แแแชแฎแ แแแแขแ แกแแฃแแฃแแ; แแแ แแแแแแฃแแแแ; โแกแฃแ แแแแก แชแแฎแแกโ แแแแ; แแ แกแแแแแแก แจแแจแ; แแฃแแแแแก แแแแแแแแแแแ แแแ แแ แฃแแแแแแแแแกแแแซแแแแแแ แแแชแ; แแแแแก แแ แฌแแแกแ; แแ แกแแแแแแก แแแ แแแแกแแแแก แ แฆแแแแ, แแแฃ แจแแแแแก แแแแแแแ แแแแ; แฆแแแ แแก แแฌแงแแแแแ; แแแแแแ แแแ แแแแ แแกแแแแแก; แกแแแ?; แแแฅแกแ แแแแแกแแ; แ แแแแแ แแแแแแขแ แแ แแแแแแแแแฃแแ
แแกแแคแแแ แแแขแแ แแขแฃแ แแก แแแแ แแแแแแแแแแ แแฃแ แแแแ
แฅแแ แฃแแแแฃแแ แแแแแแฃแ แ--แแฎแแแแแแ แแ แแแ แแแ แแก แแแแแแแ--แแแฅแกแแแ--แฎแแแจแ--แฃแชแฎแแแแ--แแ แ แแแแแแ--แแแแฎแ แแแแแ--แฌแแ แแแแ
แชแฎแแแ แจแแแแแแแ N1
แแแขแ แแฃแ แแแแแซแ -- แแฃแชแ แแฃแฎแแแแแซแ -- แแแแ แแแแ แแขแแแ แแ แฃแแแแกแแ -- แแแคแ แแแ แแแแแแแแ -- แแแจแ แแแแฃแแแจแแแแ -- แกแแ แแแแ -- แคแแขแแแแแฎแ แแแ -- แแแแแแ -- แกแแแช-แแ แแแฅแขแ: แฌแงแแแแแแ -- 45 แแแฅแขแแแ
แแกแแคแแแ แแแขแแ แแขแฃแ แแก แแแแ แแแแแแแแแแ แแฃแ แแแแ
แแแ แแแแแแก แแแแ แแแแแ แแแแแกแแฎแฃแแแ แแแแฃแฏแ แแแแจแฃแแแแแก แแแแฃแจแแแ แแแแกแแฅแแ แแแแแแก แแฃแแขแฃแ แแก, แกแแแ แขแแกแ แแ แซแแแแแ แแแชแแแก แกแแแแแแกแขแ แแแแแแแแแแแแแก แกแแกแแคแแแ โโ แแแแฌแฃแฎแ แ โโ แแแแแแแแ แฅแแ โโ แกแแแ แกแแแแซแฆแแ แแแ แแแแแแ แแ แแ แแ แแ แแแแแ! โโ แ แฃแแแแคแแ โโ แฐแแกแแแแก แแฎแแ แแก แแแแแแกแ แแแแ โโ แจแแฃแซแแแ แแฃ แแ แ แแแขแแแแแแแชแแแก, แแแแแแแจแ แแแแแก แแแแจแแแแแแแแแ? โโ แแแแแแแแแก แแ แแแ โโ แแแ แแแ โโ แคแแฅแ แแแ แแแแแแขแแแแแ โโ แกแแแ แซแแ แแแแจแแแกแ โโ แแแแแแ แแ แแแกแแแ แแแ "แฐแแแแแขแแก" แชแแแแแฃแแ แแแแแแแแแก แแแ แแแแแก แจแแกแแฎแแ โโ แแแแขแแแแแ แฌแแแแแแแ "แแ แ แแ แกแแคแแแกแแแแ