2,620 research outputs found
Building a Croatian language stemmer
U radu je prikazana izrada dvaju korjenovateljÄ za hrvatski jezik (k2 i k3) koji upotrebljavaju tvorbene nastavke imenica, pridjeva i glagola kako bi odredili osnove pojavnica. Pretpostavku da Äe navedeni korjenovatelji postiÄi bolje rezultate od drugih sliÄnih korjenovatelja za hrvatski jezik provjerili smo usporedbom njihovih preciznosti, odziva i F1-mjera s istim vrijednostima poÄetnoga korjenovatelja (k1). U tu svrhu upotrijebljen je ruÄno provjereni korpus od 9775 pojavnica s odreÄenim lemama i morfosintaktiÄkim oznakama. U radu su takoÄer obraÄeni problemi povezani s nazivljem koje se upotrebljava u podruÄju korjenovanja.The paper presents two conservative Croatian language stemmers, k2 and k3. These stemmers are based on the k1 stemmer, an aggressive Croatian language stemmer presented by Nikola LjubeÅ”iÄ in a 2007 paper. By introducing an expanded set of rules that use derivational morphemes of nouns, verbs, and adjectives to determine the stems of words, we hoped to create a more efficient
stemmer. In order to test whether the k2 and k3 stemmers were more efficient than the k1 stemmer, we calculated their precision, recall, and F1-score using a 9775 token corpus, and compared the results with the precision, recall, and F1-score of the k1 stemmer
- ā¦