2,620 research outputs found

    Building a Croatian language stemmer

    Get PDF
    U radu je prikazana izrada dvaju korjenovateljā za hrvatski jezik (k2 i k3) koji upotrebljavaju tvorbene nastavke imenica, pridjeva i glagola kako bi odredili osnove pojavnica. Pretpostavku da će navedeni korjenovatelji postići bolje rezultate od drugih sličnih korjenovatelja za hrvatski jezik provjerili smo usporedbom njihovih preciznosti, odziva i F1-mjera s istim vrijednostima početnoga korjenovatelja (k1). U tu svrhu upotrijebljen je ručno provjereni korpus od 9775 pojavnica s određenim lemama i morfosintaktičkim oznakama. U radu su također obrađeni problemi povezani s nazivljem koje se upotrebljava u području korjenovanja.The paper presents two conservative Croatian language stemmers, k2 and k3. These stemmers are based on the k1 stemmer, an aggressive Croatian language stemmer presented by Nikola LjubeÅ”ić in a 2007 paper. By introducing an expanded set of rules that use derivational morphemes of nouns, verbs, and adjectives to determine the stems of words, we hoped to create a more efficient stemmer. In order to test whether the k2 and k3 stemmers were more efficient than the k1 stemmer, we calculated their precision, recall, and F1-score using a 9775 token corpus, and compared the results with the precision, recall, and F1-score of the k1 stemmer
    • ā€¦
    corecore