Mnoge aplikacije koje koriste automatsku klasifikaciju dokumenata, izvlačenje informacija,
prepoznavanje govora ovise o statističkim jezičnim modelima. Ovaj rad
usmjeren je na zadatak automatske klasifikacije dokumenata ili preciznije na istraživanje
različitih statističkih jezičnih modela koji se mogu koristiti za izlucivanje
znacajki iz dokumenata. Tradicionalne metode za izradu značajki baziraju se na
modelima vreće riječi te se u velikoj mjeri koriste unatoč njihovim poznatim slabostima.
Modeli vreće riječi popularni su zbog njihove jednostavnosti te zbog toga
što vrlo cesto daju dobre rezultate. Razvoj tehnologije i algoritama za strojno
učenje omogućio nam je istraživanje kompleksnijih metoda reprezentacije dokumenata.
Cilj ovoga rada jest predstaviti različite modele za reprezentaciju dokumenata
koji su se nedavno pojavili te istražiti da li se računalna kompleksnost tih modela
može opravdati s poboljšanim performansama. Konkretno, tradicionalni modeli-vreće-riječi korišteni su kao baza za usporedbu word2vec/doc2vec modela i modela
baziranih na kompleksnim mrežama. Modeli vreće riječi već su opsežno istraživani
u kontekstu klasifikacije dokumenata. Međutim ostala dva modela nisu dovoljno
temeljito istražena unutar istog problemskog konteksta. Rad mjeri performanse
klasifikatora učenih algoritmom nasumičnih šuma na značajkama generiranima s
navedenim modelima. Rezultati pokazuju da su doc2vec modeli s vektorima malih
dimenzija usporedivi s tradicionalnim modelima vreće riječi. Također, modeli bazirani
na grafovima koji koriste mjeru selektivnosti za značajke pokazuju poboljšanje
nad modelima vreće riječi kod skupa podataka s većim brojem klasa.Many successful applications depend on statistical language models such as automatic
document classification, information retrieval, speech recognition any many
more. This thesis is focused on the task of automatic document classification, more
specifically on exploring different statistical language models that can be used to
extract features from documents. State-of-the-art methods for feature construction
are based on bag-of-words models and are largely used despite their known weaknesses.
Their popularity rests on their simplicity and often very high accuracy. With
the development of technology and machine learning algorithms, we are now able to
explore more complex methods for document representations. The goal of this thesis
is to present different document representation models that emerged in recent years
and to explore whether computational complexity of these models can be justified
by the improvement in performance. Namely, state-of-the art bag-of-word models
are used as a base for comparison of word2vec/doc2vec models and models based
on complex networks. While the bag-of-word models have been extensively studied
in the context of document classification, the other two models have not been well
understood on the same task. The study measures the performance of classifiers
trained with random forest algorithm on features generated by the specified models
tuned with different parameters. Results show that low dimensional doc2vec model
is comparable with the traditional bag-of-words model. Also, graph based models
that use selectivity measure as a feature show improvements over the bag-of-words
model on a dataset with higher number of classes