research

Sustav za davanje kontekstualiziranih preporuka na temelju rudarenja teksta

Abstract

U ovom je radu predstavljen jedan način kako poboljšati pretraživanje po dokumentima pisanim prirodnim jezikom - otkrivanjem ključnih riječi dokumenata. Ukratko se priča o obradi prirodnog jezika, važnoj disciplini kod analize dokumenta. Zatim se priča o procesu otkrivanja ključnih riječi i podjeli metoda. Detaljnije se obrađuju metode korištene pri izradi aplikacije: TextRank i tfidftf-idf algoritam. Prije opisa implementacije, navode se i ukratko opisuju korišteni alati i tehnologije za izradu aplikacije. Zatim se predstavlja postupak izrade aplikacije, koji se sastoji od pretprocesiranja, primjene algoritama (osnovna dva i njihove tri modifikacije) te postprocesiranja. Naposljetku se navodi usporedba rezultata te primjer dokumenta i nađenih ključnih riječi.This thesis presents one way of improving the process of searching documents written in natural language - by discovering keywords. It starts with a brief description of natural language processing, a sub-field of computer science, information engineering, and artificial intelligence that is very important for text analysis. Next chapter presents keyword extraction and its classification of methods. Two methods used in application are discussed in detail: TextRank and tfidftf-idf algorithm. Before describing the implementation process, a list and a short description of used tools and technologies in application is given. Then follows the description of implementation process, which consists of pre-processing, application of algorithms (two basic and their three modifications) and post-processing. Finally, comparison between used methods and an example is given

    Similar works