5 research outputs found

    Data analysis and visualization using the Python ggplot library

    No full text
    U donošenju strateških odluka za poboljšanje poslovanja ili života, podaci i analiza tih podataka postaju jedni od najvažnijih čimbenika. Za bolje razumijevanje trendova i stanja, važno je te podatke i vizualizirati. U ovom završnom radu predstavljena je biblioteka ggplot za analizu i vizualizaciju podataka namijenja programskom jeziku Python. Svrha rada bila je predstaviti sve mogućnosti biblioteke, prikupiti podatke o znanstvenim radovima objavljenim na Odjelu za informatiku, sastavnici Sveučilišta u Rijeci, te ih vizualizirati, i uvidjeti je li biblioteka dobar alat za vizualizaciju podataka. Kroz tri poglavlja predstavljene su značajke i povijest Pythona, značajke i funkcionalnosti biblioteke ggplot te stvoreni grafički prikazi iz analize podataka o znanstvenim radovima. Biblioteka ggplot solidan je alat za razvoj osnovnih grafičkih prikaza te će biti samo još i bolji ukoliko se nastavi rad na razvoju i usavršavanju biblioteke i njene dokumentacije

    Klasifikacija i ekstrakcija informacija iz tekstova u domeni kulture

    No full text
    The main goal of this thesis is to develop procedures for computer analysis of documents in the field of culture, cultural policies and activities. The collected documents need to be preprocessed and prepared for further computer processing, e.g. to perform lemmatization, stemming, and other NLP procedures. In this thesis, various NLP procedures will be implemented: classification, automatic extraction of keywords and locations, and the topic modeling procedure. Automatic text classification will be implemented to classify documents into already defined categories of cultural policy impacts on broader social aspects, using a standard word bag model for document representation and machine learning algorithms such as Naive Bayes, Support Vector Machine and Random Tree Forests for the classification of documents. Automatic keyword and location extraction procedures will be implemented using the MAUI keyword extraction method and the Named Entity Recognition algorithm with available tools. The topic modeling process will be performed using the Latent Dirichlet Allocation (LDA) and evaluated using the coherence of the obtained topics.Glavni cilj ovog diplomskog rada jest izradit postupke za računalnu analizu dokumenta iz domene kulture, kulturnih politika i aktivnosti. Prikupljene dokumente potrebno je pročistiti i pripremiti za daljnju računalnu obradu npr. provesti lematizaciju, korijenovanje, i ostale NLP postupke. U ovom diplomskom radu implementirati će se različiti NLP postupci: klasifikacija, automatsko izlučivanje ključnih riječi i lokacija te postupak modeliranja tema(topic modelling). Automatska klasifikacija teksta implementirati će se kako bi se dokumenti klasificrali u već definirane kategorije utjecaja kulturnih politika na šire socijalne aspekte primjene, uz pomoć standardnog modela „vreće riječi“ za reprezentaciju dokumenata te algoritmi strojnog učenja poput Naivnog Bayes, Support Vector Machine te Šume slučajnih stabala za samu klasifikaciju dokumenata. Postupci automatskog izlučivanja ključnih riječi i lokacija implementirati će se pomoću MAUI metode za ključne riječi te Named Entity Recognition algoritma sa dostupnim alatima. Postupak modeliranja tema izvršiti će se pomoću Latentne Dirichletove Alokacije(LDA) te evaluirati pomoću koherentnosti dobivenih tema

    Data analysis and visualization using the Python ggplot library

    No full text
    U donošenju strateških odluka za poboljšanje poslovanja ili života, podaci i analiza tih podataka postaju jedni od najvažnijih čimbenika. Za bolje razumijevanje trendova i stanja, važno je te podatke i vizualizirati. U ovom završnom radu predstavljena je biblioteka ggplot za analizu i vizualizaciju podataka namijenja programskom jeziku Python. Svrha rada bila je predstaviti sve mogućnosti biblioteke, prikupiti podatke o znanstvenim radovima objavljenim na Odjelu za informatiku, sastavnici Sveučilišta u Rijeci, te ih vizualizirati, i uvidjeti je li biblioteka dobar alat za vizualizaciju podataka. Kroz tri poglavlja predstavljene su značajke i povijest Pythona, značajke i funkcionalnosti biblioteke ggplot te stvoreni grafički prikazi iz analize podataka o znanstvenim radovima. Biblioteka ggplot solidan je alat za razvoj osnovnih grafičkih prikaza te će biti samo još i bolji ukoliko se nastavi rad na razvoju i usavršavanju biblioteke i njene dokumentacije

    Klasifikacija i ekstrakcija informacija iz tekstova u domeni kulture

    No full text
    The main goal of this thesis is to develop procedures for computer analysis of documents in the field of culture, cultural policies and activities. The collected documents need to be preprocessed and prepared for further computer processing, e.g. to perform lemmatization, stemming, and other NLP procedures. In this thesis, various NLP procedures will be implemented: classification, automatic extraction of keywords and locations, and the topic modeling procedure. Automatic text classification will be implemented to classify documents into already defined categories of cultural policy impacts on broader social aspects, using a standard word bag model for document representation and machine learning algorithms such as Naive Bayes, Support Vector Machine and Random Tree Forests for the classification of documents. Automatic keyword and location extraction procedures will be implemented using the MAUI keyword extraction method and the Named Entity Recognition algorithm with available tools. The topic modeling process will be performed using the Latent Dirichlet Allocation (LDA) and evaluated using the coherence of the obtained topics.Glavni cilj ovog diplomskog rada jest izradit postupke za računalnu analizu dokumenta iz domene kulture, kulturnih politika i aktivnosti. Prikupljene dokumente potrebno je pročistiti i pripremiti za daljnju računalnu obradu npr. provesti lematizaciju, korijenovanje, i ostale NLP postupke. U ovom diplomskom radu implementirati će se različiti NLP postupci: klasifikacija, automatsko izlučivanje ključnih riječi i lokacija te postupak modeliranja tema(topic modelling). Automatska klasifikacija teksta implementirati će se kako bi se dokumenti klasificrali u već definirane kategorije utjecaja kulturnih politika na šire socijalne aspekte primjene, uz pomoć standardnog modela „vreće riječi“ za reprezentaciju dokumenata te algoritmi strojnog učenja poput Naivnog Bayes, Support Vector Machine te Šume slučajnih stabala za samu klasifikaciju dokumenata. Postupci automatskog izlučivanja ključnih riječi i lokacija implementirati će se pomoću MAUI metode za ključne riječi te Named Entity Recognition algoritma sa dostupnim alatima. Postupak modeliranja tema izvršiti će se pomoću Latentne Dirichletove Alokacije(LDA) te evaluirati pomoću koherentnosti dobivenih tema

    Topic modelling of Croatian news during COVID-19 pandemic

    No full text
    This paper addresses topic modelling in Croatian news articles related to COVID-19 pandemics and corresponding comments. We identify and analyze Croatian online news media's main topics for the first nine months of pandemics shedding some light on the leading themes covered in news articles and corresponding comments. Topics are derived automatically by training the model and calculating topics' coherence values. We report the results by listing the top 15 detected words in top 10 detected topics from the content of articles and corresponding comments. Our findings include the analysis of intersected topics and discussion of dissents. Obtained results are the first step toward better information monitoring and hopefully mitigating the infodemics effect in Croatia
    corecore