Περιβάλλον Επιμέλειας των αποτελεσμάτων της Αυτόματης Θεματικής Κατηγοριοποίησης Κειμένων

Abstract

Το Topic Modeling είναι ένας αλγόριθμος μηχανικής εκμάθησης που χρησιμοποιείται για την ταξινόμηση μιας μεγάλης βάσης δεδομένων με έγγραφα, σε κατηγορίες που χαρακτηρίζονται από ένα σύνολο λέξεων. Για την επιμέλεια αυτών των συνόλων, που ονομάζονται θέματα, χρειάζεται η ανθρώπινη παρέμβαση προκειμένου να γίνουν αναγνώσιμα από το σύνολο των αναλυτών. Απαραίτητη είναι λοιπόν η συμβολή των επιμελητών, οι οποίοι αναλαμβάνουν να δώσουν ευανάγνωστη μορφή στην έξοδο των διαφόρων μεθόδων του Topic Modeling. Η διαδικασία αυτή ονομάζεται επιμέλεια δεδομένων και είναι μια αρκετά επίπονη και χρονοβόρα διαδικασία. Ένας επιμελητής καλείται να μελετήσει τεράστιους όγκους από δεδομένα, συνήθως γραμμένα μέσα σε πίνακες λογιστικών φύλλων, προτού προχωρήσει στην αξιολόγηση, τη διόρθωση και τη γενικότερη επιμέλειά τους. Ως εκ τούτου η διαδικασία αυτή μπορεί να διαρκέσει αρκετά μεγάλο χρονικό διάστημα για έναν επιμελητή. Επιπλέον η έλλειψη αρκετών επιμελητών, αυξάνει τον όγκο εργασίας που καλείται καθένας από αυτούς να αναλάβει. Η απουσία ενός εργαλείου που θα μειώνει τον χρόνο εργασίας τους και θα τους παρέχει τη δυνατότητα πρόσβασης σε άλλες επιμέλειες δεδομένων που θα τους ήταν χρήσιμες, επιβαρύνει ακόμα περισσότερο το έργο τους. Η πολύωρη ενασχόληση προκαλεί την κούραση του επιμελητή, αυξάνει την πιθανότητα λαθών, μειώνοντας έτσι την ποιότητα των αποτελεσμάτων του. Στην παρούσα διπλωματική εργασία, παρουσιάζουμε μια φιλική προς τον χρήστη δικτυακή εφαρμογή που θα μπορέσει να αντιμετωπίσει τα παραπάνω προβλήματα και να διευκολύνει το έργο των επιμελητών. Ο χρήστης πέρα από την εξερεύνηση των δεδομένων, έχει τη δυνατότητα να τα αξιολογήσει, να τα διορθώσει και γενικότερα να τα επιμεληθεί. Ενέργειες όπως κατηγοριοποίηση, συγχώνευση, διαχωρισμό, ονοματοδοσία δεδομένων και πολλές άλλες θα μπορεί πλέον να τις πραγματοποιήσει μέσω της εφαρμογής μας εύκολα και γρήγορα. Πλούσια γραφήματα έρχονται να συμπληρώσουν τις παραπάνω λειτουργικότητες και όλα μαζί να συνθέσουν ένα εργαλείο απαραίτητο για τους επιμελητές δεδομένων.Topic Modelling is a machine learning algorithm used in order to classify a large database of documents into categories each characterised by a set of words. These, so-called topics need to be manually curated in order to be more easily understandable. The contribution of curators, who undertake to make readable the output of the various Topic Modelling methods, are therefore required. This process is called data curation and is quite a laborious and time consuming process. Curator is required to study huge volumes of data, usually written in spreadsheets, before proceeding with their evaluation, correction and general curation. Therefore this process can take quite a long time for a curator. In addition, the lack of several curators increases the amount of work, that each of them is required to undertake. The absence of a tool that will reduce their working time and give them access to other data curations that would be useful to them, makes their work even more difficult. Long time work causes curator’s fatigue, increases the likelihood of errors, thereby reducing the quality of his results. In this thesis, we present a user-friendly web application that can address the above problems and facilitate the work of curators. In addition to exploring the data, the user is able to evaluate, edit and generally curate them. Actions such as categorization, merging, splitting, data labeling and many more will now be able to execute them easily and quickly through our application. Rich visualizations come to complement the above functionalities and together make up a tool essential for data curators

    Similar works