3 research outputs found
Αναγνώριση έκρηξης γεγονότων σε χρονοροές δεδομένων του ιστού
Στην εργασία αυτή αναπτύχθηκε ένα σύστημα πραγματικού χρόνου για την εύρεση
εκρήξεων σε δεδομένα που προέρχονται από τον παγκόσμιο ιστό. Για την εύρεση των
εκρήξεων αυτών, υλοποιεί μια προσέγγιση για την μοντελοποίηση εκρήξεων σε
χρονοροές δεδομένων ιστού, προκειμένου να αναγνωριστούν γεγονότα ενδιαφέροντος.
Παραδείγματα τέτοιων δεδομένων είναι τα μηνύματα ηλεκτρονικού ταχυδρομείου,
άρθρα ειδήσεων, καταχωρήσεις ιστολογίων, ροές rss (rss feed), tweets καθώς και
ενημερώσεις κατάστασης σε κοινωνικά δίκτυα. Η προσέγγιση αυτή βασίζεται στη
μοντελοποίηση της ροής δεδομένων χρησιμοποιώντας ένα αυτόματο μη πεπερασμένων
καταστάσεων. Η υλοποίηση μας βασίζεται σε ένα αυτόματο πεπερασμένων
καταστάσεων, που αποδεικνύεται ότι παράγει τις ίδιες βέλτιστες ακολουθίες
καταστάσεων. Και στα δύο, οι εκρήξεις εμφανίζονται φυσικά ως μεταβάσεις
καταστάσεων. Κατά τη διάρκεια παραμονής σε μια "υψηλή" κατάσταση για μια
χρονική περίοδο, υπάρχει έκρηξη του γεγονότος αυτού. Η υλοποίηση μας, επιπλέον,
παρέχει μια διαδικτυακή εφαρμογή που εμφανίζει τις λέξεις που εμφάνισαν έκρηξη
κατά την περίοδο που αναλύουμε, καθώς και γραφική αναπαράσταση της συχνότητας
εμφάνισης της λέξης αυτής στο χρόνο. Το ενδιαφέρον στην εργασία που μελετήθηκε
και αποτέλεσε την βάση της εργασίας αυτής είναι να ερευνήσει τις δομές
οργάνωσης και εξαγωγής δεδομένων βασισμένες στο ρόλο του χρόνου στα ρεύματα
εγγράφων.In this work, we developed a real-time application for finding bursts in data
fetched from the web. To find these bursts, we implemented an approach for
modeling bursts in time series to identify events of interest. Examples of such
data are e-mails, news articles, blog posts, rss feeds, tweets and status
updates on social networks. The approach is based on modeling the stream using
an infinite state automaton, in which bursts appear naturally as state
transitions. The implementation is based on a finite automaton, which proves
that produces the same optimal sequences of state transitions. When automaton
stays in a "high" state for a period of time, there is a burst. The
implementation also provides a web application that displays the words that had
burst during the period analyzed, and graphical representation of the frequency
of occurrence of the word in time. Interest in the paper studied and formed the
basis of this work, is to investigate the organizational structures and export
data, based on the role of time in document stream