2 research outputs found

    A Comparison of Real Time Stream Processing Frameworks

    Get PDF
    The need to process the ever-expanding volumes of information being generated daily in the modern world is driving radical changes in traditional data analysis techniques. As a result of this, a number of open source tools for handling real-time data streams has become available in recent years. Four, in particular, have gained significant traction: Apache Flink, Apache Samza, Apache Spark and Apache Storm. Despite the rising popularity of these frameworks, however, there are few studies that analyse their performance in terms of important metrics, such as throughput and latency. This study aims to correct this, by running several benchmarks against these frameworks

    Big Data Analytics for the Cloud

    Get PDF
    Η παρούσα διπλωματική εργασία χωρίζεται σε τρία μέρη. Το πρώτο μέρος αντιστοιχεί στη μελέτη και την παρουσίαση αρχιτεκτονικών που αποτελούν λύσεις για την αντιμετώπιση της πρόκλησης της Διαχείρισης Μεγάλων Δεδομένων, οι οποίες κλιμακώνονται. Το δεύτερο μέρος περιλαμβάνει την επεξεργασία ενός συνόλου δεδομένων το οποίο αποτελείται από μετρήσεις διαφόρων αισθητήρων εγκατεστημένων σε τρένα. Το τελευταίο μέρος περιέχει την ρύθμιση του SiteWhere, μιας IoT πλατφόρμας ανοιχτού λογισμικού, την αποστολή και την αποθήκευση δεδομένων στην πλατφόρμα αυτή, καθώς και την επεξεργασία αυτών των δεδομένων σε περιβάλλον Spark. Το Κεφάλαιο 1 αποτελεί μια εισαγωγή. Στο Κεφάλαιο 2 παρουσιάζεται η αρχιτεκτονική και οι δυνατότητες του SiteWhere ως μία γενική λύση για τη διαχείριση συσκευών IoT. Το Κεφάλαιο 3 εισάγει τις έννοιες των όρων «Μεγάλα Δεδομένα» και «Υπολογιστικό Νέφος». Επίσης παρουσιάζει διάφορες λύσεις για τη Διαχείριση Μεγάλων Δεδομένων καθώς και τις επιστημονικές τάσεις σε αυτό το ζήτημα. Το Κεφάλαιο 4 περιέχει τη μελέτη αλγορίθμων Συσταδοποίησης (KMeans, Birch, Mean Shift, DBSCAN), που χρησιμοποιούνται στο σύνολο δεδομένων του τρένου. Το Κεφάλαιο 5 παρουσιάζει την έννοια της «Πρόβλεψης Χρονοσειράς» και ερευνά τη συμπεριφορά δύο διαφορετικών Νευρωνικών Δικτύων (MLP, LSTM), σχετικά με τη δυνατότητα που παρέχουν για προβλέψεις. Στο Κεφάλαιο 6 παρουσιάζεται λεπτομερώς ο τρόπος με τον οποίο χρησιμοποιήθηκε η πλατφόρμα SiteWhere. Αρχικά παρουσιάζεται η αποστολή δεδομένων στην πλατφόρμα, τα οποία αποθηκεύονται στη βάση δεδομένων InfluxDB και οπτικοποιούνται μέσω της πλατφόρμας Grafana. Στη συνέχεια τα δεδομένα αυτά ανακτώνται από τη βάση, υφίστανται επεξεργασία (Συσταδοποίηση με KMeans και Πρόβλεψη με MLP) στο Spark και γίνεται σύγκριση αυτών των αποτελεσμάτων με αυτά της επεξεργασίας στο «τοπικό σύστημα». Στο Κεφάλαιο 7 γίνεται μια ανακεφαλαίωση και παρουσιάζεται μια σύνοψη των συμπερασμάτων που έχουν εξαχθεί και παρουσιαστεί στα προηγούμενα κεφάλαια.The work for this master thesis is divided into three parts. The first part focused on the study and presentation of scalable solutions for data processing architectures for the Big Data challenge. The second focuses on the processing of a dataset comprising measurements that were collected by different sensors, which were installed on a train. The last part focused on is the setup of a server of the open source IoT platform SiteWhere, the dispatch of data to the server, the storage of the data to a NoSQL database and the processing of these data in a Spark instance. Chapter 1 provides an introduction. In Chapter 2, the architecture and the capabilities of SiteWhere as a holistic solution for IoT management is presented. Chapter 3 introduces the basic notions of the terms “Big Data” and “Cloud”. It also presents different solutions for the Big Data challenge along with the scientific trends on this topic. In Chapter 4, a study of various Clustering algorithms (KMeans, Birch, Mean Shift, DBSCAN), which are used to process the real dataset collected from onboard train sensors, takes place. Chapter 5 introduces the notion of “time-series forecasting” and investigates the behavior of two different types of Neural Networks (MLP, LSTM) with respect to this notion. Chapter 6 presents the work that took place on the SiteWhere platform. The chapter begins with the description of the dispatch of data to the server and continues with the visualization, on Grafana, of the train data that were stored in InfluxDB, a database that SiteWhere supports. Following this, the retrieval of the data from the database and their processing (through KMeans Clustering and Forecasting with MLP) on a Spark instance takes place and finally a comparison between that process and the one on the local system is presented. Chapter 7 provides a summary and highlights some of the conclusions that were derived and presented in the previous chapters
    corecore