2 research outputs found
Offline Scheduling of Map and Reduce Tasks on Hadoop Systems
International audienceMapReduce is a model to manage quantities massive of data. It is based on the distributed and parallel execution of tasks over the cluster of machines. Hadoop is an implementation of MapReduce model, it is used to offer BigData services on the cloud. In this paper, we expose the scheduling problem on Hadoop systems. We focus on the offline-scheduling, expose the problem in a mathematic model and use the time-indexed formulation. We aim consider the maximum of constraints of the MapReduce environment. Solutions for the presented model would be a reference for the on-line Schedules in the case of low and medium instances. Our work is useful in term of the problem definition: constraints are based on observations and take into account resources consumption, data locality, heterogeneous machines and workflow management; this paper defines boundaries references to evaluate the online model
Distributed reservoir sampling algorithms for data pre-processing with use of Kafka Streams
Με την ανάπτυξη του IoT και με τον αριθμό των συσκευών που αναμένεται να
συνδεθούν σε αυτό να ξεπερνάει τα 30 δισεκατομμύρια μέχρι το 2020 καθώς και με την
συνεπακόλουθη αύξηση στα δεδομένα που μεταδίδονται κρίνεται αναγκαίο από τα
σύγχρονα συστήματα επεξεργασίας δεδομένων μεγάλης κλίμακας να χρησιμοποιούν
αποδοτικούς αλγορίθμους σε συνδυασμό με προγραμματιστικές βιβλιοθήκες που
χρησιμοποιούνται ευρέως στον τομέα της βιομηχανίας. Σκοπός της διπλωματικής
εργασίας είναι η ανάλυση και παρουσίαση αλγορίθμων αποθέματος καθώς και η
ανάπτυξη τους με την χρήση της βιβλιοθήκης Kafka Streams με σκοπό την επίλυση του
προβλήματος της κατανομής τους. Αξιοποιώντας τις ιδιαιτερότητες της βιβλιοθήκης και
των αλγορίθμων στοχεύουμε στην υλοποίηση ενός εργαλείου που βοηθάει αναλυτές και
πειραματιστές στο τομέα του ΙοΤ στην προεπεξεργασία των δεδομένων και την ταχεία
λήψη αποτελεσμάτων από μια συνεχόμενη ροή δεδομένων.With the rapid growth of the Internet of Things (IoT) and with the number of devices
expected to connect to it estimated to exceed 30 billion by 2020 and the consequent
increase in data transmitted, it is necessary for big data processing systems to use
efficient algorithms in combination with programming libraries that are widely used in the
industry. This master thesis aims to analyze and present reservoir sampling algorithms
as well as to develop them using the Kafka Streams API in order to solve the problem of
their distribution. By taking advantage of the API and the algorithm specific
characteristics, we aim to implement a tool that helps analysts and experimenters on
the IoT field to preprocess data and quickly obtain results from a continuous data
stream