2 research outputs found

    Offline Scheduling of Map and Reduce Tasks on Hadoop Systems

    Get PDF
    International audienceMapReduce is a model to manage quantities massive of data. It is based on the distributed and parallel execution of tasks over the cluster of machines. Hadoop is an implementation of MapReduce model, it is used to offer BigData services on the cloud. In this paper, we expose the scheduling problem on Hadoop systems. We focus on the offline-scheduling, expose the problem in a mathematic model and use the time-indexed formulation. We aim consider the maximum of constraints of the MapReduce environment. Solutions for the presented model would be a reference for the on-line Schedules in the case of low and medium instances. Our work is useful in term of the problem definition: constraints are based on observations and take into account resources consumption, data locality, heterogeneous machines and workflow management; this paper defines boundaries references to evaluate the online model

    Distributed reservoir sampling algorithms for data pre-processing with use of Kafka Streams

    Get PDF
    Με την ανάπτυξη του IoT και με τον αριθμό των συσκευών που αναμένεται να συνδεθούν σε αυτό να ξεπερνάει τα 30 δισεκατομμύρια μέχρι το 2020 καθώς και με την συνεπακόλουθη αύξηση στα δεδομένα που μεταδίδονται κρίνεται αναγκαίο από τα σύγχρονα συστήματα επεξεργασίας δεδομένων μεγάλης κλίμακας να χρησιμοποιούν αποδοτικούς αλγορίθμους σε συνδυασμό με προγραμματιστικές βιβλιοθήκες που χρησιμοποιούνται ευρέως στον τομέα της βιομηχανίας. Σκοπός της διπλωματικής εργασίας είναι η ανάλυση και παρουσίαση αλγορίθμων αποθέματος καθώς και η ανάπτυξη τους με την χρήση της βιβλιοθήκης Kafka Streams με σκοπό την επίλυση του προβλήματος της κατανομής τους. Αξιοποιώντας τις ιδιαιτερότητες της βιβλιοθήκης και των αλγορίθμων στοχεύουμε στην υλοποίηση ενός εργαλείου που βοηθάει αναλυτές και πειραματιστές στο τομέα του ΙοΤ στην προεπεξεργασία των δεδομένων και την ταχεία λήψη αποτελεσμάτων από μια συνεχόμενη ροή δεδομένων.With the rapid growth of the Internet of Things (IoT) and with the number of devices expected to connect to it estimated to exceed 30 billion by 2020 and the consequent increase in data transmitted, it is necessary for big data processing systems to use efficient algorithms in combination with programming libraries that are widely used in the industry. This master thesis aims to analyze and present reservoir sampling algorithms as well as to develop them using the Kafka Streams API in order to solve the problem of their distribution. By taking advantage of the API and the algorithm specific characteristics, we aim to implement a tool that helps analysts and experimenters on the IoT field to preprocess data and quickly obtain results from a continuous data stream