6 research outputs found

    Efficient Group K Nearest-Neighbor Spatial Query Processing in Apache Spark

    Get PDF
    Aiming at the problem of spatial query processing in distributed computing systems, the design and implementation of new distributed spatial query algorithms is a current challenge. Apache Spark is a memory-based framework suitable for real-time and batch processing. Spark-based systems allow users to work on distributed in-memory data, without worrying about the data distribution mechanism and fault-tolerance. Given two datasets of points (called Query and Training), the group K nearest-neighbor (GKNN) query retrieves (K) points of the Training with the smallest sum of distances to every point of the Query. This spatial query has been actively studied in centralized environments and several performance improving techniques and pruning heuristics have been also proposed, while, a distributed algorithm in Apache Hadoop was recently proposed by our team. Since, in general, Apache Hadoop exhibits lower performance than Spark, in this paper, we present the first distributed GKNN query algorithm in Apache Spark and compare it against the one in Apache Hadoop. This algorithm incorporates programming features and facilities that are specific to Apache Spark. Moreover, techniques that improve performance and are applicable in Apache Spark are also incorporated. The results of an extensive set of experiments with real-world spatial datasets are presented, demonstrating that our Apache Spark GKNN solution, with its improvements, is efficient and a clear winner in comparison to processing this query in Apache Hadoop

    TOWARDS IMPROVING MATCHING IN BIOMETRIC SYSTEMS

    No full text
    The integration of biometric technologies with authentication systems allows us to distinguish individuals easier, faster, and more accurately. As a result, biometric authentication is becoming increasingly important for various applications such as access control and financial transactions. However, despite the encouraging results obtained in controlled environments, biometric authentication remains a challenging problem in real-life conditions. Regardless of whether a biometric system relies on face, fingerprint, or any other biometric trait, it must perform (i) template matching to generate similarity scores that reflect the degree of similarity of the biometric samples matched and (ii) score-level processing to generate improved similarity scores. Depending on the biometric modality used, different challenges arise that degrade the recognition performance including: (i) distortions due to the different data acquisition conditions, (ii) artifacts introduced by pre-processing algorithms, (iii) incomplete utilization of the available information, and (iv) having to match data from different views. To address these challenges, we have developed new matching algorithms and score-processing methods that increase the recognition performance of biometric systems irrespective of the biometric trait used. Specifically, our contributions include: (i) a method that learns a non-linear distance metric for matching templates from the same view, (ii) a method that maps data from different views to a common discriminant space using non-linear projections, (iii) a score normalization framework that fully utilizes multiple samples per gallery subject, gallery-based information, and past experiences, and (iv) a score normalization framework for multimodal score fusion.Computer Science, Department o

    Αλγόριθμοι επεξεργασίας ερωτημάτων εγγύτερων ζευγών και εγγύτερων γειτόνων επί χωρικών δεδομένων μεγάλου όγκου σε παράλληλα και κατανεμημένα πλαίσια

    No full text
    Spatial Data refers to data related to the position or geolocation of objects and elements on, below or above the earth’s surface. Such data, often termed geospatial data, appear in geography related applications. Currently, numerous applications and sources are creating explosive amounts of data with spatial characteristics or with related geolocated information. Sensors, mobile apps, cars, GPS devices, unmanned aerial vehicles, ships, airplanes, telescopes, medical devices, web apps, social networking and IoT devices are examples of such applications and sources.Spatial data are harder to handle than data in traditional applications (e.g., names, numbers, dates, etc.) and have higher processing requirements. Furthermore, the big volume of spatial data in modern applications requires the use of multinode systems for their processing. Among them, shared-nothing parallel and distributed systems based on the MapReduce model and/or Resilient Distributed Datasets (RDDs) are common in research efforts.Efficient big spatial data management requires efficient processing of computationally demanding spatial query operations. The following demanding queries are applied on two datasets and combine join queries (since all possible combinations formed from these datasets are candidates for the final result) and nearest-neighbor queries (since the final result is formed according to a neighboring criterion).• The K Closest-Pairs Query (KCPQ): for each possible pair of elements from the two datasets, it discovers K pairs with the smallest distances among their elements.• The Distance Join Query (DJQ): this is a form of closest-pairs query which, for each possible pair of elements from the two datasets, returns pairs with distances smallerthan a given distance.• The All K Nearest-Neighbor Query (AKNNQ, also termed K Nearest-Neighbor Join): it discovers K nearest neighbors in the one dataset for each element of the other dataset,• The Group (K) NearestNeighbor(s) Query (GKNNQ): it returns K elements of the one dataset with the smallest sum of distances to every element of the other dataset.Although naive algorithms for the above queries are simple, they suffer from excessive computational, intermediate result storage and network communication cost and low load balancing among computing nodes, especially within a distributed environment. In this thesis, we focus on point data and employ techniques for faster and fewer computations, pruning of unnecessary computations, taking advantage of spatial locality and distribution of data, improving load balancing among computing nodes and optimizing the amount of data transferred between nodes. Based on these techniques,• we develop the first KCPQ and DJQ algorithms for Apache Spark, a popular parallel and distributed system that has attracted attention due to exploiting in-memory processing capabilities,• we develop AKNNQ algorithms for Apache Hadoop, the first widely accepted system implementing the MapReduce model,• we develop the first GKNNQ algorithms for both Apache Hadoop and SpatialHadoop, an extension specifically designed to manage big spatial datasets,• for each of the above queries, we perform extensive experimental tests to derive the best parameter settings for each algorithm and to compare the efficiency of the severalalternative algorithms we developed and ones appearing in the literature (for the cases where such algorithms already existed).Τα Χωρικά Δεδομένα αναφέρονται σε δεδομένα που σχετίζονται με τη θέση ή τη γεωγραφική τοποθεσία αντικειμένων και στοιχείων υπεράνω, υπό ή επί της επιφάνειας της γης. Τέτοια δεδομένα, συχνά ονομάζονται γεωχωρικά δεδομένα, εμφανίζονται σε εφαρμογές σχετικές με τη γεωγραφία. Καθημερινά, πολυπληθείς εφαρμογές και πηγές δημιουργούν εκρηκτικούς όγκους δεδομένων με χωρικά χαρακτηριστικά ή με σχετική γεωχωρική πληροφορία. Αισθητήρες, εφαρμογές σε κινητά τηλέφωνα, αυτοκίνητα, συσκευές GPS, μη επανδρωμένα εναέρια οχήματα (UAV), πλοία, αεροπλάνα, τηλεσκόπια, ιατρικές συσκευές, διαδικτυακές εφαρμογές, κοινωνικά δίκτυα και συσκευές διαδικτύου των αντικειμένων (IoT) αποτελούν παραδείγματα τέτοιων εφαρμογών και πηγών.Η επεξεργασία των χωρικών δεδομένων είναι δυσκολότερη σε σχέση με τα δεδομένα των παραδοσιακών εφαρμογών (π.χ. ονόματα, αριθμοί, ημερομηνίες, κλπ.) και έχουν υπολογιστικές υψηλότερες απαιτήσεις. Επιπλέον, ο μεγάλος όγκος των χωρικών δεδομένων στις σύγχρονες εφαρμογές απαιτεί τη χρήση συστημάτων πολλαπλών κόμβων για την επεξεργασία τους. Μεταξύ αυτών, τα παράλληλα και κατανεμημένα συστήματα χωρίς διαμοίραση (shared-nothing) που βασίζονται στο μοντέλο MapReduce και/ή στα Ανθεκτικά Κατανεμημένα Σύνολα Δεδομένων (Resilient Distributed Datasets RDDs) απαντώνται συχνά στις ερευνητικές προσπάθειες.Η αποτελεσματική διαχείριση των μεγάλων χωρικών δεδομένων απαιτεί αποτελεσματική επεξεργασία των υπολογιστικά απαιτητικών χωρικών ερωτημάτων. Τα ακόλουθα χωρικά ερωτήματα εφαρμόζονται σε δυο σύνολα δεδομένων και συνδυάζουν ερωτήματα ζεύξης (join queries), καθώς όλοι οι δυνατοί συνδυασμοί που σχηματίζονται από αυτά τα σύνολα δεδομένων είναι υποψήφιοι για το τελικό αποτέλεσμα, και ερωτήματα εγγυτέρων γειτόνων (nearest neighbor queries), καθώς το τελικό αποτέλεσμα διαμορφώνεται σύμφωνα με ένα κριτήριο γειτονικότητας.1. Το Ερώτημα των K Εγγυτέρων Ζευγών (K Closest-Pairs Query, KCPQ): για κάθε πιθανό ζεύγος στοιχείων από τα δυο σύνολα δεδομένων, ανακαλύπτει τα K ζεύγη μετις μικρότερες αποστάσεις μεταξύ των στοιχείων τους.2. Το Ερώτημα Ζεύξης Απόστασης (Distance Join Query, DJQ): είναι ένα είδος ερωτήματος εγγυτέρων ζευγών το οποίο, για κάθε πιθανό ζεύγος στοιχείων από τα δυοσύνολα δεδομένων, επιστρέφει τα ζεύγη με αποστάσεις μικρότερες από μια δοσμένη απόσταση.3. Το Ερώτημα Όλων των K Εγγυτέρων Γειτόνων (All K Nearest Neighbor Query, AKNNQ), που ονομάζεται κσι Ζεύξη K Εγγυτέρων Γειτόνων (K NearestNeighbor Join): επιστρέφει τους K εγγύτερους γείτονες στο ένα σύνολο για κάθε στοιχείο του άλλου συνόλου.4. Το Ερώτημα Ομάδας K Εγγυτέρων Γειτόνων (Group (K) Nearest-Neighbor(s) Query, GKNNQ): επιστρέφει K στοιχεία από το ένα σύνολο με το μικρότερο άθροισμα αποστάσεων προς κάθε στοιχείο του άλλου συνόλου.Παρόλο που οι αφελείς αλγόριθμοι για τα παραπάνω ερωτήματα είναι απλοί, πάσχουν από υπερβολικό κόστος υπολογισμού, αποθήκευσης ενδιάμεσου αποτελέσματος και δικτυακής επικοινωνίας και χαμηλής εξισορρόπισης φορτίου μεταξύ των υπολογιστικών κόμβων, ιδιαίτερα σε ένα κατανεμημένο περιβάλλον. Σε αυτή τη διατριβή, επικεντρωνόμαστε σε σημειακά δεδομένα και χρησιμοποιούμε τεχνικές για γρηγορότερους και λιγότερους υπολογισμούς, περικοπή των μη αναγκαίων υπολογισμών, εκμετάλλευση της τοπικότητας και της κατανομής των δεδομένων, καλύτερης εξισορρόπησης του φορτίου μεταξύ των υπολογιστικών κόμβων και βελτιστοποίησης της ποσότητας των δεδομένων που διακινούνται μεταξύ των κόμβων. Με αυτά τα εφόδια,1. αναπτύσσουμε τους πρώτους KCPQ και DJQ αλγορίθμους για το Apache Spark, ένα δημοφιλές σύστημα παράλληλης και κατανεμημένης επεξεργασίας το οποίο έχει προσελκύσει την προσοχή εξαιτίας των δυνατοτήτων υπολογισμού εντός μνήμης,2. αναπτύσσουμε AKNNQ αλγορίθμους για το Apache Hadoop, το πρώτο ευρέως αποδεκτό σύστημα που υλοποιεί το μοντέλο MapReduce,3. αναπτύσσουμε τους πρώτους GKNNQ αλγορίθμους για το Apache Hadoop και το SpatialHadoop, μια επέκταση ειδικά σχεδιασμένη να διαχειρίζεται μεγάλα σύνολα χωρικώνδεδομένων,4. για κάθε ένα από τα παραπάνω ερωτήματα, διενεργούμε εκτεταμένα πειράματα για να εξάγουμε τις καλύτερες ρυθμίσεις των παραμέτρων για κάθε αλγόριθμο και νασυγκρίνουμε την αποτελεσματικότητα των διαφόρων εναλλακτικών αλγορίθμων που αναπτύξαμε και εκείνων της βιβλιογραφίας (για τις περιπτώσεις εκείνες όπου τέτοιοιαλγόριθμοι προϋπήρχαν)

    Coverage of energy and water demands of island Sikinos with wind energy and desalination

    No full text
    139 σ.Στην παρούσα διπλωματική εργασία εξετάστηκε η κάλυψη των αναγκών σε ενέργεια και νερό της νήσου Σικίνου με αιολική ενέργεια και αφαλάτωση.Ιn this project we examined the coverage of water and energy demands of the island of Sikinos with wind energy and desalination.Παναγιώτης Γ. Μουτάφη
    corecore