23 research outputs found

    Lower Bounds for the Complexity of the Voronoi Diagram of Polygonal Curves under the Discrete Frechet Distance

    Full text link
    We give lower bounds for the combinatorial complexity of the Voronoi diagram of polygonal curves under the discrete Frechet distance. We show that the Voronoi diagram of n curves in R^d with k vertices each, has complexity Omega(n^{dk}) for dimension d=1,2 and Omega(n^{d(k-1)+2}) for d>2.Comment: 6 pages, 2 figure

    Theory and applications of hashing: report from Dagstuhl Seminar 17181

    Get PDF
    This report documents the program and the topics discussed of the 4-day Dagstuhl Seminar 17181 “Theory and Applications of Hashing”, which took place May 1–5, 2017. Four long and eighteen short talks covered a wide and diverse range of topics within the theme of the workshop. The program left sufficient space for informal discussions among the 40 participants

    Proximity problems for high-dimensional data

    Get PDF
    Η εύρεση όμοιων αντικειμένων είναι ένα γενικό υπολογιστικό πρόβλημα που χρησιμεύει ως υπορουτίνα για πολλά προβλήματα μηχανικής μάθησης όπως η συσταδοποίηση. Με την πρόσφατη αύξηση της διαθεσιμότητας πολύπλοκων συνόλων δεδομένων, αυξήθηκε η ανάγκη για την ανάλυση δεδομένων υψηλών διαστάσεων. Παρομοίως, παρατηρείται αύξηση ενδιαφέροντος στις δομές δεδομένων για επεξεργασία καμπυλών, λόγω της αυ- ξανόμενης διαθεσιμότητας και ποιότητας των δεδομένων τροχιάς από τα κινητά τηλέφωνα, τους αισθητήρες GPS, την τεχνολογία RFID και την ανάλυση βίντεο. Σε αυτή τη διατριβή, ερευνάμε προβλήματα εγγύτητας για διανύσματα μεγάλης διάστασης και πολυγωνικές καμπύλες. Ο φυσικός τρόπος μέτρησης της ανομοιότητας μεταξύ δύο διανυσμάτων είναι η αποτίμηση μιας συνάρτησης νόρμας για τη διανυσματική διαφορά των δύο διανυσμάτων. Δημοφιλή παραδείγματα τέτοιων συναρτήσεων απόστασης είναι η Ευκλείδεια απόσταση και η απόσταση Μανχάταν. Παρομοίως, υπάρχουν αρκετές καλά μελετημένες συναρτήσεις απόστασης για πολυγωνικές καμπύλες, με κύριο παράδειγμα την απόσταση Fréchet. Το βασικό πρόβλημα, και για τους δύο τύπους δεδομένων, είναι το πρόβλημα αναζήτησης του κοντινότερου γείτονα. Δεδομένου ενός συνόλου αντικειμένων P , στοχεύουμε σε μια δομή δεδομένων που υποστηρίζει ερωτήματα κοντινότερου γείτονα. Ένα νέο αντικείμενο q δίνεται και η δομή δεδομένων επιστρέφει το ομοιότερο αντικείμενο από το P . Όταν η πολυπλοκότητα των δεδομένων είναι υψηλή, μια λύση με ακρίβεια είναι σπάνια αποδοτική. Αυτό οδήγησε τους ερευνητές στον πιο εύκολο στόχο του σχεδιασμού προσεγγιστικών λύσεων. Το μεγαλύτερο μέρος αυτής της εργασίας είναι αφιερωμένο στο πρόβλημα του προσεγγιστικού κοντινότερου γείτονα και στο πρόβλημα του προσεγγιστικού κοντινού γείτονα: δεδομένου ενός συνόλου αντικειμένων P και μιας παραμέτρου ακτίνας r, η δομή δεδομένων επιστρέφει ένα αντικείμενο στο P (εφόσον υπάρχει) το οποίο είναι κατά προσέγγιση σε απόσταση r από κάποιο αντικείμενο ερώτησης q. Ένα άλλο βασικό ερώτημα είναι αυτό του υπολογισμού ενός υποσυνόλου καλών εκπροσώπων για ένα σύ- νολο δεδομένων. Αυτό το υποσύνολο παρέχει συχνά επαρκείς πληροφορίες για κάποιο υπολογιστικό πρόβλημα και επομένως απλοποιεί πιθανώς τις υπάρχουσες λύσεις. Τέλος, μελετάμε τους χώρους εύρους για πολυγωνικές καμπύλες: φράσουμε τη διάσταση Vapnik-Chervonenkis για εύρη που ορίζονται από συναρτήσεις απόστασης για καμπύλες. Τα αποτελέσματα αυτά έχουν άμεσες συνέπειες σε προβλήματα μέτρησης εύρους και στην εκτίμηση πυκνότητας. Η διατριβή έχει δομηθεί ως εξής. Εισάγουμε έναν νέο ορισμό εμβυθίσεων “χαμηλής ποιότητας” για μετρικούς χώρους. Απαιτεί ότι, για κάποιο σημείο ερωτήματος q, υπάρχει ένας προσεγγιστικός κοντινότερος γείτονας μεταξύ των προ-εικόνων των k > 1 προσεγγιστικών κοντινότερων γειτόνων στο χώρο προορισμού. Εστιάζοντας σε Ευκλείδειους χώρους, χρησιμοποιούμε τυχαίες προβολές à la Johnson Lindenstrauss προκειμένου να ανάγουμε το αρχικό πρόβλημα σε ένα πρόβλημα όπου η διάσταση του χώρου είναι αντιστρόφως ανάλογη του k. Αυτό οδηγεί σε απλές δομές δεδομένων, οι οποίες είναι αποδοτικές ως προς τον απαιτούμενο χώρο αποθήκευσης και υποστηρίζουν ερωτήματα σε υπογραμμικό χρόνο. Χρησιμοποιώντας ιδιότητες συγκεκριμένων συναρτήσεων LSH, εκμεταλλευόμαστε μια παρόμοια απεικόνιση στον χώρο Hamming. Το πρωταρχικό μας κίνητρο είναι το πρόβλημα πλησιέστερου γείτονα στον μετρικό χώρο l1, για σημεία με χαμηλή εγγενή διάσταση. Η διάσταση διπλασιασμού είναι μια καθιερωμένη έννοια εγγενούς διάστασης των σημείων. Εμβυθίσεις που διατηρούν τον κοντινότερο γείτονα υπάρχουν τόσο για l2 όσο και για l1 μετρικές, καθώς και για υποσύνολα του l2 με χαμηλή διάσταση διπλασιασμού. Προτείνουμε μια τεχνική μείωσης διάστασης που διατηρεί τον κοντινό γείτονα για υποσύνολα του l1 με χαμηλή διάσταση διπλασιασμού. Τα r-δίκτυα προσφέρουν ένα ισχυρό εργαλείο στην υπολογιστική και τη μετρική γεωμετρία, δεδομένου ότι χρησιμεύουν ως υποσύνολο καλών αντιπροσώπων: όλα τα σημεία βρίσκονται σε απόσταση r από κάποιο σημείο του r-δικτύου και όλα τα κέντρα του r-δικτύου είναι σε απόσταση τουλάχιστον r μεταξύ τους. Εστιάζουμε σε χώρους μεγάλης διαστάσεως και παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο ο οποίος υπολογίζει αποτελεσματικά προσεγγιστικά r-δίκτυα σε Ευκλείδειους χώρους. Ο αλγόριθμός μας ακολουθεί μια πρόσφατη προσέγγιση του Valiant για τη αναγωγή του προβλήματος στην αποτίμηση πολλαπλών σημείων πολυωνύμων. Προτείνουμε απλές και αποτελεσματικές δομές δεδομένων, βασισμένες σε τυχαίες προβολές, για μια έννοια της απόστασης μεταξύ διακριτοποιημένων καμπυλών, η οποία γενικεύει την διακριτή απόσταση Fréchet και την απόσταση Dynamic Time Warping. Προσφέρουμε τις πρώτες δομές δεδομένων για την εύρεση του κοντινότερου γείτονα με αυθαίρετα καλό συντελεστή προσέγγισης, με ταυτόχρονη αύξηση του χώρου σε σχέση με τις υπάρχουσες μεθόδους. Προτείνουμε δομές δεδομένων, βασισμένες σε τυχαίες διαμερίσεις του χώρου, για την διακριτή απόσταση Fréchet όταν καμπύλες επερώτησης είναι μικρού μήκους. Οι δομές δεδομένων είναι ιδιαίτερα αποτελεσματικές όταν τα ερωτήματα είναι πολύ μικρότερα από τις πολυγωνικές καμπύλες που ανήκουν στο σύνολο δεδομένων. Επίσης, μελετάμε το πρόβλημα για αυθαίρετους μετρικούς χώρους με χαμηλή διάσταση διπλασιασμού. Η διάσταση Vapnik-Chervonenkis παρέχει μια έννοια πολυπλοκότητας για συστήματα συνόλων ή εύρους. Αναλύουμε συστήματα εύρους όπου το βασικό σύνολο είναι ένα σύνολο πολυγωνικών καμπυλών στον Ευκλείδειο χώρο και εύρη είναι μετρικές μπάλες που ορίζονται από συναρτήσεις αποστάσεων για καμπύλες, όπως η απόσταση Fréchet και η απόσταση Hausdorff. Ακολουθούν άμεσες συνέπειες εφαρμόζοντας γνωστά αποτελέσματα δειγματοληψίας.Finding similar objects is a general computational task which serves as a subroutine for many major learning tasks like classification or clustering. With the recent increase of availability of complex datasets, the need for analyzing and handling high-dimensional descriptors has been increased. Likewise, there is a surge of interest into data structures for trajectory processing, motivated by the increasing availability and quality of trajectory data from mobile phones, GPS sensors, RFID technology and video analysis. In this thesis, we investigate proximity problems for high-dimensional vectors and polygonal curves. The natural way to measure dissimilarity between two vectors is by evaluating a norm function for the vector difference. Popular examples of such distance functions are the Euclidean distance and the Manhattan distance. Similarly, there exist several well-studied distance functions for polygonal curves, the main example being the Fréchet distance. The core problem, for both data types, is the nearest neighbor searching problem. Given a set of objects P , we aim for a data structure which supports nearest neighbor queries; a new object q arrives and the data structure returns the most similar object in P . When the data complexity is high, aiming for an exact solution is often futile. This has led researchers to the more tractable task of designing approximate solutions. The largest part of this thesis is devoted to the approximate nearest neighbor problem and the approximate near neighbor problem: given a set of objects P and a radius parameter r, the data structure returns an object in P which is approximately within distance r (if there exists one) from some query object q. Another basic question is that of computing a subset of good representatives for a dataset. This subset often provides with sufficient information for a given computational task, and hence it possibly simplifies existing solutions. Finally, we investigate range systems for polygonal curves: we bound the Vapnik–Chervonenkis dimension for ranges defined by distance functions for curves. These bounds have direct implications in range counting problems and density estimation. The thesis is organized as follows. We introduce a new definition of “low-quality” embeddings for metric spaces. It requires that, for some query point q, there exists an approximate nearest neighbor among the pre-images of the k > 1 approximate nearest neighbors in the target space. Focusing on Euclidean spaces, we employ random projections à la Johnson Lindenstrauss in order to reduce the original problem to one in a space of dimension inversely proportional to k. This leads to simple data structures which are space-efficient and also support sublinear queries. By employing properties of certain LSH functions, we exploit a similar mapping to the Hamming space. Our primary motivation is the approximate nearest neighbor problem in l1, for pointsets with low intrinsic dimension. Doubling dimension is a well-established notion which aims to capture the intrinsic dimension of points. Nearest neighbor-preserving embeddings are known to exist for both l2 and l1 metrics, as well as for doubling subsets of l2 . We propose a dimension reduction by means of a near neighbor-preserving embedding for doubling subsets of l1. Nets offers a powerful tool in computational and metric geometry, since they serve as a subset of good representatives: all points are within distance r from some net point and all net points lie at distance at least r from each other. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate r-nets with respect to Euclidean distance. Our algorithm follows a recent approach by Valiant in reducing the problem to multi-point evaluation of polynomials. We propose simple and efficient data structures, based on randomized projections, for a notion of distance between discretized curves, which generalizes both discrete Fréchet and Dynamic Time Warping distance functions. We offer the first data structures and query algorithms for the approximate nearest neighbor problem with arbitrarily good approximation factor, at the expense of increasing space usage and preprocessing time over existing methods. We propose simple and efficient data structures, based on random partitions, for the discrete Fréchet distance, in the short query regime. The data structures are especially efficient when queries are much shorter than the polygonal curves which belong to the dataset. We also study the problem for arbitrary metrics with bounded doubling dimension. The Vapnik-Chervonenkis dimension provides a notion of complexity for set or range systems. We analyze range systems where the ground set is a set of polygonal curves in the Euclidean space and the ranges are metric balls defined by curve dissimilarity measures, such as the Fréchet distance and the Hausdorff distance. Direct implications follow by applying known sampling bounds

    LIPIcs, Volume 258, SoCG 2023, Complete Volume

    Get PDF
    LIPIcs, Volume 258, SoCG 2023, Complete Volum

    Large bichromatic point sets admit empty monochromatic 4-gons

    No full text
    We consider a variation of a problem stated by Erd˝os and Szekeres in 1935 about the existence of a number fES(k) such that any set S of at least fES(k) points in general position in the plane has a subset of k points that are the vertices of a convex k-gon. In our setting the points of S are colored, and we say that a (not necessarily convex) spanned polygon is monochromatic if all its vertices have the same color. Moreover, a polygon is called empty if it does not contain any points of S in its interior. We show that any bichromatic set of n ≥ 5044 points in R2 in general position determines at least one empty, monochromatic quadrilateral (and thus linearly many).Postprint (published version

    Fine-Grained Complexity Analysis of Two Classic TSP Variants

    Get PDF
    We analyze two classic variants of the Traveling Salesman Problem using the toolkit of fine-grained complexity. Our first set of results is motivated by the Bitonic TSP problem: given a set of nn points in the plane, compute a shortest tour consisting of two monotone chains. It is a classic dynamic-programming exercise to solve this problem in O(n2)O(n^2) time. While the near-quadratic dependency of similar dynamic programs for Longest Common Subsequence and Discrete Frechet Distance has recently been proven to be essentially optimal under the Strong Exponential Time Hypothesis, we show that bitonic tours can be found in subquadratic time. More precisely, we present an algorithm that solves bitonic TSP in O(nlog2n)O(n \log^2 n) time and its bottleneck version in O(nlog3n)O(n \log^3 n) time. Our second set of results concerns the popular kk-OPT heuristic for TSP in the graph setting. More precisely, we study the kk-OPT decision problem, which asks whether a given tour can be improved by a kk-OPT move that replaces kk edges in the tour by kk new edges. A simple algorithm solves kk-OPT in O(nk)O(n^k) time for fixed kk. For 2-OPT, this is easily seen to be optimal. For k=3k=3 we prove that an algorithm with a runtime of the form O~(n3ϵ)\tilde{O}(n^{3-\epsilon}) exists if and only if All-Pairs Shortest Paths in weighted digraphs has such an algorithm. The results for k=2,3k=2,3 may suggest that the actual time complexity of kk-OPT is Θ(nk)\Theta(n^k). We show that this is not the case, by presenting an algorithm that finds the best kk-move in O(n2k/3+1)O(n^{\lfloor 2k/3 \rfloor + 1}) time for fixed k3k \geq 3. This implies that 4-OPT can be solved in O(n3)O(n^3) time, matching the best-known algorithm for 3-OPT. Finally, we show how to beat the quadratic barrier for k=2k=2 in two important settings, namely for points in the plane and when we want to solve 2-OPT repeatedly.Comment: Extended abstract appears in the Proceedings of the 43rd International Colloquium on Automata, Languages, and Programming (ICALP 2016

    Algorithm engineering in geometric network planning and data mining

    Get PDF
    The geometric nature of computational problems provides a rich source of solution strategies as well as complicating obstacles. This thesis considers three problems in the context of geometric network planning, data mining and spherical geometry. Geometric Network Planning: In the d-dimensional Generalized Minimum Manhattan Network problem (d-GMMN) one is interested in finding a minimum cost rectilinear network N connecting a given set of n pairs of points in ℝ^d such that each pair is connected in N via a shortest Manhattan path. The decision version of this optimization problem is known to be NP-hard. The best known upper bound is an O(log^{d+1} n) approximation for d>2 and an O(log n) approximation for 2-GMMN. In this work we provide some more insight in, whether the problem admits constant factor approximations in polynomial time. We develop two new algorithms, a `scale-diversity aware' algorithm with an O(D) approximation guarantee for 2-GMMN. Here D is a measure for the different `scales' that appear in the input, D ∈ O(log n) but potentially much smaller, depending on the problem instance. The other algorithm is based on a primal-dual scheme solving a more general, combinatorial problem - which we call Path Cover. On 2-GMMN it performs well in practice with good a posteriori, instance-based approximation guarantees. Furthermore, it can be extended to deal with obstacle avoiding requirements. We show that the Path Cover problem is at least as hard to approximate as the Hitting Set problem. Moreover, we show that solutions of the primal-dual algorithm are 4ω^2 approximations, where ω ≤ n denotes the maximum overlap of a problem instance. This implies that a potential proof of O(1)-inapproximability for 2-GMMN requires gadgets of many different scales and non-constant overlap in the construction. Geometric Map Matching for Heterogeneous Data: For a given sequence of location measurements, the goal of the geometric map matching is to compute a sequence of movements along edges of a spatially embedded graph which provides a `good explanation' for the measurements. The problem gets challenging as real world data, like traces or graphs from the OpenStreetMap project, does not exhibit homogeneous data quality. Graph details and errors vary in areas and each trace has changing noise and precision. Hence, formalizing what a `good explanation' is becomes quite difficult. We propose a novel map matching approach, which locally adapts to the data quality by constructing what we call dominance decompositions. While our approach is computationally more expensive than previous approaches, our experiments show that it allows for high quality map matching, even in presence of highly variable data quality without parameter tuning. Rational Points on the Unit Spheres: Each non-zero point in ℝ^d identifies a closest point x on the unit sphere S^{d-1}. We are interested in computing an ε-approximation y ∈ ℚ^d for x, that is exactly on S^{d-1} and has low bit-size. We revise lower bounds on rational approximations and provide explicit spherical instances. We prove that floating-point numbers can only provide trivial solutions to the sphere equation in ℝ^2 and ℝ^3. However, we show how to construct a rational point with denominators of at most 10(d-1)/ε^2 for any given ε ∈ (0, 1/8], improving on a previous result. The method further benefits from algorithms for simultaneous Diophantine approximation. Our open-source implementation and experiments demonstrate the practicality of our approach in the context of massive data sets, geo-referenced by latitude and longitude values.Die geometrische Gestalt von Berechnungsproblemen liefert vielfältige Lösungsstrategieen aber auch Hindernisse. Diese Arbeit betrachtet drei Probleme im Gebiet der geometrischen Netzwerk Planung, des geometrischen Data Minings und der sphärischen Geometrie. Geometrische Netzwerk Planung: Im d-dimensionalen Generalized Minimum Manhattan Network Problem (d-GMMN) möchte man ein günstigstes geradliniges Netzwerk finden, welches jedes der gegebenen n Punktepaare aus ℝ^d mit einem kürzesten Manhattan Pfad verbindet. Es ist bekannt, dass die Entscheidungsvariante dieses Optimierungsproblems NP-hart ist. Die beste bekannte obere Schranke ist eine O(log^{d+1} n) Approximation für d>2 und eine O(log n) Approximation für 2-GMMN. Durch diese Arbeit geben wir etwas mehr Einblick, ob das Problem eine Approximation mit konstantem Faktor in polynomieller Zeit zulässt. Wir entwickeln zwei neue Algorithmen. Ersterer nutzt die `Skalendiversität' und hat eine O(D) Approximationsgüte für 2-GMMN. Hierbei ist D ein Maß für die in Eingaben auftretende `Skalen'. D ∈ O(log n), aber potentiell deutlichen kleiner für manche Problem Instanzen. Der andere Algorithmus basiert auf einem Primal-Dual Schema zur Lösung eines allgemeineren, kombinatorischen Problems, welches wir Path Cover nennen. Die praktisch erzielten a posteriori Approximationsgüten auf Instanzen von 2-GMMN verhalten sich gut. Dieser Algorithmus kann für Netzwerk Planungsprobleme mit Hindernis-Anforderungen angepasst werden. Wir zeigen, dass das Path Cover Problem mindestens so schwierig zu approximieren ist wie das Hitting Set Problem. Darüber hinaus zeigen wir, dass Lösungen des Primal-Dual Algorithmus 4ω^2 Approximationen sind, wobei ω ≤ n die maximale Überlappung einer Probleminstanz bezeichnet. Daher müssen potentielle Beweise, die konstante Approximationen für 2-GMMN ausschließen möchten, Instanzen mit vielen unterschiedlichen Skalen und nicht konstanter Überlappung konstruieren. Geometrisches Map Matching für heterogene Daten: Für eine gegebene Sequenz von Positionsmessungen ist das Ziel des geometrischen Map Matchings eine Sequenz von Bewegungen entlang Kanten eines räumlich eingebetteten Graphen zu finden, welche eine `gute Erklärung' für die Messungen ist. Das Problem wird anspruchsvoll da reale Messungen, wie beispielsweise Traces oder Graphen des OpenStreetMap Projekts, keine homogene Datenqualität aufweisen. Graphdetails und -fehler variieren in Gebieten und jeder Trace hat wechselndes Rauschen und Messgenauigkeiten. Zu formalisieren, was eine `gute Erklärung' ist, wird dadurch schwer. Wir stellen einen neuen Map Matching Ansatz vor, welcher sich lokal der Datenqualität anpasst indem er sogenannte Dominance Decompositions berechnet. Obwohl unser Ansatz teurer im Rechenaufwand ist, zeigen unsere Experimente, dass qualitativ hochwertige Map Matching Ergebnisse auf hoch variabler Datenqualität erzielbar sind ohne vorher Parameter kalibrieren zu müssen. Rationale Punkte auf Einheitssphären: Jeder, von Null verschiedene, Punkt in ℝ^d identifiziert einen nächsten Punkt x auf der Einheitssphäre S^{d-1}. Wir suchen eine ε-Approximation y ∈ ℚ^d für x zu berechnen, welche exakt auf S^{d-1} ist und niedrige Bit-Größe hat. Wir wiederholen untere Schranken an rationale Approximationen und liefern explizite, sphärische Instanzen. Wir beweisen, dass Floating-Point Zahlen nur triviale Lösungen zur Sphären-Gleichung in ℝ^2 und ℝ^3 liefern können. Jedoch zeigen wir die Konstruktion eines rationalen Punktes mit Nennern die maximal 10(d-1)/ε^2 sind für gegebene ε ∈ (0, 1/8], was ein bekanntes Resultat verbessert. Darüber hinaus profitiert die Methode von Algorithmen für simultane Diophantische Approximationen. Unsere quell-offene Implementierung und die Experimente demonstrieren die Praktikabilität unseres Ansatzes für sehr große, durch geometrische Längen- und Breitengrade referenzierte, Datensätze

    Geometric Approximations and their Application to Motion Planning

    Get PDF
    Geometric approximation methods are a preferred solution to handle complexities (such as a large volume or complex features such as concavities) in geometric objects or environments containing them. Complexities often pose a computational bottleneck for applications such as motion planning. Exact resolution of these complexities might introduce other complexities such as unmanageable number of components. Hence, approximation methods provide a way to handle these complexities in a manageable state by trading off some accuracy. In this dissertation, two novel geometric approximation methods are studied: aggregation hierarchy and shape primitive skeleton. The aggregation hierarchy is a hierarchical clustering of polygonal or polyhedral objects. The shape primitive skeleton provides an approximation of bounded space as a skeleton of shape primitives. These methods are further applied to improve the performance of motion planning applications. We evaluate the methods in environments with 2D and 3D objects. The aggregation hierarchy groups nearby objects into individual objects. The hierarchy is created by varying the distance threshold that determines which objects are nearby. This creates levels of detail of the environment. The hierarchy of the obstacle space is then used to create a decom-position of the complementary space (i.e, free space) into a set of sampling regions to improve the efficiency and accuracy of the sampling operation of the sampling based motion planners. Our results show that the method can improve the efficiency (10 − 70% of planning time) of sampling based motion planning algorithms. The shape primitive skeleton inscribes a set of shape primitives (e.g., sphere, boxes) inside a bounded space such that they represent the skeleton or the connectivity of the space. We apply the shape primitive skeletons of the free space and obstacle space in motion planning problems to improve the collision detection operation. Our results also show the use of shape primitive skeleton in both spaces improves the performance of collision detectors (by 20 − 70% of collision detection time) used in motion planning algorithms. In summary, this dissertation evaluates how geometric approximation methods can be applied to improve the performance of motion planning methods, especially, sampling based motion planning method

    A Machine Learning Approach to Indoor Localization Data Mining

    Get PDF
    Indoor positioning systems are increasingly commonplace in various environments and produce large quantities of data. They are used in industrial applications, robotics, asset and employee tracking just to name a few use cases. The growing amount of data and the accelerating progress of machine learning opens up many new possibilities for analyzing this data in ways that were not conceivable or relevant before. This paper introduces connected concepts and implementations to answer question how this data can be utilized. Data gathered in this thesis originates from an indoor positioning system deployed in retail environment, but the discussed methods can be applied generally. The issue will be approached by first introducing the concept of machine learning and more generally, artificial intelligence, and how they work on a general level. A deeper dive is done to subfields and algorithms that are relevant to the data mining task at hand. Indoor positioning system basics are also shortly discussed to create a base understanding on the realistic capabilities and constraints that these kinds of systems encase. These methods and previous knowledge from literature are put to test with the freshly gathered data. An algorithm based on existing example from literature was tested and improved upon with the new data. A novel method to cluster and classify movement patterns was introduced, utilizing deep learning to create embedded representations of the trajectories in a more complex learning pipeline. This type of learning is often referred to as deep clustering. The results are promising and both of the methods produce useful high level representations of the complex dataset that can help a human operator to discern the relevant patterns from raw data and to be used as an input for subsequent supervised and unsupervised learning steps. Several factors related to optimizing the learning pipeline, such as regularization were also researched and the results presented as visualizations. The research found that pipeline consisting of CNN-autoencoder followed by a classic clustering algorithm such as DBSCAN produces useful results in the form of trajectory clusters. Regularization such as L1 regression improves this performance. The research done in this paper presents useful algorithms for processing raw, noisy localization data from indoor environments that can be used for further implementations in both industrial applications and academia
    corecore