41 research outputs found
Locality-Sensitive Hashing of Curves
We study data structures for storing a set of polygonal curves in
such that, given a query curve, we can efficiently retrieve similar curves from
the set, where similarity is measured using the discrete Fr\'echet distance or
the dynamic time warping distance. To this end we devise the first
locality-sensitive hashing schemes for these distance measures. A major
challenge is posed by the fact that these distance measures internally optimize
the alignment between the curves. We give solutions for different types of
alignments including constrained and unconstrained versions. For unconstrained
alignments, we improve over a result by Indyk from 2002 for short curves. Let
be the number of input curves and let be the maximum complexity of a
curve in the input. In the particular case where , for some fixed , our solutions imply an approximate near-neighbor
data structure for the discrete Fr\'echet distance that uses space in
and achieves query time in and
constant approximation factor. Furthermore, our solutions provide a trade-off
between approximation quality and computational performance: for any parameter
, we can give a data structure that uses space in , answers queries in time and achieves
approximation factor in .Comment: Proc. of 33rd International Symposium on Computational Geometry
(SoCG), 201
Fast Frechet Distance Between Curves With Long Edges
Computing the Fr\'echet distance between two polygonal curves takes roughly
quadratic time. In this paper, we show that for a special class of curves the
Fr\'echet distance computations become easier. Let and be two polygonal
curves in with and vertices, respectively. We prove four
results for the case when all edges of both curves are long compared to the
Fr\'echet distance between them: (1) a linear-time algorithm for deciding the
Fr\'echet distance between two curves, (2) an algorithm that computes the
Fr\'echet distance in time, (3) a linear-time
-approximation algorithm, and (4) a data structure that supports
-time decision queries, where is the number of vertices of
the query curve and the number of vertices of the preprocessed curve
All-Pairs Shortest Paths in Unit-Disk Graphs in Slightly Subquadratic Time
In this paper we study the all-pairs shortest paths problem in (unweighted) unit-disk graphs. The previous best solution for this problem required O(n^2 log n) time, by running the O(n log n)-time single-source shortest path algorithm of Cabello and Jejcic [Comput. Geom., 2015] from every source vertex,where n is the number of vertices. We not only manage to eliminate the logarithmic factor, but also obtain the first (slightly) subquadratic algorithm for the problem, running in O(n^2 sqrt{ frac{log log n}{log n} }) time. Our algorithm computes an implicit representation of all the shortest paths, and, in the same amount of time, can also compute the diameter of the graph
Proximity problems for high-dimensional data
Η εύρεση όμοιων αντικειμένων είναι ένα γενικό υπολογιστικό πρόβλημα που χρησιμεύει
ως υπορουτίνα για πολλά προβλήματα μηχανικής μάθησης όπως η συσταδοποίηση. Με
την πρόσφατη αύξηση της διαθεσιμότητας πολύπλοκων συνόλων δεδομένων, αυξήθηκε
η ανάγκη για την ανάλυση δεδομένων υψηλών διαστάσεων. Παρομοίως, παρατηρείται
αύξηση ενδιαφέροντος στις δομές δεδομένων για επεξεργασία καμπυλών, λόγω της αυ-
ξανόμενης διαθεσιμότητας και ποιότητας των δεδομένων τροχιάς από τα κινητά τηλέφωνα,
τους αισθητήρες GPS, την τεχνολογία RFID και την ανάλυση βίντεο.
Σε αυτή τη διατριβή, ερευνάμε προβλήματα εγγύτητας για διανύσματα μεγάλης διάστασης
και πολυγωνικές καμπύλες. Ο φυσικός τρόπος μέτρησης της ανομοιότητας μεταξύ δύο
διανυσμάτων είναι η αποτίμηση μιας συνάρτησης νόρμας για τη διανυσματική διαφορά
των δύο διανυσμάτων. Δημοφιλή παραδείγματα τέτοιων συναρτήσεων απόστασης είναι
η Ευκλείδεια απόσταση και η απόσταση Μανχάταν. Παρομοίως, υπάρχουν αρκετές καλά
μελετημένες συναρτήσεις απόστασης για πολυγωνικές καμπύλες, με κύριο παράδειγμα
την απόσταση Fréchet.
Το βασικό πρόβλημα, και για τους δύο τύπους δεδομένων, είναι το πρόβλημα αναζήτησης
του κοντινότερου γείτονα. Δεδομένου ενός συνόλου αντικειμένων P , στοχεύουμε σε μια
δομή δεδομένων που υποστηρίζει ερωτήματα κοντινότερου γείτονα. Ένα νέο αντικείμενο
q δίνεται και η δομή δεδομένων επιστρέφει το ομοιότερο αντικείμενο από το P . Όταν η
πολυπλοκότητα των δεδομένων είναι υψηλή, μια λύση με ακρίβεια είναι σπάνια αποδοτική. Αυτό οδήγησε τους ερευνητές στον πιο εύκολο στόχο του σχεδιασμού προσεγγιστικών λύσεων. Το μεγαλύτερο μέρος αυτής της εργασίας είναι αφιερωμένο στο πρόβλημα
του προσεγγιστικού κοντινότερου γείτονα και στο πρόβλημα του προσεγγιστικού κοντινού γείτονα: δεδομένου ενός συνόλου αντικειμένων P και μιας παραμέτρου ακτίνας r, η
δομή δεδομένων επιστρέφει ένα αντικείμενο στο P (εφόσον υπάρχει) το οποίο είναι κατά προσέγγιση σε απόσταση r από κάποιο αντικείμενο ερώτησης q. Ένα άλλο βασικό
ερώτημα είναι αυτό του υπολογισμού ενός υποσυνόλου καλών εκπροσώπων για ένα σύ-
νολο δεδομένων. Αυτό το υποσύνολο παρέχει συχνά επαρκείς πληροφορίες για κάποιο
υπολογιστικό πρόβλημα και επομένως απλοποιεί πιθανώς τις υπάρχουσες λύσεις. Τέλος, μελετάμε τους χώρους εύρους για πολυγωνικές καμπύλες: φράσουμε τη διάσταση
Vapnik-Chervonenkis για εύρη που ορίζονται από συναρτήσεις απόστασης για καμπύλες.
Τα αποτελέσματα αυτά έχουν άμεσες συνέπειες σε προβλήματα μέτρησης εύρους και στην
εκτίμηση πυκνότητας.
Η διατριβή έχει δομηθεί ως εξής.
Εισάγουμε έναν νέο ορισμό εμβυθίσεων
“χαμηλής ποιότητας” για μετρικούς χώρους. Απαιτεί ότι, για κάποιο σημείο ερωτήματος q, υπάρχει ένας προσεγγιστικός κοντινότερος γείτονας μεταξύ των προ-εικόνων των
k > 1 προσεγγιστικών κοντινότερων γειτόνων στο χώρο προορισμού. Εστιάζοντας σε Ευκλείδειους χώρους, χρησιμοποιούμε τυχαίες προβολές à la Johnson Lindenstrauss προκειμένου να ανάγουμε το αρχικό πρόβλημα σε ένα πρόβλημα όπου η διάσταση του χώρου
είναι αντιστρόφως ανάλογη του k. Αυτό οδηγεί σε απλές δομές δεδομένων, οι οποίες είναι
αποδοτικές ως προς τον απαιτούμενο χώρο αποθήκευσης και υποστηρίζουν ερωτήματα
σε υπογραμμικό χρόνο. Χρησιμοποιώντας ιδιότητες συγκεκριμένων συναρτήσεων LSH,
εκμεταλλευόμαστε μια παρόμοια απεικόνιση στον χώρο Hamming.
Το πρωταρχικό μας κίνητρο είναι το
πρόβλημα πλησιέστερου γείτονα στον μετρικό χώρο l1, για σημεία με χαμηλή εγγενή διάσταση. Η διάσταση διπλασιασμού είναι μια καθιερωμένη έννοια εγγενούς διάστασης των
σημείων. Εμβυθίσεις που διατηρούν τον κοντινότερο γείτονα υπάρχουν τόσο για l2 όσο
και για l1 μετρικές, καθώς και για υποσύνολα του l2 με χαμηλή διάσταση διπλασιασμού.
Προτείνουμε μια τεχνική μείωσης διάστασης που διατηρεί τον κοντινό γείτονα για υποσύνολα του l1 με χαμηλή διάσταση διπλασιασμού.
Τα r-δίκτυα προσφέρουν ένα ισχυρό εργαλείο στην υπολογιστική
και τη μετρική γεωμετρία, δεδομένου ότι χρησιμεύουν ως υποσύνολο καλών αντιπροσώπων: όλα τα σημεία βρίσκονται σε απόσταση r από κάποιο σημείο του r-δικτύου και όλα
τα κέντρα του r-δικτύου είναι σε απόσταση τουλάχιστον r μεταξύ τους. Εστιάζουμε σε
χώρους μεγάλης διαστάσεως και παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο ο οποίος υπολογίζει αποτελεσματικά προσεγγιστικά r-δίκτυα σε Ευκλείδειους χώρους. Ο
αλγόριθμός μας ακολουθεί μια πρόσφατη προσέγγιση του Valiant για τη αναγωγή του
προβλήματος στην αποτίμηση πολλαπλών σημείων πολυωνύμων.
Προτείνουμε απλές και αποτελεσματικές δομές δεδομένων, βασισμένες σε τυχαίες προβολές, για μια έννοια της απόστασης
μεταξύ διακριτοποιημένων καμπυλών, η οποία γενικεύει την διακριτή απόσταση Fréchet
και την απόσταση Dynamic Time Warping. Προσφέρουμε τις πρώτες δομές δεδομένων
για την εύρεση του κοντινότερου γείτονα με αυθαίρετα καλό συντελεστή προσέγγισης, με
ταυτόχρονη αύξηση του χώρου σε σχέση με τις υπάρχουσες μεθόδους.
Προτείνουμε δομές
δεδομένων, βασισμένες σε τυχαίες διαμερίσεις του χώρου, για την διακριτή απόσταση
Fréchet όταν καμπύλες επερώτησης είναι μικρού μήκους. Οι δομές δεδομένων είναι ιδιαίτερα αποτελεσματικές όταν τα ερωτήματα είναι πολύ μικρότερα από τις πολυγωνικές
καμπύλες που ανήκουν στο σύνολο δεδομένων. Επίσης, μελετάμε το πρόβλημα για αυθαίρετους μετρικούς χώρους με χαμηλή διάσταση διπλασιασμού.
Η διάσταση Vapnik-Chervonenkis παρέχει μια
έννοια πολυπλοκότητας για συστήματα συνόλων ή εύρους. Αναλύουμε συστήματα εύρους
όπου το βασικό σύνολο είναι ένα σύνολο πολυγωνικών καμπυλών στον Ευκλείδειο χώρο
και εύρη είναι μετρικές μπάλες που ορίζονται από συναρτήσεις αποστάσεων για καμπύλες,
όπως η απόσταση Fréchet και η απόσταση Hausdorff. Ακολουθούν άμεσες συνέπειες
εφαρμόζοντας γνωστά αποτελέσματα δειγματοληψίας.Finding similar objects is a general computational task which serves as a subroutine for
many major learning tasks like classification or clustering. With the recent increase of
availability of complex datasets, the need for analyzing and handling high-dimensional
descriptors has been increased. Likewise, there is a surge of interest into data structures
for trajectory processing, motivated by the increasing availability and quality of trajectory
data from mobile phones, GPS sensors, RFID technology and video analysis.
In this thesis, we investigate proximity problems for high-dimensional vectors and polygonal curves. The natural way to measure dissimilarity between two vectors is by evaluating
a norm function for the vector difference. Popular examples of such distance functions
are the Euclidean distance and the Manhattan distance. Similarly, there exist several
well-studied distance functions for polygonal curves, the main example being the Fréchet
distance.
The core problem, for both data types, is the nearest neighbor searching problem. Given
a set of objects P , we aim for a data structure which supports nearest neighbor queries;
a new object q arrives and the data structure returns the most similar object in P . When
the data complexity is high, aiming for an exact solution is often futile. This has led researchers to the more tractable task of designing approximate solutions. The largest part
of this thesis is devoted to the approximate nearest neighbor problem and the approximate near neighbor problem: given a set of objects P and a radius parameter r, the data
structure returns an object in P which is approximately within distance r (if there exists
one) from some query object q. Another basic question is that of computing a subset of
good representatives for a dataset. This subset often provides with sufficient information
for a given computational task, and hence it possibly simplifies existing solutions. Finally,
we investigate range systems for polygonal curves: we bound the Vapnik–Chervonenkis
dimension for ranges defined by distance functions for curves. These bounds have direct
implications in range counting problems and density estimation.
The thesis is organized as follows.
We introduce a new definition of “low-quality”
embeddings for metric spaces. It requires that, for some query point q, there exists an
approximate nearest neighbor among the pre-images of the k > 1 approximate nearest
neighbors in the target space. Focusing on Euclidean spaces, we employ random projections à la Johnson Lindenstrauss in order to reduce the original problem to one in a
space of dimension inversely proportional to k. This leads to simple data structures which
are space-efficient and also support sublinear queries. By employing properties of certain
LSH functions, we exploit a similar mapping to the Hamming space.
Our primary motivation is the approximate nearest
neighbor problem in l1, for pointsets with low intrinsic dimension. Doubling dimension is
a well-established notion which aims to capture the intrinsic dimension of points. Nearest
neighbor-preserving embeddings are known to exist for both l2 and l1 metrics, as well
as for doubling subsets of l2 . We propose a dimension reduction by means of a near
neighbor-preserving embedding for doubling subsets of l1.
Nets offers a powerful tool in computational and metric geometry,
since they serve as a subset of good representatives: all points are within distance r from
some net point and all net points lie at distance at least r from each other. We focus on
high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate r-nets with respect to Euclidean distance. Our algorithm follows a
recent approach by Valiant in reducing the problem to multi-point evaluation of polynomials.
We propose simple and efficient data structures, based on randomized projections, for a notion of distance between discretized curves,
which generalizes both discrete Fréchet and Dynamic Time Warping distance functions.
We offer the first data structures and query algorithms for the approximate nearest neighbor problem with arbitrarily good approximation factor, at the expense of increasing space
usage and preprocessing time over existing methods.
We propose simple and efficient data structures,
based on random partitions, for the discrete Fréchet distance, in the short query regime.
The data structures are especially efficient when queries are much shorter than the polygonal curves which belong to the dataset. We also study the problem for arbitrary metrics
with bounded doubling dimension.
The Vapnik-Chervonenkis dimension provides
a notion of complexity for set or range systems. We analyze range systems where the
ground set is a set of polygonal curves in the Euclidean space and the ranges are metric balls defined by curve dissimilarity measures, such as the Fréchet distance and the
Hausdorff distance. Direct implications follow by applying known sampling bounds
Fine-grained complexity and algorithm engineering of geometric similarity measures
Point sets and sequences are fundamental geometric objects that arise in any application that considers movement data, geometric shapes, and many more. A crucial task on these objects is to measure their similarity. Therefore, this thesis presents results on algorithms, complexity lower bounds, and algorithm engineering of the most important point set and sequence similarity measures like the Fréchet distance, the Fréchet distance under translation, and the Hausdorff distance under translation. As an extension to the mere computation of similarity, also the approximate near neighbor problem for the continuous Fréchet distance on time series is considered and matching upper and lower bounds are shown.Punktmengen und Sequenzen sind fundamentale geometrische Objekte, welche in vielen Anwendungen auftauchen, insbesondere in solchen die Bewegungsdaten, geometrische Formen, und ähnliche Daten verarbeiten. Ein wichtiger Bestandteil dieser Anwendungen ist die Berechnung der Ähnlichkeit von Objekten. Diese Dissertation präsentiert Resultate, genauer gesagt Algorithmen, untere Komplexitätsschranken und Algorithm Engineering der wichtigsten Ähnlichkeitsmaße für Punktmengen und Sequenzen, wie zum Beispiel Fréchetdistanz, Fréchetdistanz unter Translation und Hausdorffdistanz unter Translation. Als eine Erweiterung der bloßen Berechnung von Ähnlichkeit betrachten wir auch das Near Neighbor Problem für die kontinuierliche Fréchetdistanz auf Zeitfolgen und zeigen obere und untere Schranken dafür
Faster Fr\'echet Distance Approximation through Truncated Smoothing
The Fr\'echet distance is a popular distance measure for curves. Computing
the Fr\'echet distance between two polygonal curves of vertices takes
roughly quadratic time, and conditional lower bounds suggest that even
approximating to within a factor cannot be done in strongly-subquadratic
time, even in one dimension. The current best approximation algorithms present
trade-offs between approximation quality and running time. Recently, van der
Horst (SODA, 2023) presented an
time -approximate algorithm for curves in arbitrary dimensions, for any
. Our main contribution is an approximation algorithm for
curves in one dimension, with a significantly faster running time of . Additionally, we give an
algorithm for curves in arbitrary dimensions that improves upon the
state-of-the-art running time by a logarithmic factor, to . Both of our algorithms rely on a linear-time simplification
procedure that in one dimension reduces the complexity of the reachable free
space to without making sacrifices in the asymptotic
approximation factor.Comment: 27 pages, 11 figure