6 research outputs found

    High-dimensional approximate r-nets

    Get PDF
    International audienceThe construction of r-nets offers a powerful tool in computational and metric geometry. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate rr-nets with respect to Euclidean distance. For any fixed \epsilon>0, the approximation factor is 1+\epsilon and the complexity is polynomial in the dimension and subquadratic in the number of points. The algorithm succeeds with high probability. More specifically, the best previously known LSH-based construction of Eppstein et al. [EHS15] is improved in terms of complexity by reducing the dependence on \epsilon, provided that ϵ\epsilon is sufficiently small. Our method does not require LSH but, instead, follows Valiant's [Val15] approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which r-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1+\epsilon)-approximate k-th nearest neighbor distance in time subquadratic in the size of the input

    High dimensional Approximate r-nets with emphasis on vectors on a unit hypercube

    Get PDF
    Σε αυτή τη διπλωματική, παρουσιάζουμε έναν αλγόριθμο για την κατασκευή προσεγγιστικών rr-nets σε Ευκλείδιο χώρο υψηλής διάστασης. Δεδομένου ενός μετρικού χώρου X,X=nX,|X|=n, ένα rr-net είναι ένα υποσύνολο NΝ των αρχικών σημείων, τέτοιο ώστε τα σημεία που ανήκουν στο NΝ έχουν απόσταση τουλάχιστον rr, και όλα τα υπόλοιπα σημεία του σημειοσυνόλου απέχουν απόσταση από τα σημεία του NΝ το πολύ r.r. Για την κατασκευή rr-net, έχουν προταθεί διάφοροι αλγόριθμοι, οι οποίοι έχουν χρόνο τερματισμού τετραγωνικό στο πλήθος του σημειοσυνόλου ή εκθετικό στη διάσταση του μετρικού χώρου, με ανάλυση χειρότερης περίπτωσης. Οι τεχνικές που χρησιμοποιούνται συχνότερα είναι αυτή της άπληστης μεθόδου, καθώς και της δημιουργίας πλεγμάτων σε συνδυασμό με κατακερματισμό και κουβάδιασμα. Τέτοιοι αλγόριθμοι δεν μπορούν να θεωρηθούν αποδοτικοί σε περιπτώσεις μεγάλου πλήθους σημείων και σε περιπτώσεις μετρικών χώρων με υψηλή διάσταση. Μια αποδοτική προσέγγιση για το πρόβλημα της κατασκευής rr-net σε υψηλή διάσταση είναι ο αλγόριθμος των \cite{EHS15}, οποίος βασίζεται στο LSH (Locality Sensitive Hashing). Ο αλγόριθμός τους είναι πιθανοκρατικός και υπολογίζει προσεγγιστικά rr-net, με μεγάλη πιθανότητα. O προσεγγιστικός λόγος είναι 1+ϵ1+\epsilon, για κάθε \epsilon>0, και η χρονική πολυπλοκότητα είναι O~(dn2Θ(ϵ))\tilde{O}(dn^{2-\Theta({\epsilon})}), για κατάλληλα μικρά ϵ\epsilon, όπου το O~\tilde{O} κρύβει πολυλογαριθμικούς παράγοντες. Ο αλγόριθμος που αναπτύσσουμε για την κατασκευή rr-nets βελτιώνει το αποτέλεσμα των \cite{EHS15} όσο αφορά την εξάρτηση από το ϵ\epsilon, για κατάλληλα μικρά ϵ\epsilon. Συγκεκριμένα, η πολυπλοκλότητα του αλγορίθμου είναι O~(dn2Θ(ϵ))\tilde{O}(dn^{2-\Theta(\sqrt{\epsilon})}) και υπολογίζει (1+ϵ)r(1+\epsilon)r-nets με μεγάλη πιθανότητα. Επιπλέον, η μέθοδος που χρησιμοποιούμε δεν βασίζεται στο LSH, αντιθέτως εκμεταλλεύεται φαινόμενα που εμφανίζονται σε υψηλές διαστάσεις. Η προσέγγισή μας ακολουθεί αυτή του Valiant \cite{Val15}, για την επίλυση του προβλήματος του προσεγγιστικά κοντινότερου γείτονα. Αρχικά ανάγουμε το πρόβλημά του υπολογισμολού του rr-net για αυθαίρετα διανύσματα με Ευκλείδια απόσταση στο ίδιο πρόβλημα για μοναδιαία διανύσματα και ακολουθούν διάφορες μετατροπές του προβλήματος όπως μετασχηματισμοί των μοναδιαίων διανυσμάτων σε διανύσματα με στοιχεία 1 ή -1, μετάφραση της Ευκλείδιας απόστασης σε εσωτερικό γινόμενο, και εμβάπτιση του σημειοσυνόλου έτσι ώστε να μπορούμε να ξεχωρίσουμε "μακρινά" και "κοντινά" σημεία. Όλες αυτές οι αναγωγές απαιτούν αποδείξεις ορθότητας, που εγγυώνται ότι θα έχουμε το επιθυμητό αποτέλεσμα, με μεγάλη πιθανότητα, και ότι το συσσωρευτικό σφάλμα, που προκύπτει από την ακολουθία των μετασχηματισμών, είναι στα επιτρεπτά όρια. Στο τελικό στάδιο του αλγορίθμου εκμεταλλευόμαστε γρήγορο πολλαπλασιασμό πινάκων. Ο αλγόριθμός μας μπορεί να χρησιμoποιηθεί σαν υπορουτίνα στο πλαίσιο Net and Prune και να επιλύσει αποδοτικά σε χώρο υψηλής διάστάσης προβλήματα, όπως το kk-center και kk-th nearest neighbor distance.The construction of rr-nets offers a powerful tool in computational and metric geometry. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate rr-nets with respect to Euclidean distance. For any fixed \epsilon>0, the approximation factor is 1+ϵ1+\epsilon and the complexity is polynomial in the dimension and subquadratic in the number of points. The algorithm succeeds with high probability. More specifically, the best previously known LSH-based construction of Eppstein et al.\ \cite{EHS15} is improved in terms of complexity by reducing the dependence on ϵ\epsilon, provided that ϵ\epsilon is sufficiently small. Our method does not require LSH but, instead, follows Valiant's \cite{Val15} approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which rr-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1+ϵ)(1+\epsilon)-approximate kkth nearest neighbor distance in time subquadratic in the size of the input

    High Dimensional Clustering with rr-nets

    Full text link
    Clustering, a fundamental task in data science and machine learning, groups a set of objects in such a way that objects in the same cluster are closer to each other than to those in other clusters. In this paper, we consider a well-known structure, so-called rr-nets, which rigorously captures the properties of clustering. We devise algorithms that improve the run-time of approximating rr-nets in high-dimensional spaces with 1\ell_1 and 2\ell_2 metrics from O~(dn2Θ(ϵ))\tilde{O}(dn^{2-\Theta(\sqrt{\epsilon})}) to O~(dn+n2α)\tilde{O}(dn + n^{2-\alpha}), where α=Ω(ϵ1/3/log(1/ϵ))\alpha = \Omega({\epsilon^{1/3}}/{\log(1/\epsilon)}). These algorithms are also used to improve a framework that provides approximate solutions to other high dimensional distance problems. Using this framework, several important related problems can also be solved efficiently, e.g., (1+ϵ)(1+\epsilon)-approximate kkth-nearest neighbor distance, (4+ϵ)(4+\epsilon)-approximate Min-Max clustering, (4+ϵ)(4+\epsilon)-approximate kk-center clustering. In addition, we build an algorithm that (1+ϵ)(1+\epsilon)-approximates greedy permutations in time O~((dn+n2α)logΦ)\tilde{O}((dn + n^{2-\alpha}) \cdot \log{\Phi}) where Φ\Phi is the spread of the input. This algorithm is used to (2+ϵ)(2+\epsilon)-approximate kk-center with the same time complexity.Comment: Accepted by AAAI201

    Geometric Proximity Problems in High Dimensions

    Get PDF
    Τα γεωμετρικά προβλήματα εγγύτητας είναι μια κλάση προβλημάτων στην υπολογιστική γεωμετρία που περιλαμβάνει την εκτίμηση αποστάσεων μεταξύ γεωμετρικών αντικειμένων. Σε αυτή την εργασία, εστιάζουμε σε δύο συγκεκριμένα προβλήματα της κλάσης αυτής, τον υπολογισμό των ρ-δικτύων και το πρόβλημα απόφασης του κοντινότερου γείτονα σε χώρους υψηλών διαστάσεων υπό την Ευκλείδεια απόσταση, τα οποία αποτελούν ισχυρά εργαλεία στην υπολογιστική και τη μετρική γεωμετρία. Συγκεκριμένα, παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο που υπολογίζει αποδοτικά προσεγγιστικά ρ-δίκτυα ως προς την Ευκλείδια απόσταση. Για οποιοδήποτε σταθερό ε>0, ο προσεγγιστικός παράγοντας είναι 1+ε και η πολυπλοκότητα πολυωνυμική στη διάσταση και υποτετραγωνική στο πλήθος των σημείων. Ο αλγόριθμος επιτυγχάνει με μεγάλη πιθανότητα. Βελτιώνουμε ως προς την πολυπλοκότητα την προηγούμενη καλύτερη γνωστή κατασκευή του Eppstein που βασιζόταν στο LSH, μειώνοντας την εξάρτηση από το ε δεδομένου ότι το ε είναι επαρκώς μικρό. Η μέθοδός μας δεν χρησιμοποιεί το LSH, αλλά αντί αυτού ακολουθεί την προσέγγιση του Valiant, σχεδιάζοντας μια σειρά από αναγωγές του προβλήματός μας σε άλλα προβλήματα σε διαφορετικούς χώρους, υπό την Ευκλείδεια απόσταση ή το εσωτερικό γινόμενο, για τα οποία τα ρ-δίκτυα υπολογίζονται αποδοτικά και το σφάλμα μπορεί να ελεγχθεί. Το αποτέλεσμά μας άμεσα συνεπάγεται αποδοτικές λύσεις σε ένα πλήθος γεωμετρικών προβλημάτων σε υψηλές διαστάσεις, όπως η εύρεση της απόστασης του (1+ε)-προσεγγιστικού κ-κοντινότερου γείτονα σε χρόνο υποτετραγωνικό στο μέγεθος της εισόδου. Επιπλέον, προτείνουμε μια νέα και απλή στην κατασκευή βάση δεδομένων για το πρόβλημα απόφασης του δ-προσεγγιστικού κοντινότερου γείτονα σε χώρους υψηλών διαστάσεων, χρησιμοποιώντας γραμμικό χώρο και υπογραμμικό χρόνο ερώτησης για οποιοδήποτε δ>1: δεδομένης μιας οικογένειας LSH συναρτήσεων για έναν μετρικό χώρο, προβάλουμε τυχαία τα σημεία σε κόμβους του κύβου Hamming διάστασης ≤ logν, όπου ν είναι ο αριθμός των σημείων εισόδου. Ο προβαλλόμενος χώρος περιέχει συμβολοσειρές που λειτουργούν ως κλειδιά για τους «κουβάδες» που περιέχουν τα σημεία της εισόδου. Ο αλγόριθμος ερώτησης απλά προβάλει το σημείο-ερώτηση κι έπειτα εξετάζει τα σημεία που έχουν αντιστοιχηθεί στον ίδιο ή διπλανό κόμβο του κύβου Hamming. Αναλύουμε λεπτομερώς τη χρονική πολυπλοκότητα της ερώτησης για κάποιες βασικές οικογένειες LSH.Geometric proximity problems is a class of problems in computational geometry that involve estimation of distances between geometric objects. In this work, we focus on two specific problems of this class, the computation of r-nets and the near neighbor decision problem on high dimensional spaces under the Euclidean distance, both of which are powerful tools in computational and metric geometry. Specifically, we present a new randomized algorithm which efficiently computes high dimensional approximate r-nets with respect to Euclidean distance. For any fixed ε>0, the approximation factor is 1+ε and the complexity is polynomial in the dimension and subquadratic in the number of points; the algorithm succeeds with high probability. We improve upon the best previously known (LSH-based) construction of Eppstein et al. in terms of complexity, by reducing the dependence on ε, provided that εis sufficiently small. Moreover, our method does not require LSH but follows Valiant's approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which r-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1+ε)-approximate k-th nearest neighbor distance in time subquadratic in the size of the input. Additionally, we propose a new and simple data structure for the c-approximate near neighbor decision problem in high-dimensional spaces using linear space and sublinear query time for any c>1: given an LSH family of functions for some metric space, we randomly project points to vertices of the Hamming cube in dimension ≤log n, where n is the number of input points. The projected space contains strings which serve as keys for buckets containing the input points. The query algorithm simply projects the query point, then examines points which are assigned to the same or nearby vertices on the Hamming cube. We analyze in detail the query time for some standard LSH families

    High-Dimensional Approximate r-Nets

    No full text
    The construction of r-nets offers a powerful tool in computational and metric geometry. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate r-nets with respect to Euclidean distance. For any fixed ϵ> 0 , the approximation factor is 1 + ϵ and the complexity is polynomial in the dimension and subquadratic in the number of points; the algorithm succeeds with high probability. Specifically, we improve upon the best previously known (LSH-based) construction of Eppstein et al. (Approximate greedy clustering and distance selection for graph metrics, 2015. CoRR arxiv: abs/1507.01555) in terms of complexity, by reducing the dependence on ϵ, provided that ϵ is sufficiently small. Moreover, our method does not require LSH but follows Valiant’s (J ACM 62(2):13, 2015. https://doi.org/10.1145/2728167) approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which r-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1 + ϵ) -approximate k-th nearest neighbor distance in time subquadratic in the size of the input. © 2020, Springer Science+Business Media, LLC, part of Springer Nature

    High-Dimensional Approximate r-Nets

    No full text
    International audienceThe construction of r-nets offers a powerful tool in computational and metric geometry. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate r-nets with respect to Euclidean distance. For any fixed ϵ>0, the approximation factor is 1+ϵ and the complexity is polynomial in the dimension and subquadratic in the number of points; the algorithm succeeds with high probability. Specifically, we improve upon the best previously known (LSH-based) construction of Eppstein et al. (Approximate greedy clustering and distance selection for graph metrics, 2015. CoRR arxiv: abs/1507.01555) in terms of complexity, by reducing the dependence on ϵ, provided that ϵ is sufficiently small. Moreover, our method does not require LSH but follows Valiant’s (J ACM 62(2):13, 2015. https://doi.org/10.1145/2728167) approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which r-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1+ϵ)-approximate k-th nearest neighbor distance in time subquadratic in the size of the input
    corecore