37 research outputs found

    Faster tuple lattice sieving using spherical locality-sensitive filters

    Get PDF
    To overcome the large memory requirement of classical lattice sieving algorithms for solving hard lattice problems, Bai-Laarhoven-Stehl\'{e} [ANTS 2016] studied tuple lattice sieving, where tuples instead of pairs of lattice vectors are combined to form shorter vectors. Herold-Kirshanova [PKC 2017] recently improved upon their results for arbitrary tuple sizes, for example showing that a triple sieve can solve the shortest vector problem (SVP) in dimension dd in time 20.3717d+o(d)2^{0.3717d + o(d)}, using a technique similar to locality-sensitive hashing for finding nearest neighbors. In this work, we generalize the spherical locality-sensitive filters of Becker-Ducas-Gama-Laarhoven [SODA 2016] to obtain space-time tradeoffs for near neighbor searching on dense data sets, and we apply these techniques to tuple lattice sieving to obtain even better time complexities. For instance, our triple sieve heuristically solves SVP in time 20.3588d+o(d)2^{0.3588d + o(d)}. For practical sieves based on Micciancio-Voulgaris' GaussSieve [SODA 2010], this shows that a triple sieve uses less space and less time than the current best near-linear space double sieve.Comment: 12 pages + references, 2 figures. Subsumed/merged into Cryptology ePrint Archive 2017/228, available at https://ia.cr/2017/122

    Lower Bounds for Oblivious Near-Neighbor Search

    Get PDF
    We prove an Ω(dlgn/(lglgn)2)\Omega(d \lg n/ (\lg\lg n)^2) lower bound on the dynamic cell-probe complexity of statistically oblivious\mathit{oblivious} approximate-near-neighbor search (ANN\mathsf{ANN}) over the dd-dimensional Hamming cube. For the natural setting of d=Θ(logn)d = \Theta(\log n), our result implies an Ω~(lg2n)\tilde{\Omega}(\lg^2 n) lower bound, which is a quadratic improvement over the highest (non-oblivious) cell-probe lower bound for ANN\mathsf{ANN}. This is the first super-logarithmic unconditional\mathit{unconditional} lower bound for ANN\mathsf{ANN} against general (non black-box) data structures. We also show that any oblivious static\mathit{static} data structure for decomposable search problems (like ANN\mathsf{ANN}) can be obliviously dynamized with O(logn)O(\log n) overhead in update and query time, strengthening a classic result of Bentley and Saxe (Algorithmica, 1980).Comment: 28 page

    Faster tuple lattice sieving using spherical locality-sensitive filters

    Get PDF
    To overcome the large memory requirement of classical lattice sieving algorithms for solving hard lattice problems, Bai-Laarhoven-Stehlé [ANTS 2016] studied tuple lattice sieving, where tuples instead of pairs of lattice vectors are combined to form shorter vectors. Herold-Kirshanova [PKC 2017] recently improved upon their results for arbitrary tuple sizes, for example showing that a triple sieve can solve the shortest vector problem (SVP) in dimension dd in time 20.3717d+o(d)2^{0.3717d + o(d)}, using a technique similar to locality-sensitive hashing for finding nearest neighbors. In this work, we generalize the spherical locality-sensitive filters of Becker-Ducas-Gama-Laarhoven [SODA 2016] to obtain space-time tradeoffs for near neighbor searching on dense data sets, and we apply these techniques to tuple lattice sieving to obtain even better time complexities. For instance, our triple sieve heuristically solves SVP in time 20.3588d+o(d)2^{0.3588d + o(d)}. For practical sieves based on Micciancio-Voulgaris' GaussSieve [SODA 2010], this shows that a triple sieve uses less space and less time than the current best near-linear space double sieve

    Large-scale image retrieval using similarity preserving binary codes

    Get PDF
    Image retrieval is a fundamental problem in computer vision, and has many applications. When the dataset size gets very large, retrieving images in Internet image collections becomes very challenging. The challenges come from storage, computation speed, and similarity representation. My thesis addresses learning compact similarity preserving binary codes, which represent each image by a short binary string, for fast retrieval in large image databases. I will first present an approach called Iterative Quantization to convert high-dimensional vectors to compact binary codes, which works by learning a rotation to minimize the quantization error of mapping data to the vertices of a binary Hamming cube. This approach achieves state-of-the-art accuracy for preserving neighbors in the original feature space, as well as state-of-the-art semantic precision. Second, I will extend this approach to two different scenarios in large-scale recognition and retrieval problems. The first extension is aimed at high-dimensional histogram data, such as bag-of-words features or text documents. Such vectors are typically sparse and nonnegative. I develop an algorithm that explores the special structure of such data by mapping feature vectors to binary vertices in the positive orthant, which gives improved performance. The second extension is for Fisher Vectors, which are dense descriptors having tens of thousands to millions of dimensions. I develop a novel method for converting such descriptors to compact similarity-preserving binary codes that exploits their natural matrix structure to reduce their dimensionality using compact bilinear projections instead of a single large projection matrix. This method achieves retrieval and classification accuracy comparable to that of the original descriptors and to the state-of-the-art Product Quantization approach while having orders of magnitude faster code generation time and smaller memory footprint. Finally, I present two applications of using Internet images and tags/labels to learn binary codes with label supervision, and show improved retrieval accuracy on several large Internet image datasets. First, I will present an application that performs cross-modal retrieval in the Hamming space. Then I will present an application on using supervised binary classeme representations for large-scale image retrieval.Doctor of Philosoph

    A monotone discretization for integral fractional Laplacian on bounded Lipschitz domains: Pointwise error estimates under H\"{o}lder regularity

    Full text link
    We propose a monotone discretization for the integral fractional Laplace equation on bounded Lipschitz domains with the homogeneous Dirichlet boundary condition. The method is inspired by a quadrature-based finite difference method of Huang and Oberman, but is defined on unstructured grids in arbitrary dimensions with a more flexible domain for approximating singular integral. The scale of the singular integral domain not only depends on the local grid size, but also on the distance to the boundary, since the H\"{o}lder coefficient of the solution deteriorates as it approaches the boundary. By using a discrete barrier function that also reflects the distance to the boundary, we show optimal pointwise convergence rates in terms of the H\"{o}lder regularity of the data on both quasi-uniform and graded grids. Several numerical examples are provided to illustrate the sharpness of the theoretical results

    Geometric Proximity Problems in High Dimensions

    Get PDF
    Τα γεωμετρικά προβλήματα εγγύτητας είναι μια κλάση προβλημάτων στην υπολογιστική γεωμετρία που περιλαμβάνει την εκτίμηση αποστάσεων μεταξύ γεωμετρικών αντικειμένων. Σε αυτή την εργασία, εστιάζουμε σε δύο συγκεκριμένα προβλήματα της κλάσης αυτής, τον υπολογισμό των ρ-δικτύων και το πρόβλημα απόφασης του κοντινότερου γείτονα σε χώρους υψηλών διαστάσεων υπό την Ευκλείδεια απόσταση, τα οποία αποτελούν ισχυρά εργαλεία στην υπολογιστική και τη μετρική γεωμετρία. Συγκεκριμένα, παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο που υπολογίζει αποδοτικά προσεγγιστικά ρ-δίκτυα ως προς την Ευκλείδια απόσταση. Για οποιοδήποτε σταθερό ε>0, ο προσεγγιστικός παράγοντας είναι 1+ε και η πολυπλοκότητα πολυωνυμική στη διάσταση και υποτετραγωνική στο πλήθος των σημείων. Ο αλγόριθμος επιτυγχάνει με μεγάλη πιθανότητα. Βελτιώνουμε ως προς την πολυπλοκότητα την προηγούμενη καλύτερη γνωστή κατασκευή του Eppstein που βασιζόταν στο LSH, μειώνοντας την εξάρτηση από το ε δεδομένου ότι το ε είναι επαρκώς μικρό. Η μέθοδός μας δεν χρησιμοποιεί το LSH, αλλά αντί αυτού ακολουθεί την προσέγγιση του Valiant, σχεδιάζοντας μια σειρά από αναγωγές του προβλήματός μας σε άλλα προβλήματα σε διαφορετικούς χώρους, υπό την Ευκλείδεια απόσταση ή το εσωτερικό γινόμενο, για τα οποία τα ρ-δίκτυα υπολογίζονται αποδοτικά και το σφάλμα μπορεί να ελεγχθεί. Το αποτέλεσμά μας άμεσα συνεπάγεται αποδοτικές λύσεις σε ένα πλήθος γεωμετρικών προβλημάτων σε υψηλές διαστάσεις, όπως η εύρεση της απόστασης του (1+ε)-προσεγγιστικού κ-κοντινότερου γείτονα σε χρόνο υποτετραγωνικό στο μέγεθος της εισόδου. Επιπλέον, προτείνουμε μια νέα και απλή στην κατασκευή βάση δεδομένων για το πρόβλημα απόφασης του δ-προσεγγιστικού κοντινότερου γείτονα σε χώρους υψηλών διαστάσεων, χρησιμοποιώντας γραμμικό χώρο και υπογραμμικό χρόνο ερώτησης για οποιοδήποτε δ>1: δεδομένης μιας οικογένειας LSH συναρτήσεων για έναν μετρικό χώρο, προβάλουμε τυχαία τα σημεία σε κόμβους του κύβου Hamming διάστασης ≤ logν, όπου ν είναι ο αριθμός των σημείων εισόδου. Ο προβαλλόμενος χώρος περιέχει συμβολοσειρές που λειτουργούν ως κλειδιά για τους «κουβάδες» που περιέχουν τα σημεία της εισόδου. Ο αλγόριθμος ερώτησης απλά προβάλει το σημείο-ερώτηση κι έπειτα εξετάζει τα σημεία που έχουν αντιστοιχηθεί στον ίδιο ή διπλανό κόμβο του κύβου Hamming. Αναλύουμε λεπτομερώς τη χρονική πολυπλοκότητα της ερώτησης για κάποιες βασικές οικογένειες LSH.Geometric proximity problems is a class of problems in computational geometry that involve estimation of distances between geometric objects. In this work, we focus on two specific problems of this class, the computation of r-nets and the near neighbor decision problem on high dimensional spaces under the Euclidean distance, both of which are powerful tools in computational and metric geometry. Specifically, we present a new randomized algorithm which efficiently computes high dimensional approximate r-nets with respect to Euclidean distance. For any fixed ε>0, the approximation factor is 1+ε and the complexity is polynomial in the dimension and subquadratic in the number of points; the algorithm succeeds with high probability. We improve upon the best previously known (LSH-based) construction of Eppstein et al. in terms of complexity, by reducing the dependence on ε, provided that εis sufficiently small. Moreover, our method does not require LSH but follows Valiant's approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which r-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1+ε)-approximate k-th nearest neighbor distance in time subquadratic in the size of the input. Additionally, we propose a new and simple data structure for the c-approximate near neighbor decision problem in high-dimensional spaces using linear space and sublinear query time for any c>1: given an LSH family of functions for some metric space, we randomly project points to vertices of the Hamming cube in dimension ≤log n, where n is the number of input points. The projected space contains strings which serve as keys for buckets containing the input points. The query algorithm simply projects the query point, then examines points which are assigned to the same or nearby vertices on the Hamming cube. We analyze in detail the query time for some standard LSH families

    High dimensional Approximate r-nets with emphasis on vectors on a unit hypercube

    Get PDF
    Σε αυτή τη διπλωματική, παρουσιάζουμε έναν αλγόριθμο για την κατασκευή προσεγγιστικών rr-nets σε Ευκλείδιο χώρο υψηλής διάστασης. Δεδομένου ενός μετρικού χώρου X,X=nX,|X|=n, ένα rr-net είναι ένα υποσύνολο NΝ των αρχικών σημείων, τέτοιο ώστε τα σημεία που ανήκουν στο NΝ έχουν απόσταση τουλάχιστον rr, και όλα τα υπόλοιπα σημεία του σημειοσυνόλου απέχουν απόσταση από τα σημεία του NΝ το πολύ r.r. Για την κατασκευή rr-net, έχουν προταθεί διάφοροι αλγόριθμοι, οι οποίοι έχουν χρόνο τερματισμού τετραγωνικό στο πλήθος του σημειοσυνόλου ή εκθετικό στη διάσταση του μετρικού χώρου, με ανάλυση χειρότερης περίπτωσης. Οι τεχνικές που χρησιμοποιούνται συχνότερα είναι αυτή της άπληστης μεθόδου, καθώς και της δημιουργίας πλεγμάτων σε συνδυασμό με κατακερματισμό και κουβάδιασμα. Τέτοιοι αλγόριθμοι δεν μπορούν να θεωρηθούν αποδοτικοί σε περιπτώσεις μεγάλου πλήθους σημείων και σε περιπτώσεις μετρικών χώρων με υψηλή διάσταση. Μια αποδοτική προσέγγιση για το πρόβλημα της κατασκευής rr-net σε υψηλή διάσταση είναι ο αλγόριθμος των \cite{EHS15}, οποίος βασίζεται στο LSH (Locality Sensitive Hashing). Ο αλγόριθμός τους είναι πιθανοκρατικός και υπολογίζει προσεγγιστικά rr-net, με μεγάλη πιθανότητα. O προσεγγιστικός λόγος είναι 1+ϵ1+\epsilon, για κάθε \epsilon>0, και η χρονική πολυπλοκότητα είναι O~(dn2Θ(ϵ))\tilde{O}(dn^{2-\Theta({\epsilon})}), για κατάλληλα μικρά ϵ\epsilon, όπου το O~\tilde{O} κρύβει πολυλογαριθμικούς παράγοντες. Ο αλγόριθμος που αναπτύσσουμε για την κατασκευή rr-nets βελτιώνει το αποτέλεσμα των \cite{EHS15} όσο αφορά την εξάρτηση από το ϵ\epsilon, για κατάλληλα μικρά ϵ\epsilon. Συγκεκριμένα, η πολυπλοκλότητα του αλγορίθμου είναι O~(dn2Θ(ϵ))\tilde{O}(dn^{2-\Theta(\sqrt{\epsilon})}) και υπολογίζει (1+ϵ)r(1+\epsilon)r-nets με μεγάλη πιθανότητα. Επιπλέον, η μέθοδος που χρησιμοποιούμε δεν βασίζεται στο LSH, αντιθέτως εκμεταλλεύεται φαινόμενα που εμφανίζονται σε υψηλές διαστάσεις. Η προσέγγισή μας ακολουθεί αυτή του Valiant \cite{Val15}, για την επίλυση του προβλήματος του προσεγγιστικά κοντινότερου γείτονα. Αρχικά ανάγουμε το πρόβλημά του υπολογισμολού του rr-net για αυθαίρετα διανύσματα με Ευκλείδια απόσταση στο ίδιο πρόβλημα για μοναδιαία διανύσματα και ακολουθούν διάφορες μετατροπές του προβλήματος όπως μετασχηματισμοί των μοναδιαίων διανυσμάτων σε διανύσματα με στοιχεία 1 ή -1, μετάφραση της Ευκλείδιας απόστασης σε εσωτερικό γινόμενο, και εμβάπτιση του σημειοσυνόλου έτσι ώστε να μπορούμε να ξεχωρίσουμε "μακρινά" και "κοντινά" σημεία. Όλες αυτές οι αναγωγές απαιτούν αποδείξεις ορθότητας, που εγγυώνται ότι θα έχουμε το επιθυμητό αποτέλεσμα, με μεγάλη πιθανότητα, και ότι το συσσωρευτικό σφάλμα, που προκύπτει από την ακολουθία των μετασχηματισμών, είναι στα επιτρεπτά όρια. Στο τελικό στάδιο του αλγορίθμου εκμεταλλευόμαστε γρήγορο πολλαπλασιασμό πινάκων. Ο αλγόριθμός μας μπορεί να χρησιμoποιηθεί σαν υπορουτίνα στο πλαίσιο Net and Prune και να επιλύσει αποδοτικά σε χώρο υψηλής διάστάσης προβλήματα, όπως το kk-center και kk-th nearest neighbor distance.The construction of rr-nets offers a powerful tool in computational and metric geometry. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate rr-nets with respect to Euclidean distance. For any fixed \epsilon>0, the approximation factor is 1+ϵ1+\epsilon and the complexity is polynomial in the dimension and subquadratic in the number of points. The algorithm succeeds with high probability. More specifically, the best previously known LSH-based construction of Eppstein et al.\ \cite{EHS15} is improved in terms of complexity by reducing the dependence on ϵ\epsilon, provided that ϵ\epsilon is sufficiently small. Our method does not require LSH but, instead, follows Valiant's \cite{Val15} approach in designing a sequence of reductions of our problem to other problems in different spaces, under Euclidean distance or inner product, for which rr-nets are computed efficiently and the error can be controlled. Our result immediately implies efficient solutions to a number of geometric problems in high dimension, such as finding the (1+ϵ)(1+\epsilon)-approximate kkth nearest neighbor distance in time subquadratic in the size of the input

    Efficient Fuzzy Search on Encrypted Data

    Get PDF
    We study the problem of efficient (sub-linear) fuzzy search on encrypted outsourced data, in the symmetric-key setting. In particular, a user who stores encrypted data on a remote untrusted server forms queries that enable the server to efficiently locate the records containing the requested keywords, even though the user may misspell keywords or provide noisy data in the query. We define an appropriate primitive for a general \emph{closeness} function on the message space that we call \emph{efficiently fuzzy-searchable encryption} (\emph{EFSE}). Next we identify an optimal security notion for EFSE. We demonstrate that existing schemes do not meet our security definition and propose a new scheme that we prove secure under basic assumptions. Unfortunately, the scheme requires large ciphertext length, but we show that, in a sense, this space-inefficiency is unavoidable for a general, optimally-secure scheme. Seeking the right balance between efficiency and security, we then show how to construct schemes that are more efficient and satisfy a weaker security notion that we propose. To illustrate, we present and analyze a more space-efficient scheme for supporting fuzzy search on biometric data that achieves the weaker notion

    Multi-Resolution Hashing for Fast Pairwise Summations

    Full text link
    A basic computational primitive in the analysis of massive datasets is summing simple functions over a large number of objects. Modern applications pose an additional challenge in that such functions often depend on a parameter vector yy (query) that is unknown a priori. Given a set of points XRdX\subset \mathbb{R}^{d} and a pairwise function w:Rd×Rd[0,1]w:\mathbb{R}^{d}\times \mathbb{R}^{d}\to [0,1], we study the problem of designing a data-structure that enables sublinear-time approximation of the summation Zw(y)=1XxXw(x,y)Z_{w}(y)=\frac{1}{|X|}\sum_{x\in X}w(x,y) for any query yRdy\in \mathbb{R}^{d}. By combining ideas from Harmonic Analysis (partitions of unity and approximation theory) with Hashing-Based-Estimators [Charikar, Siminelakis FOCS'17], we provide a general framework for designing such data structures through hashing that reaches far beyond what previous techniques allowed. A key design principle is a collection of T1T\geq 1 hashing schemes with collision probabilities p1,,pTp_{1},\ldots, p_{T} such that supt[T]{pt(x,y)}=Θ(w(x,y))\sup_{t\in [T]}\{p_{t}(x,y)\} = \Theta(\sqrt{w(x,y)}). This leads to a data-structure that approximates Zw(y)Z_{w}(y) using a sub-linear number of samples from each hash family. Using this new framework along with Distance Sensitive Hashing [Aumuller, Christiani, Pagh, Silvestri PODS'18], we show that such a collection can be constructed and evaluated efficiently for any log-convex function w(x,y)=eϕ(x,y)w(x,y)=e^{\phi(\langle x,y\rangle)} of the inner product on the unit sphere x,ySd1x,y\in \mathcal{S}^{d-1}. Our method leads to data structures with sub-linear query time that significantly improve upon random sampling and can be used for Kernel Density or Partition Function Estimation. We provide extensions of our result from the sphere to Rd\mathbb{R}^{d} and from scalar functions to vector functions.Comment: 39 pages, 3 figure
    corecore