131 research outputs found
Bounding Embeddings of VC Classes into Maximum Classes
One of the earliest conjectures in computational learning theory-the Sample
Compression conjecture-asserts that concept classes (equivalently set systems)
admit compression schemes of size linear in their VC dimension. To-date this
statement is known to be true for maximum classes---those that possess maximum
cardinality for their VC dimension. The most promising approach to positively
resolving the conjecture is by embedding general VC classes into maximum
classes without super-linear increase to their VC dimensions, as such
embeddings would extend the known compression schemes to all VC classes. We
show that maximum classes can be characterised by a local-connectivity property
of the graph obtained by viewing the class as a cubical complex. This geometric
characterisation of maximum VC classes is applied to prove a negative embedding
result which demonstrates VC-d classes that cannot be embedded in any maximum
class of VC dimension lower than 2d. On the other hand, we show that every VC-d
class C embeds in a VC-(d+D) maximum class where D is the deficiency of C,
i.e., the difference between the cardinalities of a maximum VC-d class and of
C. For VC-2 classes in binary n-cubes for 4 <= n <= 6, we give best possible
results on embedding into maximum classes. For some special classes of Boolean
functions, relationships with maximum classes are investigated. Finally we give
a general recursive procedure for embedding VC-d classes into VC-(d+k) maximum
classes for smallest k.Comment: 22 pages, 2 figure
Sign rank versus VC dimension
This work studies the maximum possible sign rank of sign
matrices with a given VC dimension . For , this maximum is {three}. For
, this maximum is . For , similar but
slightly less accurate statements hold. {The lower bounds improve over previous
ones by Ben-David et al., and the upper bounds are novel.}
The lower bounds are obtained by probabilistic constructions, using a theorem
of Warren in real algebraic topology. The upper bounds are obtained using a
result of Welzl about spanning trees with low stabbing number, and using the
moment curve.
The upper bound technique is also used to: (i) provide estimates on the
number of classes of a given VC dimension, and the number of maximum classes of
a given VC dimension -- answering a question of Frankl from '89, and (ii)
design an efficient algorithm that provides an multiplicative
approximation for the sign rank.
We also observe a general connection between sign rank and spectral gaps
which is based on Forster's argument. Consider the adjacency
matrix of a regular graph with a second eigenvalue of absolute value
and . We show that the sign rank of the signed
version of this matrix is at least . We use this connection to
prove the existence of a maximum class with VC
dimension and sign rank . This answers a question
of Ben-David et al.~regarding the sign rank of large VC classes. We also
describe limitations of this approach, in the spirit of the Alon-Boppana
theorem.
We further describe connections to communication complexity, geometry,
learning theory, and combinatorics.Comment: 33 pages. This is a revised version of the paper "Sign rank versus VC
dimension". Additional results in this version: (i) Estimates on the number
of maximum VC classes (answering a question of Frankl from '89). (ii)
Estimates on the sign rank of large VC classes (answering a question of
Ben-David et al. from '03). (iii) A discussion on the computational
complexity of computing the sign-ran
The universal Glivenko-Cantelli property
Let F be a separable uniformly bounded family of measurable functions on a
standard measurable space, and let N_{[]}(F,\epsilon,\mu) be the smallest
number of \epsilon-brackets in L^1(\mu) needed to cover F. The following are
equivalent:
1. F is a universal Glivenko-Cantelli class.
2. N_{[]}(F,\epsilon,\mu)0 and every probability
measure \mu.
3. F is totally bounded in L^1(\mu) for every probability measure \mu.
4. F does not contain a Boolean \sigma-independent sequence.
It follows that universal Glivenko-Cantelli classes are uniformity classes
for general sequences of almost surely convergent random measures.Comment: 26 page
Escaping the Curse of Spatial Partitioning: Matchings with Low Crossing Numbers and Their Applications
Given a set system (X, S), constructing a matching of X with low crossing number is a key tool in combinatorics and algorithms. In this paper we present a new sampling-based algorithm which is applicable to finite set systems. Let n = |X|, m = | S| and assume that X has a perfect matching M such that any set in ? crosses at most ? = ?(n^?) edges of M. In the case ? = 1- 1/d, our algorithm computes a perfect matching of X with expected crossing number at most 10 ?, in expected time O? (n^{2+(2/d)} + mn^(2/d)).
As an immediate consequence, we get improved bounds for constructing low-crossing matchings for a slew of both abstract and geometric problems, including many basic geometric set systems (e.g., balls in ?^d). This further implies improved algorithms for many well-studied problems such as construction of ?-approximations. Our work is related to two earlier themes: the work of Varadarajan (STOC \u2710) / Chan et al. (SODA \u2712) that avoids spatial partitionings for constructing ?-nets, and of Chan (DCG \u2712) that gives an optimal algorithm for matchings with respect to hyperplanes in ?^d.
Another major advantage of our method is its simplicity. An implementation of a variant of our algorithm in C++ is available on Github; it is approximately 200 lines of basic code without any non-trivial data-structure. Since the start of the study of matchings with low-crossing numbers with respect to half-spaces in the 1980s, this is the first implementation made possible for dimensions larger than 2
Proximity problems for high-dimensional data
Η εύρεση όμοιων αντικειμένων είναι ένα γενικό υπολογιστικό πρόβλημα που χρησιμεύει
ως υπορουτίνα για πολλά προβλήματα μηχανικής μάθησης όπως η συσταδοποίηση. Με
την πρόσφατη αύξηση της διαθεσιμότητας πολύπλοκων συνόλων δεδομένων, αυξήθηκε
η ανάγκη για την ανάλυση δεδομένων υψηλών διαστάσεων. Παρομοίως, παρατηρείται
αύξηση ενδιαφέροντος στις δομές δεδομένων για επεξεργασία καμπυλών, λόγω της αυ-
ξανόμενης διαθεσιμότητας και ποιότητας των δεδομένων τροχιάς από τα κινητά τηλέφωνα,
τους αισθητήρες GPS, την τεχνολογία RFID και την ανάλυση βίντεο.
Σε αυτή τη διατριβή, ερευνάμε προβλήματα εγγύτητας για διανύσματα μεγάλης διάστασης
και πολυγωνικές καμπύλες. Ο φυσικός τρόπος μέτρησης της ανομοιότητας μεταξύ δύο
διανυσμάτων είναι η αποτίμηση μιας συνάρτησης νόρμας για τη διανυσματική διαφορά
των δύο διανυσμάτων. Δημοφιλή παραδείγματα τέτοιων συναρτήσεων απόστασης είναι
η Ευκλείδεια απόσταση και η απόσταση Μανχάταν. Παρομοίως, υπάρχουν αρκετές καλά
μελετημένες συναρτήσεις απόστασης για πολυγωνικές καμπύλες, με κύριο παράδειγμα
την απόσταση Fréchet.
Το βασικό πρόβλημα, και για τους δύο τύπους δεδομένων, είναι το πρόβλημα αναζήτησης
του κοντινότερου γείτονα. Δεδομένου ενός συνόλου αντικειμένων P , στοχεύουμε σε μια
δομή δεδομένων που υποστηρίζει ερωτήματα κοντινότερου γείτονα. Ένα νέο αντικείμενο
q δίνεται και η δομή δεδομένων επιστρέφει το ομοιότερο αντικείμενο από το P . Όταν η
πολυπλοκότητα των δεδομένων είναι υψηλή, μια λύση με ακρίβεια είναι σπάνια αποδοτική. Αυτό οδήγησε τους ερευνητές στον πιο εύκολο στόχο του σχεδιασμού προσεγγιστικών λύσεων. Το μεγαλύτερο μέρος αυτής της εργασίας είναι αφιερωμένο στο πρόβλημα
του προσεγγιστικού κοντινότερου γείτονα και στο πρόβλημα του προσεγγιστικού κοντινού γείτονα: δεδομένου ενός συνόλου αντικειμένων P και μιας παραμέτρου ακτίνας r, η
δομή δεδομένων επιστρέφει ένα αντικείμενο στο P (εφόσον υπάρχει) το οποίο είναι κατά προσέγγιση σε απόσταση r από κάποιο αντικείμενο ερώτησης q. Ένα άλλο βασικό
ερώτημα είναι αυτό του υπολογισμού ενός υποσυνόλου καλών εκπροσώπων για ένα σύ-
νολο δεδομένων. Αυτό το υποσύνολο παρέχει συχνά επαρκείς πληροφορίες για κάποιο
υπολογιστικό πρόβλημα και επομένως απλοποιεί πιθανώς τις υπάρχουσες λύσεις. Τέλος, μελετάμε τους χώρους εύρους για πολυγωνικές καμπύλες: φράσουμε τη διάσταση
Vapnik-Chervonenkis για εύρη που ορίζονται από συναρτήσεις απόστασης για καμπύλες.
Τα αποτελέσματα αυτά έχουν άμεσες συνέπειες σε προβλήματα μέτρησης εύρους και στην
εκτίμηση πυκνότητας.
Η διατριβή έχει δομηθεί ως εξής.
Εισάγουμε έναν νέο ορισμό εμβυθίσεων
“χαμηλής ποιότητας” για μετρικούς χώρους. Απαιτεί ότι, για κάποιο σημείο ερωτήματος q, υπάρχει ένας προσεγγιστικός κοντινότερος γείτονας μεταξύ των προ-εικόνων των
k > 1 προσεγγιστικών κοντινότερων γειτόνων στο χώρο προορισμού. Εστιάζοντας σε Ευκλείδειους χώρους, χρησιμοποιούμε τυχαίες προβολές à la Johnson Lindenstrauss προκειμένου να ανάγουμε το αρχικό πρόβλημα σε ένα πρόβλημα όπου η διάσταση του χώρου
είναι αντιστρόφως ανάλογη του k. Αυτό οδηγεί σε απλές δομές δεδομένων, οι οποίες είναι
αποδοτικές ως προς τον απαιτούμενο χώρο αποθήκευσης και υποστηρίζουν ερωτήματα
σε υπογραμμικό χρόνο. Χρησιμοποιώντας ιδιότητες συγκεκριμένων συναρτήσεων LSH,
εκμεταλλευόμαστε μια παρόμοια απεικόνιση στον χώρο Hamming.
Το πρωταρχικό μας κίνητρο είναι το
πρόβλημα πλησιέστερου γείτονα στον μετρικό χώρο l1, για σημεία με χαμηλή εγγενή διάσταση. Η διάσταση διπλασιασμού είναι μια καθιερωμένη έννοια εγγενούς διάστασης των
σημείων. Εμβυθίσεις που διατηρούν τον κοντινότερο γείτονα υπάρχουν τόσο για l2 όσο
και για l1 μετρικές, καθώς και για υποσύνολα του l2 με χαμηλή διάσταση διπλασιασμού.
Προτείνουμε μια τεχνική μείωσης διάστασης που διατηρεί τον κοντινό γείτονα για υποσύνολα του l1 με χαμηλή διάσταση διπλασιασμού.
Τα r-δίκτυα προσφέρουν ένα ισχυρό εργαλείο στην υπολογιστική
και τη μετρική γεωμετρία, δεδομένου ότι χρησιμεύουν ως υποσύνολο καλών αντιπροσώπων: όλα τα σημεία βρίσκονται σε απόσταση r από κάποιο σημείο του r-δικτύου και όλα
τα κέντρα του r-δικτύου είναι σε απόσταση τουλάχιστον r μεταξύ τους. Εστιάζουμε σε
χώρους μεγάλης διαστάσεως και παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο ο οποίος υπολογίζει αποτελεσματικά προσεγγιστικά r-δίκτυα σε Ευκλείδειους χώρους. Ο
αλγόριθμός μας ακολουθεί μια πρόσφατη προσέγγιση του Valiant για τη αναγωγή του
προβλήματος στην αποτίμηση πολλαπλών σημείων πολυωνύμων.
Προτείνουμε απλές και αποτελεσματικές δομές δεδομένων, βασισμένες σε τυχαίες προβολές, για μια έννοια της απόστασης
μεταξύ διακριτοποιημένων καμπυλών, η οποία γενικεύει την διακριτή απόσταση Fréchet
και την απόσταση Dynamic Time Warping. Προσφέρουμε τις πρώτες δομές δεδομένων
για την εύρεση του κοντινότερου γείτονα με αυθαίρετα καλό συντελεστή προσέγγισης, με
ταυτόχρονη αύξηση του χώρου σε σχέση με τις υπάρχουσες μεθόδους.
Προτείνουμε δομές
δεδομένων, βασισμένες σε τυχαίες διαμερίσεις του χώρου, για την διακριτή απόσταση
Fréchet όταν καμπύλες επερώτησης είναι μικρού μήκους. Οι δομές δεδομένων είναι ιδιαίτερα αποτελεσματικές όταν τα ερωτήματα είναι πολύ μικρότερα από τις πολυγωνικές
καμπύλες που ανήκουν στο σύνολο δεδομένων. Επίσης, μελετάμε το πρόβλημα για αυθαίρετους μετρικούς χώρους με χαμηλή διάσταση διπλασιασμού.
Η διάσταση Vapnik-Chervonenkis παρέχει μια
έννοια πολυπλοκότητας για συστήματα συνόλων ή εύρους. Αναλύουμε συστήματα εύρους
όπου το βασικό σύνολο είναι ένα σύνολο πολυγωνικών καμπυλών στον Ευκλείδειο χώρο
και εύρη είναι μετρικές μπάλες που ορίζονται από συναρτήσεις αποστάσεων για καμπύλες,
όπως η απόσταση Fréchet και η απόσταση Hausdorff. Ακολουθούν άμεσες συνέπειες
εφαρμόζοντας γνωστά αποτελέσματα δειγματοληψίας.Finding similar objects is a general computational task which serves as a subroutine for
many major learning tasks like classification or clustering. With the recent increase of
availability of complex datasets, the need for analyzing and handling high-dimensional
descriptors has been increased. Likewise, there is a surge of interest into data structures
for trajectory processing, motivated by the increasing availability and quality of trajectory
data from mobile phones, GPS sensors, RFID technology and video analysis.
In this thesis, we investigate proximity problems for high-dimensional vectors and polygonal curves. The natural way to measure dissimilarity between two vectors is by evaluating
a norm function for the vector difference. Popular examples of such distance functions
are the Euclidean distance and the Manhattan distance. Similarly, there exist several
well-studied distance functions for polygonal curves, the main example being the Fréchet
distance.
The core problem, for both data types, is the nearest neighbor searching problem. Given
a set of objects P , we aim for a data structure which supports nearest neighbor queries;
a new object q arrives and the data structure returns the most similar object in P . When
the data complexity is high, aiming for an exact solution is often futile. This has led researchers to the more tractable task of designing approximate solutions. The largest part
of this thesis is devoted to the approximate nearest neighbor problem and the approximate near neighbor problem: given a set of objects P and a radius parameter r, the data
structure returns an object in P which is approximately within distance r (if there exists
one) from some query object q. Another basic question is that of computing a subset of
good representatives for a dataset. This subset often provides with sufficient information
for a given computational task, and hence it possibly simplifies existing solutions. Finally,
we investigate range systems for polygonal curves: we bound the Vapnik–Chervonenkis
dimension for ranges defined by distance functions for curves. These bounds have direct
implications in range counting problems and density estimation.
The thesis is organized as follows.
We introduce a new definition of “low-quality”
embeddings for metric spaces. It requires that, for some query point q, there exists an
approximate nearest neighbor among the pre-images of the k > 1 approximate nearest
neighbors in the target space. Focusing on Euclidean spaces, we employ random projections à la Johnson Lindenstrauss in order to reduce the original problem to one in a
space of dimension inversely proportional to k. This leads to simple data structures which
are space-efficient and also support sublinear queries. By employing properties of certain
LSH functions, we exploit a similar mapping to the Hamming space.
Our primary motivation is the approximate nearest
neighbor problem in l1, for pointsets with low intrinsic dimension. Doubling dimension is
a well-established notion which aims to capture the intrinsic dimension of points. Nearest
neighbor-preserving embeddings are known to exist for both l2 and l1 metrics, as well
as for doubling subsets of l2 . We propose a dimension reduction by means of a near
neighbor-preserving embedding for doubling subsets of l1.
Nets offers a powerful tool in computational and metric geometry,
since they serve as a subset of good representatives: all points are within distance r from
some net point and all net points lie at distance at least r from each other. We focus on
high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate r-nets with respect to Euclidean distance. Our algorithm follows a
recent approach by Valiant in reducing the problem to multi-point evaluation of polynomials.
We propose simple and efficient data structures, based on randomized projections, for a notion of distance between discretized curves,
which generalizes both discrete Fréchet and Dynamic Time Warping distance functions.
We offer the first data structures and query algorithms for the approximate nearest neighbor problem with arbitrarily good approximation factor, at the expense of increasing space
usage and preprocessing time over existing methods.
We propose simple and efficient data structures,
based on random partitions, for the discrete Fréchet distance, in the short query regime.
The data structures are especially efficient when queries are much shorter than the polygonal curves which belong to the dataset. We also study the problem for arbitrary metrics
with bounded doubling dimension.
The Vapnik-Chervonenkis dimension provides
a notion of complexity for set or range systems. We analyze range systems where the
ground set is a set of polygonal curves in the Euclidean space and the ranges are metric balls defined by curve dissimilarity measures, such as the Fréchet distance and the
Hausdorff distance. Direct implications follow by applying known sampling bounds
Graph Theory
This workshop focused on recent developments in graph theory. These included in particular recent breakthroughs on nowhere-zero flows in graphs, width parameters, applications of graph sparsity in algorithms, and matroid structure results
- …