9 research outputs found

    Design of large polyphase filters in the Quadratic Residue Number System

    Full text link

    Temperature aware power optimization for multicore floating-point units

    Full text link

    Proximity problems for high-dimensional data

    Get PDF
    Η εύρεση όμοιων αντικειμένων είναι ένα γενικό υπολογιστικό πρόβλημα που χρησιμεύει ως υπορουτίνα για πολλά προβλήματα μηχανικής μάθησης όπως η συσταδοποίηση. Με την πρόσφατη αύξηση της διαθεσιμότητας πολύπλοκων συνόλων δεδομένων, αυξήθηκε η ανάγκη για την ανάλυση δεδομένων υψηλών διαστάσεων. Παρομοίως, παρατηρείται αύξηση ενδιαφέροντος στις δομές δεδομένων για επεξεργασία καμπυλών, λόγω της αυ- ξανόμενης διαθεσιμότητας και ποιότητας των δεδομένων τροχιάς από τα κινητά τηλέφωνα, τους αισθητήρες GPS, την τεχνολογία RFID και την ανάλυση βίντεο. Σε αυτή τη διατριβή, ερευνάμε προβλήματα εγγύτητας για διανύσματα μεγάλης διάστασης και πολυγωνικές καμπύλες. Ο φυσικός τρόπος μέτρησης της ανομοιότητας μεταξύ δύο διανυσμάτων είναι η αποτίμηση μιας συνάρτησης νόρμας για τη διανυσματική διαφορά των δύο διανυσμάτων. Δημοφιλή παραδείγματα τέτοιων συναρτήσεων απόστασης είναι η Ευκλείδεια απόσταση και η απόσταση Μανχάταν. Παρομοίως, υπάρχουν αρκετές καλά μελετημένες συναρτήσεις απόστασης για πολυγωνικές καμπύλες, με κύριο παράδειγμα την απόσταση Fréchet. Το βασικό πρόβλημα, και για τους δύο τύπους δεδομένων, είναι το πρόβλημα αναζήτησης του κοντινότερου γείτονα. Δεδομένου ενός συνόλου αντικειμένων P , στοχεύουμε σε μια δομή δεδομένων που υποστηρίζει ερωτήματα κοντινότερου γείτονα. Ένα νέο αντικείμενο q δίνεται και η δομή δεδομένων επιστρέφει το ομοιότερο αντικείμενο από το P . Όταν η πολυπλοκότητα των δεδομένων είναι υψηλή, μια λύση με ακρίβεια είναι σπάνια αποδοτική. Αυτό οδήγησε τους ερευνητές στον πιο εύκολο στόχο του σχεδιασμού προσεγγιστικών λύσεων. Το μεγαλύτερο μέρος αυτής της εργασίας είναι αφιερωμένο στο πρόβλημα του προσεγγιστικού κοντινότερου γείτονα και στο πρόβλημα του προσεγγιστικού κοντινού γείτονα: δεδομένου ενός συνόλου αντικειμένων P και μιας παραμέτρου ακτίνας r, η δομή δεδομένων επιστρέφει ένα αντικείμενο στο P (εφόσον υπάρχει) το οποίο είναι κατά προσέγγιση σε απόσταση r από κάποιο αντικείμενο ερώτησης q. Ένα άλλο βασικό ερώτημα είναι αυτό του υπολογισμού ενός υποσυνόλου καλών εκπροσώπων για ένα σύ- νολο δεδομένων. Αυτό το υποσύνολο παρέχει συχνά επαρκείς πληροφορίες για κάποιο υπολογιστικό πρόβλημα και επομένως απλοποιεί πιθανώς τις υπάρχουσες λύσεις. Τέλος, μελετάμε τους χώρους εύρους για πολυγωνικές καμπύλες: φράσουμε τη διάσταση Vapnik-Chervonenkis για εύρη που ορίζονται από συναρτήσεις απόστασης για καμπύλες. Τα αποτελέσματα αυτά έχουν άμεσες συνέπειες σε προβλήματα μέτρησης εύρους και στην εκτίμηση πυκνότητας. Η διατριβή έχει δομηθεί ως εξής. Εισάγουμε έναν νέο ορισμό εμβυθίσεων “χαμηλής ποιότητας” για μετρικούς χώρους. Απαιτεί ότι, για κάποιο σημείο ερωτήματος q, υπάρχει ένας προσεγγιστικός κοντινότερος γείτονας μεταξύ των προ-εικόνων των k > 1 προσεγγιστικών κοντινότερων γειτόνων στο χώρο προορισμού. Εστιάζοντας σε Ευκλείδειους χώρους, χρησιμοποιούμε τυχαίες προβολές à la Johnson Lindenstrauss προκειμένου να ανάγουμε το αρχικό πρόβλημα σε ένα πρόβλημα όπου η διάσταση του χώρου είναι αντιστρόφως ανάλογη του k. Αυτό οδηγεί σε απλές δομές δεδομένων, οι οποίες είναι αποδοτικές ως προς τον απαιτούμενο χώρο αποθήκευσης και υποστηρίζουν ερωτήματα σε υπογραμμικό χρόνο. Χρησιμοποιώντας ιδιότητες συγκεκριμένων συναρτήσεων LSH, εκμεταλλευόμαστε μια παρόμοια απεικόνιση στον χώρο Hamming. Το πρωταρχικό μας κίνητρο είναι το πρόβλημα πλησιέστερου γείτονα στον μετρικό χώρο l1, για σημεία με χαμηλή εγγενή διάσταση. Η διάσταση διπλασιασμού είναι μια καθιερωμένη έννοια εγγενούς διάστασης των σημείων. Εμβυθίσεις που διατηρούν τον κοντινότερο γείτονα υπάρχουν τόσο για l2 όσο και για l1 μετρικές, καθώς και για υποσύνολα του l2 με χαμηλή διάσταση διπλασιασμού. Προτείνουμε μια τεχνική μείωσης διάστασης που διατηρεί τον κοντινό γείτονα για υποσύνολα του l1 με χαμηλή διάσταση διπλασιασμού. Τα r-δίκτυα προσφέρουν ένα ισχυρό εργαλείο στην υπολογιστική και τη μετρική γεωμετρία, δεδομένου ότι χρησιμεύουν ως υποσύνολο καλών αντιπροσώπων: όλα τα σημεία βρίσκονται σε απόσταση r από κάποιο σημείο του r-δικτύου και όλα τα κέντρα του r-δικτύου είναι σε απόσταση τουλάχιστον r μεταξύ τους. Εστιάζουμε σε χώρους μεγάλης διαστάσεως και παρουσιάζουμε έναν νέο πιθανοτικό αλγόριθμο ο οποίος υπολογίζει αποτελεσματικά προσεγγιστικά r-δίκτυα σε Ευκλείδειους χώρους. Ο αλγόριθμός μας ακολουθεί μια πρόσφατη προσέγγιση του Valiant για τη αναγωγή του προβλήματος στην αποτίμηση πολλαπλών σημείων πολυωνύμων. Προτείνουμε απλές και αποτελεσματικές δομές δεδομένων, βασισμένες σε τυχαίες προβολές, για μια έννοια της απόστασης μεταξύ διακριτοποιημένων καμπυλών, η οποία γενικεύει την διακριτή απόσταση Fréchet και την απόσταση Dynamic Time Warping. Προσφέρουμε τις πρώτες δομές δεδομένων για την εύρεση του κοντινότερου γείτονα με αυθαίρετα καλό συντελεστή προσέγγισης, με ταυτόχρονη αύξηση του χώρου σε σχέση με τις υπάρχουσες μεθόδους. Προτείνουμε δομές δεδομένων, βασισμένες σε τυχαίες διαμερίσεις του χώρου, για την διακριτή απόσταση Fréchet όταν καμπύλες επερώτησης είναι μικρού μήκους. Οι δομές δεδομένων είναι ιδιαίτερα αποτελεσματικές όταν τα ερωτήματα είναι πολύ μικρότερα από τις πολυγωνικές καμπύλες που ανήκουν στο σύνολο δεδομένων. Επίσης, μελετάμε το πρόβλημα για αυθαίρετους μετρικούς χώρους με χαμηλή διάσταση διπλασιασμού. Η διάσταση Vapnik-Chervonenkis παρέχει μια έννοια πολυπλοκότητας για συστήματα συνόλων ή εύρους. Αναλύουμε συστήματα εύρους όπου το βασικό σύνολο είναι ένα σύνολο πολυγωνικών καμπυλών στον Ευκλείδειο χώρο και εύρη είναι μετρικές μπάλες που ορίζονται από συναρτήσεις αποστάσεων για καμπύλες, όπως η απόσταση Fréchet και η απόσταση Hausdorff. Ακολουθούν άμεσες συνέπειες εφαρμόζοντας γνωστά αποτελέσματα δειγματοληψίας.Finding similar objects is a general computational task which serves as a subroutine for many major learning tasks like classification or clustering. With the recent increase of availability of complex datasets, the need for analyzing and handling high-dimensional descriptors has been increased. Likewise, there is a surge of interest into data structures for trajectory processing, motivated by the increasing availability and quality of trajectory data from mobile phones, GPS sensors, RFID technology and video analysis. In this thesis, we investigate proximity problems for high-dimensional vectors and polygonal curves. The natural way to measure dissimilarity between two vectors is by evaluating a norm function for the vector difference. Popular examples of such distance functions are the Euclidean distance and the Manhattan distance. Similarly, there exist several well-studied distance functions for polygonal curves, the main example being the Fréchet distance. The core problem, for both data types, is the nearest neighbor searching problem. Given a set of objects P , we aim for a data structure which supports nearest neighbor queries; a new object q arrives and the data structure returns the most similar object in P . When the data complexity is high, aiming for an exact solution is often futile. This has led researchers to the more tractable task of designing approximate solutions. The largest part of this thesis is devoted to the approximate nearest neighbor problem and the approximate near neighbor problem: given a set of objects P and a radius parameter r, the data structure returns an object in P which is approximately within distance r (if there exists one) from some query object q. Another basic question is that of computing a subset of good representatives for a dataset. This subset often provides with sufficient information for a given computational task, and hence it possibly simplifies existing solutions. Finally, we investigate range systems for polygonal curves: we bound the Vapnik–Chervonenkis dimension for ranges defined by distance functions for curves. These bounds have direct implications in range counting problems and density estimation. The thesis is organized as follows. We introduce a new definition of “low-quality” embeddings for metric spaces. It requires that, for some query point q, there exists an approximate nearest neighbor among the pre-images of the k > 1 approximate nearest neighbors in the target space. Focusing on Euclidean spaces, we employ random projections à la Johnson Lindenstrauss in order to reduce the original problem to one in a space of dimension inversely proportional to k. This leads to simple data structures which are space-efficient and also support sublinear queries. By employing properties of certain LSH functions, we exploit a similar mapping to the Hamming space. Our primary motivation is the approximate nearest neighbor problem in l1, for pointsets with low intrinsic dimension. Doubling dimension is a well-established notion which aims to capture the intrinsic dimension of points. Nearest neighbor-preserving embeddings are known to exist for both l2 and l1 metrics, as well as for doubling subsets of l2 . We propose a dimension reduction by means of a near neighbor-preserving embedding for doubling subsets of l1. Nets offers a powerful tool in computational and metric geometry, since they serve as a subset of good representatives: all points are within distance r from some net point and all net points lie at distance at least r from each other. We focus on high-dimensional spaces and present a new randomized algorithm which efficiently computes approximate r-nets with respect to Euclidean distance. Our algorithm follows a recent approach by Valiant in reducing the problem to multi-point evaluation of polynomials. We propose simple and efficient data structures, based on randomized projections, for a notion of distance between discretized curves, which generalizes both discrete Fréchet and Dynamic Time Warping distance functions. We offer the first data structures and query algorithms for the approximate nearest neighbor problem with arbitrarily good approximation factor, at the expense of increasing space usage and preprocessing time over existing methods. We propose simple and efficient data structures, based on random partitions, for the discrete Fréchet distance, in the short query regime. The data structures are especially efficient when queries are much shorter than the polygonal curves which belong to the dataset. We also study the problem for arbitrary metrics with bounded doubling dimension. The Vapnik-Chervonenkis dimension provides a notion of complexity for set or range systems. We analyze range systems where the ground set is a set of polygonal curves in the Euclidean space and the ranges are metric balls defined by curve dissimilarity measures, such as the Fréchet distance and the Hausdorff distance. Direct implications follow by applying known sampling bounds

    Machine learning for the subsurface characterization at core, well, and reservoir scales

    Get PDF
    The development of machine learning techniques and the digitization of the subsurface geophysical/petrophysical measurements provides a new opportunity for the industries focusing on exploration and extraction of subsurface earth resources, such as oil, gas, coal, geothermal energy, mining, and sequestration. With more data and more computation power, the traditional methods for subsurface characterization and engineering that are adopted by these industries can be automized and improved. New phenomenon can be discovered, and new understandings may be acquired from the analysis of big data. The studies conducted in this dissertation explore the possibility of applying machine learning to improve the characterization of geological materials and geomaterials. Accurate characterization of subsurface hydrocarbon reservoirs is essential for economical oil and gas reservoir development. The characterization of reservoir formation requires the integration interpretation of data from different sources. Large-scale seismic measurements, intermediate-scale well logging measurements, and small-scale core sample measurements help engineers understand the characteristics of the hydrocarbon reservoirs. Seismic data acquisition is expensive and core samples are sparse and have limited volume. Consequently, well log acquisition provides essential information that improves seismic analysis and core analysis. However, the well logging data may be missing due to financial or operational challenges or may be contaminated due to complex downhole environment. At the near-wellbore scale, I solve the data constraint problem in the reservoir characterization by applying machine learning models to generate synthetic sonic traveltime and NMR logs that are crucial for geomechanical and pore-scale characterization, respectively. At the core scale, I solve the problems in fracture characterization by processing the multipoint sonic wave propagation measurements using machine learning to characterize the dispersion, orientation, and distribution of cracks embedded in material. At reservoir scale, I utilize reinforcement learning models to achieve automatic history matching by using a fast-marching-based reservoir simulator to estimate reservoir permeability that controls pressure transient response of the well. The application of machine learning provides new insights into traditional subsurface characterization techniques. First, by applying shallow and deep machine learning models, sonic logs and NMR T2 logs can be acquired from other easy-to-acquire well logs with high accuracy. Second, the development of the sonic wave propagation simulator enables the characterization of crack-bearing materials with the simple wavefront arrival times. Third, the combination of reinforcement learning algorithms and encapsulated reservoir simulation provides a possible solution for automatic history matching

    Courbure discrète : théorie et applications

    Get PDF
    International audienceThe present volume contains the proceedings of the 2013 Meeting on discrete curvature, held at CIRM, Luminy, France. The aim of this meeting was to bring together researchers from various backgrounds, ranging from mathematics to computer science, with a focus on both theory and applications. With 27 invited talks and 8 posters, the conference attracted 70 researchers from all over the world. The challenge of finding a common ground on the topic of discrete curvature was met with success, and these proceedings are a testimony of this wor

    Distributionally Robust and Structure Exploiting Algorithms for Power System Optimization Problems

    Get PDF
    The modern power systems are undergoing profound changes as the large-scale integration of renewable energy and increasingly close interconnection of regional power grids. The intermittent renewable sources are bringing significant uncertainties to system operation so that all the analysis and optimization tools for the power system steady-state operation must be able to consider and manage the uncertainties. The large-scale interconnection of power systems increases the difficulty in maintaining the synchronization of all generators and further raises the challenging problem of systematically design multiple local and wide-area controllers. In both steady-state and dynamical problems, the large-scale interconnection is increasing the problem scale and challenging the scalability of analysis, optimization and design algorithms. This thesis addresses the problems of power system operation optimization under uncertainties and control parameter optimization considering time delays. The contributions are as follows. This thesis proposes data-driven distributionally robust models and algorithms for unit commitment, energy-reserve-storage co-dispatch and optimal power flow problems based on novel ambiguity sets. The problem formulations minimize the expected operation costs corresponding to the worst-case distribution in the proposed ambiguity set while explicitly considers spinning reserve, wind curtailment, and load shedding. Distributionally robust chance constraints are employed to guarantee reserve adequacy and system steady-state security. The construction of ambiguity set is data-driven avoiding presumptions on the probability distributions of the uncertainties. The specific structures of the problem formulation are fully exploited to develop a scalable and efficient solution method. To improve the efficiency of the algorithms to solve the operation and control optimization problems, this thesis investigates computational techniques to exploit special problem structures, including sparsity, chordal sparsity, group symmetry and parallelizability. By doing so, this thesis proposes a sparsity-constrained OPF framework to solve the FACTS devices allocation problems, introduces a sparsity-exploiting moment-SOS approach to interval power flow (IPF) and multi-period optimal power flow (MOPF) problems, and develops a structure-exploiting delay-dependent stability analysis (DDSA) method for load frequency control (LFC). The power system stabilizers (PSS) and FACTS controllers can be employed improve system damping. However, when time delays are considered, it becomes more difficult to analyzing the stability and designing the controllers. This thesis further develops time-domain methods for analysis and synthesis of damping control systems involving time delays. We propose a model reduction procedure together with a condition to ensure the ϵ\epsilon-exponential stability of the full-order system only using the reduced close-loop system model, which provides a theoretical guarantee for using model reduction approaches. Then we formulate the damping control design as a nonlinear SDP minimizing a carefully defined H2H_2 performance metric. A path-following method is proposed to coordinately design multiple damping controllers

    EDM 2011: 4th international conference on educational data mining : Eindhoven, July 6-8, 2011 : proceedings

    Get PDF

    Applications of Metric Embeddings in Solving Combinatorial Problems

    No full text
    Thesis (Ph.D.)--University of Washington, 2013Metric embeddings constitute one of the fundamental tools for exploiting the underlying geometric structure of many combinatorial problems. In this dissertation we study some of the applications of metric embeddings in the field of computer science and resolve some of the previously open questions in this area. The results in this dissertation are divided into three parts. In the first part, we study dimension reduction for tree metrics. We show that every nn-point tree metric admits a (1+ε)(1+\varepsilon) distortion embedding into 1Cεlogn\ell_1^{C_\varepsilon \log n}, for every ε>0\varepsilon > 0, where Cε=O((1ε)4log1ε))C_\varepsilon = O\left((\frac{1}{\varepsilon})^4 \log \frac{1}{\varepsilon})\right). In the case of complete dd-ary trees we show that this bound can be improved to Cε=O(1ε2)C_\varepsilon = O\left(\frac{1}{\varepsilon^2}\right). We also show a lower-bound for the dimension required for embedding complete dd-ary trees into 1\ell_1, which matches the upper bound up to a factor of O(\log 1/\eps). In the second part, we construct two families of metric spaces using the graph product of [Lee and Raghavendra, DCG 2010], and use these constructions to answer two previously open questions. The first construction is used to show that for every α>0\alpha > 0 and nNn\in \mathbb N, there exist nn-point metric spaces (X,d)(X,d) where every ``scale'' admits a Euclidean embedding with distortion at most α\alpha, but the whole space requires distortion at least Ω(αlogn)\Omega(\sqrt{\alpha \log n}). This shows that the scale-gluing lemma [Lee, SODA 2005] is tight. Previously the matching upper bound was only known for α=O(1)\alpha=O(1) and α=Θ(logn)\alpha=\Theta(\log n). The second construction is used to answer an open problem about negative type metrics. A metric space (X,d)(X,d) is said to be of negative type if the space (X,d)(X,\sqrt{d}) admits an isometric embedding into 2\ell_2. Metrics of negative type are used to study the power of various inequalities in semi-definite programming relaxations for the Sparsest Cut problem. We exhibit a family of metric spaces {(Xm,dm)}mN\{(X_m,d_m)\}_{m\in \mathbb N} such that (Xm,dm)(X_m,\sqrt{d_m}) admits constant distortion embedding into 2\ell_2, yet it can not be embedded into a metric of negative type with constant distortion. In the last part, we use a new type of random metric embedding to bound the flow and cut gap in node-capacitated planar graphs. The classical Okamura-Seymour theorem states that for an edge-capacitated, multi-commodity flow instance in which all terminals lie on a single face of a planar graph, there exists a feasible concurrent flow if and only if all cuts have capacity larger than the demand across the cut. Simple examples show that a similar theorem does not hold if the capacities are on the vertices rather than edges. Nevertheless, we show that there exists a universal constant δ>0\delta > 0, such that if the equivalent vertex-cut conditions are satisfied, then one can simultaneously route a δ\delta fraction of flow for all the demands
    corecore