12 research outputs found

    The oscillatory distribution of distances in random tries

    Full text link
    We investigate \Delta_n, the distance between randomly selected pairs of nodes among n keys in a random trie, which is a kind of digital tree. Analytical techniques, such as the Mellin transform and an excursion between poissonization and depoissonization, capture small fluctuations in the mean and variance of these random distances. The mean increases logarithmically in the number of keys, but curiously enough the variance remains O(1), as n\to\infty. It is demonstrated that the centered random variable \Delta_n^*=\Delta_n-\lfloor2\log_2n\rfloor does not have a limit distribution, but rather oscillates between two distributions.Comment: Published at http://dx.doi.org/10.1214/105051605000000106 in the Annals of Applied Probability (http://www.imstat.org/aap/) by the Institute of Mathematical Statistics (http://www.imstat.org

    Master index volumes 51–60

    Get PDF

    Some results on tries with adaptive branching

    Get PDF
    AbstractWe study a modification of digital trees (or tries) with adaptive multi-digit branching. Such tries can dynamically adjust degrees of their nodes by choosing the number of digits to be processed per lookup. While we do not specify any particular method for selecting the degrees of nodes, we assume that such selection can be accomplished by examining the number of strings remaining in each sub-tree, and/or estimating parameters of the input distribution. We call this class of digital trees adaptive multi-digit tries (or AMD-tries) and provide a preliminary analysis of their expected behavior in a memoryless model. We establish the following results: (1) there exist AMD-tries attaining a constant expected time of a successful search; (2) there exist AMD-tries consuming a linear (in the number of strings inserted) amount of space; (3) both constant search time and linear space usage can be attained if the (memoryless) source is symmetric. We accompany our analysis with a brief survey of several known types of adaptive trie structures, and show how our analysis extends (and/or complements) previous results

    Accurate Cardinality Estimation of Co-occurring Words Using Suffix Trees (Extended Version)

    Get PDF
    Estimating the cost of a query plan is one of the hardest problems in query optimization. This includes cardinality estimates of string search patterns, of multi-word strings like phrases or text snippets in particular. At first sight, suffix trees address this problem. To curb the memory usage of a suffix tree, one often prunes the tree to a certain depth. But this pruning method "takes away" more information from long strings than from short ones. This problem is particularly severe with sets of long strings, the setting studied here. In this article, we propose respective pruning techniques. Our approaches remove characters with low information value. The various variants determine a character\u27s information value in different ways, e.g., by using conditional entropy with respect to previous characters in the string. Our experiments show that, in contrast to the well-known pruned suffix tree, our technique provides significantly better estimations when the tree size is reduced by 60% or less. Due to the redundancy of natural language, our pruning techniques yield hardly any error for tree-size reductions of up to 50%

    Querying and Efficiently Searching Large, Temporal Text Corpora

    Get PDF

    Asymptotic variance of random symmetric digital search trees

    Get PDF
    Dedicated to the 60th birthday of Philippe Flajole

    Tablas de ruteo IP dinámicas basadas en árboles Multibit

    Get PDF
    Debido al crecimiento exponencial de internet, el tamaño de las tablas de ruteo también se ha incrementado. Un enrutador típico del backbone de internet en el año 2014 llega a almacenar alrededor de 500 000 prefijos de red (1). Este crecimiento propicia que los enrutadores se tornen lentos al realizar la reexpedición de paquetes, ya que les toma más tiempo decidir por cuál de sus interfaces deberá ser reenviada la información. Para reducir estos tiempos, se ha optado por almacenar los prefijos de red dentro de estructuras que permitan realizar actualizaciones y búsquedas de información. El tiempo de búsqueda dependerá de la complejidad de la estructura. La solución clásica a este problema es utilizar árboles binarios, ya que esta estructura nos permite almacenar prefijos de red de distintas longitudes, por otra parte, tanto el proceso de búsqueda como el proceso de actualización tienen una complejidad lineal (2) (3). Sin embargo, debido a que las longitudes de los prefijos pueden ser grandes (de 32 bits en el peor de los casos para IPV4) las búsquedas pueden tornarse lentas ya que en esta técnica se compara solamente un bit del prefijo a la vez. En este trabajo se propone una estructura de almacenamiento que se basa en árboles Multibit los cuales, a diferencia de los árboles binarios, pueden comparar varios bits a la vez, mejorando los tiempos de búsqueda (al número de bits comparados se le conoce como stride). Los árboles Multibit o Tries-Multibit ofrecen la ventaja de que las operaciones de búsqueda son más rápidas que en el algoritmo clásico que utiliza árboles binarios, sin embargo, para las estructuras Trie-Multibit en su forma simple no existen operaciones de actualización, es decir no existen operaciones de inserción y borrado (que no impliquen la reconstrucción de todo el árbol) que garanticen la integridad de los datos almacenados, por lo que se pueden perder elementos en el proceso de actualización del árbol, esta problemática será abordada con más detalle en el capítulo 3.1. La estructura propuesta en este documento permite a los árboles Multibit realizar operaciones de actualización garantizando que no exista pérdida de información en el proceso, para esto, se propone y se evalúa la estructura Trie-Multibit con respaldo. Dicha estructura es implementada en lenguaje C y son evaluados los algoritmos de inserción, borrado y búsqueda. Después de analizar los resultados experimentales, podemos concluir que el almacenamiento en la estructura Trie-Multibit con respaldo es más conveniente que el almacenamiento en árboles binarios, ya que las operaciones de búsqueda son más rápidas y que a pesar de que las operaciones de actualización son más lentas, éstas pueden ser toleradas debido a que ocurren con menor frecuencia

    Errata and Addenda to Mathematical Constants

    Full text link
    We humbly and briefly offer corrections and supplements to Mathematical Constants (2003) and Mathematical Constants II (2019), both published by Cambridge University Press. Comments are always welcome.Comment: 162 page
    corecore