36 research outputs found

    Exploiting subspace distance equalities in Highdimensional data for knn queries

    Get PDF
    Efficient k-nearest neighbor computation for high-dimensional data is an important, yet challenging task. The response times of stateof-the-art indexing approaches highly depend on factors like distribution of the data. For clustered data, such approaches are several factors faster than a sequential scan. However, if various dimensions contain uniform or Gaussian data they tend to be clearly outperformed by a simple sequential scan. Hence, we require for an approach generally delivering good response times, independent of the data distribution. As solution, we propose to exploit a novel concept to efficiently compute nearest neighbors. We name it sub-space distance equality, which aims at reducing the number of distance computations independent of the data distribution. We integrate knn computing algorithms into the Elf index structure allowing to study the sub-space distance equality concept in isolation and in combination with a main-memory optimized storage layout. In a large comparative study with twelve data sets, our results indicate that indexes based on sub-space distance equalities compute the least amount of distances. For clustered data, our Elf knn algorithm delivers at least a performance increase of factor two up to an increase of two magnitudes without losing the performance gain compared to sequential scans for uniform or Gaussian data

    Selective caching: a persistent memory approach for multi-dimensional index structures

    Get PDF
    After the introduction of Persistent Memory in the form of Intel’s Optane DC Persistent Memory on the market in 2019, it has found its way into manifold applications and systems. As Google and other cloud infrastructure providers are starting to incorporate Persistent Memory into their portfolio, it is only logical that cloud applications have to exploit its inherent properties. Persistent Memory can serve as a DRAM substitute, but guarantees persistence at the cost of compromised read/write performance compared to standard DRAM. These properties particularly affect the performance of index structures, since they are subject to frequent updates and queries. However, adapting each and every index structure to exploit the properties of Persistent Memory is tedious. Hence, we require a general technique that hides this access gap, e.g., by using DRAM caching strategies. To exploit Persistent Memory properties for analytical index structures, we propose selective caching. It is based on a mixture of dynamic and static caching of tree nodes in DRAM to reach near-DRAM access speeds for index structures. In this paper, we evaluate selective caching on the OLAP-optimized main-memory index structure Elf, because its memory layout allows for an easy caching. Our experiments show that if configured well, selective caching with a suitable replacement strategy can keep pace with pure DRAM storage of Elf while guaranteeing persistence. These results are also reflected when selective caching is used for parallel workloads

    Towards multi-purpose main-memory storage structures: Exploiting sub-space distance equalities in totally ordered data sets for exact knn queries

    Get PDF
    Efficient knn computation for high-dimensional data is an important, yet challenging task. Today, most information systems use a column-store back-end for relational data. For such systems, multi-dimensional indexes accelerating selections are known. However, they cannot be used to accelerate knn queries. Consequently, one relies on sequential scans, specialized knn indexes, or trades result quality for speed. To avoid storing one specialized index per query type, we envision multipurpose indexes allowing to efficiently compute multiple query types. In this paper, we focus on additionally supporting knn queries as first step towards this goal. To this end, we study how to exploit total orders for accelerating knn queries based on the sub-space distance equalities observation. It means that non-equal points in the full space, which are projected to the same point in a sub space, have the same distance to every other point in this sub space. In case one can easily find these equalities and tune storage structures towards them, this offers two effects one can exploit to accelerate knn queries. The first effect allows pruning of point groups based on a cascade of lower bounds. The second allows to re-use previously computed sub-space distances between point groups. This results in a worst-case execution bound, which is independent of the distance function. We present knn algorithms exploiting both effects and show how to tune a storage structure already known to work well for multi-dimensional selections. Our investigations reveal that the effects are robust to increasing, e.g., the dimensionality, suggesting generally good knn performance. Comparing our knn algorithms to well-known competitors reveals large performance improvements up to one order of magnitude. Furthermore, the algorithms deliver at least comparable performance as the next fastest competitor suggesting that the algorithms are only marginally affected by the curse of dimensionality

    A first metadata schema for learning analytics research data management

    Get PDF
    Forschungsdaten bilden die Grundlage für wissenschaftliches Arbeiten und um neue Erkenntnisse zu gewinnen. Learning Analytics ist die Wissenschaft zur Verbesserung des Lernens in verschiedenen Bereichen des Bildungssektors, doch obwohl die Datenerhebung zum größten Teil mittels computer-gestützter Verfahren durchgeführt wird, besitzt die Disziplin zum jetzigen Zeitpunkt noch keine Forschungsdatenmanagementkultur oder -konzepte. Wie jede Forschungsdisziplin hat Learning Analytics ihre Eigenheiten, die für die Erstellung von Forschungsdatenmanagementkonzepten, insbesondere für die Generalisierung von Daten und die Modellierung eines Metadatenmodells, wichtig sind. Die folgende Arbeit präsentiert Ergebnisse einer Anforderungsanalyse für Learning Analytics, um relevante Elemente für ein Metadatenschema zu identifizieren. Zur Erreichung dieses Ziels führten wir zunächst eine Literaturrecherche durch, gefolgt von einer Untersuchung unserer eigenen Forschung an Softwareumgebungen zur Evaluierung von kollaborativen Programmierszenarien an zwei Hochschulstandorten. Aus den Ergebnissen lassen sich ein disziplinspezifischer wissenschaftlicher Workflow sowie ein fachspezifisches Objektmodell ableiten, das alle erforderlichen Merkmale für die Entwicklung eines für Learning Analytics spezifischen Metadatenmodells für die Nutzung von Datenbeständen aufzeigt.In most cases, research data builds the ground for scientific work and to gain new knowledge. Learning analytics is the science to improve learning in different fields of the educational sector. Even though it is a data-driven science, there is no research data management culture or concepts yet. As every research discipline, learning analytics has its own characteristics, which are important for the creation of research data management concepts, in particular for generalization of data and modeling of a metadata model. The following work presents our results of a requirements analysis for learning analytics, in order to identify relevant elements for a metadata schema. To reach this goal, we conducted a literature survey followed by an analysis of our own research about frameworks for evaluation of collaborative programming scenarios from two universities. With these results, we present a discipline-specific scientific workflow, as well as a subject-specific object model, which lists all required characteristics for the development of a learning analytics specific metadata model for data repository usage

    Backlogs and Interval Timestamps: Building Blocks for Supporting Temporal Queries in Graph Databases Work in progress paper

    Get PDF
    ABSTRACT The analysis of networks, either at a single point in time or through their evolution, is an increasingly important task in modern data management. Graph databases are uniquely suited to improve static network analysis. However, there's still no consensus on how to best model data evolution with these databases. In our work we propose an elementary concept to support temporal analysis with property graph databases, using a single-graph model limited to structural changes. We manage the temporal aspects of items with interval timestamps and backlogs. To include backlogs in the model we examine two alternatives: (1) global indexes, and (2) using the graph as an index by resorting to timestamp denormalization. We evaluate density calculation and time slice retrieval over successive days from a SNAP dataset, on an Apache Titan prototype of our model, observing from 2x to 100x response time gains by comparing differential vs. snapshot methods; and no conclusive difference between the backlog alternatives

    Análisis comparativo del tráfico aerocomercial de pasajeros en Sudamérica, entre Comunidad Andina de Naciones y MERCOSUR

    Get PDF
    De los estudios de análisis del tráfico aerocomercial en la región andina y el MERCOSUR, se desprende la idea de comparar las dos estructuras visualizadas a fin de hallar semejanzas y diferencias en el tráfico existente en los dos polos geográficos de Sudamérica. Nuestro objetivo es comparar los niveles y categorizaciones del tráfico de pasajeros hallados en estudios anteriores, así como los modelos de red elaborados y las respectivas tipificaciones sobre el perfil de pasajero y volumen de flujos principales y secundarios, tanto en conexiones a nivel interior como con el exterior de las dos regiones analizadas. Se persigue el establecimiento de paralelismos y discrepancias entre ambas realidades del tráfico aerocomercial de pasajeros de los dos modelos en estudio. Para ello se parte de las conclusiones establecidas en los trabajos “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (I) – Región andina” y “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (II) – Región MERCOSUR”, sumando entre ambos un total de 75 aeropuertos sudamericanos incluidos en el estudio. Del análisis se desprende la existencia de diferencias de conformación del tráfico internacional de cada región.From the studies of the air traffic in the Andean and MERCOSUR Region, came the idea of compare the results to see the similarities and differences in the air traffic between the two South America geographic poles. Our goal is to compare the passenger traffic levels and categories found in previous works, as well as network models elaborated and the respective passenger profile and primary and secondary fluxes, all in the traffic that goes in, out and between the regions studied. Similarities and discrepancies in the passenger traffic are seek between the two analyzed models. The results given in the previous works “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (I) – Región andina” and “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (II) – Región MERCOSUR” are used. Both studies together sum up 75 South American airports. From the analysis the existence of different international traffic behavior in each region is found.Trabajo publicado en Actas del Primer Congreso de la Red Iberoamericana de Investigación en Transporte Aéreo (RIDITA). Universidad de Buenos Aires, Buenos Aires, 2007.Grupo de Transporte Aéreo - Grupo de Ingeniería Aplicada a la Industri

    Análisis comparativo del tráfico aerocomercial de pasajeros en Sudamérica, entre Comunidad Andina de Naciones y MERCOSUR

    Get PDF
    De los estudios de análisis del tráfico aerocomercial en la región andina y el MERCOSUR, se desprende la idea de comparar las dos estructuras visualizadas a fin de hallar semejanzas y diferencias en el tráfico existente en los dos polos geográficos de Sudamérica. Nuestro objetivo es comparar los niveles y categorizaciones del tráfico de pasajeros hallados en estudios anteriores, así como los modelos de red elaborados y las respectivas tipificaciones sobre el perfil de pasajero y volumen de flujos principales y secundarios, tanto en conexiones a nivel interior como con el exterior de las dos regiones analizadas. Se persigue el establecimiento de paralelismos y discrepancias entre ambas realidades del tráfico aerocomercial de pasajeros de los dos modelos en estudio. Para ello se parte de las conclusiones establecidas en los trabajos “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (I) – Región andina” y “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (II) – Región MERCOSUR”, sumando entre ambos un total de 75 aeropuertos sudamericanos incluidos en el estudio. Del análisis se desprende la existencia de diferencias de conformación del tráfico internacional de cada región.From the studies of the air traffic in the Andean and MERCOSUR Region, came the idea of compare the results to see the similarities and differences in the air traffic between the two South America geographic poles. Our goal is to compare the passenger traffic levels and categories found in previous works, as well as network models elaborated and the respective passenger profile and primary and secondary fluxes, all in the traffic that goes in, out and between the regions studied. Similarities and discrepancies in the passenger traffic are seek between the two analyzed models. The results given in the previous works “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (I) – Región andina” and “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (II) – Región MERCOSUR” are used. Both studies together sum up 75 South American airports. From the analysis the existence of different international traffic behavior in each region is found.Trabajo publicado en Actas del Primer Congreso de la Red Iberoamericana de Investigación en Transporte Aéreo (RIDITA). Universidad de Buenos Aires, Buenos Aires, 2007.Grupo de Transporte Aéreo - Grupo de Ingeniería Aplicada a la Industri

    Análisis comparativo del tráfico aerocomercial de pasajeros en Sudamérica, entre Comunidad Andina de Naciones y MERCOSUR

    Get PDF
    De los estudios de análisis del tráfico aerocomercial en la región andina y el MERCOSUR, se desprende la idea de comparar las dos estructuras visualizadas a fin de hallar semejanzas y diferencias en el tráfico existente en los dos polos geográficos de Sudamérica. Nuestro objetivo es comparar los niveles y categorizaciones del tráfico de pasajeros hallados en estudios anteriores, así como los modelos de red elaborados y las respectivas tipificaciones sobre el perfil de pasajero y volumen de flujos principales y secundarios, tanto en conexiones a nivel interior como con el exterior de las dos regiones analizadas. Se persigue el establecimiento de paralelismos y discrepancias entre ambas realidades del tráfico aerocomercial de pasajeros de los dos modelos en estudio. Para ello se parte de las conclusiones establecidas en los trabajos “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (I) – Región andina” y “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (II) – Región MERCOSUR”, sumando entre ambos un total de 75 aeropuertos sudamericanos incluidos en el estudio. Del análisis se desprende la existencia de diferencias de conformación del tráfico internacional de cada región.From the studies of the air traffic in the Andean and MERCOSUR Region, came the idea of compare the results to see the similarities and differences in the air traffic between the two South America geographic poles. Our goal is to compare the passenger traffic levels and categories found in previous works, as well as network models elaborated and the respective passenger profile and primary and secondary fluxes, all in the traffic that goes in, out and between the regions studied. Similarities and discrepancies in the passenger traffic are seek between the two analyzed models. The results given in the previous works “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (I) – Región andina” and “Análisis del tráfico aerocomercial de pasajeros en Sudamérica (II) – Región MERCOSUR” are used. Both studies together sum up 75 South American airports. From the analysis the existence of different international traffic behavior in each region is found.Trabajo publicado en Actas del Primer Congreso de la Red Iberoamericana de Investigación en Transporte Aéreo (RIDITA). Universidad de Buenos Aires, Buenos Aires, 2007.Grupo de Transporte Aéreo - Grupo de Ingeniería Aplicada a la Industri

    Evolución de la flota aerocomercial argentina en la década del 90

    Get PDF
    En los últimos doce años se han presentado en la República Argentina cambios importantes en el transporte aéreo de pasajeros, como consecuencia de aires nuevos en materia de políticas aerocomerciales, propiciando el surgimiento y afianzamiento de nuevas líneas aéreas con renovadas estrategias y planes de desarrollo. El período bajo análisis se limita al comprendido entre los años 1991 y 2000. No se consideran los años 2001 y 2002, dado que estos están signados por una sucesión de crisis económicas y políticas internas, y por la decisión externa sobre aspectos técnicos -nivel de seguridad de Argentina-. Estos acontecimientos afectaron las estrategias fijadas por las compañías aéreas, a tal punto de modificar las mismas para ajustarse a esta nueva situación, todo esto en medio de una nueva guerra de tarifas. En este marco, se organiza y presenta la información sobre dos ejes específicos: el primero con el solo objeto de describir a través de indicadores básicos la estrategia de transporte aéreo que tuvo mayor desarrollo durante el período analizado,Departamento de Aeronáutic

    Evolución de la flota aerocomercial argentina en la década del 90

    Get PDF
    En los últimos doce años se han presentado en la República Argentina cambios importantes en el transporte aéreo de pasajeros, como consecuencia de aires nuevos en materia de políticas aerocomerciales, propiciando el surgimiento y afianzamiento de nuevas líneas aéreas con renovadas estrategias y planes de desarrollo. El período bajo análisis se limita al comprendido entre los años 1991 y 2000. No se consideran los años 2001 y 2002, dado que estos están signados por una sucesión de crisis económicas y políticas internas, y por la decisión externa sobre aspectos técnicos -nivel de seguridad de Argentina-. Estos acontecimientos afectaron las estrategias fijadas por las compañías aéreas, a tal punto de modificar las mismas para ajustarse a esta nueva situación, todo esto en medio de una nueva guerra de tarifas. En este marco, se organiza y presenta la información sobre dos ejes específicos: el primero con el solo objeto de describir a través de indicadores básicos la estrategia de transporte aéreo que tuvo mayor desarrollo durante el período analizado,Departamento de Aeronáutic
    corecore