Search CORE

7 research outputs found

FACHBEITRAG Unleashing XQuery for Data-Independent Programming

Author: C. Sauer
Caetano Sauer
Sebastian Bächle
Publication venue
Publication date
Field of study

an SQL equivalent for XML data, but its roots in functional programming make it also a perfect choice for processing almost any kind of structured and semi-structured data. Apart from standard XML processing, however, advanced language features make it hard to efficiently implement the complete language for large data volumes. This work proposes a novel compilation strategy that provides both flexibility and efficiency to unleash XQuery’s potential as data programming language. It combines the simplicity and versatility of a storage-independent data abstraction with the scalability advantages of set-oriented processing. Expensive iterative sections in a query are unrolled to a pipeline of relational-style operators, which is open for optimized join processing, index use, and parallelization. The remaining aspects of the language are processed in a standard fashion, yet can be compiled anytime to more efficient native operations of the actual runtime environment. This hybrid compilation mechanism yields an efficient and highly flexible query engine that is able to drive any computation from simple XML transformation to complex data analysis, even on non-XML data. Experiments with our prototype and stateof-the-art competitors in classic XML query processing and business analytics over relational data attest the generality and efficiency of the design

CiteSeerX

Indeksit XML-tietokannoissa

Author: Löflund Jan-Erik
Publication venue: Helsingin yliopisto
Publication date: 01/01/2013
Field of study

XML-tietomallin käyttö on yleistynyt mm. rakenteisissa dokumenteissa, verkkosovellusten toteuttamisessa ja Internetissä tapahtuvassa tiedonsiirrossa. Tämän myötä tarve XML-muotoisen tiedon pysyvään säilyttämiseen on kasvanut. Tähän tarkoitukseen on kehitetty XML-tietomallia tiedonsäilytys- ja käsittelymuotonaan käyttäviä XML-pohjaisia tietokantoja. XML-muotoiset dokumentit ovat usein rakenteeltaan monimuotoisia ja kooltaan suuria. Tämän vuoksi XML-tietokannanhallintajärjestelmä on suunniteltava ja toteutettava tehokkaaksi, jotta sen avulla voidaan kohtuullisin laitteistoresurssein ja lyhyin vasteajoin suorittaa suuriakin määriä tietokantakyselyitä ja -päivityksiä, jotka voivat myös olla monipuolisia ja rinnakkaisia ja kohdistua suureen määrään tietoa kerrallaan. Tässä työssä esitetään, miten XML-tietokannanhallintajärjestelmän suorituskykyä voidaan merkittävästi parantaa dokumenttien indeksoinnilla. Indeksoinnissa XML-dokumenttien elementeille luodaan yksikäsitteiset tunnisteet, joihin perustuen luodaan erilaisia indeksihakemistoja. Indeksoinnin avulla tieto voidaan tehokkaasti paikantaa tietokannan tietosivuilta ja siirtää tietokannanhallintajärjestelmän tietosivujen ja puskurin välillä, mikä nopeuttaa tietokannanhallintajärjestelmän toimintaa ja lisää sen kykyä käsitellä rinnakkaisia luku- ja kirjoituspyyntöjä. Indeksoinnin avulla voidaan myös tehostaa tietokannanhallintajärjestelmän kyselynkäsittelyalgoritmien toimintaa mahdollistamalla niiden käyttämien joukkoliitosoperaatioiden tehokas toteutus. BaseX- ja eXist ovat XML-pohjaisia tietokannanhallintajärjestelmiä, joissa käytettävissä on useita erilaisia indeksejä. Indeksien toteutus näissä järjestelmissä kuvataan, ja näiden järjestelmien tehokkuutta XML-dokumentteihin tehtävien tietokantakyselyiden suorituksessa mitataan ja arvioidaan tätä varten kehitetyn XMark-koetinkuorman avulla

Helsingin yliopiston digitaalinen arkisto

XML STRUCTURE-BASED CLUSTERING AND ITS APPLICATION IN SELECTIVITY ESTIMATION

Author
Publication venue
Publication date
Field of study

XML STRUCTURE-BASED CLUSTERING AND ITS APPLICATION IN SELECTIVITY ESTIMATION

Author
Publication venue
Publication date
Field of study

KFUPM ePrints

Cost-Based Optimization of Integration Flows

Author: Böhm Matthias
Publication venue
Publication date: 15/03/2011
Field of study

Integration flows are increasingly used to specify and execute data-intensive integration tasks between heterogeneous systems and applications. There are many different application areas such as real-time ETL and data synchronization between operational systems. For the reasons of an increasing amount of data, highly distributed IT infrastructures, and high requirements for data consistency and up-to-dateness of query results, many instances of integration flows are executed over time. Due to this high load and blocking synchronous source systems, the performance of the central integration platform is crucial for an IT infrastructure. To tackle these high performance requirements, we introduce the concept of cost-based optimization of imperative integration flows that relies on incremental statistics maintenance and inter-instance plan re-optimization. As a foundation, we introduce the concept of periodical re-optimization including novel cost-based optimization techniques that are tailor-made for integration flows. Furthermore, we refine the periodical re-optimization to on-demand re-optimization in order to overcome the problems of many unnecessary re-optimization steps and adaptation delays, where we miss optimization opportunities. This approach ensures low optimization overhead and fast workload adaptation

Technische Universität Dresden: Qucosa

Skalierbare Ausführung von Prozessanwendungen in dienstorientierten Umgebungen

Author: Preißler Steffen
Publication venue
Publication date: 25/10/2012
Field of study

Die Strukturierung und Nutzung von unternehmensinternen IT-Infrastrukturen auf Grundlage dienstorientierter Architekturen (SOA) und etablierter XML-Technologien ist in den vergangenen Jahren stetig gewachsen. Lag der Fokus anfänglicher SOA-Realisierungen auf der flexiblen Ausführung klassischer, unternehmensrelevanter Geschäftsprozesse, so bilden heutzutage zeitnahe Datenanalysen sowie die Überwachung von geschäftsrelevanten Ereignissen weitere wichtige Anwendungsklassen, um sowohl kurzfristig Probleme des Geschäftsablaufes zu identifizieren als auch um mittel- und langfristige Veränderungen im Markt zu erkennen und die Geschäftsprozesse des Unternehmens flexibel darauf anzupassen. Aufgrund der geschichtlich bedingten, voneinander unabhängigen Entwicklung der drei Anwendungsklassen, werden die jeweiligen Anwendungsprozesse gegenwärtig in eigenständigen Systemen modelliert und ausgeführt. Daraus resultiert jedoch eine Reihe von Nachteilen, welche diese Arbeit aufzeigt und ausführlich diskutiert. Vor diesem Hintergrund beschäftigte sich die vorliegende Arbeit mit der Ableitung einer konsolidierten Ausführungsplattform, die es ermöglicht, Prozesse aller drei Anwendungsklassen gemeinsam zu modellieren und in einer SOA-basierten Infrastruktur effizient auszuführen. Die vorliegende Arbeit adressiert die Probleme einer solchen konsolidierten Ausführungsplattform auf den drei Ebenen der Dienstkommunikation, der Prozessausführung und der optimalen Verteilung von SOA-Komponenten in einer Infrastruktur

Technische Universität Dresden: Qucosa