3 research outputs found

    Temporale Aspekte und Provenance-Anfragen im Umfeld des Forschungsdatenmanagements

    Get PDF
    Zur Verbesserung der Qualität wissenschaftlicher Arbeiten besteht Interesse an der Rückverfolgbarkeit und Nachnutzung von Forschungsdaten. Die Erhebung von diesen Daten erfolgt einerseits manuell, andererseits automatisiert durch Instrumente und Sensoren der im Forschungsgebiet genutzten Geräte. Das Leibniz-Institut für Ostseeforschung Warnemünde betreibt eine instrumentierte Messplattform (GODESS) zur Untersuchung von physikalischen und chemischen Umweltparametern der Ostsee in verschiedenen Tiefen. Durch den modularen Aufbau und Konfiguration der Plattform ergeben sich Änderungen in den Datenformaten sowie Anpassungen der Auswerte- und Analysefunktionen. Im Kontext von Datenbanken entspricht dies Änderungen des relationalen Datenbankschemas sowie von SQL-Funktionen. In dieser Arbeit wird untersucht, unter welchen Voraussetzungen veränderte SQL-Funktionen auf veränderte Schemata angewendet werden können. Dazu wird im Konzept gezeigt, wie Veränderungen von SQL-Funktionen durch Techniken der temporalen Datenhaltung aufgezeichnet werden können. Das Festhalten und Verfolgen von Schemaänderungen wird zusätzlich skizziert. Danach erfolgt die Untersuchung der Anwendbarkeit von Funktionen auf sich verändernde Schemata sowie die Anwendbarkeit von Funktionen bei Funktionsänderungen. Die Ergebnisse werden zusammenfassend in Form von Tabellen präsentiert. Ferner wird auf Möglichkeiten der automatisierten Kompensation der Änderungen zur Wahrung der weiteren Anwendbarkeit der Funktionen mittels Schemaintegrationstechniken eingegangen. Danach wird der Zusammenhang der Herkunft von Daten und Aspekten der temporalen Datenhaltung beschrieben. Es folgt eine prototypische Umsetzung der Versionierung von SQL-Funktionen. Abschließend wird die Arbeit zusammengefasst und ein Ausblick auf weitere mögliche und weiterführende Themen gegeben.To improve the quality of scientific work it is necessary to trace research data and provide it for a subsequent use. The data is acquired manually as well as automatically, generated with instruments and sensors of the involved devices in the particular scientific discipline. The Leibniz Institute for Baltic Sea Research Warnemünde runs a profiling monitoring station (GODESS) to measure physical and chemical environmental data at several depths of the Baltic Sea. The modular structure and configuration of the platform leads to changes in the data formats and the functions by which the data is analyzed. In the context of databases these changes correspond to changes in the relational schemata and SQL-functions. This thesis analyses the requirements to use changed SQL-functions on changed schemata. For that purpose it will be demonstrated how changes of SQL-functions could be recorded with techniques of temporal data management. Furthermore the recording of relational schema changes will be outlined. The applicability of SQL-functions on changed schemata and the applicability of SQL-functions on changed functions will be analyzed. The results will be summarized and presented in tables. Moreover options to compensate the changes to reuse the function are shown with techniques of schema integration. The link between data provenance and temporal data management will be described. A prototype to record changes of SQL-functions over a period of time is proposed. The thesis will be summarized and provides an outlook of possible future topics and further papers

    Detached Provenance Analysis

    Get PDF
    Data provenance is the research field of the algorithmic derivation of the source and processing history of data. In this work, the derivation of Where- and Why-provenance in sub-cell-level granularity is pursued for a rich SQL dialect. For example, we support the provenance analysis for individual elements of nested rows and/or arrays. The SQL dialect incorporates window functions and correlated subqueries. We accomplish this goal using a novel method called detached provenance analysis. This method carries out a SQL-level rewrite of any user query Q, yielding (Q1, Q2). Employing two queries facilitates a low-invasive provenance analysis, i.e. both queries can be evaluated using an unmodified DBMS as backend. The queries implement a split of responsibilities: Q1 carries out a runtime analysis and Q2 derives the actual data provenance. One drawback of this method is that a synchronization overhead between Q1 and Q2 is induced. Experiments quantify the overheads based on the TPC-H benchmark and the PostgreSQL DBMS. A second set of experiments carried out in row–level granularity compares our approach with the PERM approach (as described by B. Glavic et al.). The aggregated results show that basic queries (typically, a single SFW expression with aggregations) perform slightly better in the PERM approach while complex queries (nested SFW expressions and correlated subqueries) perform considerably better in our approach
    corecore