6 research outputs found

    Helmholtz Portfolio Theme Large-Scale Data Management and Analysis (LSDMA)

    Get PDF
    The Helmholtz Association funded the "Large-Scale Data Management and Analysis" portfolio theme from 2012-2016. Four Helmholtz centres, six universities and another research institution in Germany joined to enable data-intensive science by optimising data life cycles in selected scientific communities. In our Data Life cycle Labs, data experts performed joint R&D together with scientific communities. The Data Services Integration Team focused on generic solutions applied by several communities

    Sharing interoperable workflow provenance: A review of best practices and their practical application in CWLProv

    Get PDF
    Background: The automation of data analysis in the form of scientific workflows has become a widely adopted practice in many fields of research. Computationally driven data-intensive experiments using workflows enable Automation, Scaling, Adaption and Provenance support (ASAP). However, there are still several challenges associated with the effective sharing, publication and reproducibility of such workflows due to the incomplete capture of provenance and lack of interoperability between different technical (software) platforms. Results: Based on best practice recommendations identified from literature on workflow design, sharing and publishing, we define a hierarchical provenance framework to achieve uniformity in the provenance and support comprehensive and fully re-executable workflows equipped with domain-specific information. To realise this framework, we present CWLProv, a standard-based format to represent any workflow-based computational analysis to produce workflow output artefacts that satisfy the various levels of provenance. We utilise open source community-driven standards; interoperable workflow definitions in Common Workflow Language (CWL), structured provenance representation using the W3C PROV model, and resource aggregation and sharing as workflow-centric Research Objects (RO) generated along with the final outputs of a given workflow enactment. We demonstrate the utility of this approach through a practical implementation of CWLProv and evaluation using real-life genomic workflows developed by independent groups. Conclusions: The underlying principles of the standards utilised by CWLProv enable semantically-rich and executable Research Objects that capture computational workflows with retrospective provenance such that any platform supporting CWL will be able to understand the analysis, re-use the methods for partial re-runs, or reproduce the analysis to validate the published findings.Submitted to GigaScience (GIGA-D-18-00483

    GENERIC AND ADAPTIVE METADATA MANAGEMENT FRAMEWORK FOR SCIENTIFIC DATA REPOSITORIES

    Get PDF
    Der rapide technologische Fortschritt hat in verschiedenen Forschungsdisziplinen zu vielfältigen Weiterentwicklungen in Datenakquise und -verarbeitung geführt. Hi- eraus wiederum resultiert ein immenses Wachstum an Daten und Metadaten, gener- iert durch wissenschaftliche Experimente. Unabhängig vom konkreten Forschungs- gebiet ist die wissenschaftliche Praxis immer stärker durch Daten und Metadaten gekennzeichnet. In der Folge intensivieren Universitäten, Forschungsgemeinschaften und Förderagenturen ihre Bemühungen, wissenschaftliche Daten effizient zu sichten, zu speichern und auszuwerten. Die wesentlichen Ziele wissenschaftlicher Daten- Repositorien sind die Etablierung von Langzeitspeicher, der Zugriff auf Daten, die Bereitstellung von Daten für die Wiederverwendung und deren Referenzierung, die Erfassung der Datenquelle zur Reproduzierbarkeit sowie die Bereitstellung von Meta- daten, Anmerkungen oder Verweisen zur Vermittlung domänenspezifischen Wis- sens, das zur Interpretation der Daten notwendig ist. Wissenschaftliche Datenspe- icher sind hochkomplexe Systeme, bestehend aus Elementen aus unterschiedlichen Forschungsfeldern, wie z. B. Algorithmen für Datenkompression und Langzeit- datenarchivierung, Frameworks für das Metadaten- und Annotations-management, Workflow-Provenance und Provenance-Interoperabilität zwischen heterogenen Work- flowsystemen, Autorisierungs und Authentifizierungsinfrastrukturen sowie Visual- isierungswerkzeuge für die Dateninterpretation. Die vorliegende Arbeit beschreibt eine modulare Architektur für ein wis- senschaftliches Datenarchiv, die Forschungsgemeinschaften darin unterstützt, ihre Daten und Metadaten gezielt über den jeweiligen Lebenszyklus hinweg zu orchestri- eren. Diese Architektur besteht aus Komponenten, die vier Forschungsfelder repräsen- tieren. Die erste Komponente ist ein Client zur Datenübertragung (“data transfer client”). Er bietet eine generische Schnittstelle für die Erfassung von Daten und den Zugriff auf Daten aus wissenschaftlichen Datenakquisesystemen. Die zweite Komponente ist das MetaStore-Framework, ein adaptives Metadaten- Management-Framework, das die Handhabung sowohl statischer als auch dynamis- cher Metadatenmodelle ermöglicht. Um beliebige Metadatenschemata behandeln zu können, basiert die Entwicklung des MetaStore-Frameworks auf dem komponen- tenbasierten dynamischen Kompositions-Entwurfsmuster (component-based dynamic composition design pattern). Der MetaStore ist außerdem mit einem Annotations- framework für die Handhabung von dynamischen Metadaten ausgestattet. Die dritte Komponente ist eine Erweiterung des MetaStore-Frameworks zur au- tomatisierten Behandlung von Provenance-Metadaten für BPEL-basierte Workflow- Management-Systeme. Der von uns entworfene und implementierte Prov2ONE Al- gorithmus übersetzt dafür die Struktur und Ausführungstraces von BPEL-Workflow- Definitionen automatisch in das Provenance-Modell ProvONE. Hierbei ermöglicht die Verfügbarkeit der vollständigen BPEL-Provenance-Daten in ProvONE nicht nur eine aggregierte Analyse der Workflow-Definition mit ihrem Ausführungstrace, sondern gewährleistet auch die Kompatibilität von Provenance-Daten aus unterschiedlichen Spezifikationssprachen. Die vierte Komponente unseres wissenschaftlichen Datenarchives ist das Provenance-Interoperabilitätsframework ProvONE - Provenance Interoperability Framework (P-PIF). Dieses gewährleistet die Interoperabilität von Provenance-Daten heterogener Provenance-Modelle aus unterschiedlichen Workflowmanagementsyste- men. P-PIF besteht aus zwei Komponenten: dem Prov2ONE-Algorithmus für SCUFL und MoML Workflow-Spezifikationen und Workflow-Management-System- spezifischen Adaptern zur Extraktion, Übersetzung und Modellierung retrospektiver Provenance-Daten in das ProvONE-Provenance-Modell. P-PIF kann sowohl Kon- trollfluss als auch Datenfluss nach ProvONE übersetzen. Die Verfügbarkeit hetero- gener Provenance-Traces in ProvONE ermöglicht das Vergleichen, Analysieren und Anfragen von Provenance-Daten aus unterschiedlichen Workflowsystemen. Wir haben die Komponenten des in dieser Arbeit vorgestellten wissenschaftlichen Datenarchives wie folgt evaluiert: für den Client zum Datentrasfer haben wir die Daten-übertragungsleistung mit dem Standard-Protokoll für Nanoskopie-Datensätze untersucht. Das MetaStore-Framework haben wir hinsichtlich der folgenden bei- den Aspekte evaluiert. Zum einen haben wir die Metadatenaufnahme und Voll- textsuchleistung unter verschiedenen Datenbankkonfigurationen getestet. Zum an- deren zeigen wir die umfassende Abdeckung der Funktionalitäten von MetaStore durch einen funktionsbasierten Vergleich von MetaStore mit bestehenden Metadaten- Management-Systemen. Für die Evaluation von P-PIF haben wir zunächst die Korrek- theit und Vollständigkeit unseres Prov2ONE-Algorithmus bewiesen und darüber hin- aus die vom Prov2ONE BPEL-Algorithmus generierten Prognose-Graphpattern aus ProvONE gegen bestehende BPEL-Kontrollflussmuster ausgewertet. Um zu zeigen, dass P-PIF ein nachhaltiges Framework ist, das sich an Standards hält, vergle- ichen wir außerdem die Funktionen von P-PIF mit denen bestehender Provenance- Interoperabilitätsframeworks. Diese Auswertungen zeigen die Überlegenheit und die Vorteile der einzelnen in dieser Arbeit entwickelten Komponenten gegenüber ex- istierenden Systemen

    Jahresbericht 2017 zur kooperativen DV-Versorgung

    Get PDF
    :Vorwort 13 Übersicht der Inserenten 16 Teil I Gremien der TU Dresden für Belange der Informationstechnik CIO der TU Dresden 21 CIO-Beirat 21 IT-Klausurtagung 23 Teil II Zentrum für Informationsdienste und Hochleistungsrechnen 1 Die Einrichtung 27 1.1 Aufgaben 27 1.2 Zahlen und Fakten 27 1.3 Haushalt 28 1.4 Struktur 30 1.5 Standorte 31 1.6 Gremienarbeit 32 2 IT-Infrastruktur 33 2.1 Kommunikationsdienste und Infrastrukturen 33 2.2 Infrastruktur-Server 43 2.3 Server-Virtualisierung 44 2.4 Housing 44 2.5 Datenspeicher und -sicherung 44 3 Hochleistungsrechnen 51 3.1 HRSK-II – HPC-Cluster Taurus 51 3.2 Shared-Memory-System Venus 53 3.3 Anwendungssoftware 54 3.4 Parallele Programmierwerkzeuge 54 4 Zentrales Diensteangebot 57 4.1 IT-Service-Management 57 4.2 Ticket-System und Service Desk 57 4.3 Identitätsmanagement 59 4.4 Login-Service 61 4.5 Microsoft Windows-Support 61 4.6 Kommunikations- und Kollaborationsdienste 65 4.7 Dresden Science Calendar 67 4.8 Drucken / Kopieren 68 4.9 Zentrale Software-Beschaffung für die TU Dresden 69 5 Forschung 71 5.1 Wissenschaftliche Projekte und Kooperationen 71 5.2 Publikationen 85 6 Ausbildungsbetrieb und Praktika 89 6.1 Ausbildung zum Fachinformatiker 89 6.2 Praktika 89 7 Veranstaltungen 91 7.1 Aus- und Weiterbildungsveranstaltungen 91 7.2 ZIH-Kolloquien 92 7.3 Workshops 92 7.4 Standpräsentationen/Vorträge/Führungen 92 Teil III Bereiche der TU Dresden Bereich Mathematik und Naturwissenschaften 97 1 Bereichsweite IT-Struktur 97 2 Weiterbildung und Informationsaustausch 97 3 Service Desk 98 4 Stand der DV-Ausstattung – allgemeine Hinweise 98 5 Anforderungen an das ZIH 98 5.1 Dienste 98 5.2 Vernetzung 99 5.3 Software 99 Fakultät Biologie 101 1 DV-Anforderungen aus Lehre und Forschung 101 1.1 Anforderungen aus der Lehre 101 1.2 Anforderungen aus der Forschung 102 2 Erreichter Stand der DV-Ausstattung 102 3 Anforderungen an das ZIH 102 Fakultät Chemie und Lebensmittelchemie 103 1 DV-Anforderungen aus Lehre und Forschung 103 1.1 Anforderungen aus der Lehre 103 1.2 Anforderungen aus der Forschung 103 2 Stand der DV-Ausstattung 104 2.1 Verzeichnisdienst und zentrales Management 104 2.2 Server-Systeme 104 2.3 PC-Arbeitsplätze und Messrechner 105 2.4 Datennetz 105 3 Leistungen und Angebote der Fakultät 105 3.1 PC-Pools 105 3.2 Messdaten und Datenbanken 105 3.3 Spezialsoftware 106 3.4 IT-Service-Teams 106 4 Anforderungen der Fakultät an ZIH und Verwaltung 106 4.1 Dienste und Software 106 4.2 Personelle Absicherung 106 Fakultät Mathematik 107 1 DV-Anforderungen aus Lehre und Forschung 107 1.1 Anforderungen aus der Lehre 107 1.2 Anforderungen aus der Forschung 107 2 Erreichter Stand der DV-Ausstattung an der Fakultät 108 2.1 Hardware und Vernetzung 108 2.2 Leistungen und Angebote des zentralen PC-Pools der Fakultät 108 3 Anforderungen der Fakultät an das ZIH 108 3.1 Dienste 108 3.2 Datenkommunikation 109 3.3 Software 109 3.4 Hardware- und Software-Service 109 Fakultät Physik 111 1 DV-Anforderungen aus Lehre und Forschung 111 1.1 Anforderungen aus der Lehre 111 1.2 Anforderungen aus der Forschung 112 2 Erreichter Stand der DV-Ausstattung 113 2.1 Hardware 113 2.2 Software 113 2.3 Vernetzung 113 2.4 PC-Pools 113 2.5 Weiteres 113 3 Anforderungen der Fakultät an das ZIH 114 Fakultät Psychologie 115 1 DV-Anforderungen aus Lehre und Forschung 115 1.1 Anforderungen aus der Lehre 115 1.2 Anforderungen aus der Forschung 115 2 Erreichter Stand der DV-Ausstattung an der Fakultät 115 3 Anforderungen der Fakultät an das ZIH 116 Bereich Geistes- und Sozialwissenschaften 117 1 Struktur und IT-Verantwortlichkeiten 117 2 Fazit und Entwicklungsperspektiven 118 Fakultät Erziehungswissenschaften 121 1 DV-Anforderungen aus Lehre und Forschung 121 1.1 Anforderungen aus der Lehre 121 1.2 Anforderungen aus der Forschung 123 2 Erreichter Stand der DV-Ausstattung an der Fakultät 124 3 Leistungen und Angebote des ZBT der Fakultät 124 4 Anforderungen an das ZIH 125 Juristische Fakultät 127 1 DV-Anforderungen aus Lehre und Forschung 127 1.1 Anforderungen aus der Lehre 127 1.2 Anforderungen aus der Forschung 127 2 Stand der DV-Ausstattung an der Fakultät 128 3 Anforderung an das ZIH sowie externe Ressourcen 128 Philosophische Fakultät 129 1 DV-Anforderungen aus Lehre und Forschung 129 1.1 Anforderungen aus der Lehre 129 1.2 Anforderungen aus der Forschung 129 2 Erreichter Stand der DV-Ausstattung an der Fakultät 130 3 Anforderungen an das ZIH 130 Fakultät Sprach-, Literatur- und Kulturwissenschaften 133 1 DV-Anforderungen aus Lehre und Forschung 133 1.1 Anforderungen aus der Lehre 133 1.2 Anforderungen aus der Forschung 133 2 Erreichter Stand der DV-Ausstattung an der Fakultät 134 3 Anforderung an das ZIH 134 4 E-Learning-Strategie 134 Bereich Bau und Umwelt 137 1 Struktur und IT-Verantwortlichkeiten 137 2 Kompetenzen, angebotene Dienstleistungen und mögliche Synergien 139 3 Fazit und Ausblick 141 Fakultät Architektur 143 1 DV-Anforderungen aus Lehre und Forschung 143 1.1 Anforderungen aus der Lehre 143 1.2 Anforderungen aus der Forschung 144 2 Erreichter Stand der DV-Ausstattung an der Fakultät 144 3 Leistungen und Angebote der Fakultät Architektur 145 4 Anforderungen an das ZIH sowie externe Ressourcen 145 4.1 Dienste 145 4.2 Datenkommunikation 145 4.3 Software 146 4.4 Hardware- und Software-Service 146 Fakultät Bauingenieurwesen 147 1 DV-Anforderungen aus Lehre und Forschung 147 1.1 Anforderungen aus der Lehre 147 1.2 Anforderungen aus der Forschung 148 1.3 Erreichter Stand der DV-Ausstattung an der Fakultät 150 2 Leistungen und Angebote des zentralen Fakultätsrechenzentrums 157 3 Anforderungen an das ZIH sowie externe Ressourcen 157 3.2 Datenkommunikation 158 3.3 Software 158 3.4 Hardware- und Software-Service 158 Fakultät Umweltwissenschaften 159 Fachrichtung Forstwissenschaften 159 1 DV-Anforderungen aus Lehre und Forschung 159 1.1 Anforderungen aus der Lehre 159 1.2 Anforderungen aus der Forschung (ausgewählte Beispiele) 159 2 Erreichter Stand der DV-Ausstattung an der Fachrichtung 160 3 Leistungen und Angebote der Rechenstation der Fachrichtung 161 4 Anforderungen an das ZIH sowie externe Ressourcen 161 4.1 Dienste 161 4.2 Datenkommunikation 161 4.3 Software 161 4.4 Hardware- und Software-Service 161 Fachrichtung Geowissenschaften 163 1 DV-Anforderungen aus Lehre und Forschung 163 1.1 Anforderungen aus der Lehre 163 1.2 Anforderung aus der Forschung 163 2 Anforderung an das ZIH 165 2.1 Dienste 165 2.2 Datenkommunikation 165 2.3 Software 165 2.4 Hardware- und Software-Service 167 3 Anforderung an die Rechenstation Tharandt 167 Fakultät Verkehrswissenschaften „Friedrich List“ 169 1 DV-Anforderungen aus Lehre und Forschung 169 1.1 Anforderungen aus der Lehre 169 1.2 Anforderung aus der Forschung 171 2 Anforderungen an das ZIH 175 Fakultät Wirtschaftswissenschaften 177 1 DV-Anforderungen aus Lehre und Forschung 177 1.1 Anforderungen aus der Lehre 177 1.2 Anforderungen aus der Forschung 179 2 Erreichter Stand der DV-Ausstattung an der Fakultät 180 3 Service-Leistungen des Informatiklabors der Fakultät 182 4 Anforderungen an das ZIH sowie externe Ressourcen 184 4.1 Dienste 184 4.2 Datenkommunikation 184 4.3 Software 185 4.4 Hardware- und Software-Service 185 Bereich Medizin 187 Medizinische Fakultät Carl Gustav Carus 187 1 DV-Anforderungen aus Lehre und Forschung 187 1.1 Anforderungen aus der Lehre 187 1.2 Anforderungen aus der Forschung 188 2 Erreichter Stand der DV-Versorgung 188 3 Anforderungen der Fakultät an das ZIH / MZ / SLUB 19

    UniProv - Provenance Management for UNICORE Workflows in HPC Environments

    No full text
    The goal of comprehensive provenance tracking in the scientificenvironment should be the inclusion of the entire life cycle of data management.Thus, the data collection process begins with the registration of labgeneratedor sensor-generated data, continues to organize and manage data inthe storage repositories, processing analysis and simulation data on clusters andHPC systems, and finally referencing and verifying computational results inscientific publications. In the associated provenance tracking life cycle, UniProvinitially concentrates on the processing and simulation of data in scientificworkflows used in particular on supercomputers in the HPC environment. Inthis context, UniProv aims to create the core of a provenance managementframework that can be extended in order to integrate different sources of thescientific provenance cycle. Here UniProv should facilitate the creation, thestandardized formalization, the storage and the retrieval of ProvenanceInformation

    UniProv - Provenance Management for UNICORE Workflows in HPC Environments

    No full text
    The goal of comprehensive provenance tracking in the scientific environment should be the inclusion of the entire life cycle of data management. Thus, the data collection process begins with the registration of lab-generated or sensor-generated data, continues to organize and manage data in the storage repositories, processing analysis and simulation data on clusters and HPC systems, and finally referencing and verifying computational results in scientific publications. In the associated provenance tracking life cycle, UniProv initially concentrates on the processing and simulation of data in scientific workflows used in particular on supercomputers in the HPC environment. In this context, UniProv aims to create the core of a provenance management framework that can be extended in order to integrate different sources of the scientific provenance cycle. Here UniProv should facilitate the creation, the standardized formalization, the storage and the retrieval of Provenance Information
    corecore