Search CORE

6 research outputs found

Helmholtz Portfolio Theme Large-Scale Data Management and Analysis (LSDMA)

Author: Jung Christopher
Meyer Jörg
Streit Achim
Publication venue: KIT Scientific Publishing, Karlsruhe
Publication date: 01/01/2017
Field of study

The Helmholtz Association funded the "Large-Scale Data Management and Analysis" portfolio theme from 2012-2016. Four Helmholtz centres, six universities and another research institution in Germany joined to enable data-intensive science by optimising data life cycles in selected scientific communities. In our Data Life cycle Labs, data experts performed joint R&D together with scientific communities. The Data Services Integration Team focused on generic solutions applied by several communities

KITopen

Sharing interoperable workflow provenance: A review of best practices and their practical application in CWLProv

Author: Crusoe Michael R.
Goble Carole
Khan Farah Zaib
Lonie Andrew
Sinnott Richard O.
Soiland-Reyes Stian
Publication venue
Publication date: 04/12/2018
Field of study

Background: The automation of data analysis in the form of scientific workflows has become a widely adopted practice in many fields of research. Computationally driven data-intensive experiments using workflows enable Automation, Scaling, Adaption and Provenance support (ASAP). However, there are still several challenges associated with the effective sharing, publication and reproducibility of such workflows due to the incomplete capture of provenance and lack of interoperability between different technical (software) platforms. Results: Based on best practice recommendations identified from literature on workflow design, sharing and publishing, we define a hierarchical provenance framework to achieve uniformity in the provenance and support comprehensive and fully re-executable workflows equipped with domain-specific information. To realise this framework, we present CWLProv, a standard-based format to represent any workflow-based computational analysis to produce workflow output artefacts that satisfy the various levels of provenance. We utilise open source community-driven standards; interoperable workflow definitions in Common Workflow Language (CWL), structured provenance representation using the W3C PROV model, and resource aggregation and sharing as workflow-centric Research Objects (RO) generated along with the final outputs of a given workflow enactment. We demonstrate the utility of this approach through a practical implementation of CWLProv and evaluation using real-life genomic workflows developed by independent groups. Conclusions: The underlying principles of the standards utilised by CWLProv enable semantically-rich and executable Research Objects that capture computational workflows with retrospective provenance such that any platform supporting CWL will be able to understand the analysis, re-use the methods for partial re-runs, or reproduce the analysis to validate the published findings.Submitted to GigaScience (GIGA-D-18-00483

ZENODO

NEUROSURGERY ENTHUSIASTIC WOMEN SOCIETY

The University of Manchester - Institutional Repository

GENERIC AND ADAPTIVE METADATA MANAGEMENT FRAMEWORK FOR SCIENTIFIC DATA REPOSITORIES

Author: Prabhune Ajinkya
Publication venue
Publication date: 01/01/2018
Field of study

Der rapide technologische Fortschritt hat in verschiedenen Forschungsdisziplinen zu vielfältigen Weiterentwicklungen in Datenakquise und -verarbeitung geführt. Hi- eraus wiederum resultiert ein immenses Wachstum an Daten und Metadaten, gener- iert durch wissenschaftliche Experimente. Unabhängig vom konkreten Forschungs- gebiet ist die wissenschaftliche Praxis immer stärker durch Daten und Metadaten gekennzeichnet. In der Folge intensivieren Universitäten, Forschungsgemeinschaften und Förderagenturen ihre Bemühungen, wissenschaftliche Daten effizient zu sichten, zu speichern und auszuwerten. Die wesentlichen Ziele wissenschaftlicher Daten- Repositorien sind die Etablierung von Langzeitspeicher, der Zugriff auf Daten, die Bereitstellung von Daten für die Wiederverwendung und deren Referenzierung, die Erfassung der Datenquelle zur Reproduzierbarkeit sowie die Bereitstellung von Meta- daten, Anmerkungen oder Verweisen zur Vermittlung domänenspezifischen Wis- sens, das zur Interpretation der Daten notwendig ist. Wissenschaftliche Datenspe- icher sind hochkomplexe Systeme, bestehend aus Elementen aus unterschiedlichen Forschungsfeldern, wie z. B. Algorithmen für Datenkompression und Langzeit- datenarchivierung, Frameworks für das Metadaten- und Annotations-management, Workflow-Provenance und Provenance-Interoperabilität zwischen heterogenen Work- flowsystemen, Autorisierungs und Authentifizierungsinfrastrukturen sowie Visual- isierungswerkzeuge für die Dateninterpretation. Die vorliegende Arbeit beschreibt eine modulare Architektur für ein wis- senschaftliches Datenarchiv, die Forschungsgemeinschaften darin unterstützt, ihre Daten und Metadaten gezielt über den jeweiligen Lebenszyklus hinweg zu orchestri- eren. Diese Architektur besteht aus Komponenten, die vier Forschungsfelder repräsen- tieren. Die erste Komponente ist ein Client zur Datenübertragung (“data transfer client”). Er bietet eine generische Schnittstelle für die Erfassung von Daten und den Zugriff auf Daten aus wissenschaftlichen Datenakquisesystemen. Die zweite Komponente ist das MetaStore-Framework, ein adaptives Metadaten- Management-Framework, das die Handhabung sowohl statischer als auch dynamis- cher Metadatenmodelle ermöglicht. Um beliebige Metadatenschemata behandeln zu können, basiert die Entwicklung des MetaStore-Frameworks auf dem komponen- tenbasierten dynamischen Kompositions-Entwurfsmuster (component-based dynamic composition design pattern). Der MetaStore ist außerdem mit einem Annotations- framework für die Handhabung von dynamischen Metadaten ausgestattet. Die dritte Komponente ist eine Erweiterung des MetaStore-Frameworks zur au- tomatisierten Behandlung von Provenance-Metadaten für BPEL-basierte Workflow- Management-Systeme. Der von uns entworfene und implementierte Prov2ONE Al- gorithmus übersetzt dafür die Struktur und Ausführungstraces von BPEL-Workflow- Definitionen automatisch in das Provenance-Modell ProvONE. Hierbei ermöglicht die Verfügbarkeit der vollständigen BPEL-Provenance-Daten in ProvONE nicht nur eine aggregierte Analyse der Workflow-Definition mit ihrem Ausführungstrace, sondern gewährleistet auch die Kompatibilität von Provenance-Daten aus unterschiedlichen Spezifikationssprachen. Die vierte Komponente unseres wissenschaftlichen Datenarchives ist das Provenance-Interoperabilitätsframework ProvONE - Provenance Interoperability Framework (P-PIF). Dieses gewährleistet die Interoperabilität von Provenance-Daten heterogener Provenance-Modelle aus unterschiedlichen Workflowmanagementsyste- men. P-PIF besteht aus zwei Komponenten: dem Prov2ONE-Algorithmus für SCUFL und MoML Workflow-Spezifikationen und Workflow-Management-System- spezifischen Adaptern zur Extraktion, Übersetzung und Modellierung retrospektiver Provenance-Daten in das ProvONE-Provenance-Modell. P-PIF kann sowohl Kon- trollfluss als auch Datenfluss nach ProvONE übersetzen. Die Verfügbarkeit hetero- gener Provenance-Traces in ProvONE ermöglicht das Vergleichen, Analysieren und Anfragen von Provenance-Daten aus unterschiedlichen Workflowsystemen. Wir haben die Komponenten des in dieser Arbeit vorgestellten wissenschaftlichen Datenarchives wie folgt evaluiert: für den Client zum Datentrasfer haben wir die Daten-übertragungsleistung mit dem Standard-Protokoll für Nanoskopie-Datensätze untersucht. Das MetaStore-Framework haben wir hinsichtlich der folgenden bei- den Aspekte evaluiert. Zum einen haben wir die Metadatenaufnahme und Voll- textsuchleistung unter verschiedenen Datenbankkonfigurationen getestet. Zum an- deren zeigen wir die umfassende Abdeckung der Funktionalitäten von MetaStore durch einen funktionsbasierten Vergleich von MetaStore mit bestehenden Metadaten- Management-Systemen. Für die Evaluation von P-PIF haben wir zunächst die Korrek- theit und Vollständigkeit unseres Prov2ONE-Algorithmus bewiesen und darüber hin- aus die vom Prov2ONE BPEL-Algorithmus generierten Prognose-Graphpattern aus ProvONE gegen bestehende BPEL-Kontrollflussmuster ausgewertet. Um zu zeigen, dass P-PIF ein nachhaltiges Framework ist, das sich an Standards hält, vergle- ichen wir außerdem die Funktionen von P-PIF mit denen bestehender Provenance- Interoperabilitätsframeworks. Diese Auswertungen zeigen die Überlegenheit und die Vorteile der einzelnen in dieser Arbeit entwickelten Komponenten gegenüber ex- istierenden Systemen

Heidelberger Dokumentenserver

Jahresbericht 2017 zur kooperativen DV-Versorgung

Author
Publication venue: Technische Universität Dresden
Publication date: 10/02/2020
Field of study

:Vorwort 13 Übersicht der Inserenten 16 Teil I Gremien der TU Dresden für Belange der Informationstechnik CIO der TU Dresden 21 CIO-Beirat 21 IT-Klausurtagung 23 Teil II Zentrum für Informationsdienste und Hochleistungsrechnen 1 Die Einrichtung 27 1.1 Aufgaben 27 1.2 Zahlen und Fakten 27 1.3 Haushalt 28 1.4 Struktur 30 1.5 Standorte 31 1.6 Gremienarbeit 32 2 IT-Infrastruktur 33 2.1 Kommunikationsdienste und Infrastrukturen 33 2.2 Infrastruktur-Server 43 2.3 Server-Virtualisierung 44 2.4 Housing 44 2.5 Datenspeicher und -sicherung 44 3 Hochleistungsrechnen 51 3.1 HRSK-II – HPC-Cluster Taurus 51 3.2 Shared-Memory-System Venus 53 3.3 Anwendungssoftware 54 3.4 Parallele Programmierwerkzeuge 54 4 Zentrales Diensteangebot 57 4.1 IT-Service-Management 57 4.2 Ticket-System und Service Desk 57 4.3 Identitätsmanagement 59 4.4 Login-Service 61 4.5 Microsoft Windows-Support 61 4.6 Kommunikations- und Kollaborationsdienste 65 4.7 Dresden Science Calendar 67 4.8 Drucken / Kopieren 68 4.9 Zentrale Software-Beschaffung für die TU Dresden 69 5 Forschung 71 5.1 Wissenschaftliche Projekte und Kooperationen 71 5.2 Publikationen 85 6 Ausbildungsbetrieb und Praktika 89 6.1 Ausbildung zum Fachinformatiker 89 6.2 Praktika 89 7 Veranstaltungen 91 7.1 Aus- und Weiterbildungsveranstaltungen 91 7.2 ZIH-Kolloquien 92 7.3 Workshops 92 7.4 Standpräsentationen/Vorträge/Führungen 92 Teil III Bereiche der TU Dresden Bereich Mathematik und Naturwissenschaften 97 1 Bereichsweite IT-Struktur 97 2 Weiterbildung und Informationsaustausch 97 3 Service Desk 98 4 Stand der DV-Ausstattung – allgemeine Hinweise 98 5 Anforderungen an das ZIH 98 5.1 Dienste 98 5.2 Vernetzung 99 5.3 Software 99 Fakultät Biologie 101 1 DV-Anforderungen aus Lehre und Forschung 101 1.1 Anforderungen aus der Lehre 101 1.2 Anforderungen aus der Forschung 102 2 Erreichter Stand der DV-Ausstattung 102 3 Anforderungen an das ZIH 102 Fakultät Chemie und Lebensmittelchemie 103 1 DV-Anforderungen aus Lehre und Forschung 103 1.1 Anforderungen aus der Lehre 103 1.2 Anforderungen aus der Forschung 103 2 Stand der DV-Ausstattung 104 2.1 Verzeichnisdienst und zentrales Management 104 2.2 Server-Systeme 104 2.3 PC-Arbeitsplätze und Messrechner 105 2.4 Datennetz 105 3 Leistungen und Angebote der Fakultät 105 3.1 PC-Pools 105 3.2 Messdaten und Datenbanken 105 3.3 Spezialsoftware 106 3.4 IT-Service-Teams 106 4 Anforderungen der Fakultät an ZIH und Verwaltung 106 4.1 Dienste und Software 106 4.2 Personelle Absicherung 106 Fakultät Mathematik 107 1 DV-Anforderungen aus Lehre und Forschung 107 1.1 Anforderungen aus der Lehre 107 1.2 Anforderungen aus der Forschung 107 2 Erreichter Stand der DV-Ausstattung an der Fakultät 108 2.1 Hardware und Vernetzung 108 2.2 Leistungen und Angebote des zentralen PC-Pools der Fakultät 108 3 Anforderungen der Fakultät an das ZIH 108 3.1 Dienste 108 3.2 Datenkommunikation 109 3.3 Software 109 3.4 Hardware- und Software-Service 109 Fakultät Physik 111 1 DV-Anforderungen aus Lehre und Forschung 111 1.1 Anforderungen aus der Lehre 111 1.2 Anforderungen aus der Forschung 112 2 Erreichter Stand der DV-Ausstattung 113 2.1 Hardware 113 2.2 Software 113 2.3 Vernetzung 113 2.4 PC-Pools 113 2.5 Weiteres 113 3 Anforderungen der Fakultät an das ZIH 114 Fakultät Psychologie 115 1 DV-Anforderungen aus Lehre und Forschung 115 1.1 Anforderungen aus der Lehre 115 1.2 Anforderungen aus der Forschung 115 2 Erreichter Stand der DV-Ausstattung an der Fakultät 115 3 Anforderungen der Fakultät an das ZIH 116 Bereich Geistes- und Sozialwissenschaften 117 1 Struktur und IT-Verantwortlichkeiten 117 2 Fazit und Entwicklungsperspektiven 118 Fakultät Erziehungswissenschaften 121 1 DV-Anforderungen aus Lehre und Forschung 121 1.1 Anforderungen aus der Lehre 121 1.2 Anforderungen aus der Forschung 123 2 Erreichter Stand der DV-Ausstattung an der Fakultät 124 3 Leistungen und Angebote des ZBT der Fakultät 124 4 Anforderungen an das ZIH 125 Juristische Fakultät 127 1 DV-Anforderungen aus Lehre und Forschung 127 1.1 Anforderungen aus der Lehre 127 1.2 Anforderungen aus der Forschung 127 2 Stand der DV-Ausstattung an der Fakultät 128 3 Anforderung an das ZIH sowie externe Ressourcen 128 Philosophische Fakultät 129 1 DV-Anforderungen aus Lehre und Forschung 129 1.1 Anforderungen aus der Lehre 129 1.2 Anforderungen aus der Forschung 129 2 Erreichter Stand der DV-Ausstattung an der Fakultät 130 3 Anforderungen an das ZIH 130 Fakultät Sprach-, Literatur- und Kulturwissenschaften 133 1 DV-Anforderungen aus Lehre und Forschung 133 1.1 Anforderungen aus der Lehre 133 1.2 Anforderungen aus der Forschung 133 2 Erreichter Stand der DV-Ausstattung an der Fakultät 134 3 Anforderung an das ZIH 134 4 E-Learning-Strategie 134 Bereich Bau und Umwelt 137 1 Struktur und IT-Verantwortlichkeiten 137 2 Kompetenzen, angebotene Dienstleistungen und mögliche Synergien 139 3 Fazit und Ausblick 141 Fakultät Architektur 143 1 DV-Anforderungen aus Lehre und Forschung 143 1.1 Anforderungen aus der Lehre 143 1.2 Anforderungen aus der Forschung 144 2 Erreichter Stand der DV-Ausstattung an der Fakultät 144 3 Leistungen und Angebote der Fakultät Architektur 145 4 Anforderungen an das ZIH sowie externe Ressourcen 145 4.1 Dienste 145 4.2 Datenkommunikation 145 4.3 Software 146 4.4 Hardware- und Software-Service 146 Fakultät Bauingenieurwesen 147 1 DV-Anforderungen aus Lehre und Forschung 147 1.1 Anforderungen aus der Lehre 147 1.2 Anforderungen aus der Forschung 148 1.3 Erreichter Stand der DV-Ausstattung an der Fakultät 150 2 Leistungen und Angebote des zentralen Fakultätsrechenzentrums 157 3 Anforderungen an das ZIH sowie externe Ressourcen 157 3.2 Datenkommunikation 158 3.3 Software 158 3.4 Hardware- und Software-Service 158 Fakultät Umweltwissenschaften 159 Fachrichtung Forstwissenschaften 159 1 DV-Anforderungen aus Lehre und Forschung 159 1.1 Anforderungen aus der Lehre 159 1.2 Anforderungen aus der Forschung (ausgewählte Beispiele) 159 2 Erreichter Stand der DV-Ausstattung an der Fachrichtung 160 3 Leistungen und Angebote der Rechenstation der Fachrichtung 161 4 Anforderungen an das ZIH sowie externe Ressourcen 161 4.1 Dienste 161 4.2 Datenkommunikation 161 4.3 Software 161 4.4 Hardware- und Software-Service 161 Fachrichtung Geowissenschaften 163 1 DV-Anforderungen aus Lehre und Forschung 163 1.1 Anforderungen aus der Lehre 163 1.2 Anforderung aus der Forschung 163 2 Anforderung an das ZIH 165 2.1 Dienste 165 2.2 Datenkommunikation 165 2.3 Software 165 2.4 Hardware- und Software-Service 167 3 Anforderung an die Rechenstation Tharandt 167 Fakultät Verkehrswissenschaften „Friedrich List“ 169 1 DV-Anforderungen aus Lehre und Forschung 169 1.1 Anforderungen aus der Lehre 169 1.2 Anforderung aus der Forschung 171 2 Anforderungen an das ZIH 175 Fakultät Wirtschaftswissenschaften 177 1 DV-Anforderungen aus Lehre und Forschung 177 1.1 Anforderungen aus der Lehre 177 1.2 Anforderungen aus der Forschung 179 2 Erreichter Stand der DV-Ausstattung an der Fakultät 180 3 Service-Leistungen des Informatiklabors der Fakultät 182 4 Anforderungen an das ZIH sowie externe Ressourcen 184 4.1 Dienste 184 4.2 Datenkommunikation 184 4.3 Software 185 4.4 Hardware- und Software-Service 185 Bereich Medizin 187 Medizinische Fakultät Carl Gustav Carus 187 1 DV-Anforderungen aus Lehre und Forschung 187 1.1 Anforderungen aus der Lehre 187 1.2 Anforderungen aus der Forschung 188 2 Erreichter Stand der DV-Versorgung 188 3 Anforderungen der Fakultät an das ZIH / MZ / SLUB 19

Technische Universität Dresden: Qucosa

UniProv - Provenance Management for UNICORE Workflows in HPC Environments

Author: Czekala Myriam
Giesler André
Hagemeier Björn
Publication venue
Publication date: 01/01/2018
Field of study

The goal of comprehensive provenance tracking in the scientificenvironment should be the inclusion of the entire life cycle of data management.Thus, the data collection process begins with the registration of labgeneratedor sensor-generated data, continues to organize and manage data inthe storage repositories, processing analysis and simulation data on clusters andHPC systems, and finally referencing and verifying computational results inscientific publications. In the associated provenance tracking life cycle, UniProvinitially concentrates on the processing and simulation of data in scientificworkflows used in particular on supercomputers in the HPC environment. Inthis context, UniProv aims to create the core of a provenance managementframework that can be extended in order to integrate different sources of thescientific provenance cycle. Here UniProv should facilitate the creation, thestandardized formalization, the storage and the retrieval of ProvenanceInformation

Juelich Shared Electronic Resources

UniProv - Provenance Management for UNICORE Workflows in HPC Environments

Author: K Amunts
PC Brauer
T Heinis
V Cuevas
Publication venue: 'Springer Science and Business Media LLC'
Publication date: 01/01/2018
Field of study

The goal of comprehensive provenance tracking in the scientific environment should be the inclusion of the entire life cycle of data management. Thus, the data collection process begins with the registration of lab-generated or sensor-generated data, continues to organize and manage data in the storage repositories, processing analysis and simulation data on clusters and HPC systems, and finally referencing and verifying computational results in scientific publications. In the associated provenance tracking life cycle, UniProv initially concentrates on the processing and simulation of data in scientific workflows used in particular on supercomputers in the HPC environment. In this context, UniProv aims to create the core of a provenance management framework that can be extended in order to integrate different sources of the scientific provenance cycle. Here UniProv should facilitate the creation, the standardized formalization, the storage and the retrieval of Provenance Information

Crossref

Juelich Shared Electronic Resources