12 research outputs found
Building A High Performance Parallel File System Using Grid Datafarm and ROOT I/O
Sheer amount of petabyte scale data foreseen in the LHC experiments require a
careful consideration of the persistency design and the system design in the
world-wide distributed computing. Event parallelism of the HENP data analysis
enables us to take maximum advantage of the high performance cluster computing
and networking when we keep the parallelism both in the data processing phase,
in the data management phase, and in the data transfer phase. A modular
architecture of FADS/ Goofy, a versatile detector simulation framework for
Geant4, enables an easy choice of plug-in facilities for persistency
technologies such as Objectivity/DB and ROOT I/O. The framework is designed to
work naturally with the parallel file system of Grid Datafarm (Gfarm).
FADS/Goofy is proven to generate 10^6 Geant4-simulated Atlas Mockup events
using a 512 CPU PC cluster. The data in ROOT I/O files is replicated using
Gfarm file system. The histogram information is collected from the distributed
ROOT files. During the data replication it has been demonstrated to achieve
more than 2.3 Gbps data transfer rate between the PC clusters over seven
participating PC clusters in the United States and in Japan.Comment: Talk from the 2003 Computing in High Energy and Nuclear Physics
(CHEP03), La Jolla, Ca, USA, March 2003, 4 pages, PDF. PSN TUDT01
Distributed Management of Massive Data: an Efficient Fine-Grain Data Access Scheme
This paper addresses the problem of efficiently storing and accessing massive
data blocks in a large-scale distributed environment, while providing efficient
fine-grain access to data subsets. This issue is crucial in the context of
applications in the field of databases, data mining and multimedia. We propose
a data sharing service based on distributed, RAM-based storage of data, while
leveraging a DHT-based, natively parallel metadata management scheme. As
opposed to the most commonly used grid storage infrastructures that provide
mechanisms for explicit data localization and transfer, we provide a
transparent access model, where data are accessed through global identifiers.
Our proposal has been validated through a prototype implementation whose
preliminary evaluation provides promising results
Enabling Lock-Free Concurrent Fine-Grain Access to Massive Distributed Data: Application to Supernovae Detection
We consider the problem of efficiently managing massive data in a large-scale
distributed environment. We consider data strings of size in the order of
Terabytes, shared and accessed by concurrent clients. On each individual
access, a segment of a string, of the order of Megabytes, is read or modified.
Our goal is to provide the clients with efficient fine-grain access the data
string as concurrently as possible, without locking the string itself. This
issue is crucial in the context of applications in the field of astronomy,
databases, data mining and multimedia. We illustrate these requiremens with the
case of an application for searching supernovae. Our solution relies on
distributed, RAM-based data storage, while leveraging a DHT-based, parallel
metadata management scheme. The proposed architecture and algorithms have been
validated through a software prototype and evaluated in a cluster environment
Dynamic replication strategies in data grid systems: A survey
In data grid systems, data replication aims to increase availability, fault tolerance, load balancing and scalability while reducing bandwidth consumption, and job execution time. Several classification schemes for data replication were proposed in the literature, (i) static vs. dynamic, (ii) centralized vs. decentralized, (iii) push vs. pull, and (iv) objective function based. Dynamic data replication is a form of data replication that is performed with respect to the changing conditions of the grid environment. In this paper, we present a survey of recent dynamic data replication strategies. We study and classify these strategies by taking the target data grid architecture as the sole classifier. We discuss the key points of the studied strategies and provide feature comparison of them according to important metrics. Furthermore, the impact of data grid architecture on dynamic replication performance is investigated in a simulation study. Finally, some important issues and open research problems in the area are pointed out
Dimensionerings- en werkverdelingsalgoritmen voor lambda grids
Grids bestaan uit een verzameling reken- en opslagelementen die geografisch verspreid kunnen zijn, maar waarvan men de gezamenlijke capaciteit wenst te benutten. Daartoe dienen deze elementen verbonden te worden met een netwerk. Vermits veel wetenschappelijke applicaties gebruik maken van een Grid, en deze applicaties doorgaans grote hoeveelheden data verwerken, is het noodzakelijk om een netwerk te voorzien dat dergelijke grote datastromen op betrouwbare wijze kan transporteren. Optische transportnetwerken lenen zich hier uitstekend toe. Grids die gebruik maken van dergelijk netwerk noemt men lambda Grids. Deze thesis beschrijft een kader waarin het ontwerp en dimensionering van optische netwerken voor lambda Grids kunnen beschreven worden. Ook wordt besproken hoe werklast kan verdeeld worden op een Grid eens die gedimensioneerd is. Een groot deel van de resultaten werd bekomen door simulatie, waarbij gebruik gemaakt wordt van een eigen Grid simulatiepakket dat precies focust op netwerk- en Gridelementen. Het ontwerp van deze simulator, en de daarbijhorende implementatiekeuzes worden dan ook uitvoerig toegelicht in dit werk
Multivariate hydrometeorological extreme events and their impacts on vegetation: potential methods and applications
Trockenheiten und Hitzewellen beeinflussen unsere Gesellschaft und die Vegetation. Insbesondere im Zusammenhang mit dem Klimawandel sind die Auswirkungen auf die Vegetation von besonderer Bedeutung. Im globalen Kohlenstoffkreislauf sind terrestrische Ökosysteme normalerweise Senken von Kohlenstoffdioxid, können sich aber während und nach Klimaextremereignissen in Kohlenstoffquellen verwandeln. Ein entscheidender Aspekt hierbei ist die Rolle verschiedener Pflanzenarten und Vegetationstypen auf verschiedenen Skalen, die die Auswirkungen auf den Kohlenstoffkreislauf beeinflussen. Obwohl durch physiologische Unterschiede zwischen verschiedenen Pflanzenarten unterschiedliche Reaktionen auf Extremereignisse naheliegen, sind diese Unterschiede auf globaler Ebene nicht systematisch ausgewertet und vollständig verstanden. Ein weiter Aspekt ist, dass Klimaextremereignissen von Natur aus multivariat sind. Beispielsweise kann heiße Luft mehr Wasser aufnehmen als kalte Luft. Extremereignisse mit starken Auswirkungen waren in der Vergangenheit häufig multivariat, wie beispielsweise in Europa 2003, Russland 2012, oder den USA 2012. Diese multivariate Natur von Klimaextremen erfordert eine multivariate Perspektive auf diese Ereignisse. Bisher werden meistens einzelne Variablen zu Detektion von Extremereignissen genutzt und keine Kovariation oder Nichtlinearitäten berücksichtigt. Neue generische Workflows, die solche multivariaten Strukturen berücksichtigen, müssen erst entwickelt oder aus anderen Disziplinen übertragen werden, um uns eine multivariate Perspektive auf Klimaextreme zu bieten. Das übergeordnete Ziel der Dissertation ist es, die Erkennung und das Verständnis von Klimaextremen und deren Auswirkungen auf die Vegetation zu verbessern, indem eine breitere multivariate Perspektive ermöglicht wird, die bisherige Ansätze zur Erkennung von Extremereignissen ergänzt