12 research outputs found

    Building A High Performance Parallel File System Using Grid Datafarm and ROOT I/O

    Full text link
    Sheer amount of petabyte scale data foreseen in the LHC experiments require a careful consideration of the persistency design and the system design in the world-wide distributed computing. Event parallelism of the HENP data analysis enables us to take maximum advantage of the high performance cluster computing and networking when we keep the parallelism both in the data processing phase, in the data management phase, and in the data transfer phase. A modular architecture of FADS/ Goofy, a versatile detector simulation framework for Geant4, enables an easy choice of plug-in facilities for persistency technologies such as Objectivity/DB and ROOT I/O. The framework is designed to work naturally with the parallel file system of Grid Datafarm (Gfarm). FADS/Goofy is proven to generate 10^6 Geant4-simulated Atlas Mockup events using a 512 CPU PC cluster. The data in ROOT I/O files is replicated using Gfarm file system. The histogram information is collected from the distributed ROOT files. During the data replication it has been demonstrated to achieve more than 2.3 Gbps data transfer rate between the PC clusters over seven participating PC clusters in the United States and in Japan.Comment: Talk from the 2003 Computing in High Energy and Nuclear Physics (CHEP03), La Jolla, Ca, USA, March 2003, 4 pages, PDF. PSN TUDT01

    Distributed Management of Massive Data: an Efficient Fine-Grain Data Access Scheme

    Get PDF
    This paper addresses the problem of efficiently storing and accessing massive data blocks in a large-scale distributed environment, while providing efficient fine-grain access to data subsets. This issue is crucial in the context of applications in the field of databases, data mining and multimedia. We propose a data sharing service based on distributed, RAM-based storage of data, while leveraging a DHT-based, natively parallel metadata management scheme. As opposed to the most commonly used grid storage infrastructures that provide mechanisms for explicit data localization and transfer, we provide a transparent access model, where data are accessed through global identifiers. Our proposal has been validated through a prototype implementation whose preliminary evaluation provides promising results

    Enabling Lock-Free Concurrent Fine-Grain Access to Massive Distributed Data: Application to Supernovae Detection

    Get PDF
    We consider the problem of efficiently managing massive data in a large-scale distributed environment. We consider data strings of size in the order of Terabytes, shared and accessed by concurrent clients. On each individual access, a segment of a string, of the order of Megabytes, is read or modified. Our goal is to provide the clients with efficient fine-grain access the data string as concurrently as possible, without locking the string itself. This issue is crucial in the context of applications in the field of astronomy, databases, data mining and multimedia. We illustrate these requiremens with the case of an application for searching supernovae. Our solution relies on distributed, RAM-based data storage, while leveraging a DHT-based, parallel metadata management scheme. The proposed architecture and algorithms have been validated through a software prototype and evaluated in a cluster environment

    Dynamic replication strategies in data grid systems: A survey

    Get PDF
    In data grid systems, data replication aims to increase availability, fault tolerance, load balancing and scalability while reducing bandwidth consumption, and job execution time. Several classification schemes for data replication were proposed in the literature, (i) static vs. dynamic, (ii) centralized vs. decentralized, (iii) push vs. pull, and (iv) objective function based. Dynamic data replication is a form of data replication that is performed with respect to the changing conditions of the grid environment. In this paper, we present a survey of recent dynamic data replication strategies. We study and classify these strategies by taking the target data grid architecture as the sole classifier. We discuss the key points of the studied strategies and provide feature comparison of them according to important metrics. Furthermore, the impact of data grid architecture on dynamic replication performance is investigated in a simulation study. Finally, some important issues and open research problems in the area are pointed out

    Global-scale peer-to-peer file services with DFS

    Full text link

    Applications Development for the Computational Grid

    Get PDF

    Dimensionerings- en werkverdelingsalgoritmen voor lambda grids

    Get PDF
    Grids bestaan uit een verzameling reken- en opslagelementen die geografisch verspreid kunnen zijn, maar waarvan men de gezamenlijke capaciteit wenst te benutten. Daartoe dienen deze elementen verbonden te worden met een netwerk. Vermits veel wetenschappelijke applicaties gebruik maken van een Grid, en deze applicaties doorgaans grote hoeveelheden data verwerken, is het noodzakelijk om een netwerk te voorzien dat dergelijke grote datastromen op betrouwbare wijze kan transporteren. Optische transportnetwerken lenen zich hier uitstekend toe. Grids die gebruik maken van dergelijk netwerk noemt men lambda Grids. Deze thesis beschrijft een kader waarin het ontwerp en dimensionering van optische netwerken voor lambda Grids kunnen beschreven worden. Ook wordt besproken hoe werklast kan verdeeld worden op een Grid eens die gedimensioneerd is. Een groot deel van de resultaten werd bekomen door simulatie, waarbij gebruik gemaakt wordt van een eigen Grid simulatiepakket dat precies focust op netwerk- en Gridelementen. Het ontwerp van deze simulator, en de daarbijhorende implementatiekeuzes worden dan ook uitvoerig toegelicht in dit werk

    Multivariate hydrometeorological extreme events and their impacts on vegetation: potential methods and applications

    Get PDF
    Trockenheiten und Hitzewellen beeinflussen unsere Gesellschaft und die Vegetation. Insbesondere im Zusammenhang mit dem Klimawandel sind die Auswirkungen auf die Vegetation von besonderer Bedeutung. Im globalen Kohlenstoffkreislauf sind terrestrische Ökosysteme normalerweise Senken von Kohlenstoffdioxid, können sich aber während und nach Klimaextremereignissen in Kohlenstoffquellen verwandeln. Ein entscheidender Aspekt hierbei ist die Rolle verschiedener Pflanzenarten und Vegetationstypen auf verschiedenen Skalen, die die Auswirkungen auf den Kohlenstoffkreislauf beeinflussen. Obwohl durch physiologische Unterschiede zwischen verschiedenen Pflanzenarten unterschiedliche Reaktionen auf Extremereignisse naheliegen, sind diese Unterschiede auf globaler Ebene nicht systematisch ausgewertet und vollständig verstanden. Ein weiter Aspekt ist, dass Klimaextremereignissen von Natur aus multivariat sind. Beispielsweise kann heiße Luft mehr Wasser aufnehmen als kalte Luft. Extremereignisse mit starken Auswirkungen waren in der Vergangenheit häufig multivariat, wie beispielsweise in Europa 2003, Russland 2012, oder den USA 2012. Diese multivariate Natur von Klimaextremen erfordert eine multivariate Perspektive auf diese Ereignisse. Bisher werden meistens einzelne Variablen zu Detektion von Extremereignissen genutzt und keine Kovariation oder Nichtlinearitäten berücksichtigt. Neue generische Workflows, die solche multivariaten Strukturen berücksichtigen, müssen erst entwickelt oder aus anderen Disziplinen übertragen werden, um uns eine multivariate Perspektive auf Klimaextreme zu bieten. Das übergeordnete Ziel der Dissertation ist es, die Erkennung und das Verständnis von Klimaextremen und deren Auswirkungen auf die Vegetation zu verbessern, indem eine breitere multivariate Perspektive ermöglicht wird, die bisherige Ansätze zur Erkennung von Extremereignissen ergänzt
    corecore