5 research outputs found

    The ATLAS ROBIN – A High-Performance Data-Acquisition Module

    Get PDF
    This work presents the re-configurable processor ROBIN, which is a key element of the data-acquisition-system of the ATLAS experiment, located at the new LHC at CERN. The ATLAS detector provides data over 1600 channels simultaneously towards the DAQ system. The ATLAS dataflow model follows the “PULL” strategy in contrast to the commonly used “PUSH” strategy. The data volume transported is reduced by a factor of 10, however the data must be temporarily stored at the entry to the DAQ system. The input layer consists of approx. 160 ROS read-out units comprising 1 PC and 4 ROBIN modules. Each ROBIN device acquires detector data via 3 input channels and performs local buffering. Board control is done via a 64-bit PCI interface. Event selection and data transmission runs via PCI in the baseline bus-based ROS. Alternatively, a local GE interface can take over part or all of the data traffic in the switch-based ROS, in order to reduce the load on the host PC. The performance of the ROBIN module stems from the close cooperation of a fast embedded processor with a complex FPGA. The efficient task-distribution lets the processor handle all complex management functionality, programmed in “C” while all movement of data is performed by the FPGA via multiple, concurrently operating DMA engines. The ROBIN-project was carried-out by and international team and comprises the design specification, the development of the ROBIN hardware, firmware (VHDL and C-Code), host-code (C++), prototyping, volume production and installation of 700 boards. The project was led by the author of this thesis. The hardware platform is an evolution of a FPGA processor previously designed by the author. He has contributed elementary concepts of the communication mechanisms and the “C”-coded embedded application software. He also organised and supervised the prototype and series productions including the various design reports and presentations. The results show that the ROBIN-module is able to meet its ambitious requirements of 100kHz incoming fragment rate per channel with a concurrent outgoing fragment rate of 21kHz per channel. At the system level, each ROS unit (12 channels) operates at the same rates, however for a subset of the channels only. The ATLAS DAQ system – with 640 ROBIN modules installed – has performed a successful data-taking phase at the start-up of the LHC in September

    Design und Implementierung eines Systems zur schnellen Rekonstruktion dreidimensionaler Modelle aus Stereobildern

    Full text link
    Im Rahmen dieser Arbeit wurde ein aus Hard- und Software bestehendes System zur schnellen Rekonstruktion dreidimensionaler Oberflächen entwickelt. Ausgehend von einer geplanten Anwendung, die mit existierenden Systemen nicht realisierbar war, wurde zunächst festgestellt wo die Stärken und Schwächen der betrachteten Systeme lagen, darauf basierend ein geeignetes Verfahren gewählt und die zu lösenden Teilaufgaben identifiziert. Die Arbeit konzentriert sich auf die Entwicklung möglichst allgemein verwendbarer Kernalgorithmen, ohne dabei die geplanten Anwendungen aus den Augen zu verlieren. Insbesondere wurde auf modulares Design geachtet, so daß sich die einzelnen Bausteine leicht für beliebige Anwendungen verwenden lassen, die eine Funktionalität zur 3D-Rekonstruktion benötigen

    Control Software for Reconfigurable Coprocessors

    Get PDF
    On-line data processing at the ATLAS general purpose particle detector, which is currently under construction at Geneva, generates demands on computing power that are difficult to satisfy with commodity CPU-based computers. One of the most demanding applications is the recognition of particle tracks that originate from B-quark decays. However, this and many others applications can benefit from parallel execution on field programmable gate arrays (FPGA). After the demonstration of accelerated track recognition with big FPGA-based custom computers, the development of FPGA based coprocessors started in the late 1990's. Applications of FPGA coprocessors are usually partitioned between the host and the tightly coupled coprocessor. The objective of the research that I present in this thesis was the development of software that mediates to applications the access to FPGA coprocessors. I used a software process based on iterative prototyping to cope with the expected changing requirements. Also, I used a strict bottom-up design to create classes that model devices on the coprocessors. Using these low-level classes, I developed tools which were used for bootstrapping, debugging, and firmware update of the coprocessors during their development and maintenance. Measurements show that the software overhead introduced by object-oriented programming and software layering is small. The software-support for six different coprocessors was partitioned into corresponding independent packages, which reuse a set of packages that provide common and basic functions. The steady evolution and use of the software during more than four years shows that the software is maintainable, adaptable, and usable

    Acceleration of Astrophysical Simulations with Special Hardware

    Get PDF
    This work presents the raceSPH and raceGRAV accelerator libraries, designed to interface astrophysical simulations with special-purpose hardware. The raceSPH focuses on the acceleration of Smoothed Particle Hydrodynamics (SPH), a method for approximating force interactions in fluid dynamics. Accelerators used range from vectorizing units on the microprocessors to Field Programmable Gate Arrays (FPGAs) and Graphics Processing Units (GPUs), and speed-ups range from 1.2x to 28x when measured in a synthetic benchmark and from 6x to 19x when used inside astrophysical simulations, for a total wallclock time speed-up of 1.6x to 2.4x, close to the theoretical maximum of 2.5x. The raceGRAV library computes gravitational force with high accuracy and is designed to complement the GRAPE accelerator. In direct summation tests, it provides performance on par with vectorizing units of the processor and comparable to the GRAPE-6 when normalized against number of pipelines. For the development of these libraries, a set of supporting modules were developed, including a PCI driver for modern Linux kernel versions, an MPRACE library for the communication with FPGA boards and a bu er management library for the efficient handling of data transfers

    FPGA-basiertes Template-Matching mit Distanztransformierten Bildern

    Get PDF
    Diese Arbeit befasst sich mit Implementierungen eines Template-Matching-Algorithmus basierend auf distanztransformierten Bildern (DT-Bildern) zur Erkennung von Verkehrszeichen mittels rekonfigurierbarer Prozessoren. Für die Anwendung ist eine Bildauflösung von 512*512 Punkten und ein Matching mit 36 kreisförmigen und dreieckigen Templates erforderlich. Sowohl die Berechnungen der DT-Bilder als auch des Template-Matchings sind zeitkritisch und können auf einem Standardprozessor nicht in Echtzeit ausgeführt werden. Daher wurde der Ansatz verfolgt, die Berechnungen durch den Einsatz eines FPGA-Koprozessors zu beschleunigen. Als Prototypplattform wurde das PCI-Board MPRACE ausgewählt, welches mit einem modernen Virtex-II XC2V3000-FPGA bestückt ist. Analysen der Algorithmen ergaben, dass diese gut parallelisierbar und mit FPGA-Technologie umsetzbar sind. Alle für die Implementierung entwickelten Module konnten nach dem Pipeline-Prinzip aufgebaut und insgesamt zu drei großen Pipelines zusammengefasst werden. Die ersten beiden Pipelines dienen der Erzeugung der DT-Bilder und benötigen 12 % der Ressourcen des FPGAs. Die dritte Pipeline setzt das Template-Matching um. Die zunächst auf naheliegende Weise hochgradig parallelisierte Implementierung für das Template-Matching erweist sich als sehr ressourcenaufwändig und limitiert die Anzahl der Templates auf 24. Die FPGA-Designs können mit einer Taktfrequenz von 66 MHz betrieben werden, und der gesamte Algorithmus kann damit problemlos in Echtzeit auf dem FPGA berechnet werden. Zur Reduzierung des FPGA-Ressourcenbedarfs für den parallelen Ansatz des Template-Matchings werden mehrere Optimierungsstrategien entwickelt. Der Ressourcenbedarf für das parallele Matching lässt sich hiermit um einen Faktor 3,5 reduzieren, sodass die Anforderung von 36 Templates bereits mit einem kleineren FPGA erfüllt werden kann
    corecore