31 research outputs found

    Synchronisation von Steuerungen via Ethernet: Diplom 2015

    Get PDF
    Ziel dieser Diplomarbeit ist es fĂŒr die Firma Imperix eine Synchronisation zwischen mehreren Systemen ĂŒber ein Ethernet Netzwerk zu ermöglichen, wobei das Precision Time Protokoll sowie der Sync-E Standard verwendet werden sollen

    Runtime-adaptive generalized task parallelism

    Get PDF
    Multi core systems are ubiquitous nowadays and their number is ever increasing. And while, limited by physical constraints, the computational power of the individual cores has been stagnating or even declining for years, a solution to effectively utilize the computational power that comes with the additional cores is yet to be found. Existing approaches to automatic parallelization are often highly specialized to exploit the parallelism of specific program patterns, and thus to parallelize a small subset of programs only. In addition, frequently used invasive runtime systems prohibit the combination of different approaches, which impedes the practicality of automatic parallelization. In the following thesis, we show that specializing to narrowly defined program patterns is not necessary to efficiently parallelize applications coming from different domains. We develop a generalizing approach to parallelization, which, driven by an underlying mathematical optimization problem, is able to make qualified parallelization decisions taking into account the involved runtime overhead. In combination with a specializing, adaptive runtime system the approach is able to match and even exceed the performance results achieved by specialized approaches.Mehrkernsysteme sind heutzutage allgegenwĂ€rtig und finden tĂ€glich weitere Verbreitung. Und wĂ€hrend, limitiert durch die Grenzen des physikalisch Machbaren, die Rechenkraft der einzelnen Kerne bereits seit Jahren stagniert oder gar sinkt, existiert bis heute keine zufriedenstellende Lösung zur effektiven Ausnutzung der gebotenen Rechenkraft, die mit der steigenden Anzahl an Kernen einhergeht. Existierende AnsĂ€tze der automatischen Parallelisierung sind hĂ€ufig hoch spezialisiert auf die Ausnutzung bestimmter Programm-Muster, und somit auf die Parallelisierung weniger Programmteile. Hinzu kommt, dass hĂ€ufig verwendete invasive Laufzeitsysteme die Kombination mehrerer Parallelisierungs-AnsĂ€tze verhindern, was der Praxistauglichkeit und Reichweite automatischer AnsĂ€tze im Wege steht. In der Ihnen vorliegenden Arbeit zeigen wir, dass die Spezialisierung auf eng definierte Programmuster nicht notwendig ist, um ParallelitĂ€t in Programmen verschiedener DomĂ€nen effizient auszunutzen. Wir entwickeln einen generalisierenden Ansatz der Parallelisierung, der, getrieben von einem mathematischen Optimierungsproblem, in der Lage ist, fundierte Parallelisierungsentscheidungen unter BerĂŒcksichtigung relevanter Kosten zu treffen. In Kombination mit einem spezialisierenden und adaptiven Laufzeitsystem ist der entwickelte Ansatz in der Lage, mit den Ergebnissen spezialisierter AnsĂ€tze mitzuhalten, oder diese gar zu ĂŒbertreffen.Part of the work presented in this thesis was performed in the context of the SoftwareCluster project EMERGENT (http://www.software-cluster.org). It was funded by the German Federal Ministry of Education and Research (BMBF) under grant no. “01IC10S01”. Later work has been supported, also by the German Federal Ministry of Education and Research (BMBF), through funding for the Center for IT-Security, Privacy and Accountability (CISPA) under grant no. “16KIS0344”

    Rapid Industrial Prototyping and SoC Design of 3G/4G Wireless Systems Using an HLS Methodology

    Get PDF
    Many very-high-complexity signal processing algorithms are required in future wireless systems, giving tremendous challenges to real-time implementations. In this paper, we present our industrial rapid prototyping experiences on 3G/4G wireless systems using advanced signal processing algorithms in MIMO-CDMA and MIMO-OFDM systems. Core system design issues are studied and advanced receiver algorithms suitable for implementation are proposed for synchronization, MIMO equalization, and detection. We then present VLSI-oriented complexity reduction schemes and demonstrate how to interact these high-complexity algorithms with an HLS-based methodology for extensive design space exploration. This is achieved by abstracting the main effort from hardware iterations to the algorithmic C/C++ fixed-point design. We also analyze the advantages and limitations of the methodology. Our industrial design experience demonstrates that it is possible to enable an extensive architectural analysis in a short-time frame using HLS methodology, which significantly shortens the time to market for wireless systems.National Science Foundatio

    Beschleunigung Hydrodynamischer Astrophysikalischer Simulationen mit FPGA-Basierten Rekonfigurierbaren Koprozessoren

    Get PDF
    Diese Dissertation befasst sich mit der Anwendung rekonfigurierbarer Koprozessoren zur Beschleunigung astrophysikalischer Simulationsalgorithmen, ausgehend von einer hybriden Plattform aus Standardrechner und einem Rechenbeschleuniger fĂŒr die Gravitationssimulation (GRAPE). FĂŒr Simulationen, die eine BerĂŒcksichtigung der Hydrodynamik erforderlich machen, schrĂ€nkt die dazu eingesetzte Simulationsmethode Smoothed Particle Hydrodynamics (SPH) die erzielbare Rechenleistung des Gesamtsystems stark ein. Es wurde der Ansatz verfolgt, durch den Einsatz einer FPGA-basierten Koprozessorplattform das SPH-Verfahren zu beschleunigen. Analysen der Simulationscodes ergaben, dass die SPH-Berechnungen unter Verwendung von Gleitkommazahlen mit 16 Mantissenbits ausreichend genau sind. Um den Ansatz zu realisieren, wurde ein FPGA-Koprozessor in Form einer PCI-Einsteckkarte verwendet, ausgestattet mit einem modernen Virtex-II-3000-FPGA von Xilinx. Es wurden FPGA-Designs entwickelt, welche fĂŒr die umfangreichen aber einfach strukturierten SPH-Berechnungen bei ausreichend hoher Rechengenauigkeit eine Rechenleistung von ĂŒber 3 GFlops erreichen. Dazu wurde eine Bibliothek arithmetischer Module fĂŒr die rekonfigurierbare Logik entwickelt. Alle Module sind bezĂŒglich der Rechengenauigkeit parametrisiert, und es wurden fĂŒr verschiedene numerische Randbedingungen spezialisierte Operatoren entwickelt. Damit konnten optimal an die Problemstellung angepasste Rechenwerke in Form einer Pipeline aufgebaut werden. FĂŒr die SPH-Pipelines konnten 50-60 Gleitkommaoperationen unter Aufwendung von etwa 50 % der FPGA-Ressourcen implementiert werden, mit einer resultierenden Geschwindigkeit von 66 MHz. Die Schaltungen sind in der Lage, die Berechnungen synchron zur maximalen Datenrate von Speicher und PCI-Interface durchfĂŒhren. Um das Beschleunigungspotential (etwa Faktor 10) effektiv auszuschöpfen, wird eine tiefgehende Umstrukturierung des Simulationsalgorithmus erforderlich, was Gegenstand der weiteren Forschung sein wird

    Methoden und Werkzeuge zum Einsatz von rekonfigurierbaren Akzeleratoren in Mehrkernsystemen

    Get PDF
    Rechensysteme mit Mehrkernprozessoren werden hÀufig um einen rekonfigurierbaren Akzelerator wie einen FPGA erweitert. Die Verlagerung von Anwendungsteilen in Hardware wird meist von Spezialisten vorgenommen. Damit Anwender selbst rekonfigurierbare Hardware programmieren können, ist mein Beitrag die komponentenbasierte Programmierung und Verwendung mit automatischer Beachtung der DatenlokalitÀt. So lÀsst sich auch bei datenintensiven Anwendungen Nutzen aus den Akzeleratoren erzielen

    Methoden zur applikationsspezifischen Effizienzsteigerung adaptiver Prozessorplattformen

    Get PDF
    General-Purpose Prozessoren sind fĂŒr den durchschnittlichen Anwendungsfall optimiert, wodurch vorhandene Ressourcen nicht effizient genutzt werden. In der vorliegenden Arbeit wird untersucht, in wie weit es möglich ist, einen General-Purpose Prozessor an einzelne Anwendungen anzupassen und so die Effizienz zu steigern. Die Adaption kann zur Laufzeit durch das Prozessor- oder Laufzeitsystem anhand der jeweiligen Systemparameter erfolgen, um eine Effizienzsteigerung zu erzielen

    Entwicklung und Umsetzung der graphischen Nutzerschnittstelle fĂŒr das Projekt SALT

    Get PDF
    Das Programm SALT wurde im Auftrag des Instituts fĂŒr VerkehrsfĂŒhrung und Fahrzeugsteuerung entwickelt. Es wird verwendet um den Informationsfluss innerhalb eines geschlossenen Systems, zum Beispiel eines Fahrzeugs, zu betrachten und das Sicherheitsniveau der einzelnen Komponenten zu bestimmen. Ziel dieser Arbeit ist das Programm entsprechend zu erweitern, so dass eine Visualisierung der Analyseergebnisse möglich ist. Außerdem sollen in dieser generierten Darstellung die kritischen Pfade erkennbar sein. Ein zusĂ€tzliches Ziel ist die Darstellung des Projektaufbaus mit den dazugehörigen ZusammenhĂ€ngen, bereits wĂ€hrend der Erstellung eines Projektes. Da es sich um die Darstellung eines Informationsflusses handelt, wurde festgelegt, dass die Visualisierung in Form eines gerichteten Graphen erfolgen sollte. Nach der Analyse des Problems und der Aufstellung der Anforderung mĂŒssen die Klassen zur Generierung des Graphen erzeugt werden. Außerdem wird eine Methodik entwickelt, die nicht nur das Darstellen, sondern auch das Extrahieren von Informationen aus dem Graphen ermöglicht

    FPGA-basiertes Template-Matching mit Distanztransformierten Bildern

    Get PDF
    Diese Arbeit befasst sich mit Implementierungen eines Template-Matching-Algorithmus basierend auf distanztransformierten Bildern (DT-Bildern) zur Erkennung von Verkehrszeichen mittels rekonfigurierbarer Prozessoren. FĂŒr die Anwendung ist eine Bildauflösung von 512*512 Punkten und ein Matching mit 36 kreisförmigen und dreieckigen Templates erforderlich. Sowohl die Berechnungen der DT-Bilder als auch des Template-Matchings sind zeitkritisch und können auf einem Standardprozessor nicht in Echtzeit ausgefĂŒhrt werden. Daher wurde der Ansatz verfolgt, die Berechnungen durch den Einsatz eines FPGA-Koprozessors zu beschleunigen. Als Prototypplattform wurde das PCI-Board MPRACE ausgewĂ€hlt, welches mit einem modernen Virtex-II XC2V3000-FPGA bestĂŒckt ist. Analysen der Algorithmen ergaben, dass diese gut parallelisierbar und mit FPGA-Technologie umsetzbar sind. Alle fĂŒr die Implementierung entwickelten Module konnten nach dem Pipeline-Prinzip aufgebaut und insgesamt zu drei großen Pipelines zusammengefasst werden. Die ersten beiden Pipelines dienen der Erzeugung der DT-Bilder und benötigen 12 % der Ressourcen des FPGAs. Die dritte Pipeline setzt das Template-Matching um. Die zunĂ€chst auf naheliegende Weise hochgradig parallelisierte Implementierung fĂŒr das Template-Matching erweist sich als sehr ressourcenaufwĂ€ndig und limitiert die Anzahl der Templates auf 24. Die FPGA-Designs können mit einer Taktfrequenz von 66 MHz betrieben werden, und der gesamte Algorithmus kann damit problemlos in Echtzeit auf dem FPGA berechnet werden. Zur Reduzierung des FPGA-Ressourcenbedarfs fĂŒr den parallelen Ansatz des Template-Matchings werden mehrere Optimierungsstrategien entwickelt. Der Ressourcenbedarf fĂŒr das parallele Matching lĂ€sst sich hiermit um einen Faktor 3,5 reduzieren, sodass die Anforderung von 36 Templates bereits mit einem kleineren FPGA erfĂŒllt werden kann
    corecore