Search CORE

31 research outputs found

Synchronisation von Steuerungen via Ethernet: Diplom 2015

Author: Corthay François
Stucky Samuel
Publication venue
Publication date: 17/03/2016
Field of study

Ziel dieser Diplomarbeit ist es für die Firma Imperix eine Synchronisation zwischen mehreren Systemen über ein Ethernet Netzwerk zu ermöglichen, wobei das Precision Time Protokoll sowie der Sync-E Standard verwendet werden sollen

RERO DOC Digital Library

Runtime-adaptive generalized task parallelism

Author: Streit Kevin
Publication venue: 'Walter de Gruyter GmbH'
Publication date: 01/01/2017
Field of study

Multi core systems are ubiquitous nowadays and their number is ever increasing. And while, limited by physical constraints, the computational power of the individual cores has been stagnating or even declining for years, a solution to effectively utilize the computational power that comes with the additional cores is yet to be found. Existing approaches to automatic parallelization are often highly specialized to exploit the parallelism of specific program patterns, and thus to parallelize a small subset of programs only. In addition, frequently used invasive runtime systems prohibit the combination of different approaches, which impedes the practicality of automatic parallelization. In the following thesis, we show that specializing to narrowly defined program patterns is not necessary to efficiently parallelize applications coming from different domains. We develop a generalizing approach to parallelization, which, driven by an underlying mathematical optimization problem, is able to make qualified parallelization decisions taking into account the involved runtime overhead. In combination with a specializing, adaptive runtime system the approach is able to match and even exceed the performance results achieved by specialized approaches.Mehrkernsysteme sind heutzutage allgegenwärtig und finden täglich weitere Verbreitung. Und während, limitiert durch die Grenzen des physikalisch Machbaren, die Rechenkraft der einzelnen Kerne bereits seit Jahren stagniert oder gar sinkt, existiert bis heute keine zufriedenstellende Lösung zur effektiven Ausnutzung der gebotenen Rechenkraft, die mit der steigenden Anzahl an Kernen einhergeht. Existierende Ansätze der automatischen Parallelisierung sind häufig hoch spezialisiert auf die Ausnutzung bestimmter Programm-Muster, und somit auf die Parallelisierung weniger Programmteile. Hinzu kommt, dass häufig verwendete invasive Laufzeitsysteme die Kombination mehrerer Parallelisierungs-Ansätze verhindern, was der Praxistauglichkeit und Reichweite automatischer Ansätze im Wege steht. In der Ihnen vorliegenden Arbeit zeigen wir, dass die Spezialisierung auf eng definierte Programmuster nicht notwendig ist, um Parallelität in Programmen verschiedener Domänen effizient auszunutzen. Wir entwickeln einen generalisierenden Ansatz der Parallelisierung, der, getrieben von einem mathematischen Optimierungsproblem, in der Lage ist, fundierte Parallelisierungsentscheidungen unter Berücksichtigung relevanter Kosten zu treffen. In Kombination mit einem spezialisierenden und adaptiven Laufzeitsystem ist der entwickelte Ansatz in der Lage, mit den Ergebnissen spezialisierter Ansätze mitzuhalten, oder diese gar zu übertreffen.Part of the work presented in this thesis was performed in the context of the SoftwareCluster project EMERGENT (http://www.software-cluster.org). It was funded by the German Federal Ministry of Education and Research (BMBF) under grant no. “01IC10S01”. Later work has been supported, also by the German Federal Ministry of Education and Research (BMBF), through funding for the Center for IT-Security, Privacy and Accountability (CISPA) under grant no. “16KIS0344”

Universaar

Acronym

Rapid Industrial Prototyping and SoC Design of 3G/4G Wireless Systems Using an HLS Methodology

Author: Cavallaro Joseph R.
Guo Yuanbin
McCain Dennis
Takach Andres
Publication venue: Hindawi Publishing Corporation
Publication date: 01/07/2006
Field of study

Many very-high-complexity signal processing algorithms are required in future wireless systems, giving tremendous challenges to real-time implementations. In this paper, we present our industrial rapid prototyping experiences on 3G/4G wireless systems using advanced signal processing algorithms in MIMO-CDMA and MIMO-OFDM systems. Core system design issues are studied and advanced receiver algorithms suitable for implementation are proposed for synchronization, MIMO equalization, and detection. We then present VLSI-oriented complexity reduction schemes and demonstrate how to interact these high-complexity algorithms with an HLS-based methodology for extensive design space exploration. This is achieved by abstracting the main effort from hardware iterations to the algorithmic C/C++ fixed-point design. We also analyze the advantages and limitations of the methodology. Our industrial design experience demonstrates that it is possible to enable an extensive architectural analysis in a short-time frame using HLS methodology, which significantly shortens the time to market for wireless systems.National Science Foundatio

Directory of Open Access Journals

DSpace at Rice University

Beschleunigung Hydrodynamischer Astrophysikalischer Simulationen mit FPGA-Basierten Rekonfigurierbaren Koprozessoren

Author: Lienhart Gerhard
Publication venue
Publication date: 01/01/2004
Field of study

Diese Dissertation befasst sich mit der Anwendung rekonfigurierbarer Koprozessoren zur Beschleunigung astrophysikalischer Simulationsalgorithmen, ausgehend von einer hybriden Plattform aus Standardrechner und einem Rechenbeschleuniger für die Gravitationssimulation (GRAPE). Für Simulationen, die eine Berücksichtigung der Hydrodynamik erforderlich machen, schränkt die dazu eingesetzte Simulationsmethode Smoothed Particle Hydrodynamics (SPH) die erzielbare Rechenleistung des Gesamtsystems stark ein. Es wurde der Ansatz verfolgt, durch den Einsatz einer FPGA-basierten Koprozessorplattform das SPH-Verfahren zu beschleunigen. Analysen der Simulationscodes ergaben, dass die SPH-Berechnungen unter Verwendung von Gleitkommazahlen mit 16 Mantissenbits ausreichend genau sind. Um den Ansatz zu realisieren, wurde ein FPGA-Koprozessor in Form einer PCI-Einsteckkarte verwendet, ausgestattet mit einem modernen Virtex-II-3000-FPGA von Xilinx. Es wurden FPGA-Designs entwickelt, welche für die umfangreichen aber einfach strukturierten SPH-Berechnungen bei ausreichend hoher Rechengenauigkeit eine Rechenleistung von über 3 GFlops erreichen. Dazu wurde eine Bibliothek arithmetischer Module für die rekonfigurierbare Logik entwickelt. Alle Module sind bezüglich der Rechengenauigkeit parametrisiert, und es wurden für verschiedene numerische Randbedingungen spezialisierte Operatoren entwickelt. Damit konnten optimal an die Problemstellung angepasste Rechenwerke in Form einer Pipeline aufgebaut werden. Für die SPH-Pipelines konnten 50-60 Gleitkommaoperationen unter Aufwendung von etwa 50 % der FPGA-Ressourcen implementiert werden, mit einer resultierenden Geschwindigkeit von 66 MHz. Die Schaltungen sind in der Lage, die Berechnungen synchron zur maximalen Datenrate von Speicher und PCI-Interface durchführen. Um das Beschleunigungspotential (etwa Faktor 10) effektiv auszuschöpfen, wird eine tiefgehende Umstrukturierung des Simulationsalgorithmus erforderlich, was Gegenstand der weiteren Forschung sein wird

Heidelberger Dokumentenserver

Methoden und Werkzeuge zum Einsatz von rekonfigurierbaren Akzeleratoren in Mehrkernsystemen

Author: Nowak Fabian
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2015
Field of study

Rechensysteme mit Mehrkernprozessoren werden häufig um einen rekonfigurierbaren Akzelerator wie einen FPGA erweitert. Die Verlagerung von Anwendungsteilen in Hardware wird meist von Spezialisten vorgenommen. Damit Anwender selbst rekonfigurierbare Hardware programmieren können, ist mein Beitrag die komponentenbasierte Programmierung und Verwendung mit automatischer Beachtung der Datenlokalität. So lässt sich auch bei datenintensiven Anwendungen Nutzen aus den Akzeleratoren erzielen

KITopen

Bedarfsgerechte Auswahl der Dienstqualität für Mobile Cloud-unterstützte Anwendungen

Author: Ferber Marvin
Publication venue
Publication date: 06/08/2014
Field of study

EPub Bayreuth

Methoden zur applikationsspezifischen Effizienzsteigerung adaptiver Prozessorplattformen

Author: Tradowsky Carsten
Publication venue: KIT-Bibliothek, Karlsruhe
Publication date: 01/01/2016
Field of study

General-Purpose Prozessoren sind für den durchschnittlichen Anwendungsfall optimiert, wodurch vorhandene Ressourcen nicht effizient genutzt werden. In der vorliegenden Arbeit wird untersucht, in wie weit es möglich ist, einen General-Purpose Prozessor an einzelne Anwendungen anzupassen und so die Effizienz zu steigern. Die Adaption kann zur Laufzeit durch das Prozessor- oder Laufzeitsystem anhand der jeweiligen Systemparameter erfolgen, um eine Effizienzsteigerung zu erzielen

KITopen

Entwicklung und Umsetzung der graphischen Nutzerschnittstelle für das Projekt SALT

Author: Wienecke Malte
Publication venue
Publication date: 01/09/2006
Field of study

Das Programm SALT wurde im Auftrag des Instituts für Verkehrsführung und Fahrzeugsteuerung entwickelt. Es wird verwendet um den Informationsfluss innerhalb eines geschlossenen Systems, zum Beispiel eines Fahrzeugs, zu betrachten und das Sicherheitsniveau der einzelnen Komponenten zu bestimmen. Ziel dieser Arbeit ist das Programm entsprechend zu erweitern, so dass eine Visualisierung der Analyseergebnisse möglich ist. Außerdem sollen in dieser generierten Darstellung die kritischen Pfade erkennbar sein. Ein zusätzliches Ziel ist die Darstellung des Projektaufbaus mit den dazugehörigen Zusammenhängen, bereits während der Erstellung eines Projektes. Da es sich um die Darstellung eines Informationsflusses handelt, wurde festgelegt, dass die Visualisierung in Form eines gerichteten Graphen erfolgen sollte. Nach der Analyse des Problems und der Aufstellung der Anforderung müssen die Klassen zur Generierung des Graphen erzeugt werden. Außerdem wird eine Methodik entwickelt, die nicht nur das Darstellen, sondern auch das Extrahieren von Informationen aus dem Graphen ermöglicht

Institute of Transport Research:Publications

FPGA-basiertes Template-Matching mit Distanztransformierten Bildern

Author: Hezel Stefan
Publication venue: Universität Mannheim
Publication date: 01/01/2004
Field of study

Diese Arbeit befasst sich mit Implementierungen eines Template-Matching-Algorithmus basierend auf distanztransformierten Bildern (DT-Bildern) zur Erkennung von Verkehrszeichen mittels rekonfigurierbarer Prozessoren. Für die Anwendung ist eine Bildauflösung von 512*512 Punkten und ein Matching mit 36 kreisförmigen und dreieckigen Templates erforderlich. Sowohl die Berechnungen der DT-Bilder als auch des Template-Matchings sind zeitkritisch und können auf einem Standardprozessor nicht in Echtzeit ausgeführt werden. Daher wurde der Ansatz verfolgt, die Berechnungen durch den Einsatz eines FPGA-Koprozessors zu beschleunigen. Als Prototypplattform wurde das PCI-Board MPRACE ausgewählt, welches mit einem modernen Virtex-II XC2V3000-FPGA bestückt ist. Analysen der Algorithmen ergaben, dass diese gut parallelisierbar und mit FPGA-Technologie umsetzbar sind. Alle für die Implementierung entwickelten Module konnten nach dem Pipeline-Prinzip aufgebaut und insgesamt zu drei großen Pipelines zusammengefasst werden. Die ersten beiden Pipelines dienen der Erzeugung der DT-Bilder und benötigen 12 % der Ressourcen des FPGAs. Die dritte Pipeline setzt das Template-Matching um. Die zunächst auf naheliegende Weise hochgradig parallelisierte Implementierung für das Template-Matching erweist sich als sehr ressourcenaufwändig und limitiert die Anzahl der Templates auf 24. Die FPGA-Designs können mit einer Taktfrequenz von 66 MHz betrieben werden, und der gesamte Algorithmus kann damit problemlos in Echtzeit auf dem FPGA berechnet werden. Zur Reduzierung des FPGA-Ressourcenbedarfs für den parallelen Ansatz des Template-Matchings werden mehrere Optimierungsstrategien entwickelt. Der Ressourcenbedarf für das parallele Matching lässt sich hiermit um einen Faktor 3,5 reduzieren, sodass die Anforderung von 36 Templates bereits mit einem kleineren FPGA erfüllt werden kann

MAnnheim DOCument Server