14 research outputs found
Scheduling with communication for multiprocessor computation
Multiprocessor scheduling houdt zich bezig met de planning van de uitvoering van computer-programma s
op een parallelle computer. Een computerprogramma kan worden gezien als een
collectie instructies die gegroepeerd zijn in taken. Een parallelle computer is een computer met
meerdere processoren die verbonden zijn door een communicatie-netwerk. Elke processor kan
taken van een computerprogramma uitvoeren.
Tijdens de uitvoering van een computerprogramma op een parallelle computer wordt elke
taak ´ e´ en maal uitgevoerd. In het algemeen kunnen de taken van een computerprogramma niet
in een willekeurige volgorde worden uitgevoerd: het resultaat van een taak kan nodig zijn
om een andere taak uit te voeren. Zulke taken worden data-afhankelijk genoemd. De data-afhankelijkheden
defini¨ eren de structuur van het computerprogramma: als taak u2 het resultaat
van taak u1 nodig heeft, dan kan u2 pas worden uitgevoerd nadat u1 is voltooid. Als er geen
data-afhankelijkheid bestaat tussen twee taken, dan kunnen ze in willekeurige volgorde of tege-lijkertijd
worden uitgevoerd.
Als twee data-afhankelijke taken u1 en u2 op verschillende processoren worden uitgevoerd,
dan moet het resultaat van u1 naar de processor die u2 uitvoert worden overgebracht. Dit transport
van informatie wordt communicatie genoemd. Het resultaat van u1 kan naar een andere processor
worden overgebracht door het sturen van berichten door het communicatie-netwerk.
Een schedule geeft voor elke taak aan welke processor hem uitvoert en op welk tijdstip. Het
doel van multiprocessor scheduling is het construeren van een schedule van zo kort mogelijke
duur, rekening houdend met de communicatie veroorzaakt door de data-afhankelijkheden tussen
de taken. De duur van een schedule wordt in grote mate bepaald door de hoeveelheid communi-catie
in het schedule: de duur van een schedule kan toenemen doordat een processor lange tijd
geen taken kan uitvoeren, omdat hij staat te wachten op het resultaat van een taak die op een
andere processor wordt uitgevoerd.
Omdat de wijze waarop processoren van parallelle computers communiceren verschilt per
computer, is het uiterst moeilijk om op effici¨ ente wijze goede schedules te construeren voor een
computerprogramma op een parallelle computer. Daarom wordt in het algemeen een model van
een parallelle computer gebruikt in plaats een echte parallelle computer. Zo n model wordt een
parallel berekeningsmodel genoemd. In een parallel berekeningsmodel kan men zich concen-treren
op die aspecten van communicatie die een grote invloed hebben op de kwaliteit van een
schedule. Dit geeft de mogelijkheid deze aspecten beter te begrijpen.
In dit proefschrift worden twee parallelle berekeningsmodellen beschouwd: het UCT model
en het LogP model. Het UCT model richt zich op het bestuderen van ´ e´ en aspect van commu-nicatie:
een tijdvertraging die nodig is om resultaten tussen processoren te transporteren. Het
LogP model is een model dat meerdere aspecten van communicatie in acht neemt: door middel
van een geschikt gekozen invulling van zijn parameters L, o, g en P kan het LogP model de
communicatie in vele parallelle computers modelleren.
Communicatie in het UCT model werkt als volgt. Als taak u2 het resultaat van taak u1 nodig
heeft en deze taken zijn op verschillende processoren uitgevoerd, dan moet er een vertraging van
tenminste ´ e´ en tijdstap zijn tussen de tijd waarop u1 wordt voltooid en de tijd waarop u2 start.
171?Deze vertraging is nodig om het resultaat van u1 naar de processor die u2 uitvoert te sturen. Als
u1 en u2 op dezelfde processor worden uitgevoerd, dan is het resultaat van u1 al op de juiste
processor beschikbaar en is er geen vertraging nodig. In dat geval kan u2 direct na u1 worden
uitgevoerd.
Communicatie in het LogP model is veel ingewikkelder. Beschouw wederom twee data-afhankelijke
taken u1 en u2 die op verschillende processoren worden uitgevoerd. Neem aan
dat het resultaat van u1 moet worden getransporteerd naar de processor die u2 uitvoert. In vele
gevallen kan het transporteren van het resultaat van een taak niet met ´ e´ en bericht, maar zijn
meerdere berichten nodig. Deze moeten naar de processor die u2 uitvoert worden gestuurd. Het
versturen van ´ e´ en bericht kost o tijdstappen op de processor die u1 uitvoert; het ontvangen ervan
kost o tijdstappen op de processor die u2 uitvoert. Daarnaast kan elke processor ten hoogste ´ e´ en
bericht versturen of ontvangen in elke g opeenvolgende tijdstappen en is er een vertraging van
precies L tijdstappen tussen het versturen en het ontvangen van een bericht.
In het eerste deel van dit proefschrift (hoofdstukken 3, 4, 5, 6 en 7) worden algoritmen be-schreven
die op effici¨ ente wijze schedules in het UCT model construeren. In hoofdstuk 4 wordt
een algoritme beschreven dat goede schedules construeert voor willekeurige computerprogram-ma s.
Voor computerprogramma s met een outforest-structuur construeert dit algoritme optimale
schedules. In hoofdstuk 5 beschrijven we algoritmen die goede schedules construeren voor com-puterprogramma s
met een inforest-structuur. De algoritmen die worden beschreven in hoofd-stukken
6 en 7 construeren optimale schedules voor computerprogramma s waarin het maximum
aantal paarsgewijs data-onafhankelijke taken klein is en voor computerprogramma s met een in-terval
order-structuur.
Het tweede deel van dit proefschrift (hoofdstukken 8, 9, 10 en 11) houdt zich bezig met
scheduling in het LogP model. In hoofdstukken 9 en 10 bewijzen we dat het construeren van
optimale schedules voor computerprogramma s met een zeer eenvoudige boomstructuur (send
graph-structuur of receive graph-structuur) waarschijnlijk niet op effici¨ ente wijze mogelijk is.
In deze hoofdstukken worden effici¨ ente algoritmen beschreven die goede (maar niet noodzake-lijk
optimale) schedules construeren voor computerprogramma s met een dergelijke structuur.
In hoofdstuk 11 worden decompositie-algoritmen gebruikt om op effici¨ ente wijze schedules te
construeren voor computerprogramma s met een algemene boomstructuur.
Het blijkt dat optimale schedules in het UCT model op effici¨ ente wijze kunnen worden ge-construeerd
als de structuur van de computerprogramma s eenvoudig is (bijvoorbeeld computer-programma s
met een boomstructuur). De eenvoudige aard van de communicatie in het UCT
model maakt dit mogelijk. Vandaar dat de complexiteit van scheduling in het UCT model met
name bepaald wordt door de structuur van de computerprogramma s. Daarentegen maakt de
communicatie het moeilijk om goede schedules in het LogP model te construeren, zelfs als de
structuur van de computerprogramma s zeer eenvoudig is (bijvoorbeeld computerprogramma s
met een send graph-structuur). Hieruit blijkt dat de complexiteit van scheduling in het LogP
model in grote mate wordt bepaald door de ingewikkelde vorm van communicatie in dit model.
17
Grain-size optimization and scheduling for distributed memory architectures
The problem of scheduling parallel programs for execution on distributed memory parallel architectures has become the subject of intense research in recent, years. Because of the high inter-processor communication overhead in existing parallel machines, a crucial step in scheduling is task clustering, the process of coalescing heavily communicating fine grain tasks into coarser ones in order to reduce the communication overhead so that the overall execution time is minimized.
The thesis of this research is that the task of exposing the parallelism in a given application should be left to the algorithm designer. On the other hand, the task of limiting the parallelism in a chosen parallel algorithm is best handled by the compiler or operating system for the target parallel machine. Toward this end, we have developed CASS (for Clustering And Scheduling System), a. task management system that provides facilities for automatic granularity optimization and task scheduling of parallel programs on distributed memory parallel architectures.
In CASS, a task graph generated by a profiler is used by the clustering module to find the best granularity al which to execute the program so that the overall execution time is minimized. The scheduling module maps the clusters onto a. fixed number of processors and determines the order of execution of tasks in each processor. The output of scheduling module is then used by a code generator to generate machine instructions.
CASS employs two efficient heuristic algorithms for clustering static task graphs: CASS-I for clustering with task duplication, and CASS-II for clustering without task duplication. It is shown that the clustering algorithms used by CASS outperform the best known algorithms reported in the literature. For the scheduling module in CASS, a heuristic algorithm based on load balancing is used to merge clusters such that the number of clusters matches the number of available physical processors.
We also investigate task clustering algorithms for dynamic task graphs and show that it is inherently more difficult than the static case
An investigation of changeover sensitive heuristics in an industrial job shop environment
EThOS - Electronic Theses Online ServiceGBUnited Kingdo
LIPIcs, Volume 261, ICALP 2023, Complete Volume
LIPIcs, Volume 261, ICALP 2023, Complete Volum