Performance- und energieeziente Compilierung
fu¨r digitale SIMD-Signalprozessoren
mittels genetischer Algorithmen
Dissertation
zur Erlangung des Grades eines
Doktors der Naturwissenschaften
der Universita¨t Dortmund
am Fachbereich Informatik
von
Markus Lorenz
Dortmund
2003
Tag der mu¨ndlichen Pru¨fung:
Dekan/Dekanin:
Gutachter:
Vorwort
Diese Arbeit ist wa¨hrend meiner Zeit als wissenschaftlicher Mitarbeiter am Lehrstuhl
Informatik XII der Universita¨t Dortmund unter der Betreuung von Prof. Dr. Peter Mar-
wedel entstanden. Ich mo¨chte mich hiermit bei allen Personen bedanken, die direkt oder
indirekt1 zu der Entstehung und Vollendung dieser Arbeit beigetragen haben.
Ich danke Herrn Prof. Dr. Peter Marwedel fu¨r die Mo¨glichkeit zur Umsetzung dieser
Arbeit und fu¨r seine Ratschla¨ge und Unterstu¨tzung, die er mir wa¨hrend der Entwicklung
der Arbeit gegeben hat. Weiterhin mo¨chte ich Herrn Prof. Dr. Wolfgang Banzhaf fu¨r die
Bereitschaft zur Erstellung des Zweitgutachtens danken.
Ganz besonderer Dank gilt Steven Bashford, Heiko Falk, Birger Landwehr, Stefan Stein-
ke und Lars Wehmeyer fu¨r deren vielfa¨ltige und groartige Unterstu¨tzung zur Erstellung
dieser Arbeit. Neben den Kollegen am Lehrstuhl haben auch die Arbeiten der von mir
betreuten Diplomanden David Kottmann, Martin Horst und Markus Fiesel einen groen
Anteil an dieser Arbeit. Ebenso mo¨chte ich Thorsten Dra¨ger vom Lehrstuhl Mobile Nach-
richtensysteme der TU Dresden fu¨r die hervorragende Zusammenarbeit danken.
Vor allem mo¨chte ich meiner Frau dafu¨r danken, dass sie dieses Projekt unterstu¨tzt und
mitermo¨glicht hat, obwohl die fu¨r die Forschung investierte Zeit ha¨ug u¨ber die geregelte
Arbeitszeit weit hinausging.
1Die Arbeit ist von der Deutschen Forschungsgemeinschaft (DFG) gefo¨rdert worden.
i
Fu¨r meine Frau Sabine und fu¨r meine Kinder Maike und Robin.
Inhaltsverzeichnis
1 Einleitung 1
1.1 Einfu¨hrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Phasen des Compilierungsprozesses . . . . . . . . . . . . . . . . . . 3
1.1.2 Digitale Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Prozessoren der M3-Plattform . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 M3-DSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.2 Energiekostenmodell . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Energieoptimierung durch Compiler . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Problemanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5 Zielsetzungen und U¨berblick . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Compiler-Zwischendarstellungen 21
2.1 Grundlegende Begrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Zwischendarstellungen existierender Compilersysteme . . . . . . . . . . . . 25
2.3 Low-Level Zwischendarstellung (GeLIR) . . . . . . . . . . . . . . . . . . . 29
2.3.1 Programmdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2 Architekturdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.3 Darstellung alternativer Maschinenprogramme . . . . . . . . . . . . 35
2.3.4 Constraintpropagierung . . . . . . . . . . . . . . . . . . . . . . . . 37
2.3.5 Analysen & Optimierungen . . . . . . . . . . . . . . . . . . . . . . 39
2.3.6 Graphische Visualisierung . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.7 XeLIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.3.8 Simulationsumgebung . . . . . . . . . . . . . . . . . . . . . . . . . 43
iii
3 Codegenerierung fu¨r digitale Signalprozessoren 47
3.1 Einfu¨hrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.1.1 Baumbasierte vs. graphbasierte Codeselektion . . . . . . . . . . . . 48
3.1.2 Bedeutung phasengekoppelter Optimierungsverfahren . . . . . . . . 49
3.1.3 Bedeutung von Adressgenerierungseinheiten . . . . . . . . . . . . . 51
3.1.4 Kombination von Optimierungszielen . . . . . . . . . . . . . . . . . 52
3.2 Bestehende Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.1 Codegenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2.2 Adresscode-Generierung . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.3 Energieoptimierungen . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 U¨bersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.4 Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.5 Genetischer Codegenerator (GCG) . . . . . . . . . . . . . . . . . . . . . . 62
3.5.1 Optimierung auf Basis genetischer Algorithmen . . . . . . . . . . . 63
3.5.2 Mehrzieloptimierung mit genetischen Algorithmen . . . . . . . . . . 65
3.5.3 Chromosomale Darstellung . . . . . . . . . . . . . . . . . . . . . . . 67
3.5.4 Initialisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.5.5 Bewertung der Individuen . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.6 Selektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.5.7 Crossover . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5.8 Mutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.6 Adresscode-Generierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.6.1 Algorithmus zur Adresscode-Generierung . . . . . . . . . . . . . . . 80
3.6.2 Phasenkopplung mit Codegenerierung . . . . . . . . . . . . . . . . . 84
3.7 Adresscode-Kompaktierung . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.8 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.8.1 Einstellung der Parameter des genetischen Algorithmus . . . . . . . 86
3.8.2 Genetischer Codegenerator . . . . . . . . . . . . . . . . . . . . . . . 88
3.8.3 Adresscode-Generierung . . . . . . . . . . . . . . . . . . . . . . . . 92
3.8.4 Retargierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4 SIMD-Optimierungen 97
4.1 Einfu¨hrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1.1 Allgemeine Problembereiche . . . . . . . . . . . . . . . . . . . . . . 99
4.1.2 M3-spezische Problembereiche . . . . . . . . . . . . . . . . . . . . 99
4.1.3 Auswirkungen auf den Codegenerator . . . . . . . . . . . . . . . . . 101
4.2 Bestehende Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3 U¨bersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.4 Architekturdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.5 Programmdarstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6 Vektorisierung von Schleifen . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.6.1 Unterstu¨tzende Schleifentransformationen . . . . . . . . . . . . . . 114
4.6.2 U¨berpru¨fung auf Vektorisierbarkeit . . . . . . . . . . . . . . . . . . 117
4.6.3 Ausnutzung spezieller Datentransfers . . . . . . . . . . . . . . . . . 119
4.6.4 Optimierte Anordnung von Arrays . . . . . . . . . . . . . . . . . . 121
4.7 Optimierte Anordnung skalarer Variablen . . . . . . . . . . . . . . . . . . . 123
4.7.1 Problemdenition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
4.7.2 Lo¨sungsansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.7.3 Integration in den Compilierungsprozess . . . . . . . . . . . . . . . 129
4.8 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.8.1 Vektorisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.8.2 Anordnung skalarer Variablen . . . . . . . . . . . . . . . . . . . . . 135
5 Experimentelle Ergebnisse 139
5.1 Betrachtete Benchmarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
5.2 Bewertung der Compilertechniken . . . . . . . . . . . . . . . . . . . . . . . 141
5.3 Vergleich mit handgeneriertem Assemblercode . . . . . . . . . . . . . . . . 145
5.4 Systemvergleich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.5 HW/SW-Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
6 Zusammenfassung 151
6.1 Compiler-Zwischendarstellung (GeLIR) . . . . . . . . . . . . . . . . . . . . 152
6.2 Zielarchitektur und Energiekostenmodell . . . . . . . . . . . . . . . . . . . 153
6.3 Genetischer Codegenerator (GCG) . . . . . . . . . . . . . . . . . . . . . . 154
6.4 SIMD-Optimierungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.5 Konklusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
A Referenzcode 159
A.1 Testroutine complex multiply . . . . . . . . . . . . . . . . . . . . . . . . . 160
A.1.1 Quellprogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
A.1.2 Handgeschriebener Pseudo-Assemblercode . . . . . . . . . . . . . . 160
A.2 Testroutine complex update . . . . . . . . . . . . . . . . . . . . . . . . . . 161
A.2.1 Quellprogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
A.2.2 Handgeschriebener Pseudo-Assemblercode . . . . . . . . . . . . . . 161
A.3 Testroutine biquad one section . . . . . . . . . . . . . . . . . . . . . . . . . 162
A.3.1 Quellprogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
A.3.2 Handgeschriebener Pseudo-Assemblercode . . . . . . . . . . . . . . 162
A.4 Testroutine lattice2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
A.4.1 Quellprogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
A.4.2 Handgeschriebener Pseudo-Assemblercode . . . . . . . . . . . . . . 163
A.5 Testroutine dfg1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
A.5.1 Quellprogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
A.5.2 Handgeschriebener Pseudo-Assemblercode . . . . . . . . . . . . . . 164
A.6 Testroutine dfg2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A.6.1 Quellprogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A.6.2 Handgeschriebener Pseudo-Assemblercode . . . . . . . . . . . . . . 165
Literaturverzeichnis 167
Indexverzeichnis 179
Kurz-Zusammenfassung
In den letzten Jahren war ein sta¨ndig zunehmender Einsatz von eingebetteten Systemen
in vielen Produkten unseres ta¨glichen Lebens zu verzeichnen. Ha¨ug sind an diese Sys-
teme spezielle Anforderungen bezu¨glich einer Realzeitfa¨higkeit, einer geringen Gro¨e und
auch zunehmend eines geringen Energiebedarfs gebunden. Um diesen Anforderungen zu
genu¨gen und dennoch ein hohes Ma an Flexibilita¨t beim Systementwurf beizubehalten,
werden anstelle von anwendungsspezischer Hardware ha¨ug digitale Signalprozessoren
(DSPs) zur Datenverarbeitung eingesetzt. Mit diesen wird auch bei Spezikationsa¨nde-
rungen in spa¨ten Entwicklungsphasen i.d.R. keine kosten- und zeitintensive Neuentwick-
lung der verwendeten Hardware erforderlich. Leider stellt die manuelle U¨berfu¨hrung eines
Anwendungsprogramms in Assemblercode des Zielprozessors eine a¨uerst zeitaufwa¨ndige
und fehlertra¨chtige Aufgabe dar. Aus diesem Grund werden Compiler beno¨tigt, die in
der Lage sind, eine gegebene Anwendung in ezienten Assemblercode zu u¨berfu¨hren. Im
Vergleich zu General-Purpose Prozessoren (GPPs) weisen DSPs jedoch spezielle Architek-
turmerkmale auf, die von herko¨mmlichen Compilertechniken nur unzureichend oder gar
nicht ausgenutzt werden.
Das Ziel dieser Arbeit besteht in der Entwicklung neuer Compilertechniken fu¨r DSPs, um
die durch Compiler generierte Codequalita¨t insbesondere hinsichtlich der Ausfu¨hrungs-
zeit und des Energiebedarfs zu verbessern. Um eine Wiederverwendung der entwickelten
Techniken in anderen Compilern zu ermo¨glichen, setzen diese auf der ebenfalls in dieser
Arbeit beschriebenen neuen Zwischendarstellung GeLIR (Generic Low-Level Intermediate
Representation) auf.
Als Schwerpunkt dieser Arbeit wird ein Codegenerator vorgestellt, der in der Lage ist, eine
graphbasierte Codeselektion durchzufu¨hren und zusa¨tzlich die Phasen der Codeselektion,
Instruktionsanordnung (einschlielich Kompaktierung) und Registerallokation im Sinne
einer Phasenkopplung simultan lo¨st. Da dies die Lo¨sung eines NP-harten Optimierungs-
problems darstellt, ist dem Codegenerator ein Optimierungsverfahren auf Basis eines ge-
netischen Algorithmus zugrunde gelegt. Zusa¨tzlich werden bei der Durchfu¨hrung der Tei-
laufgaben Codeselektion, Instruktionsauswahl und Registerallokation bereits Wechselwir-
kungen mit der nachfolgend durchgefu¨hrten Adresscode-Generierung beru¨cksichtigt. Auf-
grund der flexiblen Spezikationsmo¨glichkeit von Kostenfunktionen in genetischen Opti-
vii
mierungsverfahren ist der Codegenerator unter Verwendung eines Energiekostenmodells in
der Lage, eine energieeziente Auswahl und Anordnung von Instruktionen durchzufu¨hren.
Als weiterer Schwerpunkt werden Optimierungsverfahren zur eektiven Ausnutzung der
parallelen Datenpfade und von SIMD-Speicherzugrien vorgestellt. Mit der Integration
des Energiekostenmodells in den Codegenerator und den Simulator wird dabei mit dieser
Arbeit erstmalig das Potential von SIMD-Operationen hinsichtlich der energieezienten
Ausfu¨hrung von DSP-Programmen compilerunterstu¨tzt untersucht. Durch die beispiel-
hafte Implementierung der Techniken fu¨r eine DSP-Architektur und die Retargierung des
genetischen Codegenerators auf einen weiteren DSP wird die Anwendbarkeit fu¨r reale
Prozessoren gezeigt.
Kapitel 1
Einleitung
Durch die zunehmende Miniaturisierung elektronischer Schaltungen in den letzten Jahr-
zehnten wurden den Anwendern stetig steigende Rechenleistungen bei immer geringer
werdender Chipfla¨che zur Verfu¨gung gestellt. 1965 sagte Gordon Moore in dem spa¨ter
nach ihm benannten Moore’schen Gesetz voraus, dass sich in den darauf folgenden zehn
Jahren bis 1975 die Anzahl der auf einem integrierten Schaltkreis vorhandenen Transis-
toren alle 18 Monate verdoppelt [Moo65]. Wie in Abb. 1.1 zu erkennen ist, hat dieses
Gesetz bis heute noch anna¨hernd bestand. Intels Paolo Gorgini ist sogar der Meinung,
dass dieses Gesetz fu¨r weitere 15 Jahre zutrit. So soll es im Jahre 2014 Chips mit 64
Milliarden Transistoren und 3,6 GHz Taktfrequenz geben [Sti99].
1.000
10.000
100.000
1.000.000
10.000.000
100.000.000
Jahr
#
T
r
a
n
s
i
s
t
o
r
e
n
4004
8008
8080
286
386
486
Pentium
Pentium II
Pentium III
Pentium 4
8086
1
9
7
1
1
9
7
2
1
9
7
4
1
9
7
8
1
9
8
2
1
9
8
5
1
9
8
9
1
9
9
3
1
9
9
7
1
9
9
9
2
0
0
0
Vorhersage
Abb. 1.1: Moore’sches Gesetz am Beispiel der Entwicklung der Intel-Prozessoren (ent-
nommen aus [Int])
1
2 KAPITEL 1. EINLEITUNG
Durch die Miniaturisierung besteht die Mo¨glichkeit immer gro¨ere, leistungsfa¨higere Sys-
teme bestehend aus optimierter Hardware und darauf laua¨higer Software auf einem
Chip (SoC = Systems-on-Chip) zu integrieren. Hierdurch ko¨nnen eingebettete Systeme den
sta¨ndig durch neue Anwendungen gestiegenen Anforderungen bezu¨glich Ausfu¨hrungszeit,
Chipgro¨e und in zunehmendem Mae auch geringem Stromverbrauch gerecht werden.
Eingebettete Systeme sind in der Regel Bestandteil eines komplexeren Systems und zeich-
nen sich im Wesentlichen dadurch aus, dass sie physikalische Informationen u¨ber Sensoren
aufnehmen, verarbeiten und bestimmte Steuerungs- und Regelungsaufgaben durchfu¨hren.
Typische Einsatzgebiete stellen Anwendungen in Handys (z.B. SMS, WAP), in Automo-
bilen (z.B. Fensterheber, Airbags) und in Flugzeugen (z.B. Kollisionswarngera¨te) dar.
Insbesondere bei mobilen Gera¨ten, wie Handys, stellt neben einer Echtzeitverarbeitung,
einer geringen Gro¨e und einem geringen Gewicht, der Energieverbrauch ein wichtiges
Verkaufsargument dar. Wa¨hrend fru¨her diese Aufgaben aufgrund der bestehenden Anfor-
derungen noch von speziell an die Anwendung angepassten ASICs (Application Specic
Integrated Circuits) durchgefu¨hrt werden mussten, wurde in zunehmendem Mae eine
Softwarelo¨sung durch den Einsatz von eingebetteten Prozessoren mo¨glich. Dies ist a¨uerst
erstrebenswert, da diese programmierbar sind und somit bei Spezikationsa¨nderungen in
spa¨ten Designzyklen oder bei Updates/Upgrades, eine kosten- und zeitintensive Neuent-
wicklung vermeiden (Time-to-Market).
Um den genannten Anforderungen gerecht zu werden, werden ha¨ug digitale Signalpro-
zessoren (DSPs) eingesetzt, deren Befehlssa¨tze im Vergleich zu General-Purpose Prozes-
soren (GPPs) eine wesentlich eektivere Umsetzung von rechenintensiven Anwendungen
erlauben. Leider werden aufgrund der unzureichenden Codequalita¨t der von Compilern
generierten Programme, Assemblerprogramme (oder zumindest Teile davon) i.d.R. immer
noch per Hand erzeugt. Dies ist jedoch ein sehr zeitaufwa¨ndiger Vorgang, der eine hohe
Fehleranfa¨lligkeit und eine geringe Portabilita¨t zur Folge hat. Aus diesem Grund besteht
ein sehr groer Bedarf an optimierenden Compilern, die an die Architektur angepasst
und damit in der Lage sind, die speziellen Architektureigenschaften von DSPs eektiv
auszunutzen [MG95].
Nach einer Einfu¨hrung in die Problematik im na¨chsten Abschnitt werden kurz die Pro-
zessoren der M3-Plattform, die in dieser Arbeit als Zielarchitektur dienen, vorgestellt. In
Abschnitt 1.3 werden dann Mo¨glichkeiten zur Reduzierung des Energieverbrauchs durch
Compiler vorgestellt. Nach einer allgemeinen Problemanalyse bestehender DSP-Compiler
wird abschlieend auf die Zielsetzungen dieser Arbeit eingegangen.
1.1. EINFU¨HRUNG 3
1.1 Einfu¨hrung
In diesem Abschnitt wird ein U¨berblick u¨ber die zugrunde liegende Problematik der Code-
generierung gegeben, indem zuna¨chst der grundsa¨tzliche Aufbau von Compilern beschrie-
ben wird. Danach werden anhand der Aufgaben der digitalen Signalverarbeitung allge-
meine Anforderungen an die Prozessoren, hier im speziellen digitale Signalprozessoren,
abgeleitet.
1.1.1 Phasen des Compilierungsprozesses
Die Aufgabe eines Compilers besteht in der Transformation eines gegebenen Quellpro-
gramms in die Sprache des Zielprozessors, unter Wahrung der semantischen Korrektheit
und gegebenenfalls Einhaltung weiterer Randbedingungen. Da es sich hierbei um eine
sehr komplexe Aufgabe handelt, wird der Compilierungsprozess in mehrere Phasen un-
terteilt. In Abb. 1.2 sind dies die Teilbereiche Front-End, Middle-End und Back-End, die
sich wiederum in mehrere Teilphasen unterteilen.
IR to LIR
C to IR IR
LIR to Asm
ASM
C-Src
LIR
prozessorunabhängig prozessorabhängig
Standardoptimierungen
- Constant-Folding
- Copy-Propagation
- Dead-Code-Elimination
- ...
!
!
!
Standardoptimierungen
Codegenerierung
Peephole-Optimierungen
- Codeselektion (CS)
- Instruktionsanordnung (IA)
- Registerallokation (RA)
- Adresscode-Generierung (ACG)
Front-End Middle-End Back-End
Abb. 1.2: Compilierungsphasen
Das Front-End liest zuna¨chst ein gegebenes Hochsprachenprogramm (hier gegeben in
der Programmiersprache C) ein und transformiert dieses nach Durchfu¨hrung einer le-
xikalischen, syntaktischen und semantischen Analyse in eine prozessorunabha¨ngige Zwi-
schendarstellung IR (Intermediate Representation). Danach ko¨nnen auf dieser Darstellung
im Middle-End prozessorunabha¨ngige Standardoptimierungen wie z.B. Constant-Folding,
Copy-Propagation oder Dead-Code-Elimination durchgefu¨hrt werden, die jeweils eine gege-
bene IR einlesen und modiziert zuru¨ckschreiben (s. [ASU86, Muc97] fu¨r einen U¨berblick).
Diese Optimierungen ko¨nnen fu¨r jede betrachtete Zielarchitektur wieder verwendet wer-
den, da bislang keinerlei prozessorspezische Eigenschaften beru¨cksichtigt worden sind.
4 KAPITEL 1. EINLEITUNG
Im Back-End gilt es nun, das durch die IR gegebene Programm in ein a¨quivalentes Pro-
gramm zu u¨berfu¨hren, das auf der zugrunde gelegten Zielarchitektur ausgefu¨hrt werden
kann. Da dies eine sehr komplexe Aufgabe darstellt, wird dieser Vorgang in eine Reihe von
Teilaufgaben unterteilt, die sinnvollerweise wiederum auf einer einheitlichen Zwischendar-
stellung LIR (Low-Level IR) arbeiten sollten. Mit der Durchfu¨hrung der Codegenerierung
werden nun schrittweise architekturspezische Informationen der LIR hinzugefu¨gt. Dabei
werden im Allgemeinen die folgenden Teilaufgaben unterschieden:
 Mit der Durchfu¨hrung der Codeselektion (CS) gilt es, die vorhandenen Operationen
der LIR mit elementaren Anweisungen der Zielmaschine (Maschinenoperationen)
zu u¨berdecken. Beispiele fu¨r Maschinenoperationen (MOs) sind Anweisungen zur
Durchfu¨hrung eines Datentransfers oder einer arithmetischen Operation. Wenn eine
geringe Ausfu¨hrungszeit das Optimierungsziel darstellt, kann z.B. eine Minimierung
der Anzahl der erforderlichen MOs als Optimierungskriterium dienen. Zur Minimie-
rung des Energieverbrauchs bietet es sich stattdessen an, solche MOs auszuwa¨hlen,
die den geringsten Energieverbrauch aufweisen. Da in diesem Schritt jedoch kei-
ne Entscheidungen hinsichtlich der parallelen Ausfu¨hrung getroen werden, kann
dies nur einen ungefa¨hren Anhaltspunkt u¨ber die letztendlich resultierende Anzahl
erforderlicher Prozessorzyklen geben.
 Die Aufgabe der Instruktionsanordnung (IA) besteht in der Zuordnung von MOs zu
ausfu¨hrbaren Befehlen der Zielmaschine (Maschineninstruktionen) unter Einhaltung
der gegebenen Randbedingungen, wie z.B. Datenabha¨ngigkeiten. Im einfachsten Fall
entha¨lt dabei jede Maschineninstruktion (MI) genau eine Maschinenoperation. Fu¨r
Prozessoren mit parallelen Ausfu¨hrungsmo¨glichkeiten, wie es bei DSPs u¨blicherweise
gegeben ist, umfasst diese Phase zusa¨tzlich noch die Aufgabe der Kompaktierung, bei
der die gegebenen MOs zu MIs zusammengefasst werden. Die Ausfu¨hrungszeit kann
reduziert werden, indem die Gesamtzahl der resultierenden MIs minimiert wird.
Allerdings ergeben sich auch hier Wechselwirkungen zu den anderen Teilphasen,
wie z.B. der Registerallokation.
 Die Registerallokation (RA) hat die Aufgabe, alle in einem Programm verwende-
ten und durch Modikationen (Transformationen und Optimierungen) hinzugefu¨gte
tempora¨re Variablen (virtuelle Register) auf reale Register der Zielmaschine abzubil-
den. Dabei muss entschieden werden, welche Variablen in Registern gehalten werden
(Registervergabe) und welche Register konkret verwendet werden sollen (Registerbin-
dung). U¨bersteigt die Anzahl der gleichzeitig lebendigen Variablen1 die Anzahl der
verwendbaren Register, so mu¨ssen Variablen in den Speicher ausgelagert (gespillt)
1Dies sind Variablen, die zu einem spa¨teren Zeitpunkt der Programmausfu¨hrung noch verwendet
werden, ohne dass sie zuvor mit einem neuen Wert u¨berschrieben werden.
1.1. EINFU¨HRUNG 5
und ein entsprechender Spillcode eingefu¨gt werden. Da dies zusa¨tzlicher Taktzyklen
und energieintensiver Speicherzugrie bedarf, besteht das Ziel dieser Phase in der
Minimierung des Spillcodes.
 Sind, wie bei DSPs u¨blich, spezielle Adressgenerierungseinheiten (AGUs) vorhan-
den, fu¨hren Codegeneratoren fu¨r DSPs zusa¨tzlich noch eine Adresscode-Generierung
(ACG) durch. Diese hat die Aufgabe, zuna¨chst allen relevanten Variablen konkrete
Speicheradressen zuzuweisen und danach alle fu¨r die Speicherzugrie erforderlichen
Adressen mit geringst mo¨glichem Overhead zu berechnen.
Da sich die zuvor beschriebenen Teilphasen insbesondere bei Architekturen mit irregula¨ren
Befehlssa¨tzen gegenseitig beeinflussen (Phasenkopplungsproblem), mu¨ssen diese zur Erzie-
lung von optimalen Lo¨sungen simultan gelo¨st werden. Allerdings stellt bereits die optimale
Lo¨sung jeder einzelnen Phase fu¨r den allgemeinen Fall die Lo¨sung eines NP-harten Op-
timierungsproblems dar, so dass aufgrund der erforderlichen Phasenkopplung die Suche
nach optimalen oder nahezu optimalen Lo¨sungen erheblich erschwert wird.
Nach der Durchfu¨hrung von Optimierungen im Back-End ko¨nnen wiederholt Standard-
optimierungen, wie z.B. Dead-Code-Elimination ausgefu¨hrt werden, diesmal jedoch un-
ter Beru¨cksichtigung architekturspezischer Merkmale. Abschlieend werden i.d.R. auf
dem generierten Maschinencode lokale Optimierungen (Peephole-Optimierungen) durch-
gefu¨hrt.
1.1.2 Digitale Signalverarbeitung
Aufgrund des zunehmenden Bedarfs an schneller und fehlerfreier Datenverarbeitung wer-
den in immer sta¨rkerem Mae digitale anstelle analoger Signale verarbeitet. Ein wichtiger
Grund ist dabei die Mo¨glichkeit der Durchfu¨hrung von Spezikationsa¨nderungen in Soft-
ware. Des Weiteren besteht ha¨ug z.B. auch die Mo¨glichkeit der Rekonstruktion eines
durch Rauschen verfa¨lschten Ursprungssignals beim Empfa¨nger und das Anlegen von Ko-
pien ohne Qualita¨tsverlust.
Der FIR-Filter (FIR = Finite Impulse Response) stellt einen ha¨ug umgesetzten Algo-
rithmus in der digitalen Signalverarbeitung dar [EB98]. Das Verhalten eines FIR-Filters
N -ter Ordnung, mit dem Eingangswert x[n−i] und dem Filterkoezienten b[i] kann durch
die Gleichung
y[n] =
N−1
∑
i=0
b[i]  x[n − i]
beschrieben werden. Der Ausgangswert y[n] zum Zeitpunkt n stellt dann die gewichtete
Summe der letzten N Eingangswerte dar. In Abb. 1.3 ist der dazugeho¨rige Signalflussgraph
dieses FIR-Filters dargestellt.
6 KAPITEL 1. EINLEITUNG
+
*
Z
-1
*
* *
+ +
Z
-1
Z
-1
...
...
x[n]
b[0] b[1] b[N-2] b[N-1]
x[n-1] x[n-(N-2)] x[n-(N-1)]
y[n]
Abb. 1.3: Signalflussgraph eines FIR-Filters N-ter Ordnung
Die mit Z−1 benannten Elemente stellen Verzo¨gerungselemente (z.B. Register oder Spei-
cher) dar, die eine Kopie ihres Eingangswertes mit Verzo¨gerung an ihren Ausgang wei-
terleiten. Im Falle des dargestellten FIR-Filters sind N − 1 solcher Verzo¨gerungselemente
erforderlich, die auch als Delay-Line bezeichnet werden. Zu jedem Zeitpunkt entha¨lt die
Delay-Line die letzten N − 1 in das System eingegangenen Signale, die einschlielich des
aktuellen Eingabewertes x[n] zur Berechnung des neuen Ausgabesignals y[n] beno¨tigt wer-
den. Fu¨r die Berechnung des nachfolgenden Ausgabesignals werden die Werte innerhalb
der Delay-Line um jeweils eine Position nach rechts geschoben. Danach kann ein neuer
Ausgabewert berechnet werden, indem das aktuelle Eingangssignal und die in der Delay-
Line enthaltenen Signale mit den Filter-Koezienten b[0] bis b[N − 1] multipliziert und
aufsummiert werden.
Durch die Wahl der La¨nge der Delay-Line und der Koezienten wird das Verhalten eines
solchen FIR-Filters bestimmt. Erfolgt die Umsetzung mittels eines DSPs, ko¨nnen ohne
aufwa¨ndige A¨nderungen der Hardware unterschiedliche Filter durch Umprogrammieren
des DSPs realisiert werden. Um z.B. die Implementierung des FIR-Filters so ezient
wie mo¨glich zu gestalten, stellen DSPs Befehle zur Verfu¨gung, die speziell an derartige
Aufgaben angepasst sind [Mar97, EB98]. Dies sind z.B.:
 Bilden der Summe von Multiplikationen mit Hilfe von MAC-Operationen (MAC =
Multiply-Accumulate).
 Erho¨hung der Speicherbandbreite z.B. durch Aufteilung des Speichers in zwei oder
mehrere getrennte Datenspeicher, auf die gleichzeitig zugegrien werden kann. Dies
ermo¨glicht z.B. in der FIR-Routine das parallele Laden des zu verarbeitenden Ein-
gangssignals und eines Filter-Koezienten.
 Unterstu¨tzung einer (ha¨ug eingeschra¨nkten) parallelen Ausfu¨hrung von Datenma-
nipulationen, Datentransfers und/oder Speicherzugrien. Dazu werden u.a. spezielle
Adressgenerierungseinheiten eingesetzt, die aufgrund vorhandener Spezialbefehle ei-
ne eektive Adressberechnung parallel zu anderen Funktionseinheiten erlauben.
1.2. PROZESSOREN DER M3-PLATTFORM 7
 Verringerung des Schleifen-Overheads durch die Ausfu¨hrung einer begrenzten An-
zahl von Instruktionen in Zero-Overhead Hardware-Loops (ZOL). Diese erlauben
nach der Initialisierung eines speziellen Hardwareregisters mit der Anzahl aus-
zufu¨hrender Schleifeniterationen die Ausfu¨hrung der eingebetteten Instruktionen
ohne den sonst u¨blichen Schleifen-Overhead.
1.2 Prozessoren der M3-Plattform
Aufgrund der unterschiedlichen Anwendungsbereiche und den damit verbundenen an-
wendungsspezischen Anforderungen, fu¨r die DSPs eingesetzt werden sollen, werden von
DSP-Herstellern zunehmend Plattformlo¨sungen angestrebt. Dadurch soll die Entwicklung
von speziellen ASICs mit den damit verbundenen Nachteilen vermieden werden. So kann
mit Hilfe einer DSP-Plattform schnell und kostengu¨nstig ein speziell an die Anwendung
angepasster DSP entwickelt werden. Bei steigenden Anforderungen an den DSP kann
dadurch eine aufwa¨ndige Neuentwicklung oder sogar der Einsatz von ASICs vermieden
werden, da die bestehende DSP-Architektur einfach erweiterbar ist [WFL+99]. Beispiele
fu¨r solche Plattformlo¨sungen stellen der StarCore von Motorola [Sta], der TigerShark von
Analog Devices [Tig] und die M3-Plattform von der TU Dresden [FWD+98, WFL+99]
dar.
Da der Speicher in den Prozessoren ha¨ug einen Engpass darstellt, wird in vie-
len Prozessoren der Speicher in mehrere Speicherba¨nke aufgeteilt. So sind z.B. beim
DSP56000 [Mot86], der ADSP-210x-Familie [Dev91] und dem Gepard [GFO97] zwei
Speicherba¨nke vorhanden, auf die gleichzeitig zugegrien werden kann. Im Unterschied
dazu verwendet der Media-Prozessor von MicroUnity einen breiten Standardspeicher, der
in Gruppen unterteilt ist [Han96]. Mehrere Daten werden dabei zu einer Gruppe zusam-
mengefasst und u¨ber eine gemeinsame Adresse angesprochen. Auf diese Weise geladene
Daten ko¨nnen dann nach dem SIMD-Prinzip (SIMD = Single Instruction Multiple Data)
verarbeitet werden. Allerdings ist bei einer Erweiterung dieser Architektur ein Neuentwurf
der Kommunikationseinheit erforderlich.
Die M3-Plattform basiert, wie der Media-Prozessor von MicroUnity, ebenfalls auf dem
Gruppenprinzip, ermo¨glicht jedoch durch die Aufteilung in modulare Einheiten eine ein-
fache Anpassung an applikationsspezische Spezikationsa¨nderungen. Eine Anpassung an
eine gro¨ere Rechenleistung kann z.B. durch eine Erho¨hung der Anzahl paralleler Daten-
pfade erreicht werden, auf denen eine Abarbeitung nach dem SIMD-Prinzip vorgesehen ist.
Da i.d.R. nicht zu jedem Zeitpunkt alle Datenpfade beno¨tigt werden, besteht neben der
Ausfu¨hrung von SIMD-Operationen ebenfalls die Mo¨glichkeit der Abarbeitung in einem
speziellen Einstreifen-Modus. Hierbei erfolgt die Verarbeitung nach dem SISD-Prinzip
(SISD = Single Instruction Single Data) lediglich auf einem Streifen (Slice), indem die
8 KAPITEL 1. EINLEITUNG
restlichen Datenpfade abgeschaltet werden. Ein Slice besteht dabei aus einem Datenpfad
inklusive dazugeho¨riger Eingangsregister (s. auch Abb. 1.4).
Das Befehlswort ist als VLIW (Very Long Instruction Word) organisiert und erlaubt z.B.
eine unabha¨ngige Kontrolle zur Datenmanipulation, fu¨r Datentransfers, zur Programm-
steuerung und Adressgenerierung.
Die Prozessoren dieser skalierbaren Plattform dienen als Zielarchitektur dieser Arbeit,
wobei der im folgenden Abschnitt na¨her beschriebene M3-DSP eine konkrete Instanz
darstellt.
1.2.1 M3-DSP
Der M3-DSP stellt eine Instanz mit 16 Slices der skalierbaren M3-Plattform fu¨r Anwen-
dungen aus dem Bereich der mobilen Telekommunikation dar (s. Abb. 1.4).
Gruppenspeicher für Daten
(16 x 16) bit
Verbindungsnetzwerk
Zwischenregisterfile M
A
0
L
o
k
a
l
e
K
o
m
m
u
n
i
k
a
t
i
o
n
MAC
ALU
Slice
0
AGU
B
0
C
0
D
0
ACCU
0
A
1
L
o
k
a
l
e
K
o
m
m
u
n
i
k
a
t
i
o
n
MAC
ALU
1
B
1
C
1
D
1
ACCU
1
A
15
MAC
ALU
15
B
15
C
15
D
15
ACCU
L
o
k
a
l
e
K
o
m
m
u
n
i
k
a
t
i
o
n
...
15
Abb. 1.4: Basisarchitektur des M3-DSPs
Um eine eektive parallele Verwendung aller Datenpfade zu erlauben, ist der auf dem
Chip vorhandene Speicher als Gruppenspeicher organisiert. Dies bedeutet, dass mit jedem
Speicherzugri auf jeweils eine Gruppe von 16 Datenworten lesend/schreibend zugegrif-
fen wird. Bei einem Ladezugri wird die adressierte Gruppe in das Zwischenregisterle M
geladen, von dem aus die geladenen Daten u¨ber ein anwendungsspezisches Verbindungs-
netzwerk in die Gruppenregisterles der Datenpfade transportiert werden ko¨nnen. Mit
"
Gruppenregisterle\ wird die Menge der Register aller Slices mit demselben Label (z.B.
A oder B in Abb. 1.4) bezeichnet. Neben dem Transfer einzelner Daten u¨ber das Verbin-
dungsnetzwerk sind vor allem auch komplexe SIMD-Datentransfers mo¨glich. So besteht
z.B. mit dem Vektordatentransfer die Mo¨glichkeit, alle Daten vom Zwischenregisterle M
in eines der Gruppenregisterles A, B, C oder D zu transportieren, wobei jedes Datum
1.2. PROZESSOREN DER M3-PLATTFORM 9
innerhalb desselben Slices verbleibt. Dies bedeutet, dass bei einem Vektordatentransfer
vom Zwischenregisterle M in das Gruppenregisterle A die Datentransfers A[0] = M[0],
A[1] = M[1], ... , A[15] = M[15] innerhalb eines Taktzyklus ausgefu¨hrt werden. SIMD-
Datentransfers wie Zurich-Zip ermo¨glichen dahingegen einen Transfer u¨ber Slice-Grenzen
hinaus, indem alle Werte um eine bestimmte Anzahl Slices nach rechts oder links verscho-
ben werden ko¨nnen und unterstu¨tzen damit beispielsweise eine eziente Implementierung
des FIR-Filters [LBSL97, DF02]. Um das gesamte Verbindungsnetzwerk klein zu halten,
ist keine vollsta¨ndige Vernetzung umgesetzt, wie dies z.B. mit einem Kreuzschienenver-
teiler (Crossbar-Netz) mo¨glich gewesen wa¨re. Eine solche Realisierung wu¨rde die erfor-
derliche Chipgro¨e und dadurch auch den Energieverbrauch erheblich erho¨hen. Ebenfalls
dadurch begru¨ndet, ist eine Verwendung der Eingangsregister der Funktionseinheiten in
den einzelnen Datenpfaden nur in eingeschra¨nkter Art und Weise mo¨glich. Des Weiteren
ko¨nnen zur Verringerung des Schleifen-Overheads bis zu 256 Prozessorinstruktionen in
einer Hardwareschleife ausgefu¨hrt werden, wobei die Anzahl der Iterationen mit 215 − 1
Iterationen nach oben begrenzt ist.
Da der M3-DSP alle DSP-typischen Charakteristika aufweist und zusa¨tzlich noch eine
SIMD-Ausfu¨hrung von Operationen unterstu¨tzt, stellt dieser Prozessor zur Demonstration
der zu entwickelnden Compilertechniken eine geeignete Beispielarchitektur dar.
1.2.2 Energiekostenmodell
Um die Codequalita¨t eines Maschinenprogramms hinsichtlich eines bestimmten Krite-
riums beurteilen und optimieren zu ko¨nnen, bedarf es eines geeigneten Kostenmodells,
mit dem hinreichend genaue Bewertungen durchgefu¨hrt werden ko¨nnen. Zur Bewertung
mehrerer unterschiedlicher Codesequenzen wa¨hrend der Compilierung muss das Kosten-
modell insbesondere auch eine schnelle Bewertung ermo¨glichen. Dies ist (in Abwesenheit
von hardwaregesteuerten Caches) bezogen auf die Ausfu¨hrungsgeschwindigkeit und die
Codegro¨e relativ einfach anhand des Instruktionssatzes mo¨glich. So werden in diesen
Fa¨llen meist die Anzahl der beno¨tigten Prozessorzyklen oder der erforderliche Programm-
speicherplatz aller Instruktionen aufaddiert. Soll jedoch als Optimierungskriterium ein
geringer Energieverbrauch dienen, so werden Energieverbrauchswerte einzelner Prozes-
sorinstruktionen oder Teilsequenzen beno¨tigt, die i.d.R. nicht vorhanden bzw. zuga¨nglich
sind. Diese Werte mu¨ssen dann ermittelt und in einer Form zur Verfu¨gung gestellt werden,
die es dem Compiler erlaubt, eine ausreichend genaue Dierenzierung von Codesequen-
zen durchzufu¨hren. Die Ermittlung des Energieverbrauchs einer gegebenen Codesequenz
kann grundsa¨tzlich mittels Simulation einer gegebenen Hardwarebeschreibung oder Mes-
sung am realen Chip erfolgen, ermo¨glicht jedoch keine Bewertung von Codesequenzen im
Compiler. Aus diesem Grund wird ein geeignetes Kostenmodell beno¨tigt, das einmal auf-
gestellt, zur Ermittlung des Energiebedarfs beliebiger Instruktionssequenzen im Compiler
10 KAPITEL 1. EINLEITUNG
dienen kann.
Dazu wurde in [TMW94b, LTMF95] ein Energiekostenmodell auf Instruktionsebene vor-
gestellt, bei dem der Gesamtenergieverbrauch aus dem Energieverbrauch einer einzel-
nen Instruktion (Basis-Energiekosten) und dem (aufgrund von Zustandsa¨nderungen des
Schaltkreises) zusa¨tzlich erforderlichen Energieverbrauch jeweils zweier aufeinander fol-
gender Instruktionen (Overhead-Energiekosten) berechnet werden kann. Die relevanten
Werte wurden dabei durch Messungen am realen Chip ermittelt. Weitere Energiekosten-
modelle auf dieser Basis sind z.B. in [SS99, SBT00, SKWM01] beschrieben.
Mit Hilfe von Strom-Messungen am Siliziumchip des M3-DSPs wurde (in Zusammenar-
beit mit der TU Dresden) ebenfalls ein solches Kostenmodell gewonnen [DF02]. Um die
Anzahl der durchzufu¨hrenden Energiemessungen zu minimieren, wurden in Analogie zu
[TMW94b] alle Befehle, die a¨hnliche Energiekosten verursachen, zu Energiegruppen zu-
sammengefasst und anschlieend hinsichtlich ihres Energieverbrauches gleich behandelt.
In Tabelle 1.1 sind dies z.B. die Energiegruppen NOP, AGU 1, AGU 2, ... , LMI 1. Eine grobe
Unterteilung des Befehlssatzes wurde anhand der Funktionseinheiten des VLIW-basierten
Instruktionswortes vorgenommen. Dabei handelt es sich bei AGU (Address Generation
Unit), DMU (Data Manipulation Unit), DTU (Data Transfer Unit), DAU (Data Alignment
Unit) und PCU (Program Control Unit) um reale Funktionseinheiten des Prozessors, die
unabha¨ngig voneinander angesteuert werden ko¨nnen. Die Energiegruppen LMI 1 (LMI =
Load Move Instruction) und NOP (No Operation) stellen Sonderfa¨lle dar.
Bei der Entwicklung des Kostenmodells stellte sich heraus, dass im Falle des M3-DSPs
eine Aufteilung der Energiekosten in Basis- und Overheadkosten, wie es in [TMW94b]
vorgeschlagen wird, zu groen Abweichungen im Vergleich zu Messungen wa¨hrend der
Ausfu¨hrung auf dem M3-DSP fu¨hrt. Es hat sich gezeigt, dass eine solche Unterteilung (fu¨r
den M3-DSP) auch nicht erforderlich ist, weil letztendlich nur der Gesamtenergieverbrauch
jeweils zweier aufeinander folgender Maschineninstruktionen beno¨tigt wird. So ergeben
sich fu¨r den M3-DSP durch eine Zusammenfassung der beiden Einzelkosten zu einem
Wert wesentlich genauere Ergebnisse. Des Weiteren sind gegenu¨ber dem in [TMW94b]
vorgestellten Modell aufgrund des VLIW-basierten Instruktionswortes Erweiterungen hin-
sichtlich der Bewertung von parallelen Ausfu¨hrungsmo¨glichkeiten erforderlich. Leider gibt
es aufgrund der hohen Parallelita¨t trotz der Einteilung in Energiegruppen immer noch eine
Vielzahl von Kombinationsmo¨glichkeiten aufeinander folgender Maschineninstruktionen.
Glu¨cklicherweise hat sich herausgestellt, dass der Energieverbrauch komplexerer (paralle-
ler) Befehle mit Hilfe relativ weniger Messungen berechnet werden kann.
Bevor im Folgenden das Energiekostenmodell fu¨r den M3-DSP angegeben wird, werden
zuvor noch einige zum Versta¨ndnis erforderliche Notationen eingefu¨hrt:
 Eine Sequenz von Maschineninstruktionen mii wird mit MIs bezeichnet. Es gilt:
MIs = (mi
1
, mi
2
, . . . , mii, . . . , mi
jMIsj), mit jMIsj  1
1.2. PROZESSOREN DER M3-PLATTFORM 11
Funktions- Energie-
einheiten gruppen Maschinenoperationen
NOP NOP NOP
AGU 1 Store
AGU AGU 2 Load
AGU 3 Adressregister-Modikation
DMU 1 SISD MAC (Addition), SISD ADD, SISD MUL
DMU 2 SISD MAC (Subtraktion), SISD SUB
DMU DMU 3 SIMD MAC (Addition), SIMD ADD, SIMD MUL
... ...
DTU 1 ElementDT, ImmediateDT
DTU DTU 2 VectorDT
... ...
DAU 1 Pack
DAU DAU 2 ShiftLeft, ShiftRight
PCU PCU 1 Goto, Push, Pop
LMI LMI 1 Move, LoadImmediate
Tabelle 1.1: Einteilung des Befehlssatzes in Energiegruppen
 Der Energieverbrauch zweier aufeinander folgend ausgefu¨hrter Maschineninstruk-
tionen mii und mij wird mit Emi
i
,mi
j
bezeichnet, wobei i, j 2 f1, . . . , jMIsjg und
j = i + 1 gilt.
 Jede Maschineninstruktion mi entha¨lt mindestens eine Maschinenoperation mo. Es
gilt:
moj 2 mi, mit j 2 f1, . . . , jmijg
 Die einer Maschinenoperation mo zugeordnete Energiegruppe wird mit EGrmo be-
zeichnet. Es gilt:
EGrmo 2 fNOP,AGU 1, . . . ,LMI 1g
 Die Menge aller Energiegruppen der in einer Maschineninstruktion mi enthaltenen
Maschinenoperationen wird mit EGrmi bezeichnet. Es gilt:
EGrmi = fEGrmo
1
, . . . ,EGrmo
|mi|
g
 Die Menge der im Energiekostenmodell betrachteten Funktionseinheiten wird mit
EnFU bezeichnet. Es gilt:
EnFU = fAGU,DMU,DTU,DAU,PCU,LMIg.
 Eine Maschinenoperation mo, die auf der Funktionseinheit fu 2 EnFU ausgefu¨hrt
wird, wird mit mofu bezeichnet.
12 KAPITEL 1. EINLEITUNG
Der Energieverbrauch EMIs einer Sequenz MIs von Maschineninstruktionen kann wie
folgt, durch Aufsummieren der Energiewerte zweier aufeinander folgender Maschinenin-
struktionen ermittelt werden:
EMIs =
jMIsj−1
∑
i=1
Emi
i
,mi
i+1
Wenn EMess einen gemessenen Wert und EComp einen Wert darstellt, der auf der Basis
von gemessenen Werten berechnet wird, dann kann der Energieverbrauch von zwei aufein-
ander folgend ausgefu¨hrten Maschineninstruktionen mii und mij durch folgende Formel
bestimmt werden.
Emi
i
,mi
j
=
{
EMessEGr
mi
i
,EGr
mi
j
, falls Messwert vorhanden
ECompmi
i
,mi
j
, sonst
Soll also der Energieverbrauch zweier Maschineninstruktionen mi
1
und mi
2
bestimmt wer-
den, mit EGrmi
1
= fAGU 1,DAU 1g und EGrmi
2
= fAGU 2g, dann wird zuna¨chst u¨ber-
pru¨ft, ob fu¨r diese Kombination von Energiegruppen der Wert EMess
fAGU 1kDAU 1g,fAGU 2g
vorliegt. In diesem Fall wu¨rde das dem Eintrag 3,05 in der Zeile AGU 1 k DAU 1 und der
Spalte AGU 2 von Tabelle 1.2 entsprechen.
Die Eintra¨ge in dieser Tabelle stellen auf die Ausfu¨hrung eines NOPs genormte Energie-
werte fu¨r unterschiedliche Kombinationen von Maschineninstruktionen dar. Bei Bedarf
besteht jederzeit die Mo¨glichkeit, weitere Messungen durchzufu¨hren und der Energieda-
tenbasis hinzuzufu¨gen. Ist fu¨r eine bestimmte Kombination kein entsprechender Eintrag
vorhanden, wird der Energiebedarf zweier aufeinander folgender Maschineninstruktionen
mii und mij, mit momi
i
2 mii und momi
j
2 mij, folgendermaen berechnet:
ECompmi
i
,mi
j
=
∑
8fu2FU
E
mo
fu
mi
i
,mo
fu
mi
j
− (jEnFUj − 1)  EMessNOP,NOP
Durch Subtraktion des (jEnFUj − 1)-fachen Energieverbrauchs eines NOPs wird beru¨ck-
sichtigt, dass bei allen gemessenen Werten nicht nur der Energieverbrauch einer einzelnen
Funktionseinheit gemessen wurde, sondern ebenfalls der Energieverbrauch der restlichen
Funktionsheiten, auf denen NOPs ausgefu¨hrt werden. Der Energieverbrauch, der auf einer
einzelnen Funktionseinheit anfa¨llt, la¨sst sich mit Hilfe der folgenden Formel berechnen:
E
mo
fu
i
,mo
fu
j
=
{
EMess
mo
fu
i
,mo
fu
j
, falls Messwert vorhanden
EMess
mo
fu
i
,NOP
+ EMess
mo
fu
j
,NOP
, sonst
Eine Validierung des Energiekostenmodells erfolgte durch einen Vergleich des auf Basis
des Energiekostenmodells vorhergesagten Energieverbrauchs, mit dem durch Messung am
realen Chip ermittelten. Hierbei ergab sich lediglich eine Abweichung von weniger als 2%
im Vergleich zur Ausfu¨hrung auf dem M3-DSP [DF02].
1.3. ENERGIEOPTIMIERUNG DURCH COMPILER 13
E-Gruppe NOP AGU 1 AGU 2 AGU 3 DMU 1 DMU 2 DMU 3 DTU 1 DTU 2
NOP 1,00 1,57 1,30 1,04 1,31 1,35 5,60 1,22 1,19
AGU 1 1,57 2,14∗ 1,87∗ 1,61∗ 1,88∗ 1,92∗ 6,17∗ 1,79∗ 1,76∗
AGU 2 1,30 1,87∗ 1,60∗ 1,29 1,61∗ 1,65∗ 5,90∗ 1,52∗ 1,49∗
AGU 3 1,04 1,61∗ 1,29 1,07∗ 1,35∗ 1,39∗ 5,63∗ 1,25∗ 1,23∗
DMU 1 1,31 1,88∗ 1,61∗ 1,35∗ 1,03 5,32 5,34 1,53∗ 1,50∗
DMU 2 1,35 1,92∗ 1,65∗ 1,39∗ 5,32 1,03 6,09 1,57∗ 1,55∗
DMU 3 5,60 6,17∗ 5,90∗ 5,63∗ 5,34 6,09 1,24 5,81∗ 5,79∗
DTU 1 1,22 1,79∗ 1,52∗ 1,25∗ 1,53∗ 1,57∗ 5,81∗ 1,09 1,29
DTU 2 1,19 1,76∗ 1,49∗ 1,23∗ 1,50∗ 1,55∗ 5,79∗ 1,29 1,11
DAU 1 2,40 2,97∗ 2,70∗ 2,44∗ 2,71∗ 2,76∗ 7,00∗ 2,62∗ 2,59∗
DAU 2 2,60 3,17∗ 2,90∗ 2,64∗ 2,91∗ 2,95∗ 7,20∗ 2,82∗ 2,79∗
PCU 1 1,05 1,62∗ 1,35∗ 1,08∗ 1,36∗ 1,40∗ 5,65∗ 1,26∗ 1,24∗
LMI 1 1,06 1,63∗ 1,36∗ 1,10∗ 1,37∗ 1,42∗ 5,66∗ 1,28∗ 1,26∗
AGU 1 k
DAU 1 2,86 3,54
∗ 3,05 2,86 3,28∗ 3,33∗ 7,57∗ 3,19∗ 3,16∗
AGU 1 k
DAU 2 3,00 3,74
∗ 3,47∗ 3,21∗ 3,48∗ 3,52∗ 7,77∗ 3,39∗ 3,36∗
AGU 2 k
DTU 1 1,51
∗ 2,09∗ 1,82∗ 1,55∗ 1,83∗ 1,87∗ 6,11∗ 1,39∗ 1,71∗
Tabelle 1.2: Teil der Datenbasis des Energiekostenmodells. Alle mit einem * markierten
Werte stellen auf der Basis von real durchgefu¨hrten Messungen berechnete Werte dar.
1.3 Energieoptimierung durch Compiler
In diesem Abschnitt wird erla¨utert, inwiefern ein Energiekostenmodell in einem Compiler
zur Energieoptimierung eingesetzt werden kann. Bei genauerer Betrachtung der einzel-
nen Energiedaten fu¨r den M3-DSP wird ersichtlich, dass Load- und Store-Operationen
(s. Eintra¨ge der Energiegruppen AGU 1 und AGU 2 in Tabelle 1.2) im Vergleich zu SISD-
Prozessorinstruktionen des Datenpfades (s. z.B. Eintra¨ge der Energiegruppen DTU 1 und
DMU 1) einen erho¨hten Energiebedarf aufweisen. Insbesondere bei Stores ist dies ersichtlich,
da diese jeweils in Verbindung mit einer DAU-Operation durchgefu¨hrt werden (s. z.B. Ein-
trag AGU 1 || DAU 1). Den ho¨chsten Energiebedarf weisen jedoch die SIMD-Operationen
(s. z.B. Energiegruppe DMU 3) auf, deren Energieverbrauch um den Faktor vier bis fu¨nf
ho¨her ist, als der einer SISD-Operation. Da allerdings im Optimalfall 16
"
sinnvolle\ Da-
tenberechnungen parallel durchgefu¨hrt werden ko¨nnen, kann damit der Energie-Overhead
gegenu¨ber einer SISD-Ausfu¨hrung wieder mehr als ausgeglichen werden. Des Weiteren ist
zu erwarten, dass zusa¨tzlich wesentlich weniger Datentransferbefehle erforderlich sind.
Neben der Entwicklung von Optimierungen zur Verringerung der Ausfu¨hrungszeit, lohnt
sich zwecks Reduzierung des Energieverbrauchs damit auch die Entwicklung von Techni-
ken, die
14 KAPITEL 1. EINLEITUNG
 zu einer Reduzierung von Speicherzugrien fu¨hren und
 die vorhandenen Datenpfade sinnvoll ausnutzen.
Wie wir anhand von Beispielen im Folgenden sehen werden, kann der Energieverbrauch
zusa¨tzlich durch eine geschickte Auswahl und Anordnung von Maschinenoperationen zu
Maschineninstruktionen reduziert werden.
In Abb. 1.5 sind zuna¨chst zwei unterschiedliche Schedules a) und b) mit jeweils vier Ma-
schineninstruktionen, repra¨sentiert durch ihre entsprechende Energiegruppe (z.B. AGU 2,
DMU 1) angegeben.
//
//
//
//
MI 1
MI 2
MI 3
MI 4
AGU 2
DMU 1
DTU 1
DMU 1
_
_
_
_
}
1,61
Schedule a)
4,67
Summe
====
}
1,53
}
1,53
//
//
//
//
MI 1
MI 2
MI 3
MI 4
AGU 2
DTU 1
DMU 1
DMU 1
_
_
_
_
}
1,52
Schedule b)
4,08
Summe
====
}
1,53
}
1,03
Energieverbrauch
normiert auf NOPs
Energieverbrauch
normiert auf NOPs
Abb. 1.5: Beispiel zur Energiereduzierung durch Instruktionsanordnung
Als einziger Unterschied zwischen diesen beiden Schedules ist zu erkennen, dass die Ma-
schineninstruktionen MI 2 und MI 3 vertauscht sind. Dadurch begru¨ndet ergeben sich
fu¨r die aufeinander folgenden Befehle unterschiedliche (auf die Ausfu¨hrung eines NOPs
genormte) Energiekosten in Ho¨he von 4,67 NOPs fu¨r Schedule a) und von 4,08 NOPs fu¨r
Schedule b), was einer Reduzierung von 12,6 % entspricht.
Allerdings besteht nicht nur die Mo¨glichkeit einer Energiereduzierung durch eine Neuan-
ordnung der Instruktionen. Wie in Abb. 1.6 anhand zweier unterschiedlicher Maschinen-
programme fu¨r den Ausdruck
c = (2  a) + b + (2  a);
verdeutlicht, kann ebenfalls durch eine geschickte Instruktionsauswahl der Energiever-
brauch bei gleicher Ausfu¨hrungszeit erheblich reduziert werden2.
2In diesem Beispiel wird davon ausgegangen, dass die Variablen a, b und c globale Variablen darstellen
und von daher aus dem Speicher geladen und wieder zuru¨ckgeschrieben werden mu¨ssen.
1.3. ENERGIEOPTIMIERUNG DURCH COMPILER 15
PP = 0;
M = MEM[PP&0] ||
A[0] = 2;
M = MEM[PP&1] ||
C[0] = M[0];
B[0] = M[0];
Accu[0] = B[0]+A[0]*C[0];
Accu[0] = Accu[0]+A[0]*C[0];
MEM[PP&2] = Accu;
LMI 1
AGU 2 || DTU 1
AGU 2 || DTU 1
AGU 1 || DAU 1
_
_ _
_ _
_
_
_
_ _
//
//
//
MI 1:
MI 2:
MI 3:
MI 6:
MI 7:
//
//
//
//
MI 4:
MI 5:
DTU 1
DMU 1
DMU 1
//
//
//
//
//
//
//
MI 1:
MI 2:
MI 3:
MI 4:
MI 5:
MI 6:
MI 7:
LMI 1
AGU 2 || DTU 1
AGU 2 || DTU 3
DMU 1 || DTU 3
DTU 1 || DMU 1
DMU 1
AGU 1 || DAU 1
_
_
_ _
_ _
_ _
_
_
PP = 0;
M = Mem[PP & 0] ||
C[0] = 2;
M = Mem[PP & 1] ||
B[0] = M[0];
Accu[0] = B[0]*C[0] ||
B[0] = M[0];
A[0] = Accu[0] ||
Accu[0] = B[0]+Accu[0];
Accu[0] = A[0]+Accu[0];
Mem[PP&2] = Accu;
_
_
}
}
}
}
}
}
1,58
1,98
1,77
1,41
1,24
3,28
}
}
}
}
}
}
1,58
1,69
1,39
1,53
1,03
3,28
Maschinenprogramm a) Maschinenprogramm b)
Energieverbrauch
normiert auf NOPs
Energieverbrauch
normiert auf NOPs
11,26
10,50
Gesamtenergieverbrauch
normiert auf NOPs
Gesamtenergieverbrauch
normiert auf NOPs
===== =====
Abb. 1.6: Vergleich des Energieverbrauchs unterschiedlicher Maschinenprogramme
Fu¨r jede Maschineninstruktion sind jeweils die Energiegruppen der verwendeten Maschi-
nenoperationen mit angegeben. Z.B. wird in Maschinenprogramm a) in MI 2 eine Ma-
schinenoperation aus Energiegruppe AGU 2 parallel zu einer aus DTU 1 ausgefu¨hrt. Es ist
zu erkennen, dass beide Maschinenprogramme mit sieben Maschineninstruktionen diesen
Ausdruck umsetzen, wobei jedoch der Energieverbrauch von Maschinenprogramm b) um
6,7 % geringer ist als der von Maschinenprogramm a). Dies la¨sst sich in diesem Beispiel
anhand der Tatsache begru¨nden, dass in Maschinenprogramm b) die Umsetzung mit Hilfe
von zwei MAC-Operationen erfolgt (MI 5 und MI 6), wa¨hrend bei Maschinenprogramm a)
stattdessen eine Multiplikation (MI 4) und zwei Additionen (MI 5 und MI 6) Verwendung
nden. Dadurch ist auch ein zusa¨tzlicher Datentransfer in MI 5 erforderlich. Des Weiteren
wird in MI 3 von Maschinenprogramm b) ein weniger energieintensiver Datentransferbe-
fehl aus der Energiegruppe DTU 1 statt aus der Energiegruppe DTU 3 verwendet.
16 KAPITEL 1. EINLEITUNG
1.4 Problemanalyse
Aufgrund mangelnder Techniken zur Handhabung irregula¨rer Prozessorarchitekturen wei-
sen DSP-Compiler oft eine unzureichende Codequalita¨t in Hinblick auf Realzeitfa¨higkeit,
Codegro¨e und damit auch Energieverbrauch auf [ZVSM94]. Die verfu¨gbaren Compi-
ler fu¨hren i.d.R. eine baumbasierte Codeselektion durch, bei der ein gegebener Daten-
flussgraph (DFG) an gemeinsamen Teilausdru¨cken (CSEs = Common Subexpressions) in
Ba¨ume zerlegt und fu¨r jeden der resultierenden Ba¨ume eine separate Codeselektion durch-
gefu¨hrt wird [ASU86, WM95]. Die Durchfu¨hrung einer baumbasierten Codeselektion fu¨r
einen Baum mit n Knoten ist zwar sehr laufzeitezient in O(n) mo¨glich, weist allerdings
insbesondere fu¨r irregula¨re Architekturen einige Nachteile auf [Bas95]:
 Wa¨hrend in GPPs mit groen Registerles CSEs normalerweise in Registern gehal-
ten werden, ist dies bei irregula¨ren Architekturen mit Spezialregistern i.d.R. nicht
der Fall. Stattdessen legen herko¨mmliche Compiler CSEs im Speicher ab und laden
diese bei jeder Verwendung neu [AML96, LDKT95], was zu potentiell vermeidbaren
Speicherzugrien und Instruktionen fu¨hrt.
 Die Phase der Codeselektion wird nur lokal fu¨r Ba¨ume durchgefu¨hrt. Da-
durch ko¨nnen potentielle U¨berdeckungsmo¨glichkeiten von Knoten unterschiedlicher
Ba¨ume (mit Maschinenoperationen) nicht beru¨cksichtigt werden. Ein solches Ver-
fahren wa¨re also nicht in der Lage, das energieezientere Maschinenprogramm b)
in Abb. 1.6 zu generieren. Stattdessen mu¨ssten die in MI 5 und MI 6 vorhandenen
MAC-Operationen in Einzeloperationen aufgeteilt werden, weil die Multiplikation
und die beiden Additionen jeweils unterschiedlichen Ba¨umen angho¨ren wu¨rden.
 Die bei irregula¨ren Architekturen so wichtige Phasenkopplung wird nur einge-
schra¨nkt durchgefu¨hrt. Mit diesen Verfahren kann die Phase der Codeselektion fu¨r
Ba¨ume zwar optimal durchgefu¨hrt werden, allerdings bezieht sich der Begri der
Optimalita¨t lediglich auf sequentiellen Code. Da im resultierenden Code noch kein
(durch Registerallokation erforderlicher) Spillcode enthalten ist, mu¨ssen die Pha-
sen der Registerallokation und Codekompaktierung zusa¨tzlich in nachgeschalteten
Phasen durchgefu¨hrt werden.
 Energiekostenmodelle lassen sich zwar in die einzelnen Codegenerierungs-Phasen
integrieren, ko¨nnen allerdings nur sehr ungenaue Abscha¨tzungen u¨ber den letztend-
lichen Energieverbrauch liefern. So ko¨nnen sich energiebewusste Entscheidungen in
fru¨hen Phasen spa¨ter durchaus als ungu¨nstig erweisen, da z.B. das nachtra¨gliche
Einfu¨gen von Spillcode die vorhandenen Codesequenzen (und damit auch die Swit-
chingaktivita¨ten aufeinander folgender Instruktionen) stark beeinflusst.
1.4. PROBLEMANALYSE 17
Um den bei DSPs ha¨ug gegebenen Echtzeitanforderungen gerecht werden zu ko¨nnen,
mu¨ssen Compiler in der Lage sein, die speziellen Architekturmerkmale zu beru¨cksichtigen.
Im einzelnen betrit dies eine eektive Ausnutzung ...
... von komplexen Operationen wie der MAC-Instruktion, mit der eine Multiplikation
gefolgt von einer Addition in einem Taktzyklus ausgefu¨hrt werden kann.
... der parallelen Ausfu¨hrungsmo¨glichkeiten auf Instruktionsebene (ILP = Instruction
Level Parallelism). Im Falle der Prozessoren der M3-Plattform umfasst dies zusa¨tz-
lich die Ausnutzung von SIMD-Operationen in Verbindung mit einer eektiven Nut-
zung der komplexen Datentransfer-Modi des Verbindungsnetzwerkes.
... gegebener Speicherressourcen, wie z.B. von Speicherba¨nken oder des On-Chip-
Gruppenspeichers der M3-Prozessoren.
... von speziellen Adressgenerierungsbefehlen zur eektiven Ausnutzung der AGU, um
den vorhandenen Adressierungs-Overhead so gering wie mo¨glich zu halten.
... vorhandener Spezialbefehle zur Reduzierung des Schleifen-Overheads.
Um die Korrektheit des generierten Codes zu gewa¨hrleisten, mu¨ssen bei der Compilierung
eine Reihe von Randbedingungen in der Verwendung von Registern, Datentransfers und
der Parallelisierung beru¨cksichtigt werden. Im Falle der Compilierung fu¨r Prozessoren der
M3-Plattform umfasst dies jedoch eine Reihe weiterer Randbedingungen, die vor allem
durch den Gruppenspeicher und die Sonderfunktionalita¨t des Datenpfades 0 (Einstreifen-
Modus) verursacht werden:
 Handhabung irregula¨rer Datentransfer-Modi.
Um z.B. auch bei einer Abarbeitung im SISD-Modus eine eektive Bereitstellung
von Daten zu gewa¨hrleisten, sind speziell abgestimmte Datentransferbefehle zu und
von Registern des Datenpfades 0 vorhanden.
 Beibehaltung der Datenkonsistenz des Gruppenspeichers.
Im Gegensatz zu u¨blicherweise verwendeten Techniken muss ein Codegenerator fu¨r
die M3-Prozessoren in der Lage sein, anstelle einzelner Daten, Gruppen von Daten
zu laden, zu speichern und zu spillen.
 Einhaltung weiterer Randbedingungen,
die sich aufgrund von verwendeten Datentransferbefehlen fu¨r die Adresscode-
Generierung ergeben.
Da architekturspezische Optimierungen ha¨ug fest in den entsprechenden Compiler in-
tegriert sind, ko¨nnen diese Optimierungen nicht in anderen Compilern genutzt werden.
18 KAPITEL 1. EINLEITUNG
Dies fu¨hrt dazu, dass bestimmte Optimierungen fu¨r andere Architekturen immer wie-
der neu implementiert werden. Aus diesem Grund ist ein allgemeines Austauschformat
(in Form einer LIR) zwischen den einzelnen Optimierungsphasen a¨uerst wu¨nschenswert,
bei dem prozessorspezische Architekturmerkmale abgelegt und von den zu entwickeln-
den Optimierungen abgefragt werden ko¨nnen. Neben der Wiederverwendbarkeit einzelner
Optimierungen oder bestimmter Teile, wird durch ein solches allgemeines Austauschfor-
mat eine modulare und generische Entwicklung von performance- und energieezienten
Optimierungstechniken mo¨glich.
1.5 Zielsetzungen und U¨berblick
Der Schwerpunkt dieser Arbeit besteht in der Entwicklung von neuen Compilertechniken
fu¨r DSPs, mit dem Ziel, den vorhandenen Overhead herko¨mmlicher Compilertechniken vor
allem in Bezug auf die Ausfu¨hrungszeit und den Energieverbrauch zu reduzieren. Dabei
gilt es alle entwickelten Techniken in einem einheitlichen Back-End (Codegenerator) zu
integrieren. Als Zielarchitekturen dienen die parallelen Prozessoren der M3-Plattform, von
denen im speziellen der M3-DSP betrachtet wird.
Um eine modulare und generische Implementierung der entwickelten Compilertechni-
ken zu ermo¨glichen und des Weiteren die Erweiterbarkeit um weitere Optimierungen zu
gewa¨hrleisten, setzen alle in dieser Arbeit beschriebenen Techniken auf der in Kapitel 2
eingefu¨hrten Zwischendarstellung GeLIR (Generic Low-Level Intermediate Representati-
on) auf. Durch die Verwendung von GeLIR als einheitlichem Austauschformat ko¨nnen alle
implementierten Techniken auf einfache Art und Weise auch fu¨r andere Zielarchitekturen
adaptiert werden.
Als Schwerpunkt dieser Arbeit wird in Kapitel 3 ein Codegenerator vorgestellt, der in der
Lage ist, eine graphbasierte Codeselektion durchzufu¨hren und zusa¨tzlich die Phasen der
Codeselektion, Instruktionsanordnung (einschlielichKompaktierung) und Registeralloka-
tion im Sinne einer Phasenkopplung simultan lo¨st. Da dies die Lo¨sung eines NP-harten Op-
timierungsproblems darstellt, ist dem Codegenerator ein Optimierungsverfahren auf Basis
eines genetischen Algorithmus zugrunde gelegt. Zusa¨tzlich werden bei der Durchfu¨hrung
der Teilaufgaben Codeselektion, Instruktionsauswahl und Registerallokation bereits Wech-
selwirkungen mit der nachfolgend durchgefu¨hrten Adresscode-Generierung beru¨cksichtigt.
Als weitere wichtige Eigenschaft des genetischen Optimierungsverfahrens wird eine einfa-
che Beru¨cksichtigung unterschiedlicher Kostenfunktionen besprochen, die u.a. eine Opti-
mierung hinsichtlich der Ausfu¨hrungszeit, des Energieverbrauchs und deren Kombination
ermo¨glicht.
Als weiterer Schwerpunkt dieser Arbeit werden in Kapitel 4 Verfahren vorgestellt, die eine
Ausnutzung von SIMD-Befehlen fu¨r die Prozessoren der M3-Plattform ermo¨glichen, bzw.
1.5. ZIELSETZUNGEN UND U¨BERBLICK 19
zu einer eektiveren Ausnutzung fu¨hren. Dies betrit insbesondere die Vektorisierung von
Schleifen. Es wird sich zeigen, dass ha¨ug erst durch eine optimierte Anordnung der Arrays
im On-Chip-Gruppenspeicher und durch eine Anwendung von Schleifentransformationen
eine Schleife vektorisiert werden kann. Zur Reduzierung des vorhandenen Overheads bei
der Handhabung des Gruppenspeichers im SISD-Modus wird in diesem Kapitel des Weite-
ren ein Verfahren zur Anordnung von skalaren Variablen zu Gruppen vorgestellt, mit dem
vor allem die Anzahl der mittels SIMD-Anweisungen durchzufu¨hrenden Speicherzugrie
gegenu¨ber einer einfachen Anordnung drastisch verringert werden kann. Als Kern dieses
Verfahrens wird ein genetisches Partitionierungsverfahren verwendet, das auch allgemein
zur Lo¨sung von Partitionierungsproblemen verwendet werden kann.
Bevor in Kapitel 6 eine Zusammenfassung dieser Arbeit gegeben wird, werden fu¨r die
vorgestellten Techniken in Kapitel 5 experimentelle Ergebnisse fu¨r eine Reihe von realen
DSP-Routinen und einer MP3-Anwendung pra¨sentiert. Dies schliet ebenfalls eine am
Beispiel des M3-DSPs durchgefu¨hrte HW/SW-Exploration ein, bei der die Auswirkungen
von Hardware-A¨nderungen auf die resultierende Codequalita¨t untersucht werden.
20 KAPITEL 1. EINLEITUNG
Kapitel 2
Compiler-Zwischendarstellungen
Bei der Entwicklung von Compilern spielen Zwischendarstellungen eine zentrale Rolle, da
diese allgemein als Austauschformat fu¨r die Compilertechniken dienen. So erlauben Zwi-
schendarstellungen aufgrund genormter Schnittstellen u.a. die Wiederverwendung bereits
implementierter Techniken in unterschiedlichen Compilern und die simultane Entwick-
lung von Compilertechniken, wodurch in erheblichem Mae Kosten und Zeit eingespart
werden ko¨nnen. Um die Entwicklung neuer Compilertechniken zu vereinfachen, werden
im Allgemeinen Informationen zur Verfu¨gung gestellt, die Aussagen u¨ber die Anwend-
barkeit bzw. semantische Korrektheit bestimmter Modikationen (Transformationen und
Optimierungen) erlauben.
Insbesondere wenn sehr umfangreiche und komplexe Modikationen vorgenommen wer-
den, sollte eine Validierung so einfach wie mo¨glich umsetzbar sein. Dazu ist eine Simulation
und graphische Visualisierung beliebiger Zwischenresultate sehr wu¨nschenswert. Mit Hil-
fe einer Simulation wird nicht nur die Mo¨glichkeit zu einer automatisierten Validierung
geschaen, sondern auch ermo¨glicht, durchgefu¨hrte Optimierungen auf ihre Eektivita¨t
hin zu u¨berpru¨fen. Dabei sollten zur Bewertung zumindest Daten u¨ber die Anzahl der
ausgefu¨hrten Zyklen bereitgestellt werden. Da in dieser Arbeit ein Schwerpunkt auf der
Entwicklung von energieezienten Optimierungen liegt, sind zusa¨tzlich Angaben u¨ber
den Energieverbrauch erforderlich, die allerdings von herko¨mmlichen Simulatoren nicht
zur Verfu¨gung gestellt werden.
Im Vergleich zu einer rein maschinenunabha¨ngigen (High-Level) Darstellung stellt die
Umsetzung dieser Anforderungen auf der maschinenabha¨ngigen (Low-Level) Ebene ein
wesentlich gro¨eres Problem dar. So mu¨ssen zuna¨chst die erforderlichen architekturspezi-
schen Merkmale fu¨r eine mo¨glichst breite Klasse von Architekturen geeignet zur Verfu¨gung
gestellt werden.
Im nachfolgenden Abschnitt werden zuna¨chst einige zum Versta¨ndnis des Aufbaus von
Compiler-Zwischendarstellungen erforderliche Begrie und Grundlagen dargelegt. Auf-
grund der engen Verwandtschaft von der in dieser Arbeit verwendeten und weiterent-
21
22 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
wickelten Zwischendarstellung GeLIR (Generic Low-Level IR) und der von Bashford ent-
wickelten CoLIR (Constraint based Low-Level IR), wurden einige der nachfolgend ein-
gefu¨hrten Begrie und Denitionen aus [Bas01] u¨bernommen.
2.1 Grundlegende Begrie
Die Programmdarstellung in Compiler-Zwischendarstellungen orientiert sich ha¨ug an
der allgemeinen Struktur von Programmen imperativer Programmiersprachen, bei der
ein Programm aus einer Menge von Funktionen besteht. Diese ergeben sich direkt aus
den im Quellprogramm verwendeten Funktionen. Eine Darstellung der dort enthaltenen
Kontrollstrukturen (wie z.B. Verzweigungen), erfolgt ha¨ug mittels Kontrollflussgraphen.
Denition 2.1 (Kontrollflussgraph) Ein Kontrollflussgraph (CFG) ist ein gerichteter
Graph G = (V, E), dessen Knoten v 2 V entsprechend des potentiell mo¨glichen Kontroll-
flusses u¨ber Kanten ei,j = (vi, vj) 2 E  V  V miteinander verbunden werden. Die
Knoten selbst enthalten sequentiell auszufu¨hrende Anweisungen und ko¨nnen aufgrund von
Verzweigungen des Kontrollflusses mehrere Nachfolger haben.
Die Knoten eines Kontrollflussgraphen ko¨nnen z.B. Basisblo¨cke (s. Denition weiter un-
ten) sein, deren enthaltene Anweisungen auf unterschiedliche Arten dargestellt werden
ko¨nnen. Dies kann wiederum mittels eines Kontrollflussgraphen geschehen, bei dem ent-
sprechend der Ausfu¨hrungsreihenfolge zweier Anweisungen Kanten eingefu¨gt werden.
Denition 2.2 (Basisblock) Ein Basisblock (BB) stellt eine maximale Sequenz von An-
weisungen dar, bei der sich der Kontrollfluss nur nach der letzten Anweisung der Sequenz
aufteilen und nur bei der ersten Anweisung der Sequenz wieder zusammenflieen kann.
In Abb. 2.1 wird dies anhand der Aufteilung einer Funktion entsprechend ihres Kon-
trollflusses in Basisblo¨cke verdeutlicht. Wie zu erkennen ist, erfolgt eine Unterteilung der
Funktion main in vier u¨ber Kontrollflusskanten verbundene Basisblo¨cke BB 1 bis BB 4.
Wa¨hrend aufgrund der Kontrollflussverzweigung nach der Beendigung von BB 1 keine
allgemeine Aussage daru¨ber gemacht werden kann, ob die in BB 2 oder BB 3 enthalte-
nen Anweisungen ausgefu¨hrt werden, steht die Ausfu¨hrungsreihenfolge der Anweisungen
(AMOs = abstrakte Maschinenoperationen) innerhalb der einzelnen Basisblo¨cke fest.
Denition 2.3 (Abstrakte Maschinenoperation) Eine abstrakte Maschinenoperati-
on (AMO) stellt eine maschinenunabha¨ngige, elementare Anweisung der Zwischendarstel-
lung dar.
2.1. GRUNDLEGENDE BEGRIFFE 23
int x, y;
int main()
{
int ret;
if(x<y)
{
ret = 2 * x + 2;
}
else
{
ret = 2;
}
return ret;
}
AMO t2 = &y;
2
AMO t3 = ld(t1);
3
AMO t4 = ld(t2);
4
AMO t5 = (t3<t4);
5
AMO if(t5) goto L2;
6
AMO t6 = &x;
7
L2:
AMO ret = 2;
11
L3:
L1:
AMO goto L4;
12
AMO return ret;
13
L4:
AMO
1
t1 = &x;
BB 1
BB 2 BB 3
BB 4
AMO t7 = ld(t6);
8
AMO t8 = 2 * t7;
9
main
AMO ret = t8 + 2;
10
false
true
Abb. 2.1: Quellprogramm und dazugeho¨riger Kontrollflussgraph mit Drei-Adressbefehlen
Die Darstellung des Zwischenprogramms in Compilern erfolgt, wie auch in diesem Beispiel,
ha¨ug als Folge von Drei-Adressbefehlen.
Denition 2.4 (Drei-Adressbefehl) Ein Drei-Adressbefehl hat die Form x = y op z,
wobei x, y und z Namen, Konstanten oder vom Compiler generierte tempora¨re Werte
und op ein bina¨rer arithmetischer oder logischer Operator ist. Die Anzahl und Semantik
der Operatoren ist unabha¨ngig vom zugrunde gelegten Quellprogramm fest vorgegeben. In
diesem Befehl wird x deniert und y und z werden verwendet.
Mit Hilfe von Sonderfa¨llen, wie x = op y, bei der op einen una¨ren Operator darstellt
oder x = y, bei der eine Kopie des Wertes von y erzeugt wird, erfolgt die Darstellung
des gesamten Quellprogramms. In dieser Darstellung sind jedoch noch keinerlei architek-
turspezischen Merkmale beru¨cksichtigt. Mit der Durchfu¨hrung der Codegenerierung gilt
es daher, eine semantisch a¨quivalente Darstellung des durch AMOs repra¨sentierten Pro-
gramms mit Maschinenbefehlen zu erzeugen. Dazu mu¨ssen den Optimierungen u.a. alle
vorhandenen Ressourcen des Prozessors bekannt gemacht werden:
Denition 2.5 (Sequentielle Ressourcen) Sequentielle Ressourcen eines Prozessors
sind lesbare bzw. schreibbare Ressourcen wie Registerba¨nke, Speicherba¨nke oder Ein- und
Ausgabeports, deren Inhalte mehr als einen Instruktionszyklus erhalten bleiben.
24 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
Denition 2.6 (Flu¨chtige Ressourcen) Flu¨chtige Ressourcen sind lesbare bzw.
schreibbare Ressourcen, deren Inhalt nur innerhalb eines Instruktionszyklus gu¨ltig ist.
Dies sind z.B. Signalleitungen zwischen Funktionseinheiten oder Registern zum Zwischen-
speichern eines Resultats einer Funktionseinheit, das noch im gleichen Instruktionszyklus
von einer anderen Funktionseinheit gelesen wird.
Grundsa¨tzlich ko¨nnen also sequentielle Ressourcen im Gegensatz zu flu¨chtigen Ressour-
cen zum Speichern von Zwischenergebnissen verwendet werden. In Abha¨ngigkeit davon,
ob sequentielle Ressourcen oder flu¨chtige Ressourcen verwendet werden, ergeben sich die
folgenden U¨berdeckungsmo¨glichkeiten von AMOs mit unterschiedlichen Maschinenopera-
tionen:
Denition 2.7 (Maschinenoperation) Eine Maschinenoperation (MO) ist eine ele-
mentare Operation auf einem Prozessor, wobei die Operanden aus sequentiellen Ressour-
cen gelesen werden und das Resultat in eine sequentielle Ressource geschrieben wird. Eine
Maschinenoperation ist an weitere Ressourcen gebunden, wie z.B. an Funktionseinheiten,
auf denen die Operation ausgefu¨hrt wird.
Denition 2.8 (Partielle Maschinenoperation) Eine partielle Maschinenoperation
benutzt (lesend oder schreibend) mindestens eine flu¨chtige Ressource.
Denition 2.9 (Komplexe Maschinenoperation) Eine komplexe Maschinenoperati-
on setzt sich aus mindestens zwei partiellen Maschinenoperationen zusammen und
ermo¨glicht somit die Ausfu¨hrung komplexer Ausdru¨cke, wie z.B. die MAC-Operation.
Denition 2.10 (Faktorisierte Maschinenoperation) Eine faktorisierte Maschi-
nenoperation (FMO) ist eine Repra¨sentation alternativer Maschinenoperationen zu einem
gegebenen Operator. Sie umfasst die Repra¨sentation alternativer Mengen von Ressourcen,
die einer elementaren Operation auf einem Prozessor zur Verfu¨gung stehen. Dies ko¨nnen
alternative Register-Ressourcen fu¨r Resultate und Operanden sein sowie alternative Funk-
tionseinheiten, auf denen die Operation ausgefu¨hrt werden kann.
Fu¨r den Fall, dass eine Unterscheidung von AMOs und den unterschiedlichen Arten von
MOs im Kontext nicht von Bedeutung ist, wird im Folgenden der Begri MO verwendet.
Im Gegensatz zu einer architekturunabha¨ngigen Programmdarstellung muss bei der
Beru¨cksichtigung architekturspezischer Merkmale insbesondere auch die Mo¨glichkeit zur
Darstellung paralleler Ausfu¨hrungsmo¨glichkeiten gegeben sein. Aus diesem Grund werden
ein oder mehrere MOs (oder auf einer etwas abstrakteren Ebene auch AMOs) zu einer
Maschineninstruktion zusammengefasst:
2.2. ZWISCHENDARSTELLUNGEN EXISTIERENDER COMPILERSYSTEME 25
Denition 2.11 (Maschineninstruktion) Eine Maschineninstruktion (MI) repra¨sen-
tiert eine Menge von parallel auszufu¨hrenden Maschinenoperationen auf einem Prozessor.
Denition 2.12 (Maschineninstruktionstyp) Ein Maschineninstruktionstyp (oder
auch einfach nur Instruktionstyp) gibt eine maximale Menge von parallel ausfu¨hrbaren
Maschinenoperationen an, so dass keine Maschinenoperation mehr zusa¨tzlich parallel aus-
gefu¨hrt werden kann.
In einer MI ko¨nnen also je nach Instruktionstyp mehrere (beliebig komplexe) MOs zu
einem Maschinenbefehl zusammengefasst werden.
Zur Erleichterung von semantisch korrekten Modikationen werden neben einer Darstel-
lung des Quellprogramms als Drei-Adresscode auch graphbasierte Darstellungen verwen-
det, die im Gegensatz zu einer rein flussorientierten Darstellung Auskunft u¨ber vorhan-
dene Datenabha¨ngigkeiten zwischen AMOs geben. Es werden die folgenden Arten von
Datenabha¨ngigkeiten unterschieden:
Denition 2.13 (Datenflussabha¨ngigkeit) Wenn AMOi vor AMOj ausgefu¨hrt wird
und AMOi eine Variable deniert, die AMOj verwendet, dann liegt eine Datenfluss-
abha¨ngigkeit zwischen diesen beiden AMOs vor.
Denition 2.14 (Ausgabeabha¨ngigkeit) Wenn AMOi vor AMOj ausgefu¨hrt wird
und beide AMOs dieselbe Variable denieren, dann liegt eine Ausgabeabha¨ngigkeit zwi-
schen diesen beiden AMOs vor.
Denition 2.15 (Antiabha¨ngigkeit) Wenn AMOi vor AMOj ausgefu¨hrt wird und
AMOi eine Variable als Argument verwendet, die AMOj deniert, dann liegt eine An-
tiabha¨ngigkeit zwischen diesen beiden AMOs vor.
Zur Verdeutlichung sind in Abb. 2.2 Beispiele zu den oben aufgefu¨hrten Arten von Da-
tenabha¨ngigkeiten angegeben. Fu¨r detailliertere Informationen zu diesem Thema mo¨chten
wir an dieser Stelle auf [ASU86, Muc97] verweisen.
Bevor in Abschnitt 2.3 na¨her auf das GeLIR-System eingegangen wird, werden im folgen-
den Abschnitt zuna¨chst einige existierende Compiler-Zwischendarstellungen vorgestellt.
2.2 Zwischendarstellungen existierender Compiler-
systeme
Die Wahl der Zwischendarstellung und der damit verbundenen Tools zur Durchfu¨hrung
von Analysen und Optimierungen stellt einen wichtigen Aspekt bei der Entwicklung eines
26 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
AMO t1 = 5;
2
AMO t2 = t1 + t2;
3
AMO
1
t2 = t1;
a)
AMO t1 = 5;
2
AMO t2 = t1 + t2;
3
AMO
1
t2 = t1;
b)
AMO t1 = 5;
2
AMO t2 = t1 + t2;
3
AMO
1
t2 = t1;
c)
Abb. 2.2: Beispiele fu¨r unterschiedliche Arten der Datenabha¨ngigkeit: a) Datenfluss-
abha¨ngigkeit b) Ausgabeabha¨ngigkeit c) Antiabha¨ngigkeit
Compilers dar. So sind neben den bereits zu Beginn dieses Kapitels genannten Anforde-
rungen weitere Aspekte zu beru¨cksichtigen. Z.B. sollte das verwendete Compilersystem fu¨r
Forschungszwecke frei verfu¨gbar sein, u¨ber eine LIR verfu¨gen, die die Modellierung von
irregula¨ren Prozessorarchitekturen erlaubt und zusa¨tzlich eine einfache Anpassung be-
reits existierender und die Einbindung neuer phasengekoppelter Optimierungstechniken
erlaubt.
Aufgrund der Vielzahl existierender Compilersysteme und derer zugrunde gelegten Zwi-
schendarstellungen kann hier nur eine kleine Auswahl der in der Forschung verwendeten
Tools vorgestellt werden. Als Quellen wurden neben den jeweils angegebenen Referenzen,
zusa¨tzlich [LM01] und [Bas01] verwendet.
 CoSy [CoS] stellt ein kommerzielles Produkt dar, das auch zu Forschungszwecken
verwendet werden darf. Es umfasst Front-Ends fu¨r die Sprachen C/C++, Java,
DSP-C, Fortran 95 und HPF, eine Reihe von Standardoptimierungen und eine An-
bindung an einen Back-End-Generator. Weitere Unterstu¨tzung im Back-End ist u.a.
in Form eines Schedulers und eines Registerallokators vorhanden. CoSy ermo¨glicht
zwar die schnelle Entwicklung neuer Compiler, basiert aber auf Standardtechniken
fu¨r GPPs, mit nur geringer Unterstu¨tzung fu¨r irregula¨re Architekturen und fehlen-
der Phasenkopplung.
 SUIF [SUI] wurde an der Stanford Universita¨t zu Forschungszwecken entwickelt und
besteht hauptsa¨chlich aus einem Front-End mit einigen Standardoptimierungen. Es
werden zwei maschinenunabha¨ngige Zwischendarstellungen (High- und Low-Level
SUIF) angeboten, wobei letztere aus der High-Level-Darstellung gewonnen wird,
indem vorhandene Hochsprachenkonstrukte, wie z.B. Schleifen oder Arrayzugrif-
fe, durch assemblernahe Konstrukte ersetzt werden. Mit der Bezeichnung
"
Low-
Level\ ist also keine maschinenabha¨ngige Darstellung verbunden, wie der Name
vermuten lassen ko¨nnte. Aus beiden Darstellungen besteht die Mo¨glichkeit, wie-
derum Code der Ursprungssprache zu erzeugen. Dies ermo¨glicht unter Verwendung
2.2. ZWISCHENDARSTELLUNGEN EXISTIERENDER COMPILERSYSTEME 27
eines herko¨mmlichen Standardcompilers eine einfache Validierung von Optimierun-
gen und Transformationen. Die in [Fal02, FM03] beschriebenen Optimierungen ma-
chen z.B. Gebrauch von dieser Mo¨glichkeit und ko¨nnen auf diese Weise fu¨r eine
Reihe unterschiedlicher Prozessoren in Form eines Vorverarbeitungsschrittes die-
nen. SUIF bietet keine Mo¨glichkeit der Spezikation von architekturspezischen
Merkmalen und somit keine besonderen Modellierungsmo¨glichkeiten fu¨r irregula¨re
Architekturen, so dass sich eine Verwendung von SUIF
"
nur\ auf das Front-End
und Middle-End beschra¨nken wu¨rde.
 Zephyr [JP01] wurde an der Universita¨t von Virginia in Kooperation mit der Prince-
ton Universita¨t entwickelt und stellt ein retargierbares Back-End dar, das als Front-
und Middle-End SUIF benutzt. Die SUIF-IR wird mittels eines Code-Expanders
in eine Low-Level Zwischendarstellung RTL (Register Transfer Lists) u¨berfu¨hrt.
Diese Darstellung entspricht zuna¨chst unoptimiertem Assemblercode, der mittels
des Tools VPO (Very Portable Optimizer) schrittweise verbessert wird. VPO fu¨hrt
dazu eine Instruktionsauswahl und maschinenunabha¨ngige Standardoptimierungen,
gefolgt von einer Registerallokationsphase in einer Schleife durch. Auch wenn in
[JP01] mit Hilfe von Zephyr ein Compiler fu¨r einen DSP vorgestellt wurde, ist Ze-
phyr vornehmlich fu¨r den Einsatz von GPPs geeignet, da die Optimierungsphasen
unabha¨ngig voneinander durchgefu¨hrt werden.
 LANCE [Leu00a] ist ein an der Universita¨t Dortmund entwickeltes Compilersystem,
das neben einem ANSI-C Front-End und einer Reihe von maschinenunabha¨ngigen
Standardoptimierungen auch eine Anbindung an den Codegenerator-Generator Oli-
ve [Tji93] zur Verfu¨gung stellt. Die Zwischendarstellung ist als Drei-Adressformat
realisiert. Analog zu SUIF besteht auch hier die Mo¨glichkeit, die interne Darstellung
mit Hilfe eines herko¨mmlichen Compilers zu validieren. Die Entwicklung neuer Back-
Ends wird neben der Anbindung an Olive durch die Adaption vorhandener Tech-
niken z.B. zur Registerallokation, Codekompaktierung (fu¨r VLIW-Architekturen)
und optimierten Adresszuweisung unterstu¨tzt. Allerdings sind auch hier keine Kon-
zepte zur Unterstu¨tzung stark irregula¨rer Architekturen und zur Phasenkopplung
vorhanden.
 Trimaran [Tri] ist mit dem Hauptziel der Durchfu¨hrung von maschinenabha¨ngi-
gen Optimierungen zur Ausnutzung von Parallelita¨t auf Instruktionsebene ent-
wickelt worden. Das Trimaran-System besteht aus einem Front-End (IMPACT),
einem Back-End (ELCOR) und einer Zwischendarstellung, auf der Analysen, Op-
timierungen und Transformationen ausgefu¨hrt werden. Die Maschinenbeschreibun-
gen werden mit Hilfe von MDES (Machine Description) vorgenommen. Zusa¨tzlich
existiert ein ASCII-basiertes Zwischenformat (Rebel), das es ermo¨glicht, beliebige
28 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
Zwischenzusta¨nde zu speichern und wieder einzulesen. Ein zyklengenauer Simula-
tor der HPL-PD-Architektur ist mittels einer Hardwarebeschreibung kongurierbar
und liefert u.a. Informationen u¨ber die Ausfu¨hrungszeit, Verzweigungsha¨ugkeiten
und Ressource-Verwendungen. Aufgrund der besonderen Ausrichtung auf VLIW-
Architekturen ist eine Anpassung der vorhandenen Tools an stark irregula¨re Archi-
tekturen sehr schwierig.
 SPAM [SPA] wurde zur Entwicklung von retargierbaren Compilern fu¨r einge-
bettete Prozessoren, insbesondere DSPs, entwickelt. Als Front- und Middle-End
wird SUIF verwendet. Dem ist ein Back-End (TWIF) nachgeschaltet, das insbe-
sondere eine Bibliothek von maschinenunabha¨ngigen Optimierungen entha¨lt, die
durch Angabe prozessorspezischer Parameter auf neue Zielarchitekturen ange-
passt werden ko¨nnen. Neben einigen Standardoptimierungen stehen Techniken
zur Durchfu¨hrung einer baumbasierten Codeselektion fu¨r irregula¨re Architekturen,
zur Ausnutzung der Spezialbefehle von Adressgenerierungseinheiten, zur Ausnut-
zung mehrerer Speicherba¨nke und zur Durchfu¨hrung einer Codekompaktierung zur
Verfu¨gung.
 PROPAN [Ka¨s00] stellt ein System dar, das die Generierung von machinenabha¨ngi-
gen Postpass-Optimierungen, insbesondere fu¨r irregula¨re Architekturen, erlaubt. Die
Beschreibung der Zielarchitektur wird dabei mittels TDL (Target Description Lan-
guage) vorgenommen. Des Weiteren ist an PROPAN ein phasengekoppelter Opti-
mierer angebunden, der eine globale Instruktionsanordnung und Registerallokation
(ohne Beru¨cksichtigung von Spillcode) auf Basis der ganzzahlig linearen Program-
mierung durchfu¨hrt [Ka¨s01].
 COCOON [Bas01] stellt ein Codegenerierungs-System mit dem Ziel der Entwick-
lung phasengekoppelter maschinenabha¨ngiger Optimierungen fu¨r irregula¨re Archi-
tekturen dar. Alle implementierten Techniken sind auf der Basis der Constraint-
Logikprogrammierung (CLP) entwickelt worden und arbeiten auf der generischen
Zwischendarstellung CoLIR. Diese erlaubt die Darstellung von abstrakten Maschi-
nenoperationen der IR und von alternativen Maschinenprogrammen. Die durch
Architektureigenschaften vorgegebenen Einschra¨nkungen, wie eingeschra¨nkte Paral-
lelita¨t und irregula¨re Datentransferwege, werden durch die Formulierung von Cons-
traints speziziert.
Die einzigen der hier dargestellten Compilersysteme, deren Zwischendarstellungen eine
Unterstu¨tzung von irregula¨ren Architekturen aufweisen, sind SPAM, PROPAN und CO-
COON. Insbesondere die von COCOON zugrunde gelegte Zwischendarstellung CoLIR
bietet durch die Mo¨glichkeit der Darstellung alternativer Maschinenprogramme eine sehr
gute Unterstu¨tzung zur Entwicklung von phasengekoppelten Optimierungstechniken. Die
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 29
im folgenden Abschnitt beschriebene Zwischendarstellung GeLIR stellt eine Weiterent-
wicklung von CoLIR dar.
2.3 Low-Level Zwischendarstellung (GeLIR)
GeLIR [GeL] stellt eine in C++ programmierte Zwischendarstellung von Compilern dar,
mit der neben einer maschinenunabha¨ngigen Darstellung des Quellprogramms auch die
Mo¨glichkeit der Darstellung von alternativen Maschinenprogrammen besteht (s. auch
Abb. 2.3). Prozessorspezische Merkmale ko¨nnen losgelo¨st von der Programmdarstellung
in generischer Form abgelegt werden, wodurch die Entwicklung von Optimierungen fu¨r
eine breite Klasse von Prozessoren ermo¨glicht wird. Da mit den GeLIR-Datenstrukturen
auch die Darstellung von Maschinenprogrammen mo¨glich ist, kann als Ausgangspunkt
sowohl ein Hochsprachenprogramm als auch Assemblercode dienen, wobei bislang jedoch
nur der erste Weg mittels Schnittstellen unterstu¨tzt wird.
Source
Source to GeLIR
GeLIR to ASM
GeLIR
Architektur-
darstellung
Programm-
darstellung
IR
LIR
Darstellung alternativer
Maschinenprogramme
ASM
AiSee
Sim
XeLIR
Datenabhängigkeits-
Kontrollfluss-
Schleifen-
Standard-
Schleifen-
}
Analysen
}
Optimierungen
Codegenerator
Abb. 2.3: U¨bersicht der GeLIR-Entwicklungsumgebung
Irregula¨re Architekturen zeichnen sich dadurch aus, dass die Ausfu¨hrung von Befehlen mit
der Einhaltung einer Vielzahl von Randbedingungen (Constraints) verbunden ist. Dies
30 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
kann z.B. Restriktionen bezu¨glich der Verwendung bestimmter Ressource-Kombinationen
oder der parallelen Ausfu¨hrungsmo¨glichkeiten betreen. Mittels eines in GeLIR integrier-
ten Constraintpropagierungs-Algorithmus (s. auch Abschnitt 2.3.4) wird deswegen ein
Mechanismus zur Verfu¨gung gestellt, mit dem die Einhaltung einiger dieser Constraints
sichergestellt werden kann.
Neben diversen Analysen und Optimierungen, die die Entwicklung neuer Compiler un-
terstu¨tzen, sind des Weiteren Schnittstellen (durch schwarze Ka¨sten in Abb. 2.3 angedeu-
tet) zum graphischen Visualisierungsprogramm aiSee [aiS], zum XML-basierten Textfor-
mat XeLIR [Fie01] und zu einer Simulations- und Debuggingumgebung vorhanden. Der
im Rahmen dieser Arbeit entwickelte Codegenerator besitzt ebenfalls Schnittstellen zur
GeLIR-Entwicklungsumgebung und kann somit auf deren volle Funktionalita¨t zuru¨ckgrei-
fen.
In den nachfolgenden Abschnitten wird zuna¨chst na¨her auf den eigentlichen GeLIR-Kern
mit der Programm- und Architekturdarstellung, der Darstellung alternativer Maschinen-
programme und dem Mechanismus zur Constraintpropagierung eingegangen. Dem schliet
sich eine kurze Beschreibung der vorhandenen Analysen, Optimierungen und Tools an.
Eine Beschreibung des Codegenerators erfolgt in Kapitel 3.
2.3.1 Programmdarstellung
Zur Programmdarstellung werden in GeLIR eine Reihe von C++-Klassen verwendet, die
sich an der allgemeinen Struktur von Programmen imperativer Programmiersprachen ori-
entieren. In Abb. 2.4 betrit dies zuna¨chst die schattiert dargestellten Klassen LirGeLIR,
LirFun, LirBB, LirMI und LirMO. Die Pfeile geben hier an, dass eine bestimmte Klasse
(z.B. LirGeLIR) ein oder mehrere Objekte einer anderen Klasse (z.B. LirFun) benutzt.
In den einzelnen Objekten dieser Klassen werden eine Reihe von Informationen verwaltet,
auf die im Folgenden na¨her eingegangen wird:
 LirGeLIR: Ein Objekt dieser Klasse entha¨lt neben den in einem Programm vorkom-
menden Funktionen eine globale Symboltabelle (LirSTab), deren enthaltene Sym-
boltabelleneintra¨ge (LirSTabEntry) Informationen (wie z.B. Typ) u¨ber die verwen-
deten Programmvariablen enthalten. Falls vorhanden, werden weitere Informationen
u¨ber Positionen im Speicher oder u¨ber Initialisierungswerte globaler oder statischer
Variablen in eigensta¨ndigen Objekten der Klassen LirMem bzw. LirInitValue hin-
terlegt.
 LirFun: Wa¨hrend in der Symboltabelle eines LirGeLIR-Objektes nur global verwen-
dete Variablen verwaltet werden, werden in der Klasse LirFun alle lokal in dieser
Funktion verwendeten Variablen verwaltet. Zusa¨tzlich werden hier u.a. Informatio-
nen u¨ber Aufruf- und Ru¨ckgabeparameter dieser Funktion hinterlegt. Des Weiteren
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 31
LirGeLIR
LirFun
LirBB
LirMI
LirMO
LirLoc LirAddrLirConst
LirSTabEntry
LirInitValue LirMem
LirSTab
LirGraph
Abb. 2.4: Klassenu¨bersicht zur Programmdarstellung
werden graphbasierte Zwischendarstellungen (LirGraph) fu¨r Kontrollfluss und glo-
bale Datenflussabha¨ngigkeiten verwaltet.
 LirBB: Mit einem Objekt dieser Klasse wird ein Basisblock einer bestimmten Funk-
tion repra¨sentiert. Neben der Verwaltung der MIs sind in diesem Objekt graphba-
sierte Zwischendarstellungen zur Darstellung von Datenabha¨ngigkeiten (Datenfluss-,
Ausgabe- und Antiabha¨ngigkeiten) vorhanden. Zusa¨tzlich werden Listen von Varia-
blen (Vin und Vout) verwaltet, mit deren Hilfe Aussagen u¨ber den (globalen) Daten-
fluss zwischen den Basisblo¨cken gemacht werden ko¨nnen. So entha¨lt die Vin-Liste
Variablen, die bis zu ihrer ersten Verwendung in diesem Basisblock nicht deniert
werden und daher entweder in einem anderen Basisblock zuvor deniert werden,
oder ohne vorherige Initialisierung verwendet werden. Die Vout-Liste entha¨lt Va-
riablen, deren Werte am Ende des Basisblocks noch Gu¨ltigkeit haben, also nicht
neudeniert worden sind.
 LirMI: Zur expliziten Darstellung von Parallelita¨t kann jede MI mehrere MOs auf-
nehmen. Allerdings du¨rfen zur Wahrung der semantischen Korrektheit von Program-
men { mit Ausnahme von partiellen MOs { zwischen diesen keine Datenabha¨ngig-
keiten vorhanden sein. Die Einhaltung dieser und weiterer Randbedingungen (z.B.
Ressource-Constraints) zur Parallelisierung von Maschinenoperationen ist Aufgabe
des Codegenerators.
32 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
 LirMO: Die Darstellung einer AMO erfolgt in Drei-Adresscode, so dass durch jedes
LirMO-Objekt genau eine elementare Anweisung des Quellprogramms umgesetzt
wird. Dies ko¨nnen z.B. Anweisungen wie Addition, Shiftleft, Load, Move oder Co-
py sein. Mit einer Copy-Anweisung kann ausgedru¨ckt werden, dass keine, eine oder
mehrere Move-Anweisungen ausgefu¨hrt werden mu¨ssen. Ha¨ug ist zur Durchfu¨hrung
der Codegenerierung eine weitere Klassizierung dieser Objekte erforderlich. So
ko¨nnen z.B. Adressberechnungen speziell markiert werden, um anzudeuten, dass
diese Anweisung auf einer speziellen Funktionseinheit (z.B. AGU) ausgefu¨hrt wer-
den soll. Die zuvor erwa¨hnten Variablen (Vin und Vout) werden ebenfalls mittels eines
LirMO-Objektes dargestellt. Zur Vermeidung unno¨tiger Sonderfa¨lle stellen Pointer-
Ausdru¨cke (Load und Stores), Konstanten und Adressen eigene AMOs dar. Aus-
dru¨cke der Form x = 5 + y; werden demnach durch zwei AMOs t1 = 5; und x =
t1 + y; ausgedru¨ckt. Informationen u¨ber vorhandene Denitionen und Argumente
werden in LirLoc-Objekten hinterlegt, die u.a. einen Symboltabelleneintrag enthal-
ten. In den Argumentlokationen ko¨nnen zur Darstellung komplexer MOs Verweise
auf partielle MOs abgelegt werden.
2.3.2 Architekturdarstellung
Um eine Wiederverwendung von Optimierungen im Back-End fu¨r unterschiedliche Zielar-
chitekturen zu unterstu¨tzen, stellt GeLIR Datenstrukturen zur Verfu¨gung, in denen ar-
chitekturspezische Merkmale abgelegt und abgerufen werden ko¨nnen. Alle spezizierten
Eigenschaften der zugrunde gelegten Zielarchitektur werden als separate Objekte (Lir-
Resource, LirOperation und LirType) in einem zentralen LirTarget-Objekt gespeichert
(s. Abb. 2.5):
LirTarget
LirResource
LirType
LirOperation
- Registerfiles
- Funktionseinheiten
- Instruktionstypen
LirAlt
LirAltEntry
Abb. 2.5: Klassenu¨bersicht zur Zielarchitekturdarstellung
LirType: Typ-Spezikationen ko¨nnen in GeLIR beliebig komplex vorgenommen werden.
So besteht die Mo¨glichkeit, komplexe Datentypen, wie z.B. int* oder Funktionstypen wie
int = (int  int  int) durch mehrere einfache Typen zusammenzusetzen. Da ins-
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 33
besondere bei DSP-Befehlssa¨tzen ha¨ug eine bitgenaue Typangabe erforderlich ist, kann
neben der Gro¨e auch die Bezugsgro¨e Bit oder Byte speziziert werden. Aufgrund der
gewo¨hnlicherweise vorhandenen Abweichungen von abstrakten Typen des Quellprogramms
und realen Typen der Zielmaschine, ko¨nnen die von der Zielmaschine unterstu¨tzten Typen
explizit als solche markiert werden.
LirResource: Die Ressourcen einer Zielarchitektur werden in GeLIR in die drei folgenden
Bereiche unterteilt:
 Registerle: Mit der Spezizierung eines Registerles ko¨nnen insbesondere Angaben
u¨ber die Gro¨e (Anzahl enthaltener Registerelemente) sowie den Datentyp (z.B.
int oder float) gemacht werden, der von dieser Ressource aufgenommen werden
kann. Um die Implementierung generischer Optimierungen zu ermo¨glichen, werden
alle Register-Ressourcen klassiziert (z.B. Hauptspeicher, (Adress-)Register oder
flu¨chtige Ressource). Je nach Bedarf ko¨nnen Registerles weiter in Registerele-
mente aufgesplittet werden, die wiederum als eigensta¨ndige Ressourcen beschrie-
ben werden ko¨nnen. Dies ist insbesondere erforderlich, wenn bestimmte Elemente
eines Registerles gegenu¨ber anderen desselben Registerles unterschiedliche Ver-
wendungsmo¨glichkeiten besitzen. Zum Beispiel ist es beim M3-DSP erforderlich,
dass die im SISD-Modus zu verarbeitenden Daten in Registern des Datenpfades 0
vorliegen.
 Funktionseinheiten: Vorhandene Funktionseinheiten der Zielarchitektur werden
ebenfalls in separaten Objekten gekapselt. Die Angabe von Attributen erscheint
hier bislang nur fu¨r die Anzahl der zur Verfu¨gung stehenden Instanzen einer be-
stimmten Funktionseinheit sinnvoll. Bei Bedarf ko¨nnen analog zu der Spezizierung
von Registerles weitere Angaben gemacht werden.
 Instruktionstypen: Instruktionstypen dienen der Modellierung von parallelen
Ausfu¨hrungsmo¨glichkeiten, indem zwei MOs nur dann derselben MI zugeordnet wer-
den du¨rfen, wenn diese denselben Instruktionstypen besitzen.
LirOperation: Analog zur Spezizierung von Typen wird zwischen den vordenierten ab-
strakten GeLIR-Operationen (AMOs) zur maschinenunabha¨ngigen Darstellung von Pro-
grammen und den auf der Zielarchitektur vorhandenen Operationen (MOs) unterschieden.
Zusa¨tzlich besteht mit Hilfe eines LirAlt-Objektes die Mo¨glichkeit der Spezizierung von
faktorisierten MOs (FMOs), durch die Angabe alternativer Mengen von Ressourcen. Dies
stellt ein sehr wichtiges Modellierungsmittel dar. So ko¨nnen hierdurch zum einen alle fu¨r
eine bestimmte Lokation (Denition oder Argument) verwendbaren Register-Ressourcen
abgefragt werden, zum anderen kann aber auch ermittelt werden, welche weiteren Ressour-
cen miteinander auf welche Art und Weise kombiniert werden du¨rfen. Da bei irregula¨ren
34 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
Architekturen nicht immer alle vorhandenen Ressourcen beliebig miteinander kombiniert
werden du¨rfen, ko¨nnen alternative Ausfu¨hrungsmo¨glichkeiten auf mehrere LirAltEntry-
Objekte aufgeteilt werden. Eine beliebige Kombination aller in einem solchen Objekt
angegebenen Ressourcen ist dann mo¨glich. Um abweichende Ausfu¨hrungszeiten einer Ma-
schinenoperation auf unterschiedlichen Funktionseinheiten beru¨cksichtigen zu ko¨nnen, ist
fu¨r konkrete LirAltEntry-Objekte u.a. die Angabe der erforderlichen Ausfu¨hrungszeit und
Latenzzeit mo¨glich.
Die Modellierung von Operationen der Zielmaschine mit Hilfe von FMOs wird in Abb. 2.6
und 2.7 beispielhaft anhand der Multiplikation und der Addition des M3-DSPs veran-
schaulicht:
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = true
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,’*’}
Arg1={A,B,’CNST1’,’CNST2’}
Arg2={A,C,D,ACCU}
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,’*’}
Arg1={A,C,D,ACCU}
Arg2={A,B,’CNST1’,’CNST2’}
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = false
LirAltEntry 1
LirAltEntry 2
Abb. 2.6: M3-DSP: Multiplikation
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = true
LirAltEntry 2
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={A,B,ACCU,’CNST0’}
Arg2={A,C,D,ACCU,’*’}
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={A,C,D,ACCU,’*’}
Arg2={A,B,ACCU,’CNST0’}
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = false
LirAltEntry 1
Abb. 2.7: M3-DSP: Addition
Da es sich bei beiden Operationen um kommutative Operationen handelt, sind jeweils zwei
LirAltEntry-Objekte vorhanden, die Mengen von Ressourcen enthalten, bei denen jeweils
die Registerverwendungen der Argumente, gegeben in den Mengen (Arg1 und Arg2), ge-
spiegelt wurden. Da bei der Ausgabe von Assemblercode die Reihenfolge der ausgegebenen
Ressourcen eine wichtige Rolle spielt, wird dies zusa¨tzlich durch ein entsprechendes At-
tribut (Swapped-Args) vermerkt. Das Ergebnis der Operation kann nur einem der in der
Menge Def enthaltenen Ressourcen zugewiesen werden. Gu¨ltige Ressource-Kombinationen
fu¨r (Def Arg1  Arg2) von LirAltEntry 1 in Abb. 2.6 sind z.B. (ACCU, A, C) und (’*’,
A, C) aber nicht (’*’, ’CNST2’, B). Zur Modellierung von komplexen Operationen wie
der MAC-Operation werden die bereits erwa¨hnten flu¨chtigen Ressourcen verwendet (hier:
’*’). Entsprechend der semantischen Bedeutung der MAC-Operation kann diese Ressour-
ce als Denition einer Multiplikation und als Argument einer Addition verwendet werden.
In Abb. 2.8 ist dies anhand der U¨berdeckung einer Multiplikation und einer Addition mit
Ressourcen verdeutlicht1.
Des Weiteren darf eine in der Menge Op enthaltene Operation nur auf den in FU gegebenen
Funktionseinheiten ausgefu¨hrt werden. Eine parallele Ausfu¨hrung einer dieser Operatio-
1Die Abbildung wurde mit Hilfe des Visualisierungsprogramms aiSee [aiS] generiert (s. auch Ab-
schnitt 2.3.6).
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 35
Abb. 2.8: Beispiel zur Modellierung einer MAC-Operation
nen darf nur mit Operationen erfolgen, die denselben in IT gegebenen Instruktionstypen
aufweisen.
Um eine Verbindung zwischen AMOs und MO herzustellen, werden bei den AMOs
Ressource-Alternativen von MOs eingetragen, die eine semantisch a¨quivalente Umset-
zung erlauben. So ko¨nnten z.B. bei einer AMO, die eine Multiplikation realisiert, die
Ressource-Alternativen der MO aus Abb. 2.6 eingetragen werden. Wa¨ren weitere Um-
setzungsmo¨glichkeiten der Multiplikation mo¨glich, z.B. durch eine MO, die auf einer an-
deren Funktionseinheit ausgefu¨hrt wird, dann ko¨nnten diese ebenfalls eingetragen wer-
den. Anhand dieser vorgenommenen Spezikationen ko¨nnen dann z.B. im Rahmen der
Constraintpropagierung (s. Abschnitt 2.3.4) Einschra¨nkungen von Ressource-Alternativen
durchgefu¨hrt werden, die ungu¨ltige Auswahlkombinationen von Ressourcen vermeiden.
2.3.3 Darstellung alternativer Maschinenprogramme
Die Darstellung alternativer Maschinenprogramme stellt eine wichtige Eigenschaft von
GeLIR dar und vereinfacht insbesondere die Entwicklung von phasengekoppelten Opti-
mierungen. Eine prinzipielle Vorgehensweise ko¨nnte darin bestehen, zu Beginn der Code-
generierung fu¨r eine gegebene GeLIR-Programmdarstellung alle mo¨glichen Maschinen-
programme darzustellen. Die Aufgabe des Codegenerators wu¨rde dann in der Auswahl
des Programms liegen, das eine vorgegebene Kostenfunktion optimiert. Dabei liegt ein
konkretes (gu¨ltiges) Maschinenprogramm vor, wenn alle Ressource-Mengen bis auf ein
Element eingeschra¨nkt wurden, eine Anordnung der MOs zu MIs vorgenommen wur-
de und zusa¨tzlich alle Randbedingungen bezu¨glich Ressourcen und Datenabha¨ngigkeiten
eingehalten werden. Die Auswahl eines Maschinenprogramms kann je nach verwendeter
36 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
Codegenerierungs-Technik in einem Schritt oder auch in mehreren Schritten erfolgen,
indem jeweils nur Einschra¨nkungen bestimmter Ressource-Mengen vorgenommen wer-
den. In Abb. 2.9 ist fu¨r ein gegebenes GeLIR-Codefragment mit Drei-Adressbefehlen eine
a¨quivalente Darstellung in Form eines Datenflussgraphen abgebildet. Mit Hilfe der an die
jeweiligen Graphknoten gebundenen Ressource-Alternativen besteht nun die Mo¨glichkeit,
unterschiedliche Maschinenprogramme zu erzeugen. In diesem Beispiel wird davon ausge-
gangen, dass zum aktuellen Zeitpunkt bereits teilweise Einschra¨nkungen der Ressource-
Alternativen vorgenommen worden sind.
t1 = 2;
t2 = ’Code fu¨r G1’;
t3 = t1 * t2;
t4 = ’Code fu¨r G2’;
t5 = t3 + t4;
’Code fu¨r G3’ = t5;
’Code fu¨r G4’ = t5;
G3
G1
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,*}
Arg1={ CNST2}
Arg2={A,B,ACCU}

Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={A,C,ACCU}
Arg2={ACCU,*}
...
Def ={A,B,ACCU}
...
...
Def ={CNST2}
...
G2
...
Def ={A,C,ACCU}
...
...
ArgX={ACCU}
...
G4
...
ArgY={ACCU}
...
t1
t2
t3
t4
t5
*
+
2
Abb. 2.9: Alternative Maschinenprogramme fu¨r ein gegebenes GeLIR-Codefragment
Ohne die urspru¨ngliche Ausfu¨hrungsreihenfolge der Anweisungen zu a¨ndern, ko¨nnten z.B.
die in Abb. 2.10 dargestellten Ressource-Zuweisungen vorgenommen werden. Bei allen
drei Programmen wurde die Konstante 2 der flu¨chtigen Ressource ’CNST2’ zugewiesen, da
diese als Einzige ausgewa¨hlt werden konnte. Da es sich hierbei um eine flu¨chtige Ressource
handelt, erfolgt also keine Zwischenspeicherung des Wertes in einem Register und geht so
auf direktem Weg als Operand in die Multiplikation ein. Analog dazu wird in Programm 3
das Ergebnis der Multiplikation in die flu¨chtige Ressource ’*’ geschrieben und in der
nachfolgenden Addition verwendet, was der Ausfu¨hrung einer MAC-Operation entspricht.
Bei genauerer Betrachtung der Programme fa¨llt jedoch auf, dass die getroenen Ressource-
Zuweisungen zu fehlerhaftem Code fu¨hren wu¨rden:
 In Programm 1 wird mit der vierten Anweisung ACCU = ’Code fu¨r G2’ die zuvor
beschriebene Register-Ressource ACCU u¨berschrieben, obwohl diese noch beno¨tigt
wird.
 In Programm 2 deniert die zweite Anweisung die Register-Ressource B, obwohl
die davon datenabha¨ngige dritte Anweisung das entsprechende Argument in der
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 37
’CNST2’ = 2;
A = ’Code fu¨r G1’;
ACCU = ’CNST2 * A;
ACCU = ’Code fu¨r G2’;
ACCU = ACCU + ACCU;
’Code fu¨r G3’ = ACCU;
’Code fu¨r G4’ = ACCU;
Programm 1
’CNST2’ = 2;
B = ’Code fu¨r G1’;
ACCU = ’CNST2’ * A;
C = ’Code fu¨r G2’;
ACCU = ACCU + C;
’Code fu¨r G3’ = ACCU;
’Code fu¨r G4’ = ACCU;
Programm 2
’CNST2’ = 2;
B = ’Code fu¨r G1’;
’*’ = ’CNST2’ * B;
C = ’Code fu¨r G2’;
ACCU = ’*’ + C;
’Code fu¨r G3’ = ACCU;
’Code fu¨r G4’ = ACCU;
Programm 3
Abb. 2.10: Beispielprogramme
Register-Ressoure A erwartet. Um diesen Fehler zu vermeiden, muss garantiert wer-
den, dass zwischen der Denition einer MO und dem entsprechenden Argument
einer davon datenabha¨ngigen MO, gu¨ltige Datentransferwege existieren (! Kan-
tenkonsistenz).
 Im Gegensatz zu den beiden vorherigen Programmen fu¨hren die in Programm 3
vorgenommenen Zuweisungen auf den ersten Blick zu keinen Konflikten. Allerdings
wird bei na¨herer Betrachtung der dritten Anweisung ’*’ = ’CNST2’ * B schnell
klar, dass die verwendeten Ressource-Alternativen in dieser Weise nicht miteinan-
der kombiniert werden du¨rfen, da diese Kombination in keiner der in Abb. 2.6 an-
gegebenen LirAltEntry-Objekte der Spezikation der M3-Multiplikation vorkommt
(! Knotenkonsistenz).
Allgemein kann gesagt werden, dass die Beru¨cksichtigung und Einhaltung solcher
Ressource-Konflikte zu den Aufgaben des Codegenerators geho¨rt. Um jedoch die Im-
plementierung neuer Codegenerierungs-Techniken zu vereinfachen, sind auf den GeLIR-
Datenstrukturen Algorithmen implementiert, die bei sachgema¨er Anwendung Ressource-
Konflikte, wie sie in den Programmen 2 und 3 vorkommen, vermeiden. Da diese Algo-
rithmen eine wichtige Rolle bei der Durchfu¨hrung der Codegenerierung spielen, wird im
nachfolgenden Abschnitt kurz darauf eingegangen und deren prinzipielle Arbeitsweise
erla¨utert.
2.3.4 Constraintpropagierung
Wie im vorherigen Abschnitt erla¨utert wurde, mu¨ssen bei der Durchfu¨hrung der Code-
generierung eine Reihe von Randbedingungen eingehalten werden. Wa¨hrend bei Archi-
tekturen mit homogenen Befehlssa¨tzen die zuvor beschriebenen Probleme der Kanten- und
Knotenkonsistenz eine eher untergeordnete Rolle spielen, werden zur Codegenerierung fu¨r
DSPs Mechanismen beno¨tigt, mit deren Hilfe Probleme, wie sie bei den Programmen 2
38 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
und 3 in Abb. 2.10 vorgekommen sind, vermieden werden ko¨nnen. Wa¨hrend die Kanten-
konsistenz das Vorhandensein von Datentransferwegen zwischen zwei datenflussabha¨ngi-
gen MOs zusichern soll, soll durch die Knotenkonsistenz fu¨r einen speziellen Knoten (MO)
gewa¨hrleistet werden, dass nur gu¨ltige Ressource-Kombinationen verwendet werden. Fu¨r
das Programm 3 in Abb. 2.9 wa¨re es also sinnvoll gewesen, den Datenflussgraphen vor
Auswahl der Ressourcen auf Knoten- und Kantenkonstistenz hin zu u¨berpru¨fen.
Knotenkonsistenz
Zur Wahrung der Knotenkonsistenz muss ein Abgleich der aktuell zur Auswahl stehen-
den Ressource-Alternativen einer AMO mit den spezizierten Ressource-Kombinationen
vorgenommen werden. Durch die Anwendung der Mengenoperationen Durchschnitt und
Vereinigung kann die Knotenkonsistenz ezient sichergestellt werden. In Abb. 2.11 ist
dies am Beispiel des Multiplikations-Knotens aus Abb. 2.9 veranschaulicht.
Op FU IT Def Arg1 Arg2
MUL
MUL
MUL
MUL
MUL
DMU
DMU
DMU
DMU
DMU
1
1
1
1
1
Accu,*
Accu,*
Accu,*
Accu,*
Accu,*
‘cnst2
A,‘cnst1
B,‘cnst2
A,C,D,Accu
‘cnst2
-
A,B,Accu
A,C,D,Accu
A,‘cnst1
B,‘cnst2
A,Accu
A,B
MO-
Alternativen
M3-Multiplikation
LirAltEntry1
1 2
MUL DMU
1
Accu,*
‘cnst2
A,Accu
- --
-
--
M3-Multiplikation
LirAltEntry2
1 3
4 5’
1
2
3
4
5
5’
6
Abb. 2.11: Beispiel der Vorgehensweise zur Wahrung der Knotenkonsistenz
In der ersten Zeile sind die aktuell auswa¨hlbaren Ressourcen fu¨r den Multiplikations-
Knoten angegeben, wa¨hrend in den Zeilen 2 und 3 die laut Spezikation zula¨ssigen
Ressource-Kombinationen fu¨r die Multiplikations-MO (s. auch Abb. 2.6) aufgelistet
sind. Letztere dienen im Prinzip als Template fu¨r die in Zeile 1 gegebenen Ressource-
Alternativen. Die Zeilen 4 und 5 enthalten die Ergebnisse der angegebenen Durchschnitts-
bildung der Ressourcen und stellen jeweils gu¨ltige Ressource-Kombinationen dar. Als
Besonderheit ist in Zeile 5 jedoch zu erkennen, dass eine der gegebenen Ressource-
Mengen (Arg1) leer ist. Dies bedeutet, dass bezu¨glich der mit LirAltEntry 2 spezizierten
Ressource-Kombinationen keine gu¨ltige U¨bereinstimmung existiert, so dass alle anderen
Ressourcen dieser Zeile ebenfalls als leer angenommen werden mu¨ssen (s. Zeile 5’). Die
letztendlich auswa¨hlbaren MO-Alternativen werden dann durch Bildung der Vereinigung
der Zeilen 4 und 5’ gebildet.
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 39
Da keine Abha¨ngigkeiten zu anderen Graphknoten bestehen, reicht es zur Sicherstellung
der Knotenkonsistenz aus, jeden Knoten des Graphen einmal zu betrachten. Dies sieht
bei der Wahrung der Kantenkonsistenz anders aus:
Kantenkonsistenz
Wenn ni und nj zwei Knoten des Datenflussgraphen sind, zwischen denen eine Daten-
flussabha¨ngigkeit besteht, dann muss zugesichert werden, dass ni nur solche Ressourcen
denieren kann, die bei nj an der entsprechenden Argumentposition noch zur Auswahl ste-
hen. Umgekehrt darf nj das zu verarbeitende Datum nur in solchen Ressourcen erwarten,
die ni auch denieren kann.
Durch einfache Schnittbildung der beiden relevanten Ressource-Mengen kann die Einhal-
tung dieser Bedingung erreicht werden und fu¨hrt somit zu gu¨ltigen Datentransferwegen
zwischen je zwei datenflussabha¨ngigen Graphknoten.
Zur Wahrung der Knoten- und Kantenkonsistenz in einem Graphen sind diese Vorgehens-
weisen in einem Algorithmus (Constraintpropagierungs-Algorithmus) zusammengefasst
und werden auf den GeLIR-Datenstrukturen zur Verfu¨gung gestellt. Dabei werden Ein-
schra¨nkungen von Alternativen eines Graphknotens solange u¨ber die Datenflussabha¨ngig-
keitskanten an andere Knoten propagiert, bis keine Vera¨nderungen mehr stattnden. Die
Laufzeit dieses Algorithmus ist im Wesentlichen von der Summe einzuschra¨nkender Res-
sourcen res der vorhandenen Knoten sowie den gegebenen Datenflussabha¨ngigkeitskanten
E abha¨ngig und kann durch O(res  jEj) abgescha¨tzt werden.
Die Anwendung des Constraintpropagierungs-Algorithmus auf das in Abb. 2.9 gegebene
Beispiel fu¨hrt zu den in Abb. 2.12 verdeutlichten Ressource-Einschra¨nkungen. Zuna¨chst
stellt der Algorithmus bei U¨berpru¨fung der Knotenkonsistenz des Multiplikationskno-
tens fest, dass die Auswahl der Ressource B zu keiner gu¨ltigen Ressource-Kombination
fu¨hrt und lo¨scht diese daraufhin aus der Menge Arg2. Eine nachfolgend durchgefu¨hrte
U¨berpru¨fung der Kantenkonsistenz zum Vorga¨ngerknoten
"
G1\ bewirkt dann, dass die
Ressource B ebenfalls aus der Menge Def des Knotens G1 gelo¨scht wird und somit nicht
mehr ausgewa¨hlt werden kann.
2.3.5 Analysen & Optimierungen
Zur Durchfu¨hrung von Optimierungen werden i.d.R. Analysen beno¨tigt, die Informationen
daru¨ber bereitstellen, ob bestimmte Teilschritte die Semantik des Programms vera¨ndern
oder nicht. Soll z.B. die Ausfu¨hrungsreihenfolge zweier Anweisungen vertauscht werden,
muss sichergestellt sein, dass zwischen diesen Anweisungen keine Datenabha¨ngigkeiten
existieren. In den GeLIR-Datenstrukturen werden aus diesem Grund fu¨r jeden Basis-
block graphbasierte Darstellungen fu¨r Datenfluss-, Ausgabe- und Antiabha¨ngigkeiten zur
40 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
G3
G1
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,*}
Arg1={CNST2}
Arg2={A,B,ACCU}
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={A,C,ACCU}
Arg2={ACCU,*}
...
Def ={A,B,ACCU}
...
...
Def ={CNST2}
...
G2
...
Def ={A,C,ACCU}
...
...
ArgX={ACCU}
...
G4
...
ArgY={ACCU}
...
t1
t2
t3
t4
t5
*
+
2
Abb. 2.12: Auswirkungen der Constraintpropagierung auf das Beispiel von Abb. 2.9
Verfu¨gung gestellt. Zur Ermittlung des globalen Datenflusses zwischen den Basisblo¨cken
einer Funktion werden zusa¨tzlich in jeder Funktion ein globaler Datenflussgraph und ein
Kontrollflussgraph verwaltet. Neben diesen u¨blicherweise von IRs zur Verfu¨gung gestell-
ten
"
einfachen\ Datenabha¨ngigkeitsanalysen fu¨r skalare Variablen, ist auf den GeLIR-
Datenstrukturen eine δ-Array-Datenflussanalyse zur Analyse von Abha¨ngigkeiten zwi-
schen Arrayzugrien und eine Schleifenanalyse zur Ermittlung der in einer Schleife aus-
gefu¨hrten Basisblo¨cke vorhanden. Fu¨r na¨here Informationen bezu¨glich der Umsetzung der
δ-Array-Datenflussanalyse und der Schleifenanalyse soll an dieser Stelle auf die Diplom-
arbeit von Horst [Hor01b] verwiesen werden.
Im Rahmen der Diplomarbeit von Hornbach [Hor01a] wurden einige maschinenunabha¨ngi-
ge Standardoptimierungen entwickelt, die mit Hilfe einer entsprechenden Parametri-
sierung ebenfalls maschinenspezisch anwendbar sind. In diesem konkreten Fall wur-
den die RISC-Architekturen (am Beispiel des ARM7TDMI) als Zielplattform betrach-
tet. Im Rahmen dieser Arbeit wurden die Optimierungen Constant-Folding, Constant-
Propagation, Copy-Propagation, Dead-Code-Elimination, Redundant-Load-Elimination
und Redundant-Store-Elimination umgesetzt. Neben den zuvor erwa¨hnten Standardopti-
mierungen sind zusa¨tzlich generische Schleifenoptimierungen zur Ausnutzung von Zero-
Overhead Hardware-Loops (ZOLs) und SIMD-Operationen (Vektorisierung) vorhanden
[LWDL02], wobei auf letztere noch in Kapitel 4 na¨her eingegangen wird.
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 41
2.3.6 Graphische Visualisierung
Eine graphische Ausgabe beliebiger Zwischenzusta¨nde, z.B. vor und nach Durchfu¨hrung
einer neu entwickelten Optimierung, bietet eine gute Mo¨glichkeit, diese Optimierung auf
ihr erwartetes Verhalten hin zu u¨berpru¨fen. Aus diesem Grund ist eine Schnittstelle zum
Visualisierungsprogramm aiSee [aiS] vorhanden. Zur Veranschaulichung ist in Abb. 2.13
ein Kontrolldatenflussgraph (linker Teil) und ein reiner Kontrollflussgraph (rechter Teil)
fu¨r das in Abb. 2.1 gegebene Quellprogramm abgebildet.
Abb. 2.13: Kontrolldatenflussgraph (linker Teil) und Kontrollflussgraph (rechter Teil) fu¨r
das Programm aus Abb. 2.1
42 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
Nicht beno¨tigte Darstellungen ko¨nnen bei Bedarf ein- bzw. ausgeblendet werden. In der
Darstellung des Datenflussgraphen von Basisblock 2 ist zu erkennen, dass jede MI genau
eine MO entha¨lt. MOs, die zur Adressberechnung auf einer Adressgenerierungseinheit
ausgefu¨hrt werden sollen und entsprechend klassiziert sind, werden zur leichteren Identi-
kation farbig hinterlegt (s. MO in MI 8 in Abb. 2.13). Weitere Informationen, z.B. u¨ber
Ausgabe- und Antiabha¨ngigkeiten, Typen und Speicherpositionen von verwendeten Varia-
blen und alternativen Ressourcen ko¨nnen ebenfalls selektiv angezeigt werden. Abb. 2.14
verdeutlicht z.B. die Darstellung alternativer Maschinenprogramme durch FMOs.
Abb. 2.14: Darstellung alternativer Maschinenprogramme
In Abb. 2.15 wird am Beispiel von Basisblock 2 die Zuordnung mehrerer MOs zu ei-
ner MI (hier: MI 104) zum Ausdruck von Parallelita¨t veranschaulicht. Innerhalb einer
solchen MI ko¨nnen die eingebetteten MOs wiederum aus beliebig vielen partiellen MOs
zusammengesetzt sein.
2.3.7 XeLIR
Zum Speichern und Reproduzieren von Zwischenresultaten kann mit XeLIR eine XML-
basierte GeLIR-Darstellung verwendet werden, auf der auch die Durchfu¨hrung von Hand-
optimierungen und Architekturspezikationen mo¨glich ist. Durch die Verwendung von
XML als zugrunde gelegtem Textformat besteht aufgrund des standardisierten XML-
Sprachstandards die Mo¨glichkeit, auf eine Reihe von Tools, insbesondere Parser und Edi-
toren, zuru¨ckzugreifen. Diese erleichtern u.a. die Realisierung von Handoptimierungen und
die Implementierung von Anwendungen auf dem generierten Textformat XeLIR, wie das
Schreiben von Assemblercode in eine Datei sowie Peephole-Optimierungen. Ebenso be-
steht dadurch eine (eingeschra¨nkte) Mo¨glichkeit der U¨berpru¨fung von XML-Darstellungen
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 43
Abb. 2.15: Datenflussgraph mit parallel ausfu¨hrbaren und komplexen MOs
auf Korrektheit. Na¨here Einzelheiten dazu ko¨nnen der Diplomarbeit von Fiesel entnom-
men werden [Fie01].
2.3.8 Simulationsumgebung
Zur Validierung von implementierten Compilertechniken besteht die Mo¨glichkeit der Si-
mulation einer gegebenen GeLIR-Darstellung auf unterschiedlichen Abstraktionsebenen.
Im Grundsatz wird hier zwischen einer maschinenunabha¨ngigen Simulation und einer
maschinenabha¨ngigen Simulation unterschieden: Auf der abstrakten Ebene erfolgt ei-
ne Simulation der GeLIR-Darstellung, ohne die Beru¨cksichtigung eventuell vorhandener
Ressourcen-Bindungen. Die Symboltabelleneintra¨ge der AMOs werden in dieser Darstel-
lung als virtuelle Register und die abstrakten vordenierten GeLIR-Operationen wie z.B.
ADD, MOVE oder SHL als Operatoren verwendet. Zur U¨berpru¨fung der Korrektheit des
Programms ko¨nnen nach Durchfu¨hrung der Simulation die Inhalte bestimmter Variablen
44 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
u¨berpru¨ft werden. Mit der Durchfu¨hrung einer hardwarenahen Simulation werden die an
eine AMO gebundenen Ressourcen beru¨cksichtigt. Dies betrit insbesondere verwendete
reale Register-Ressourcen, die im Vergleich zur abstrakten Simulation nun als Platzhalter
fu¨r die zu verarbeitenden Werte dienen. Um benutzerdenierte Operationen der Zielma-
schine simulieren zu ko¨nnen, besteht die Mo¨glichkeit deren Semantik bei der Spezikation
in Form von Berechnungsvorschriften anzugeben.
Die Durchfu¨hrung der Simulation erfolgt nach dem Prinzip der kompilierten Simulation
[HKN+01], bei dem die gegebene Programm- und Architekturdarstellung als C/C++-
Code in Dateien geschrieben wird. Die Programmdarstellung besteht, wie in Abb. 2.16
verdeutlicht, im Wesentlichen aus einer Reihe von Zuweisungen und Funktionsaufrufen
(z.B. ImmedDT Index 126), deren konkrete semantische Bedeutung in einer separaten Da-
tei festgelegt sind und deren Bedeutung bei der Spezikation der Zielarchitektur angege-
ben werden muss. Diese Dateien werden mit weiteren Hilfsdateien unter Verwendung eines
herko¨mmlichen C/C++-Compilers (z.B. GNU) kompiliert, dessen Ergebnis ein ausfu¨hr-
bares Programm darstellt. Mit der Ausfu¨hrung dieses Programms werden eine Reihe
von Informationen generiert, die Auskunft u¨ber das Verhalten des gegebenen GeLIR-
Programms bei Ausfu¨hrung auf der spezizierten Zielarchitektur geben. Im Einzelnen
werden Informationen bezu¨glich der Anzahl ausgefu¨hrter Instruktionszyklen, die Anzahl
von Speicherzugrien und in unserem Fall auch den Energieverbrauch bereitgestellt.
Source
Source to GeLIR
GeLIR to ASM
GeLIR
Programm-
darstellung
IR
LIR
Darstellung alternativer
Maschinenprogramme
ASM
...
ImmedDT_Index_126
DRW_PP_105
SIMD_LD_103
Energy
...
// ---- MI 104 ----
tr_const_2[0] = 2;
(Reg_A[0], rf_none[0], tr_const_2[0]);
tr_const_i[0] = 0;
(tr_pp[0], AGU_PP[0], tr_const_i[0]);
(AGU_Reg_M, tr_pp[0], GMem);
(1.70766); // DTU_1+AGU_2__DTU_2
void (Def& def, Arg1& arg1, Arg2& arg2){
}
void (Def& def, Arg1& arg1, Arg2& arg2){
}
void (Def& def, Arg1& arg1, Arg2& arg2){
}
ImmedDT_Index_126
...
DRW_PP_105
...
SIMD_LD_103
...
C/C++-Dateien
Architektur-
darstellung
Abb. 2.16: Prinzip der kompilierten Simulation
Eine Validierung erfolgt, indem das urspru¨ngliche Quellprogramm ebenfalls direkt mit
2.3. LOW-LEVEL ZWISCHENDARSTELLUNG (GELIR) 45
dem Standardcompiler u¨bersetzt und das Ergebnis der Ausfu¨hrung (Werte bestimmter
Variablen) der beiden Programme verglichen wird (s. Abb. 2.17).
ANSI-C
Source-File
IR
Front-End
GeLIR
Simulations-
Files
GNU-
Kompilierung
Executable
Ausführung
Log-Files
Vergleich
Ergebnis
Optimierungen
Optimierungen
IR
LIR
LIR
Simulator
IR to GeLIR
GeLIR to Sim
Executable
GNU-
Kompilierung
GNU
Ausführung
Log-Files
Abb. 2.17: Debug-Umgebung in GeLIR
Die Verwendung des GeLIR-Simulators weist im Vergleich zu speziellen Simulatoren
konkreter Zielarchitekturen einige wesentliche Vorteile auf: So besteht insbesondere die
Mo¨glichkeit der Simulation und Validierung unmittelbar nach Abschluss einer Optimie-
rung, ohne dass der gesamte nachfolgende Compilierungsprozess fortgesetzt werden muss.
Des Weiteren wird durch die einfache Art und Weise, mit der Architektura¨nderungen spe-
ziziert werden ko¨nnen, die Durchfu¨hrung einer HW/SW-Exploration erheblich verein-
facht. Ein weiterer Nachteil in der Verwendung herko¨mmlicher Simulatoren ist auch darin
zu sehen, dass i.d.R. keine Energiekostenmodelle eingebunden sind, so dass keine Bewer-
tung von Programmen hinsichtlich des Energieverbrauchs mo¨glich ist. Eine nachtra¨gliche
Einbindung ist in der Regel aufgrund fehlender Quellprogramme ebenfalls nicht mo¨glich.
46 KAPITEL 2. COMPILER-ZWISCHENDARSTELLUNGEN
Kapitel 3
Codegenerierung fu¨r digitale
Signalprozessoren
Nach der Durchfu¨hrung von maschinenunabha¨ngigen Standardoptimierungen im Middle-
End ist es die Aufgabe der Codegenerierung, das gegebene maschinenunabha¨ngige Pro-
gramm in ein ausfu¨hrbares Programm der Zielmaschine zu u¨berfu¨hren. Zur Erzielung von
ezientem Assemblercode gilt es dabei, die architekturspezischen Merkmale der Zielar-
chitektur mo¨glichst eektiv auszunutzen. Bei der Entwicklung von Codegeneratoren fu¨r
General-Purpose Prozessoren und digitale Signalprozessoren kommt es zu unterschiedli-
chen Gewichtungen der Zielsetzungen. Wa¨hrend fu¨r beide Arten von Zielarchitekturen
die semantische Korrektheit des generierten Codes obligatorisch ist, wird beim Einsatz
von Compilern fu¨r GPPs gro¨erer Wert auf eine hohe U¨bersetzungsgeschwindigkeit ge-
legt, die i.d.R. auch erfu¨llt werden. Aufgrund der speziellen Einsatzgebiete von DSPs
weisen deren Architekturen im Vergleich zu denen von GPPs besondere Merkmale auf,
mit deren Hilfe schnellere und energieezientere Assemblerprogramme mo¨glich sind. Lei-
der fu¨hrt dies auch zu Befehlssa¨tzen, die entweder nicht oder nur sehr unzureichend von
Codegeneratoren fu¨r GPPs gehandhabt werden ko¨nnen, so dass ein groer Bedarf an Co-
degeneratoren besteht, die speziell auf die besonderen Architektureigenschaften von DSPs
abgestimmt sind. Da DSP-Programme i.d.R. einen geringeren Umfang haben und nicht
so oft neu u¨bersetzt werden mu¨ssen, wird bei DSP-Codegeneratoren u¨blicherweise eine
la¨ngere Compilierungsdauer zugunsten ezienteren Codes akzeptiert [Leu99].
Nach einer Einfu¨hrung im na¨chsten Abschnitt folgt eine U¨bersicht der bestehenden Arbei-
ten in diesem Bereich. Beginnend mit einer U¨bersicht des Codegenerators in Abschnitt 3.3
wird dann auf die Umsetzung des entwickelten Codegenerators eingegangen. Abschlieend
folgt eine Bewertung der entwickelten Techniken anhand einiger Testroutinen.
47
48 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
3.1 Einfu¨hrung
In Erga¨nzung zu den in Abschnitt 1.4 bereits aufgefu¨hrten Nachteilen herko¨mmlicher
Codegenerierungs-Verfahren wird im nachfolgenden Abschnitt genauer auf die Vorteile
einer graphbasierten gegenu¨ber einer baumbasierten Codeselektion (CS) eingegangen und
die Bedeutung einer Phasenkopplung der Teilaufgaben Codeselektion, Instruktionsanord-
nung (IA) und Registerallokation (RA) aufgezeigt. Dem schliet sich eine Beschreibung
des Einsatzes von Adressgenerierungseinheiten zur eektiven Umsetzung von Adressbe-
rechnungen an. Abschlieend wird die Relevanz der Kombination unterschiedlicher Opti-
mierungsziele erla¨utert.
3.1.1 Baumbasierte vs. graphbasierte Codeselektion
In der Regel fu¨hren Codegeneratoren eine baumbasierte Codeselektion durch, deren
Funktionalita¨t z.B. in Codegenerator-Generatoren wie BEG [ESL89], Twig [AGT89],
iburg [FHP92] und Olive [Tji93] zur Verfu¨gung gestellt wird. Eine Beschreibung der
Architektur wird dabei in Form einer Baumgrammatik vorgenommen und ermo¨glicht
damit insbesondere fu¨r GPPs ein hohes Ma an Retargierbarkeit. Die zugrunde gelegten
Codeselektions-Verfahren (auch Tree-Pattern-Matcher genannt) fu¨hren in linearer Zeit
(in Abha¨ngigkeit zur Anzahl der Baumknoten) mit Hilfe der dynamischen Programmie-
rung fu¨r jeden Ausdrucksbaum des Quellprogramms eine U¨berdeckung mit Prozessorin-
struktionen durch [ASU86, WM95]. Da diese Verfahren nur auf Ba¨ume anwendbar sind,
muss zuna¨chst eine Aufteilung der gegebenen Datenflussgraphen in Ba¨ume vorgenommen
werden. Fu¨r jeden dieser Ba¨ume kann dann eine optimale U¨berdeckung mit Prozessorin-
struktionen bestimmt werden, wobei das Ergebnis jedoch nur sequentielle Anweisungen
entha¨lt. Wie in Abb. 3.1 verdeutlicht, erfolgt die Aufteilung eines Datenflussgraphen in
Ba¨ume ha¨ug anhand der CSEs (hier: Ergebnis der Multiplikation).
Anhand dieses einfachen Beispiels wird bereits das groe Optimierungspotential in
der Verwendung von graphbasierten gegenu¨ber baumbasierten Codeselektions-Verfahren
deutlich: So sind, unter Vernachla¨ssigung eventuell zusa¨tzlich erforderlicher Datentransfer-
und Adressbefehle, bei der Verwendung einer baumbasierten Codeselektion zur U¨ber-
deckung der beiden generierten Ba¨ume insgesamt neun MOs (s. schattierte Ellipsen)
erforderlich. Von diesen stellen sechs MOs Speicherzugrie (LD- und ST-Knoten) dar.
Mit der Durchfu¨hrung einer graphbasierten Codeselektion kann die Anzahl erforderlicher
MOs auf fu¨nf und die Anzahl der Speicherzugrie auf drei betra¨chtlich reduziert werden.
Dies la¨sst erwarten, dass mit der Durchfu¨hrung einer graphbasierten im Vergleich zu ei-
ner baumbasierten Codeselektion neben einer Reduzierung der Ausfu¨hrungszeit auch der
Energieverbrauch drastisch reduziert werden kann. In [ASU77] wurde allerdings gezeigt,
dass die Erzeugung von optimalem Code selbst fu¨r einen virtuellen Prozessor mit unend-
3.1. EINFU¨HRUNG 49
+
*
LD
ST
+
2
&a
&b
&c
Baum1
Baum2
LD
+
*
LD
ST
+
2
&a
&c
ST
&t
LD
LD
&b
LD
+
*
LD
ST
+
2
&a
&b
&c
LD
baumbasierte
Codeselektion
graphbasierte
Codeselektion
Datenflussgraph
1. Zerlegung
in Bäume
2. Code-
selektion
Code-
selektion
Abb. 3.1: Baumbasierte vs. graphbasierte Codeselektion
lich vielen Registern die Lo¨sung eines NP-harten Problems bedeutet. Aus diesem Grund
sind Optimierungsverfahren wu¨nschenswert, die in polynomieller Laufzeit eine optimale
Lo¨sung mo¨glichst gut anna¨hern.
3.1.2 Bedeutung phasengekoppelter Optimierungsverfahren
Eine simultane Betrachtung der Teilphasen CS, IA und RA im Sinne einer Phasenkopp-
lung ist insbesondere fu¨r irregula¨re Prozessoren von besonderer Bedeutung. So weist der
in dieser Arbeit betrachtete M3-DSP z.B. dedizierte Verbindungsstrukturen und hetero-
gene Registerles auf. Diese Eigenschaften fu¨hren auf der Hardwareseite zwar zu einer
Reduzierung der Chipfla¨che und der Leistungsaufnahme einzelner Prozessorinstruktio-
nen, erschweren allerdings eine eziente Codeerzeugung. Gru¨nde hierfu¨r sind u.a. darin
zu sehen, dass selbst bei einer Verwendung von optimalen Verfahren fu¨r die Teilprobleme
kein optimaler Code garantiert werden kann, wenn diese unabha¨ngig voneinander aus-
gefu¨hrt werden. Verscha¨rft wird dieser Umstand sogar noch dadurch, dass bereits die
Ermittlung einer optimalen Lo¨sung der Teilprobleme i.d.R. die Lo¨sung eines NP-harten
Optimierungsproblems darstellt. Die vor allem bei irregula¨ren Prozessoren auftretenden
Wechselwirkungen zwischen den Teilphasen der Codegenerierung werden im Folgenden
na¨her beleuchtet, indem fu¨r jeweils zwei aufeinander folgende Teilphasen die jeweiligen
50 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Wechselwirkungen aufgezeigt werden.
 Codeselektion und Instruktionsanordnung
CS ! IA
Da ha¨ug nur bestimmte Maschinenoperationen parallel zueinander ausgefu¨hrt wer-
den ko¨nnen, besteht mit der Durchfu¨hrung der Codeselektion die Gefahr, eine Aus-
wahl von MOs vorzunehmen, die zwar zu einer minimalen Anzahl von Maschinen-
operationen fu¨hrt, sich aber schlecht parallelisieren la¨sst.
IA ! CS
Werden die Operationen (AMOs) vor der Durchfu¨hrung der Codeselektion zu MIs
zusammengefasst, ko¨nnen sich u.U. Kombinationen von MOs ergeben, die nicht
parallelisiert werden du¨rfen. Eine Auflo¨sung dieser Konflikte kann in so einem Fall
nur durch Einfu¨gen weiterer MIs und die getrennte Ausfu¨hrung der MOs aufgelo¨st
werden.
 Instruktionsanordnung und Registerallokation
IA ! RA
Eine Anordnung von MOs zu MIs mit minimaler Anzahl von MIs kann durch den in
der Registerallokation nachtra¨glich einzufu¨genden Spillcode wieder zunichte gemacht
werden.
RA ! IA
Werden die Variablen vor der Instruktionsanordnung an bestimmte Register gebun-
den, ko¨nnen sich aufgrund der entstandenen Ressource-Abha¨ngigkeiten erhebliche
Einschra¨nkungen bei der Anordnung der MOs zu MIs ergeben. Des Weiteren ist es
im Allgemeinen vor der Durchfu¨hrung der Instruktionsanordnung sehr schwierig zu
entscheiden, ob und welche Variablen in den Speicher gespillt werden mu¨ssen.
 Registerallokation und Codeselektion
RA ! CS
Eine Bindung von Variablen an Register kann zu einer eingeschra¨nkten Auswahl von
MOs fu¨r den zu u¨berdeckenden Graphknoten fu¨hren und sogar die U¨berdeckung
mit einer gu¨ltigen Operations-Alternative unmo¨glich machen. Des Weiteren wird
hierdurch die Bildung von komplexen MOs ausgeschlossen.
CS ! RA
Mit der Auswahl der MOs wird die Verwendung von bestimmten Registern impli-
ziert, so dass sich wiederum starke Auswirkungen auf den zu generierenden Spillcode
ergeben.
3.1. EINFU¨HRUNG 51
In Erga¨nzung zu den bereits aufgefu¨hrten Wechselwirkungen treten bei DSPs im Allgemei-
nen Wechselwirkungen zur Adresscode-Generierung auf. Diese ergeben sich hauptsa¨chlich
dadurch, dass es nach der Durchfu¨hrung von CS, IA und RA mehrere Instruktionsse-
quenzen mit einer minimalen Anzahl von MIs geben kann, die jeweils unterschiedliche
Speicherzugris-Sequenzen enthalten. Da diese Speicherzugris-Sequenzen in Verbindung
mit einem zu bestimmenden Speicherlayout wiederum einen groen Einfluss auf die Ver-
wendung vorhandener Adressierungsbefehle aufweisen, ist die letztendlich resultierende
Codequalita¨t auch vom Zusammenspiel dieser beiden Phasen abha¨ngig.
Bei genauerer Betrachtung der Auswirkungen des Gruppenspeichers der M3-Prozessoren
wird klar, dass zusa¨tzlich noch ein Meta-Phasenkopplungsproblem existiert. Aufgrund der
Tatsache, dass mit jedem Speicherzugri eine Gruppe von Daten betroen ist, besteht
ein enger Zusammenhang zwischen der vorhandenen Anordnung von Variablen zu Grup-
pen und der Anzahl auszufu¨hrender Speicherzugrie. Wie in Abschnitt 4.7 noch na¨her
erla¨utert wird, kann die Anzahl der erforderlichen Speicherzugrie dadurch verringert
werden, indem Variablen, auf die ha¨ug zeitnah zugegrien wird, derselben Gruppe zu-
gewiesen werden.
3.1.3 Bedeutung von Adressgenerierungseinheiten
In DSP-Anwendungen erfolgt die Datenhaltung ha¨ug in Arrays, deren Elemente mit na-
hezu beliebig komplexen Zugrisfunktionen adressiert werden ko¨nnen. Dies la¨sst bereits
vermuten, dass eine entsprechende Hardwareunterstu¨tzung zur Berechnung von Adressen
die Programmausfu¨hrungszeit erheblich reduzieren kann. Aus diesem Grund enthalten
DSPs u¨blicherweise separate Adressgenerierungseinheiten (AGUs), mit denen Speicher-
zugrie und Adressberechnungen parallel zu Operationen des Datenpfades durchgefu¨hrt
werden ko¨nnen. Im Allgemeinen ist eine gewisse Anzahl von Adresspointer-Registern AR
vorhanden, mit deren Hilfe eine Adressierung des Speichers erfolgt. Damit die Adresse des
na¨chsten auszufu¨hrenden Speicherzugris nicht in einem separaten Taktzyklus berechnet
werden muss, kann der im entsprechenden Adresspointer-Register enthaltene Wert nach
dem Speicherzugri um einen bestimmten Oset o 2 Zmodiziert werden. Je nach
Quelle des verwendeten Oset wird zwischen den beiden folgenden Adressierungen unter-
schieden:
 Auto-Inkrement
Der Oset stellt eine Konstante dar1, mit der jedoch nur relativ kleine Speicher-
Dierenzen u¨berbru¨ckt werden ko¨nnen. Beim M3-DSP muss dieser Oset z.B. aus
dem Bereich [−128, . . . , 127] sein, wodurch bei einer gegebenen Gruppengro¨e von
1Im Falle einer negativen Konstante wird in diesem Zusammenhang auch von Auto-Dekrement-
Befehlen gesprochen.
52 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
16 Daten insgesamt Adressen von Elementen aus maximal 16 Gruppen (8 vorherige,
7 nachfolgende und der aktuellen) berechnet werden ko¨nnen.
 Auto-Modify
Ist die Neuberechnung einer Adresse mittels einer Konstanten aufgrund eines zu
groen erforderlichen Osets nicht mo¨glich, kann stattdessen der beno¨tigte Oset
in ein Modify-Register MR geladen werden, aus dem dieser dann ausgelesen wird.
Dies hat den Vorteil, dass ausreichend groe Adressbereiche u¨bersprungen werden
ko¨nnen, erfordert bei Bedarf allerdings auch zusa¨tzliche Zyklen zum Laden des O-
sets in das entsprechende Modify-Register.
Eine weitere Adressierungsart beim M3-DSP besteht in der Adressierung des Speichers
relativ zu einer Seitenadresse (Page-Pointer-Adressierung). Hierbei wird ausgehend von
der im Page-Pointer-Register PP vorhandenen Seitenadresse mit Hilfe eines Osets o 2
[0, . . . , 1023] innerhalb dieser Seite adressiert, ohne die im PP-Register enthaltene Adresse
zu modizieren.
Da eine Ausnutzung der speziellen AGU-Anweisungen nur bei Kenntnis des Speicher-
layouts und einer gegebenen Speicherzugris-Sequenz mo¨glich ist, wird die Adresscode-
Generierung nach der Durchfu¨hrung der Teilaufgaben CS, IA und RA in einem separaten
Schritt durchgefu¨hrt. Dabei gilt es im Allgemeinen die Anzahl zusa¨tzlich erforderlicher
MIs so gering wie mo¨glich zu halten. Steht zur Adressierung des Speichers nur ein Adress-
register AR zur Verfu¨gung, wird in diesem Zusammenhang auch vom SOA-Problem (SOA
= Simple-Oset-Assignment) gesprochen. Ist mehr als ein Adressregister vorhanden, han-
delt es sich um das GOA-Problem (GOA = General-Oset-Assignment).
3.1.4 Kombination von Optimierungszielen
Als Schwerpunkt dieser Arbeit wird als Optimierungsziel neben einer u¨blicherweise be-
trachteten Reduzierung der Ausfu¨hrungszeit auch eine Reduzierung des Energieverbrauchs
von DSP-Programmen angestrebt. Da die schnellsten Programme nicht immer gleichzeitig
auch die energieezientesten Programme darstellen mu¨ssen, sind Optimierungsverfahren
erforderlich, die in der Lage sind mehrere Zielsetzungen zu beru¨cksichtigen. In Gegen-
wart von Realzeitanforderungen sind z.B. Verfahren wu¨nschenswert, die unter den Pro-
grammen mit der geringsten Ausfu¨hrungszeit das energieezienteste bestimmen. Spielen
Realzeitanforderungen eine weniger groe Rolle, dann ko¨nnte auch das Programm ge-
sucht sein, das von den Programmen mit dem geringsten Energieverbrauch, die schnellste
Ausfu¨hrung garantiert. Ebenso ist es vorstellbar, dass beliebige Zwischenstufen gesucht
werden. Zur Realisierung eines Codegenerators, der eine derartige Kombination von Ziel-
setzungen zula¨sst, ist eine groe Flexibilita¨t des zugrunde gelegten Optimierungsverfah-
3.2. BESTEHENDE VERFAHREN 53
rens essentiell, um bei vera¨nderten Zielsetzungen eine Neuimplementierung von Techniken
zu vermeiden.
3.2 Bestehende Verfahren
In diesem Abschnitt wird ein U¨berblick u¨ber bestehende Arbeiten im Bereich der Code-
generierung gegeben. Dazu wird im nachfolgenden Abschnitt zuna¨chst auf Arbeiten ein-
gegangen, die sich mit den Teilaufgaben der Codeselektion, Instruktionsanordnung und
Registerallokation befassen. In den beiden darauf folgenden Abschnitten folgt dann ei-
ne kurze Darstellung von Verfahren zur Adresscode-Generierung und von Techniken, die
speziell das Ziel einer Energiereduzierung aufweisen.
3.2.1 Codegenerierung
Eine Vielzahl der in Compilersystemen integrierten Codegeneratoren verwendet
Codeselektions-Verfahren auf Basis von Tree-Pattern-Matchern. Da der Einsatz die-
ser Verfahren fu¨r Prozessoren mit irregula¨ren Befehlssa¨tzen eine Reihe von Nachtei-
len nachsichzieht, wurden Erweiterungen dieser Verfahren entwickelt. So werden z.B.
in [AM95, Ert99] Techniken vorgestellt, die auch fu¨r Graphen eine optimale Codeselektion
in linearer Berechnungszeit erlauben. Wa¨hrend das in [Ert99] beschriebene Verfahren le-
diglich auf GPPs anwendbar ist, kann in [AM95] zumindest eine stark eingeschra¨nkte
Klasse von Zielarchitekturen mit heterogenen Registersa¨tzen gehandhabt werden. Basie-
rend auf dem in [AM95] beschriebenen optimalen Codeselektions-Verfahren fu¨r Graphen
wird in [AML96] eine Heuristik vorgestellt, die eine Unterteilung des Graphen in Ba¨ume
an CSEs vornimmt, deren Wert aufgrund von architekturspezischen Eigenschaften oh-
nehin in den Speicher geschrieben werden muss.
Da Tree-Pattern-Matcher fu¨r Zielarchitekturen mit heterogenen Registersa¨tzen CSEs
gewo¨hnlich im Speicher ablegen und von dort bei jeder Verwendung laden mu¨ssen, wurde
in [Leu00c] eine Erweiterung dieser Verfahren um einen auf Simulated-Annealing basie-
renden Algorithmus vorgeschlagen, mit dem es mo¨glich ist, zumindest einige der CSEs
in Registern zu halten. Eine U¨berdeckung von abstrakten Maschinenoperationen unter-
schiedlicher Ba¨ume mit Maschinenoperationen ist allerdings nach wie vor nicht mo¨glich.
Ebenso wird lediglich nur eine eingeschra¨nkte Kopplung der Phasen CS, IA und RA vor-
genommen.
Ein groes Problem bei der Durchfu¨hrung der Codegenerierung besteht in der Realisie-
rung einer fu¨r optimale Ergebnisse erforderlichen simultanen Betrachtung der Teilauf-
gaben CS, IA und RA. In [KL98] wurde ein Codegenerierungs-Verfahren auf Basis der
ganzzahlig linearen Programmierung (GLP) vorgestellt, mit dem die Phasen der Instruk-
54 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
tionsanordnung und der Registerallokation (ohne die Beru¨cksichtigung von Spillcode) si-
multan gelo¨st werden. Dabei wird das zugrunde gelegte Optimierungsproblem als eine
Menge von (Un-)Gleichungen aufgefasst, mit deren Hilfe die vorhandenen Randbedin-
gungen speziziert werden. Dieses Gleichungssystem wird dann unter Beru¨cksichtigung
einer ebenfalls spezizierten Kostenfunktion mit Hilfe eines herko¨mmlichen Lo¨sungsver-
fahrens (GLP-Solver) gelo¨st. Der Vorteil dieses Verfahrens ist, dass auf elegante Weise
eine simultane Betrachtung der Codegenerierungs-Phasen erzielt werden kann. Weitere
Codegenerierungs-Verfahren auf Basis der ganzzahlig linearen Optimierung werden von
Wilson [WGHB94] und Gebotys [Geb97] vorgestellt. Allerdings stellt die Lo¨sung der Glei-
chungssysteme wiederum die Lo¨sung eines NP-harten Optimierungsproblems dar. Um
die Laufzeiten des GLP-Solvers in vertretbaren Grenzen zu halten, ko¨nnen entweder nur
kleine Programmfragmente u¨bersetzt werden, oder es mu¨ssen bereits bei der Problembe-
schreibung Einschra¨nkungen bezu¨glich der Optimalita¨t der Lo¨sungen in Kauf genommen
werden.
Der von Bashford [BL99, Bas01] vorgestellte Codegenerator verwendet das Prinzip der
Constraint-Programmierung. Hier werden Randbedingungen z.B. hinsichtlich der Verwen-
dung von Ressourcen oder der Ausfu¨hrungsreihenfolge von Maschinenoperationen durch
die Formulierung von Constraints sichergestellt. Nach der Darstellung der zu u¨berset-
zenden Anwendung als eine Menge alternativer Maschinenprogramme wird zuna¨chst eine
graphbasierte Codeselektion und eine Instruktionsanordnung durchgefu¨hrt, die jeweils fu¨r
sich genommen optimal gelo¨st werden. Eine Phasenkopplung wird dadurch erzielt, in-
dem in jeder Phase nur die erforderlichen Ressourcen gebunden werden und dadurch die
Ausgabe wiederum eine Menge von alternativen Maschinenprogrammen darstellt. Jedes
der erhaltenen Maschinenprogramme stellt dann bezu¨glich des vorherigen Schrittes eine
optimale Lo¨sung dar und ra¨umt damit den nachfolgenden Phasen weitreichende Flexibi-
lita¨t ein. Da die Laufzeiten zur Bestimmung der optimalen Lo¨sung fu¨r gro¨ere Graphen
wiederum sehr hoch sein ko¨nnen, wird auch eine Heuristik vorgestellt, mit der eine Auf-
teilung des Graphen in kleinere Probleme vorgenommen wird, ohne allzu groe Einbuen
hinsichtlich der Codequalita¨t hinnehmen zu mu¨ssen.
Ro¨mer beschreibt in [RF98a, RF98b] ein Phasenkopplungsverfahren fu¨r irregula¨re Archi-
tekturen, das ebenfalls in der Lage ist, eine Codeselektion auf Graphen durchzufu¨hren.
Dabei wird das Codegenerierungs-Problem mit Hilfe eines Zustandsdiagramms (Trellis)
dargestellt. Das Problem liegt dabei in der Suche eines optimalen Pfades ausgehend von
einem Startzustand zu einem Endzustand. Der ermittelte Pfad stellt letztendlich die
bezu¨glich einer gegebenen Kostenmetrik (hier: die Anzahl erforderlicher Maschinenbe-
fehle) optimale Sequenz von Maschinenbefehlen dar. Die Suche nach dem besten Pfad
kann dabei mit dem aus der Nachrichtentechnik bekannten Virterbi-Algorithmus durch-
gefu¨hrt werden, dessen Arbeitweise auf dem Prinzip der dynamischen Programmierung
beruht. Dazu wird in jedem Zustand eine Menge von Pfaden verwaltet, die ausgehend
3.2. BESTEHENDE VERFAHREN 55
vom Anfangszustand diesen Zustand mit minimalen Kosten erreichen ko¨nnen. Alle Pfa-
de, die diesen Zustand mit ho¨heren Kosten erreichen, brauchen nachfolgend nicht weiter
betrachtet werden. Allerdings besteht das Problem dieses Verfahrens darin, dass die An-
zahl der Zusta¨nde mit der Gro¨e des Graphen exponentiell ansteigt. Aus dem Grund wird
mit dem M-Algorithmus [LA86] die Anzahl der gleichzeitig zu verfolgenden Pfade auf eine
feste Anzahl M begrenzt. Wird z.B. M auf eins gesetzt, entspricht dies dem bekannten
List-Scheduling-Algorithmus, der in diesem Ansatz in Verbindung mit Heuristiken zur
Auswahl von Befehlen verwendet wird. Je ho¨her der Wert fu¨r M gewa¨hlt wird, desto
bessere Ergebnisse (bei steigenden Laufzeiten) sind zu erwarten. Leider sind keine Ergeb-
nisse dieses Verfahrens vero¨entlicht, so dass keine Ru¨ckschlu¨sse auf die Laufzeit und die
erzielte Codequalita¨t gezogen werden ko¨nnen.
In [LDKT95] wird ein Verfahren beschrieben, das eine optimale graphbasierte Instrukti-
onsauswahl fu¨r Architekturen mit irregula¨rem Datenpfad durch Formulierung als Binate-
Covering-Problem realisiert, ohne jedoch Auswirkungen auf die nachfolgenden Phasen der
Instruktionsanordnung und der Registerallokation mit einzubeziehen. Da die Berechnung
einer exakten Lo¨sung nur fu¨r kleine Probleme praktikabel ist, werden zur Verringerung
der Problemkomplexita¨t zusa¨tzlich Heuristiken vorgeschlagen. Konkrete Ergebnisse wer-
den leider nicht vorgestellt.
Mutation Scheduling [NN94] stellt ein Verfahren dar, mit dem die Phasen der Code-
selektion und der Registerallokation in der Instruktionsanordnungs-Phase integriert sind.
Dabei werden z.B. bei der Codeselektion mit jedem im Programm denierten Wert Men-
gen gleichwertiger Ausdru¨cke assoziiert, von denen in einem Programm immer genau
einer verwendet wird. Muss ein Ausdruck durch einen anderen ersetzt werden, erfolgt ei-
ne heuristische Auswahl des neuen Ausdrucks. In diesem Zusammenhang wird auch von
Mutation gesprochen. Ergebnisse werden fu¨r drei VLIW-Architekturen pra¨sentiert, von
denen lediglich eine Architektur eine geringfu¨gige Irregularita¨t aufweist.
In [HD98] wird mit AVIV ein phasengekoppeltes Codegenerierungs-Verfahren fu¨r VLIW-
Prozessoren vorgeschlagen. Dazu wird zuna¨chst eine Konvertierung der Anwendung in
einen Split-Node-Graphen vorgenommen, der alle mo¨glichen Wege der Implementierung
der Anwendung auf diesem Prozessor beinhaltet. Allerdings kann sich hierbei die An-
zahl der Graphknoten bereits fu¨r kleine Datenflussgraphen sehr stark erho¨hen (bis zum
Faktor 6,6 in [HD98, Han99]). Danach werden mittels eines heuristischen Branch-and-
Bound-Verfahrens die Phasen CS und IA in einem Schritt durchgefu¨hrt, wobei durch das
Einfu¨gen von Spillcode bereits die Auswirkungen der nachtra¨glich durchgefu¨hrten Regi-
sterallokation mitberu¨cksichtigt werden. Es kann allerdings aufgrund der pessimistischen
Abscha¨tzung vorkommen, dass mehr Spills eingefu¨gt werden, als eigentlich erforderlich
sind. Ergebnisse werden fu¨r fu¨nf einfache Routinen, bestehend aus einem Basisblock fu¨r
unterschiedliche VLIW-Architekturen, vorgestellt. Die betrachteten Architekturen stellen
dabei einfache virtuelle VLIW-Architekturen dar, die sich in der Anzahl der parallelen
56 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Funktionseinheiten (zwei bis vier), den auf diesen ausfu¨hrbaren Operationen und den
verfu¨gbaren Registern (zwei oder vier) unterscheiden. Ein Vergleich der Codequalita¨t des
Compilers mit handgeneriertem Code ergab fu¨r diese Routinen jeweils nur geringe Ab-
weichungen.
Genetische Algorithmen (GAs) stellen Optimierungsverfahren dar, die in der Lage sind,
selbst in groen Suchra¨umen ha¨ug optimale oder nahezu optimale Lo¨sungen zu nden.
Aus diesem Grund wurden in der Vergangenheit Verfahren zur Lo¨sung des Scheduling-
Problems auf Basis von genetischen Algorithmen entwickelt. Der von Beaty [Bea91] vorge-
stellte genetische Algorithmus verwendet dabei ein List-Scheduling-Verfahren zur Instruk-
tionsanordnung fu¨r den RISC-Prozessor RS/6000 von IBM [Gro90]. Ergebnisse fu¨r fu¨nf
Benchmarks zeigen, dass bessere Ergebnisse erzielt werden ko¨nnen als bei Verwendung
eines reinen List-Scheduling-Verfahrens.
Ein weiteres reines Scheduling-Verfahren auf Basis eines genetischen Algorithmus wird von
Zeitlhofer in [ZW99] vorgestellt, mit dem auch die Zuweisung von Operationen fu¨r Archi-
tekturen mit eingeschra¨nkter Parallelita¨t mo¨glich ist. Experimentelle Ergebnisse werden
allerdings leider nur fu¨r eine Lattice-Routine bei Betrachtung einer virtuellen Architektur
mit zwei orthogonal zueinander verwendbaren Funktionseinheiten vorgestellt, so dass eine
weitergehende Bewertung der Qualita¨t dieses Verfahren nicht mo¨glich ist.
Ein Scheduling-Verfahren auf einer ho¨heren Ebene auf Basis von genetischen Algorithmen
wird von Fro¨hlich [Fro¨01] vorgeschlagen. Dabei wird mit dem Ziel einer optimierten Anord-
nung von Teilblo¨cken eines Programms ein GA in Kombination mit anderen Optimierungs-
verfahren ausgefu¨hrt. Die Codegenerierung der jeweiligen Teilblo¨cke wird dabei mit Hilfe
eines baumbasierten Codeselektions-Verfahren und einem List-Scheduling-Verfahren zur
Registerallokation und Kompaktierung durchgefu¨hrt. Da in den betrachteten Teilblo¨cken
keine Auslagerung von Variablen in den Speicher mo¨glich ist, wird davon ausgegangen,
dass alle Variablen in Registern gehalten werden ko¨nnen.
3.2.2 Adresscode-Generierung
Das Problem der Adresscode-Generierung besteht darin, die in einem Programm verwen-
deten Variablen derart im Speicher anzuordnen, dass mo¨glichst eektiv Gebrauch von spe-
ziellen AGU-Befehlen, wie z.B. Auto-Inkrement und Auto-Modify gemacht werden kann.
Zur Lo¨sung des SOA/GOA-Problems wurden darum in den letzten Jahren eine Reihe von
Verfahren vorgestellt (s. auch [Leu00a] fu¨r einen U¨berblick), von denen nachfolgend einige
kurz beschrieben werden.
In [Bar92] wurde von Bartley der erste Algorithmus zur Lo¨sung des SOA-Problems vorge-
stellt, indem das SOA-Problem als Graphproblem dargestellt wird. Die Knoten des Gra-
phen stellen dabei die Variablen V = fv
1
, . . . , vng dar, deren Zugrisreihenfolge wa¨hrend
3.2. BESTEHENDE VERFAHREN 57
der Programmausfu¨hrung in Form einer Variablenzugris-Sequenz S = (s
1
, . . . , sm), mit
si 2 V gegeben ist. Zwischen je zwei Knoten werden gewichtete Kanten eingefu¨gt, de-
ren Gewicht sich aus der Anzahl der aufeinander folgenden Zugrie der Variablen ergibt.
Dies ist fu¨r zwei Variablen genau dann gegeben, wenn diese an aufeinander folgenden Po-
sitionen in der Variablenzugris-Sequenz stehen. Das Ziel der Optimierung besteht nun
darin, fu¨r die gegebenen Variablen eine Zuordnung zu Adressen zu bestimmen, so dass
mo¨glichst ha¨ug Auto-Inkrement-Befehle ausgenutzt werden ko¨nnen. Die Suche nach der
optimalen Lo¨sung fu¨r das Adresszuweisungs-Problem besteht letztlich in der Suche ei-
nes maximal gewichteten Hamilton-Pfades im Graphen. Alle nicht ausgenutzten Kanten
des Graphen stellen dabei nicht ausgenutzte Mo¨glichkeiten der Anwendung von Auto-
Inkrement-Befehlen dar, die es dementsprechend zu minimieren gilt. Die Verwendung der
von Bartley vorgestellten Heuristik fu¨hrt fu¨r diese Problemklasse bereits zu guten Ergeb-
nissen.
Liao zeigte in [LDK+95], dass das SOA-Problem bereits unter Ausnutzung eines Adress-
registers und einem Oset von eins ein NP-hartes Optimierungsproblem darstellt. Neben
einem modizierten Kruskal-Algorithmus zur Konstruktion von Hamilton-Pfaden stell-
te er in [LDK+95] auch ein Verfahren zur Lo¨sung des GOA-Problems vor, mit dem
k Adressregister gehandhabt werden ko¨nnen. Da eine Partitionierung der Variablen zu
Adressregistern vorgenommen wurde, konnte als Kern des Lo¨sungsverfahrens wiederum
ein Verfahren zur Lo¨sung des SOA-Problems verwendet werden.
Leupers und Marwedel [LM96] modizierten das von Liao vorgestellte Verfahren durch die
Verwendung einer besseren Heuristik zur Variablen-Partitionierung und durch den Ein-
satz einer Tie-Break-Heuristik. Erweiterungen dieser Verfahren zur Handhabung gro¨e-
rer Auto-Inkrement-Bereiche und den Einsatz von Modify-Registern erfolgten dann z.B.
in [WG97, LD98]. Eine Erweiterung u¨ber Basisblock-Grenzen hinaus wurde z.B. von Leu-
pers [Leu98] und Araujo [AOC02] vorgeschlagen.
Neben der Suche nach einem geeigneten Speicherlayout und einem optimierten Einsatz der
AGU-Ressourcen fu¨r eine gegebene Speicherzugris-Sequenz mu¨ssen bei der Adresscode-
Generierung fu¨r den M3-DSP weitere Punkte beachtet werden. So wird bei keinem der
Verfahren die Problematik der Adresszuweisung fu¨r einen Gruppenspeicher, wie er bei
den M3-Prozessoren vorliegt, betrachtet.
3.2.3 Energieoptimierungen
In den letzten Jahren stellte, neben den klassischen Optimierungszielen wie Ausfu¨hrungs-
zeit und Codegro¨e, in zunehmendem Mae eine Verringerung des Energieverbrauchs
einen wichtigen Punkt bei der Entwicklung von eingebetteten Systemen dar. Dabei wur-
den zur Reduzierung des Energieverbrauchs bislang die meisten Bemu¨hungen im Bereich
des Hardwareentwurfs vorgenommmen. Allerdings besteht aufgrund des zunehmenden
58 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Einsatzes von Prozessoren ein stetig steigender Bedarf an einer Reduzierung des Ener-
gieverbrauchs auf der Softwareebene. Da der Schwerpunkt dieser Arbeit auf der Entwick-
lung von Compilertechniken liegt, werden nachfolgend einige compilergesteuerte Verfah-
ren zur Reduzierung des Energieverbrauchs von ausgefu¨hrten Programmen vorgestellt.
Ein U¨berblick u¨ber Optimierungen auf Hardware- bzw. Softwareebene bendet sich z.B.
in [TMW94a, RP96, MPS98, MB02].
Eine Mo¨glichkeit zur Reduzierung des Energieverbrauchs besteht durch eine Neuanord-
nung der Instruktionen zur Reduzierung der Switchingaktivita¨t aufeinander folgender Be-
fehle (Cold-Scheduling). In [STD94] wird z.B. von einer Reduzierung der Switchingakti-
vita¨t im Bereich von 20% bis 30% fu¨r einen RISC-Prozessor berichtet, bei einer geringfu¨gi-
gen Verringerung der Ausfu¨hrungszeit von 2% bis 4%. Leider werden keine Angaben u¨ber
die letztendlichen Auswirkungen auf den Energieverbrauch gemacht.
In [LLHT00] wird ein Scheduling-Verfahren fu¨r VLIW-Architekturen vorgeschlagen, mit
dem Ziel der Minimierung der Switchingaktivita¨ten des Instruktions-Busses. Als Kosten-
ma wird die Hamming-Distanz verwendet, die die Anzahl unterschiedlicher Bits zwischen
zwei bina¨ren Strings (oder Instruktionen) angibt. Dazu werden zuna¨chst mittels List-
Scheduling die vorhandenen Operationen zu VLIW-Instruktionen (MIs) angeordnet, mit
dem Ziel der Reduzierung der Ausfu¨hrungszeit. Danach werden zwei Scheduling-Schritte
jeweils mit dem Ziel der Reduzierung der Hamming-Distanz durchgefu¨hrt. Im horizontalen
Scheduling wird dabei zuna¨chst eine Neuanordnung der vorhandenen MIs vorgenommen.
Die resultierenden MIs dienen dann als Eingabe fu¨r das vertikale Scheduling, bei dem
die in den MIs enthaltenen MOs anderen MIs zugeordnet werden du¨rfen, ohne jedoch
die Anzahl der MIs zu erho¨hen. Ergebnisse werden fu¨r eine Reihe von Benchmarks fu¨r
zwei virtuelle VLIW-Architektur vorgestellt. Ein Vergleich der optimierten Benchmarks
mit dem Ergebnis des List-Schedulers, das als Ausgangsbasis der Optimierungen diente,
weisen eine Reduzierung der Switchingaktivita¨t von durchschnittlich 13% bzw. 20% auf.
Leider wird in dieser Arbeit ebenfalls lediglich die Switchingaktivita¨t eines Busses als
Bewertungsmastab genommen, so dass wiederum keine Aussagen u¨ber reale Energieein-
sparungen mo¨glich sind.
Neben einer Neuanordnung von Instruktionen zur Reduzierung des Energieverbrauchs
besteht z.B. die Mo¨glichkeit bei der Durchfu¨hrung der Codeselektion unter Befehlen mit
gleicher Funktionalita¨t, energieezientere Befehle auszuwa¨hlen. In [TMW94a] wird vorge-
schlagen, dazu eine modizierte Kostenfunktion eines Tree-Pattern-Matchern zu verwen-
den, indem statt der u¨blicherweise verwendeten Kosten hinsichtlich der Ausfu¨hrungszeit
die Energiekosten verwendet werden.
Des Weiteren bietet sich eine Vermeidung von energieintensiven Speicherzugrien an, in-
dem Variablen mo¨glichst in Registern gehalten werden. Dazu ko¨nnen fu¨r Architekturen
mit homogenen Registerles z.B. globale Registerallokations-Techniken wie das Gra-
3.3. U¨BERSICHT 59
phfa¨rben von Chaitin [CAC+81] eingesetzt werden, mit denen der Spillcode und damit
die Anzahl der Speicherzugrie minimiert wird. Leider sind diese Verfahren bei irre-
gula¨ren Prozessoren, wie dem M3-DSP nicht ohne weiteres anwendbar. In jedem Fall
sollten hier graphbasierte Codeselektions-Verfahren verwendet werden, von denen einige
in Abschnitt 3.2.1 beschrieben wurden.
3.3 U¨bersicht
Bevor im Folgenden auf Details der Realisierung des neu entwickelten Codegenerierungs-
Verfahrens eingegangen wird, erfolgt in diesem Abschnitt zuna¨chst eine Darstellung des
groben Ablaufs. Im einzelnen ergeben sich die in Abb. 3.2 angegebenen Teilschritte:
2. Codegenerierung (CS, IA und RA)
3. Adresscode-Generierung
4. Adresscode-Kompaktierung
1. Preprocessing
Abb. 3.2: Teilschritte im Back-End
1. Preprocessing (! Abschnitt 3.4)
In diesem Schritt werden einige Voraussetzungen zur Durchfu¨hrung der nachfolgen-
den Schritte geschaen. Dies betrit hauptsa¨chlich die Generierung von alternativen
Maschinenprogrammen fu¨r die zugrunde gelegte Architektur.
2. Codegenerierung (! Abschnitt 3.5)
Die Aufgabe der Codegenerierung besteht in der Bindung konkreter Ressourcen an
Graphknoten durch Einschra¨nkung aller Ressource-Mengen auf genau ein Element
und in der Zuweisung eines Ausfu¨hrungszeitpunktes, so dass eine gegebene Ziel-
funktion optimiert wird. Wie bereits erwa¨hnt stellt dies die Lo¨sung eines NP-harten
Optimierungsproblems dar, so dass eziente Lo¨sungsverfahren erforderlich sind, die
das Optimum mo¨glichst gut anna¨hern. Da hierzu die U¨berwindung von lokalen Op-
tima erforderlich ist, ist dem entwickelten Codegenerator ein Optimierungsverfahren
auf Basis eines genetischen Algorithmus zugrunde gelegt (s. [LDL+01, LWDL02]).
Das Ergebnis dieses Optimierungsschrittes stellt einen mit Ressourcen u¨berdeckten
Datenflussgraphen dar, bei dem bereits Spillcode eingefu¨gt ist.
60 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
3. Adresscode-Generierung (! Abschnitt 3.6)
Das Ziel dieses Schrittes besteht zuna¨chst in der Bestimmung eines geeigneten Spei-
cherlayouts (vertikale Adresszuweisung) durch eine Anordnung der bereits festge-
legten Gruppen im Speicher. Danach werden alle zur Adressierung des Speichers
erforderlichen Anweisungen bestimmt und ohne Beru¨cksichtigung von parallelen
Ausfu¨hrungsmo¨glichkeiten in den bereits vorhandenen GeLIR-Code eingefu¨gt, so
dass mit Abschluss dieses Schrittes bereits gu¨ltiger Assemblercode vorliegt.
4. Adresscode-Kompaktierung (! Abschnitt 3.7)
Die Aufgabe dieses Schrittes ist es, die im vorherigen Schritt eingefu¨gten MOs zur
Adressierung des Speichers den endgu¨ltigen Maschineninstruktionen zuzuweisen, so
dass die gegebene Kostenfunktion optimiert wird. Dazu wird wiederum der bereits
zur Durchfu¨hrung der Teilaufgaben CS, IA und RA verwendete genetische Algorith-
mus eingesetzt.
3.4 Preprocessing
Vor der Durchfu¨hrung der Teilaufgaben CS, IA und RA besteht Bedarf an einigen Vor-
verarbeitungsschritten (s. Abb. 3.3). Im einzelnen sind dies:
b) Einlesen architekturspezifischer Merkmale
c) Einfügen potentieller Datentransfers
d) Erzeugung einer initialen Überdeckung
e) Einschränkung von Alternativen (Pruning)
a) Erzeugung einer initialen GeLIR-Programmdarstellung
Abb. 3.3: Teilschritte in der Preprocessing-Phase des Back-Ends
a) Erzeugung einer initialen GeLIR-Programmdarstellung.
Zuna¨chst wird das Quellprogramm mit Hilfe des LANCE-Front-Ends in die LANCE-
Zwischendarstellung u¨berfu¨hrt. Nach der Durchfu¨hrung einiger der dort vorhan-
denen maschinenunabha¨ngigen Standardoptimierungen wird die LANCE-IR an-
schlieend in eine initiale GeLIR-Darstellung transformiert. Da alle nachfolgend
3.4. PREPROCESSING 61
durchgefu¨hrten Optimierungen und Transformationen unabha¨ngig von den LANCE-
Datenstrukturen arbeiten, sind grundsa¨tzlich Konvertierungen von beliebigen ande-
ren Zwischendarstellungen (wie z.B. SUIF) in die GeLIR-Datenstrukturen mo¨glich.
b) Einlesen architekturspezischer Merkmale.
In diesem Schritt werden die spezizierten Architekturmerkmale in die internen
GeLIR-Datenstrukturen u¨bernommen. Da der Codegenerator neben Performance-
ebenfalls Energieoptimierungen durchfu¨hren soll, wird auch die Datenbasis des Ener-
giekostenmodells abgelegt. Mit Hilfe des in Abschnitt 1.2.2 beschriebenen Energie-
kostenmodells kann dann im Codegenerator und im Simulator der Energieverbrauch
von GeLIR-Programmen bestimmt werden.
c) Einfu¨gen potentieller Datentransfers.
Zur Modellierung des mo¨glichen Datenflusses zwischen jeweils zwei datenflussab-
ha¨ngigen Graphknoten werden zusa¨tzliche Graphknoten (Copy-MOs) eingefu¨gt. Zu
diesem Zeitpunkt werden auch erforderliche Datentransfers zwischen Datenpfad-
und AGU-Registern eingefu¨gt, um diese bereits vor der Durchfu¨hrung der
Adresscode-Generierung beru¨cksichtigen zu ko¨nnen. Der generierte Adresscode kann
dann nachtra¨glich eingefu¨gt werden, ohne gegen bestehende Registerzuordnungen zu
verstoen und macht somit keine erneute Registerallokations-Phase erforderlich.
d) Erzeugung einer initialen U¨berdeckung.
Fu¨r jeden vorhandenen Graphknoten wird eine U¨berdeckung mit Ressourcen der
Zielmaschine erzeugt. Dies kann im einfachsten Fall unabha¨ngig von der mit diesem
Knoten assoziierten AMO und anderen Knoten des Graphen geschehen. An dieser
Stelle besteht bereits die Mo¨glichkeit den Suchraum sinnvoll einzuschra¨nken.
e) Einschra¨nkung von Alternativen (Pruning).
In diesem Schritt ko¨nnen basierend auf der zuvor generierten initialen U¨berdeckung
der Graphknoten weitere Einschra¨nkungen des Suchraumes vorgenommen wer-
den, ohne die optimale Lo¨sung auszuschlieen. Eine Einschra¨nkung der Ressource-
Alternativen wird dabei durch U¨berpru¨fung der Knoten- und Kantenkonsistenz mit-
tels der in Abschnitt 2.3.4 vorgestellten Constraintpropagierung vorgenommen. Dies
fu¨hrt dazu, dass zu einem bestimmten Zeitpunkt sichergestellt ist, dass fu¨r jeden
Graphknoten nur Ressourcen ausgewa¨hlt werden ko¨nnen, fu¨r die es eine gu¨ltige
Ressource-Kombination gibt. Des Weiteren wird die Existenz von mindestens einem
gu¨ltigen Datentransferpfad zwischen je zwei datenabha¨ngigen Knoten gewa¨hrleistet.
62 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
3.5 Genetischer Codegenerator (GCG)
Im Zuge dieser Phase ist es die Aufgabe des Codegenerators, durch eine Einschra¨nkung
der Ressource-Alternativen und die Festlegung einer Ausfu¨hrungsreihenfolge eine gegebe-
ne Kostenfunktion zu optimieren. Es ergibt sich fu¨r die Codegenerierung der in Algorith-
mus 3.1 skizzierte Ablauf.
Algorithmus 3.1 (Codegenerierung)
(1) HorizontalAddressAssignment( );
Funktion
(2) HorizontalAddressAssignment( );
Basisblock
(3) GCGPreProcessing( );
(4) GCGRun( );
;
;
gelir
fun gelir
fun
bb fun
bb
bb
FOR EACH OF DO
FOR EACH OF DO
END
END
(1 u. 2) HorizontalAddressAssignment(gelir)
HorizontalAddressAssignemnt(fun)
Wie bereits in Abschnitt 3.1.2 auf Seite 51 erwa¨hnt, ergibt sich fu¨r den M3-DSP
aufgrund des Gruppenspeichers ein Meta-Phasenkopplungsproblem, da die Umset-
zung der Phasen CS, IA und RA stark von der Zuordnung (oder Partitionierung)
der Daten zu Gruppen des Gruppenspeichers abha¨ngig ist. Aus diesem Grund
wird in diesen Schritten zuna¨chst fu¨r alle Daten eine Anordnung zu Gruppen des
M3-Gruppenspeichers vorgenommen (horizontale Adresszuweisung). Entsprechende
Techniken zur Ermittlung einer guten Zuordnung sind fu¨r das weitere Versta¨ndnis
dieses Kapitels nicht erforderlich und werden in Verbindung mit der Ausnutzung
von SIMD-Operationen in Kapitel 4 beschrieben.
In Schritt 1 werden zuna¨chst alle skalaren Variablen und alle komplexen Datentypen
wie z.B. Arrays mit globalem oder statischem Gu¨ltigkeitsbereich Gruppen zugewie-
sen. Danach erfolgt in Schritt 2 eine Zuweisung aller lokal denierten Arrays und
Pointer-Variablen. Dies betrit keine Daten, die aufgrund mangelnder Anzahl freier
Register in den Speicher ausgelagert (gespillt) werden mu¨ssen, da diese erst nach
Durchfu¨hrung der Registerallokation bekannt sind und somit erst im Verlaufe der
Codegenerierung Gruppen zugewiesen werden.
(3) GCGPreProcessing(bb)
Vor Starten des genetischen Codegenerators GCG werden hier einige Vorver-
arbeitungsschritte durchgefu¨hrt. Dies betrit z.B. das Setzen diverser Optimie-
rungsparameter zur Steuerung des genetischen Algorithmus (z.B. Populationsgro¨e
3.5. GENETISCHER CODEGENERATOR (GCG) 63
und Mutationswahrscheinlichkeit) und die Erzeugung von Ausfu¨hrungsreihenfolge-
Beschra¨nkungen zwischen bestimmten Graphknoten, wie Daten-, Output- und Anti-
Abha¨ngigkeiten. Des Weiteren besteht durch die Spezikation von Sequentialisie-
rungskanten die Mo¨glichkeit fu¨r zwei Graphknoten, zwischen denen keine Daten-
abha¨ngigkeit existiert, eine bestimmte Ausfu¨hrungsreihenfolge zu erzwingen.
(4) GCGRun(bb)
In diesem Schritt wird die eigentliche Codegenerierung durchgefu¨hrt. Dabei gilt es
eine mo¨glichst gute U¨berdeckung von Graphknoten des Basisblocks bb mit alter-
nativen Ressourcen zu ermitteln und alle MOs einer MI zuzuordnen. Anschlieend
werden die GeLIR-Datenstrukturen mit dem fu¨r bb besten ermittelten Ergebnis
aktualisiert. Dies geschieht durch die Einschra¨nkung der vorhandenen Ressource-
Alternativen auf genau ein Element in jeder Menge und eine Neuanordnung der
MOs zu MIs. Des Weiteren wird zur Wahrung der Datenkonsistenz eine Aktualisie-
rung der GeLIR-Speicherinformationen von den in den Speicher gespillten Variablen
vorgenommen, deren Werte in anderen Basisblo¨cken wiederverwendet werden.
In den nachfolgenden Abschnitten wird zuna¨chst kurz auf die allgemeine Arbeitsweise
von genetischen Algorithmen und anschlieend auf die Umsetzung des entwickelten gene-
tischen Codegenerators eingegangen.
3.5.1 Optimierung auf Basis genetischer Algorithmen
Zur Lo¨sung von komplexen Optimierungsproblemen haben sich in der Vergangenheit viel-
fach genetische Algorithmen (GAs) bewa¨hrt. Diese nehmen sich die Natur als Vorbild
und lo¨sen Optimierungsprobleme durch Nachahmung des biologischen Evolutionsprozes-
ses [Hol92, Ba¨96]. Dazu besteht in einem GA eine Population aus mehreren Individuen,
die jedes fu¨r sich genommen i.d.R. jeweils eine potentielle Lo¨sung des Optimierungspro-
blems darstellen. Die Repra¨sentation eines Individuums erfolgt mittels eines Chromosoms,
das in einzelne Gene unterteilt ist, die wiederum die Variablen des Optimierungsproblems
darstellen. Das Ziel des GAs besteht nun in der Suche nach einer optimalen Belegung
der Gene mit Werten (Allele), so dass eine gegebene Kostenfunktion optimiert wird. Die
Suche wird dabei durch die Anwendung genetischer Operatoren wie Selektion, Mutation
und Crossover auf die Individuen der Population gesteuert.
Eine sehr wichtige Eigenschaft von GAs ist, dass bevorzugt Genmaterial von gut (an
die Kostenfunktion) angepassten Individuen in nachfolgende Generationen u¨bernommen
wird, wobei auch ungu¨nstige Entscheidungen, die in einer fru¨heren Optimierungsphase
(Generation) gemacht wurden, revidiert werden ko¨nnen. Aus diesem Grund sind GAs
besonders zur Lo¨sung von komplexen Phasenkopplungsproblemen, wie es auch in unserem
Fall vorliegt, geeignet.
64 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
In Abb. 3.4 ist der Ablauf eines genetischen Algorithmus am Beispiel des entwickelten
genetischen Codegenerators skizziert.
1. Initialisierung
2. Bewertung 3. Selektion
5. Mutation
4. Crossover
6. Bewertung
bestes Individuum
- #Zyklen
- Energieverbrauch
Phasen-
kopplung
- Codeselektion
- Instruktionsanordnung
- Registerallokation
Abb. 3.4: Ablauf des genetischen Algorithmus zur Codegenerierung (GCG)
In der Initialisierungsphase (s. Schritt 1) werden alle Individuen der Anfangspopulation
initialisiert, indem die Teilaufgaben der Codegenerierung (CS, IA und RA) durchgefu¨hrt
werden. Hierzu wird ein probabilistisches List-Scheduling-Verfahren verwendet. Eine an-
schlieende Bewertung (s. Schritt 2) der initialisierten Individuen kann anhand unter-
schiedlicher Kriterien vorgenommen werden. In unserem Fall betrit dies zum einen die
Anzahl der erforderlichen Zyklen und zum anderen den Energieverbrauch der gegebe-
nen Instruktionssequenz. Anhand dieser Bewertung werden dann in der Selektionsphase
(s. Schritt 3) die Individuen ausgewa¨hlt, die ihre Gene in die na¨chste Generation vererben
du¨rfen. Im nachfolgenden Schritt werden diese Individuen mittels Crossover zu neuen In-
dividuen rekombiniert und danach einer Mutation unterzogen. Da in unserem Fall durch
die Anwendung des Crossover-Operators ungu¨ltige Individuen entstehen ko¨nnen, wird in
der Mutationsphase eine Korrektur durchgefu¨hrt, bei der in Analogie zu der Vorgehens-
weise im Initialisierungsschritt wiederum die Teilaufgaben CS, IA und RA durchgefu¨hrt
werden. Solange die Abbruchbedingung (z.B. eine max. Anzahl zu simulierender Gene-
rationen) nicht erfu¨llt ist, dient die anschlieende Bewertung in Schritt 6 wiederum als
Grundlage fu¨r die Selektion in Schritt 3. Im anderen Fall terminiert der Algorithmus und
der entsprechende GeLIR-Basisblock wird mit der besten gefundenen Lo¨sung modiziert.
Im nachfolgenden Abschnitt wird zuna¨chst auf die Mo¨glichkeit der Durchfu¨hrung einer
Mehrzieloptimierung bei Verwendung von genetischen Algorithmen eingegangen. Danach
erfolgt eine Beschreibung der chromosomalen Darstellung des Optimierungsproblems, der
Initialisierungs- und Bewertungsphase sowie der genetischen Operatoren des Crossovers
und der Mutation.
3.5. GENETISCHER CODEGENERATOR (GCG) 65
3.5.2 Mehrzieloptimierung mit genetischen Algorithmen
Wie bereits zuvor dargelegt, besteht ein groer Bedarf an Programmen, die einerseits
schnell und andererseits energieezient sind. Da nicht immer das schnellste Programm
auch das energieezienteste sein muss, bietet sich mit der Verwendung von genetischen
Algorithmen ein Lo¨sungsmechanismus zur Handhabung dieser Problematik an. Unter der
Annahme, dass m Zielsetzungen und n Entscheidungsvariablen vorhanden sind, gilt es also
o.B.d.A. das Minimierungsproblem F (~x) = (F
1
(~x), . . . , Fm(~x)), mit ~x = (x1, . . . , xn) 2 X
zu lo¨sen (s. auch [ZDT99]). Dabei wird gesagt, dass eine Lo¨sung a 2 X eine andere Lo¨sung
b 2 X dominiert, wenn a bezu¨glich aller gegebenen Zielkriterien mindestens so gut wie b
abschneidet und in mindestens einem besser.
Denition 3.1 (Dominanz) Wenn a, b 2 X o.B.d.A. Lo¨sungen eines Minimierungs-
problems F (~x) mit m Zielkriterien darstellen, dann wird gesagt, dass die Lo¨sung a die
Lo¨sung b dominiert (geschrieben als: a  b), wenn gilt:
8i 2 f1, . . . , mg : Fi(a)  Fi(b) ^
9j 2 f1, . . . , mg : Fj(a) < Fj(b)
Analog dazu kann der Begri der Nicht-Dominanz deniert werden:
Denition 3.2 (Nicht-Dominanz) Wenn a 2 X eine Lo¨sung eines Optimierungspro-
blems darstellt, dann wird gesagt, dass die Lo¨sung a bezu¨glich einer Menge X 0  X nicht
dominiert wird, wenn es kein Element in dieser Menge gibt, das a dominiert. D.h. es gilt:
6 9a0 2 X 0 : a0  a
Darauf basierend kann der Begri der Pareto-Optimalita¨t deniert werden, der bei der
Mehrzieloptimierung mit genetischen Algorithmen eine wichtige Rolle spielt:
Denition 3.3 (Pareto-Optimalita¨t) Wenn a 2 X eine Lo¨sung eines Optimierungs-
problems darstellt, dann wird die Lo¨sung a als pareto-optimal bezeichnet, wenn es in X
keine Lo¨sung gibt, die a dominiert.
Das Ziel der Optimierung stellt also eine Menge von pareto-optimalen Lo¨sungen dar, un-
ter denen es letztlich gilt eine auszuwa¨hlen. Besonders wu¨nschenswert sind hier natu¨rlich
Lo¨sungen, die hinsichtlich mo¨glichst vieler Zielkriterien das beste Ergebnis erzielen. Dabei
gilt es jedoch wiederum unterschiedliche Gewichtungen der Zielsetzungen zu beru¨cksich-
tigen.
In der Literatur (s. z.B. [Nis97]) werden u.a. die folgenden Mo¨glichkeiten zur Realisierung
einer Mehrzieloptimierung aufgefu¨hrt:
66 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
 Aggregation
Bei diesem Ansatz gehen die einzelnen Zielkriterien mit unterschiedlichen Gewich-
tungen in den Gesamt-Zielfunktionswert ein. Wenn ωi das Gewicht des i-ten Ziel-
kriteriums darstellt, dann ergibt sich bei m Zielkriterien fu¨r eine Lo¨sung ~x 2 X als
Gesamt-Zielfunktionswert:
F (~x) = ω
1
 F
1
(~x) + . . . + ωm  Fm(~x)
Insbesondere bei vielen Zielkriterien stellt die Wahl der einzelnen Gewichtungen ein
Problem dar. Das Ergebnis eines Optimierungslaufes besteht letztendlich in einer
Lo¨sung, die den gegebenen Gesamt-Zielfunktionswert anna¨hert. Eine Auswahl zwi-
schen mehreren pareto-optimalen Lo¨sungen nach Beendigung der Optimierung ist
also nicht mo¨glich.
 Wechselnde Zielsetzungen
Bei diesem Ansatz werden die Individuen bezu¨glich aller gegebenen m Zielkriterien
bewertet. Die Selektion wird dann in m Teilschritten durchgefu¨hrt, wobei in jedem
dieser Teilschritte ein entsprechender Anteil der Individuen bezu¨glich eines der Ziele
selektiert wird. Individuen, die hinsichtlich mehrerer Zielkriterien gute Lo¨sungen
darstellen, du¨rfen dadurch ihre Gene bevorzugt in die na¨chste Generation vererben,
was tendentiell zu guten Lo¨sungen hinsichtlich mehrerer Zielkriterien fu¨hrt.
 Pareto-basierte Ansa¨tze
Ein Ansatz bei dem die Dominanz (bzw. Nicht-Dominanz) von Lo¨sungen gegenu¨ber
anderen eine wichtige Rolle spielt, wird z.B. in [Gol89] beschrieben. Dazu werden
alle Individuen, die nicht dominiert werden, dem Rang eins zugewiesen. Von den
u¨brig gebliebenen werden dann diejenigen dem nachfolgenden Rang zugewiesen, die
von keinem der restlichen Individuen dominiert werden. Dies wird fortgesetzt, bis
jedes Individuum einem Rang zugewiesen wurde. Im nachfolgenden Selektionsschritt
werden dann Individuen mit einem hohen Rang bevorzugt ausgewa¨hlt.
In unserem Fall ist ein Speichern mehrerer pareto-optimaler Lo¨sungen nicht ohne weiteres
mo¨glich, da unterschiedliche Lo¨sungen fu¨r einen Basisblock i.d.R. auch zu unterschied-
lichen Speicherlayouts fu¨hren, die an nachfolgende Optimierungsschritte weitergereicht
werden mu¨ssen. Aus dem Grund bietet sich hier zur Mehrzieloptimierung eine Aggrega-
tion von Energie- und Ausfu¨hrungszeit an. Dies soll dennoch die Kombination mit an-
deren Ansa¨tzen nicht ausschlieen. Ein Vergleich unterschiedlicher Vorgehensweisen zur
Durchfu¨hrung einer Mehrzieloptimierung wird z.B. in [ZDT99] vorgestellt.
3.5. GENETISCHER CODEGENERATOR (GCG) 67
3.5.3 Chromosomale Darstellung
Die chromosomale Darstellung einer Lo¨sung des Optimierungsproblems ist essentiell bei
der Umsetzung von genetischen Algorithmen. Da die Codegenerierung fu¨r einzelne Basis-
blo¨cke einer Funktion durchgefu¨hrt wird, muss mit einem solchen Chromosom die Dar-
stellung von beliebigen Instruktionssequenzen eines Basisblocks, gegeben durch einen Da-
tenflussgraphen, mo¨glich sein. Um DFGs in Assemblercode abbilden zu ko¨nnen, kodiert
in unserem Ansatz ein Individuum die Maschinencodesequenz eines BBs. Dazu werden
wie in Abb. 3.5 verdeutlicht, die in der graphbasierten Zwischendarstellung des Quellpro-
gramms vorhandenen Graphknoten als Gene dargestellt, so dass also jedes Individuum
dieselbe Anzahl von Genen (hier 23) aufweist. Die schwarz hinterlegten Nummern an den
Graphknoten geben die Position des dazugeho¨rigen Gens auf dem Chromosom an.
16
15
23
23
21
19
17
18
14
13
12
11
10
9
7
8
6
3
4
5
2
1
+
*
2
LD
ST
&a
+
&b
&c
LD
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
Gen 2:
’none’
’cnst2’,’cnst_int9’
Op ={CP,LDImmed}
FU ={DTU}
IT ={1}
Def ={A,B,C,’cnst2’}
Arg1={ }
Arg2={ }
Gen 1:
Def ={’cnst2’,’cnst_int9’}
Gen 6:
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,’*’}
Arg1={A,B,C,’cnst2’}
Arg2={A,B,C,D}
Gen 20:
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={A,B,C,ACCU}
Arg2={A,B,C,ACCU}
Gen 17:
Op ={CP,ST,ElDT,MV}
FU ={AGU,DTU,LMU}
IT ={1,2}
Def ={MEM,A,B,C,D,ACCU,’*’}
Arg1={ addr }
Arg2={ACCU,’*’}
’ ’
20
…
…
…
…
ChromosomDatenflussgraph
3
Abb. 3.5: Chromosomale Darstellung
Die Knoten des Graphen entsprechen demnach den auszufu¨hrenden Operationen, wobei
die potentiell mo¨glichen Datentransfers durch CP-AMOs (CP = Copy) repra¨sentiert wer-
den. Die zur Auswahl stehenden Auspra¨gungen (z.B. alternative Ressourcen, relativer
Ausfu¨hrungszeitpunkt) eines Gens werden mit dem jeweiligen Gen gespeichert. Durch die
gegebene Darstellung der Kombinationsmo¨glichkeiten von Ressourcen ist keine spezielle
68 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Handhabung zur Ausnutzung von kommutativen Operationen erforderlich, da bereits bei
der Spezikation der Operationen entsprechend gespiegelte Ressource-Kombinationen als
separate Alternativen eingefu¨gt wurden. Hieraus ergeben sich bezu¨glich der Durchfu¨hrung
der Codegenerierung trotz der Existenz von Spezialregistern keine Sonderfa¨lle.
3.5.4 Initialisierung
Die Initialisierung wird fu¨r jedes Individuum separat durchgefu¨hrt und hat das Ziel, jedem
Gen des Individuums ein (oder in unserem Fall) mehrere eindeutige Merkmale (Allele)
zuzuordnen, so dass dieses Individuum eine potentielle Lo¨sung des zugrunde gelegten
Optimierungsproblems darstellt. In unserem Fall gilt es also, in dieser Phase fu¨r jedes
Gen eine Reihe von Ressourcen auszuwa¨hlen und zuzuordnen. Dabei ist es wu¨nschens-
wert, mo¨glichst unterschiedliche Individuen zu erzeugen, um einer vorzeitigen Konvergenz
des GAs in einem lokalen Optimum vorzubeugen. Um bereits in der Anfangsphase des
Optimierungsprozesses mo¨glichst gut an die Kostenfunktion angepasste Individuen zu er-
zeugen, bietet sich in dieser Phase auch der Einsatz von Heuristiken an, ohne jedoch die
Erzeugung einer mo¨glichst heterogenen Population aus den Augen zu verlieren. In unserem
Fall bedeutet dies zum Beispiel, dass im Optimalfall jedes Individuum der Population eine
andere Codesequenz darstellt. Oensichtlich ist es dazu erforderlich, die Teilaufgaben CS,
IA und RA durchzufu¨hren. Das Grundprinzip dieses Verfahrens ist in Algorithmus 3.2 in
Form eines Pseudocode-Algorithmus dargestellt und wird nachfolgend na¨her beschrieben.
Algorithmus 3.2 (Initialisierung)
WHILE DO
END
empty
(1) = InstructionScheduling( );
(2) = CodeSelection( );
(3) = SelectFunctionalUnit( );
(4) = SelectInstructionType( );
(5) = RegisterAllocation( );
(6) = Compaction( );
(7) Update( );
;
ready_set
gene individuum
op gene
fu gene
it gene
def gene
cs gene
ready_set
„
// Durchführung der Constraintpropagierung nach den Schritten (2) bis (5)
gene
gene
gene
gene
gene
Das Verfahren basiert auf der Durchfu¨hrung einer Variante des List-Schedulings [Bak74],
bei der alle zu einem bestimmten Zeitpunkt ausfu¨hrbaren Operationen in einer Menge
(ready set) verwaltet werden. Die Schritte (1) bis (7) werden solange durchlaufen, wie
Elemente in dieser Menge vorhanden sind. Nach den Schritten (2) bis (5) wird jeweils eine
Constraintpropagierung durchgefu¨hrt.
3.5. GENETISCHER CODEGENERATOR (GCG) 69
(1) InstructionScheduling(individuum)
Wa¨hrend beim traditionellen List-Scheduling, die in der Menge ready set enthal-
tenen Elemente bezu¨glich eines heuristischen Auswahlkriteriums nach Priorita¨ten
geordnet und aufgrund dieser Sortierung ausgewa¨hlt werden, erfolgt hier analog
zu der in [Bea91] beschriebenen Vorgehensweise auch eine probabilistische Aus-
wahl. Diese wird dabei z.B. anhand des fru¨hest- (ASAP = As-Soon-As-Possible)
bzw. spa¨testmo¨glichen (ALAP = As-Late-As-Possible) Ausfu¨hrungszeitpunktes ei-
ner Operation oder bezu¨glich der Dierenz von ALAP- und ASAP-Werten (Mobi-
lita¨t) vorgenommen.
Alle Gene, die auf der AGU auszufu¨hrende Operationen kodieren, werden in der
nachfolgenden Adresscode-Generierung behandelt und brauchen in dieser Phase
nicht na¨her betrachtet werden.
Die Komplexita¨t dieses Teilschrittes betra¨gt O(jV j).
(2-5) CodeSelection(gene)
SelectFunctionalUnit(gene)
SelectInstructionType(gene) und
RegisterAllocation(gene)
Fu¨r das zuvor ausgesuchte Gen wird nun aus den gegebenen Ressource-Alternativen
probabilistisch eine Operation, eine Funktionseinheit, ein Instruktionstyp und eine
Denitionsregister-Ressource ausgesucht. Nach jedem Teilschritt wird jeweils mittels
Constraintpropagierung die Knoten- und Kantenkonsistenz sichergestellt.
Wenn setgene die Ressource-Menge darstellt, aus der eine Auswahl erfolgen soll, dann
kann die Komplexita¨t dieses Teilschrittes mit O(jsetgenej) abgescha¨tzt werden.
(6) Compaction(gene)
In diesem Schritt gilt es, das aktuelle Gen einem konkreten Kontrollschritt csgene
zuzuweisen. Dazu wird zuna¨chst einmal die Menge der mo¨glichen Ausfu¨hrungs-
zeitpunkte bestimmt, aus denen spa¨ter eine Auswahl erfolgt. Wenn csmax den bis-
lang ho¨chsten vergebenen Kontrollschritt darstellt, dann ergeben sich die folgenden
Mo¨glichkeiten:
{ Auswahl des na¨chsten zu vergebenden Kontrollschritts csmax + 1.
{ Parallele Ausfu¨hrung mit Operationen, denen bereits ein Kontrollschritt (klei-
ner gleich csmax) zugewiesen wurde und zu denen keine Ressource-Konflikte be-
stehen. Auf die Vorgehensweise zur Ermittlung der relevanten Kontrollschritte
wird im Anschluss an die Beschreibung dieses Algorithmus eingegangen.
{ In Gegenwart von CSEs kann es vorkommen, dass das Ergebnis einer Operation
bereits in einer Register-Ressource vorliegt, in die auch die aktuelle Operation
schreiben kann. Ist ein solcher Fall gegeben, kann ohne Ru¨cksicht auf weitere
70 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Ressource-Konflikte auf die Ausfu¨hrung dieser Operation verzichtet werden.
Dies wu¨rde dann durch das Legen eines Bypass2 und die Zuweisung zum spe-
ziellen Kontrollschritt 0 umgesetzt werden. Eine genauere Beschreibung der
Vorgehensweise erfolgt weiter unten in diesem Abschnitt auf Seite 71 anhand
eines Beispiels.
Da csmax nicht gro¨er als die Anzahl von Graphknoten werden kann, betra¨gt die
Komplexita¨t dieses Teilschrittes O(jV j).
(7) Update(ready set)
Abschlieend wird das behandelte Gen aus der Menge ready set entfernt und es
werden die Gene aufgenommen, die nun nicht mehr gegen Daten-, Anti-, Output-,
und Sequentialisierungs-Constraints verstoen.
Die Komplexita¨t dieses Schrittes betra¨gt O(jEj).
Die Laufzeit zur Initialisierung eines Genes (entspricht einem Schleifendurchlauf) betra¨gt
O(jEj) und kann dementsprechend fu¨r alle Gene mit O(jV j  jEj) abgescha¨tzt werden.
Parallelisierung unter Beru¨cksichtigung von Ressource-Constraints
Bei der Zuweisung einer Operation zu einem Kontrollschritt, in dem bereits andere Ope-
rationen ausgefu¨hrt werden, ist die Einhaltung einer Reihe von Ressource-Constraints
erforderlich. Mit Hilfe des Algorithmus 3.3 kann die Menge cs set von Kontrollschritten
ermittelt werden, zu denen eine parallele Ausfu¨hrung mo¨glich ist. Die dort verwendeten
Variablen def, arg, fu und it stellen Ressource-Mengen fu¨r Zielregister, Argumentregister,
Funktionseinheiten und Instruktionstypen dar. Mit gene-indizierte Variablen repra¨sentie-
ren dabei Ressource-Mengen vom aktuell zuzuordnenden Gen und die mit cs-indizierten
Variablen jeweils die Vereinigung aller bisher im Kontrollschritt cs verwendeten Ressour-
cen.
Beginnend beim bislang ho¨chsten zugewiesenen Kontrollschritt csmax wird sukzessive bis
zum Kontrollschritt 1 bzw. Erreichen einer Abbruchbedingung getestet, ob eine parallele
Ausfu¨hrung zum aktuellen Kontrollschritt mo¨glich ist. Dazu wird mit dem ersten Teil
von Bedingung (1) zugesichert, dass bereits zuvor denierte Register-Ressourcen nicht
vorzeitig neudeniert werden und mit dem zweiten Teil, dass in den vom zuzuordnenden
Gen verwendeten Argument-Registern die beno¨tigten Werte bereits vorliegen (! Daten-
flussabha¨ngigkeit). Wird gegen diese Bedingung verstoen, ist eine Zuweisung an kleinere
Kontrollschritte nicht mehr mo¨glich und der Algorithmus terminiert. Mit der Bedingung
2In [Bas01] wird in diesem Zusammenhang von einer "U¨berlagerung von Datentransferpfaden\ ge-
sprochen, die allerdings nur unter der Voraussetzung mo¨glich ist, wenn zwei FMOs "absolut identische
Datentransfer-Operationen\ repra¨sentieren.
3.5. GENETISCHER CODEGENERATOR (GCG) 71
Algorithmus 3.3 (Kontrollschritt-Ermittlung)
FROM DOWNTO DO
IF AND DO
STOP
END
IF AND DO
END
IF
STOP
END
END
= 1
(1)
;
;
(2) ==
.insert( );
;
(3)
;
;
;
cs cs
def def
it it fu fu
cs_set cs
max
gene cs
gene cs gene cs
˙ „ ˙ „
„
˙ „
empty empty
empty
arg def
def arg
gene cs
gene cs
DO
(2) wird sichergestellt, dass dieselben Instruktionstypen verwendet werden und dass ei-
ne Funktionseinheit innerhalb desselben Kontrollschritts nicht mehrfach verwendet wird.
Wenn diese Bedingung erfu¨llt ist, kann die durch das Gen gene repra¨sentierte Operation
im aktuellen Kontrollschritt cs ausgefu¨hrt werden und wird somit in die Menge cs set
eingefu¨gt. Der Algorithmus terminiert ebenfalls, wenn die Operation des Gens Register-
Ressourcen deniert, die im aktuellen Kontrollschritt cs von einer anderen Operation
verwendet werden (s. Bedingung (3)).
Vermeidung der Ausfu¨hrung von Operationen mittels Bypass
Wie bereits in Abschnitt 3.1.1 festgestellt, weist die Durchfu¨hrung einer graphbasierten
im Vergleich zu einer baumbasierten Codeselektion ein erhebliches Optimierungspoten-
tial auf. So besteht neben einer eektiveren Umsetzung der Codeselektion ebenfalls die
Mo¨glichkeit, einmal berechnete Werte von CSEs bis zu ihren Verwendungen in Registern
zu halten. Mit dem auf Seite 67 in Abb. 3.5 dargestellten Datenflussgraphen, wie er nach
Einfu¨gen der potentiell mo¨glichen Datentransfers vorkommen kann, taucht nun allerdings
das folgende Problem auf: Das Ergebnis der CSE (s. Ergebnis der Multiplikation) wird
in zwei nachfolgenden Operationen (s. Additionen) beno¨tigt. Aus diesem Grund ist ein
Transport dieses Wertes auf jeweils separaten Verbindungswegen zu den jeweiligen Ver-
wendungen vorgesehen. Dass dies jedoch nicht die Mo¨glichkeit zur Nutzung identischer
Datentransferwege abdeckt, wird in Abb. 3.6 a) bis d) anhand des relevanten Ausschnitts
aus dem DFG aus Abb. 3.5 verdeutlicht.
Bereits im Verlauf der Codegenerierung abgearbeitete Gene (oder Graphknoten) sind
schattiert dargestellt und bereits mit den zugewiesenen MOs und der Zielregister-
Ressource markiert. So wurden in Teil a) der Abbildung bereits die Gene 6, 10, 11, 17 und
72 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
11
17
18
11
19
17
18
11
19
17
18
11
19
20
13
12
10
6
MUL
CP
CP
DT
ST
CP
LD
+ +
ACCU
A
ACCU MEM
M
20
13
12
10
6
MUL
CP
CP
DT
ST
LD
+ +
ACCU
A
ACCU MEM
M
A
20
13
12
10
6
MUL
CP
CP
DT
ST
LD
+ +
ACCU
A
ACCU MEM
M
A
DT DT
20
13
12
10
6
MUL
CP
CP
DT
+ +
ACCU
A
ACCU
a) b) c) d)
Abb. 3.6: Beispiel der Umsetzung eines Bypass
18 abgearbeitet. Gen 10 fu¨hrt dabei eine virtuelle Kopierfunktion aus und Gen 11 einen
Datentransfer vom ACCU in die Ressource A, wa¨hrend im rechten Teil die CSE zuna¨chst
in den Speicher geschrieben (Gen 17) und danach wieder aus dem Speicher geladen wird
(Gen 18). Teil b) der Abbildung zeigt nun, dass dem Gen 19 die MO DT und das Zielre-
gister A zugewiesen wurde. Da der zu schreibende Wert allerdings bereits im Register A
vorliegt (s. Gen 11), kann auf die Ausfu¨hrung von Gen 19 verzichtet und ein Bypass von
Gen 11 nach Gen 20 gelegt werden (s. Teil c)). Dies fu¨hrt dazu, dass die zuvor ausgefu¨hr-
ten Speicherzugrie in Gen 17 und 18 nicht mehr erforderlich sind. Diese stellen somit
Dead-Code dar und ko¨nnen eliminiert werden (Teil d)). Auf diese Weise ko¨nnen nicht nur
Datentransfers eliminiert werden, sondern ebenfalls Load-, Store- und arithmetische Ope-
rationen. Die Ermittlung, ob bestimmte Gene denselben Wert denieren, kann einmalig
vor der Durchfu¨hrung der Codegenerierung mit Hilfe der Zuweisung von Value-Nummern
durchgefu¨hrt werden. Zwei Gene erhalten dabei dieselbe Value-Nummer, wenn diese den-
selben Wert denieren. Ein solcher Algorithmus ist auf den GeLIR-Datenstrukturen im-
plementiert und kann in [Muc97] nachgelesen werden.
In Abb. 3.7 ist ein mit Hilfe des in diesem Abschnitt vorgestellten Verfahrens initialisiertes
Individuum abgebildet. Es ist zu erkennen, dass bei allen Genen die Mengen alternativer
Auswahlmo¨glichkeiten auf genau ein Element eingeschra¨nkt und ebenso eine Zuordnung
der Gene zu Kontrollschritten (also Zuordnung von MOs zu MIs) vorgenommen wurde.
Aus Platzgru¨nden wurden keine Gene angegeben, die mit einer virtuellen Copy-Anweisung
u¨berdeckt wurden und somit nicht ausgefu¨hrt werden.
3.5. GENETISCHER CODEGENERATOR (GCG) 73
17
14
13
9
6
5
+
*
1
2
7
8
&b
LD
CP
CP
Gene 3, 7 & 22:
Def ={addr}
Gen 1:
Def ={cnst2}
4
LD
&a
3
22
23
ST
&c
20
+
MI1
MI2
MI3
MI4
MI7
Gen 4 & 8:
Op ={LD}
FU ={AGU}
IT ={1}
Def ={M}
Arg1={addr}
Arg2={MEM}
Gen 5:
Op ={ElDT}
FU ={DTU}
IT ={1}
Def ={C}
Arg1={ none }
Arg2={M}
 
Gen 6:
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={cnst2}
Arg2={C}
Gen 9:
Op ={ElDT}
FU ={DTU}
IT ={1}
Def ={B}
Arg1={ none }
Arg2={M}
 
Gen 13:
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={ACCU}
Arg2={B}
Gen 20:
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={A}
Arg2={C}
Gen 23:
Op ={ST}
FU ={AGU}
IT ={1}
Def ={MEM}
Arg1={addr}
Arg2={ACCU}
CP
MI5
CP
MI6
Gen 14:
Op ={MV}
FU ={LMU}
IT ={2}
Def ={C}
Arg1={ none }
Arg2={ACCU}
 
Gen 17:
Op ={ElDT}
FU ={DTU}
IT ={1}
Def ={A}
Arg1={ none }
Arg2={ACCU}
 
Abb. 3.7: Initialisiertes Individuum
74 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
3.5.5 Bewertung der Individuen
Die Bewertung der Individuen einer Population dient zur Dierenzierung der unterschied-
lichen Lo¨sungen. O.B.d.A. stellen Individuen, die geringe Kosten verursachen, bessere
Lo¨sungen dar, als solche mit ho¨heren Kosten und werden im nachfolgenden Selektions-
schritt mit einer gro¨eren Wahrscheinlichkeit beru¨cksichtigt. Aufgrund der Komplexita¨t
der Problemstellung kann es dazu kommen, dass Individuen gegen bestimmte Randbedin-
gungen (wie z.B. Ressource-Constraints) verstoen. Da es in diesem Fall erforderlich wa¨re,
Korrekturcode einzufu¨gen, wird ein solches Individuum ind mit einer Strafe penaltyind be-
legt, die mit einem Gewicht von ωp mit in die Bewertung eingeht. Die Ho¨he der Strafe
richtet sich dabei nach dem Ausma des Fehlers und ko¨nnte z.B. die Anzahl von Prozes-
sorinstruktionen umfassen, die zur Korrektur zusa¨tzlich eingefu¨gt werden mu¨ssten. Als
sinnvoller Wert fu¨r ωp ko¨nnte auch ein Wert dienen, der sicherstellt, dass Individuen, die
gegen Randbedingungen verstoen, schlechter bewertet werden als solche, die alle Rand-
bedingungen erfu¨llen.
Eine Optimierung hinsichtlich unterschiedlicher Optimierungsziele kann aufgrund der fle-
xiblen Gestaltungsmo¨glichkeit der Bewertungsfunktion in einem GA auf sehr einfache Wei-
se realisiert werden. Da wir in unserem Fall neben einer Reduzierung der Ausfu¨hrungszeit
auch eine Reduzierung des Energieverbrauchs anstreben, werden im Folgenden alternativ
verwendbare Kostenfunktionen vorgestellt.
Minimierung der Ausfu¨hrungszeit
Die Bewertung eines Individuums bezu¨glich der Ausfu¨hrungszeit ist in O(1) mo¨glich, da
bereits wa¨hrend der Erzeugung des Individuums alle erforderlichen Informationen gene-
riert werden. So reicht neben der Anzahl der Versto¨e gegen Ressource-Constraints, die
Kenntnis der Anzahl beno¨tigter Kontrollschritte csind eines Individuums aus. Die Kosten
fu¨r ein Individuum ind ergeben sich somit aus einem Straf- und einem Zeitanteil:
costind = ωp  penaltyind
︸ ︷︷ ︸
Strafanteil
+ ωcs  csind
︸ ︷︷ ︸
Zeitanteil
(3.1)
Wird ωcs auf eins und ωp gro genug gewa¨hlt (z.B. max. Anzahl ausfu¨hrbarer Kontroll-
schritte), so werden Individuen, die gegen keine Randbedingungen verstoen, in jedem
Fall besser bewertet als die u¨brigen.
Minimierung des Energieverbrauchs
Die Bestimmung des Energieverbrauchs energyind einer bestimmten Codesequenz eines
Individuums ind kann mittels des in Abschnitt 1.2.2 beschriebenen Energiekostenmodells
3.5. GENETISCHER CODEGENERATOR (GCG) 75
in O(jMIsj) sehr ezient durchgefu¨hrt werden, da beginnend mit der ersten MI nur Kosten
zur unmittelbar nachfolgenden MI bestimmt werden mu¨ssen. Als Kostenfunktion kann
z.B.
costind = ωp  penaltyind
︸ ︷︷ ︸
Strafanteil
+ ωen  energyind
︸ ︷︷ ︸
Energieanteil
(3.2)
verwendet werden.
Kombination von Optimierungszielen
Die alleinige Optimierung des Energieverbrauchs ist normalerweise nicht ausreichend,
da i.d.R. weitere Randbedingungen bezu¨glich der Ausfu¨hrungszeit vorhanden sind. Aus
diesem Grund ist es wichtig, dass eine Codegenerierung unter Beru¨cksichtigung mehre-
rer, oftmals widerspru¨chlicher, Optimierungsziele mo¨glich ist. Soll zum Beispiel aufgrund
von vorhandenen Realzeitbedingungen eine Optimierung in erster Linie hinsichtlich der
Ausfu¨hrungszeit vorgenommen werden, ko¨nnte die folgende Kostenfunktion verwendet
werden:
costind = ωp  penaltyind
︸ ︷︷ ︸
Strafanteil
+ ωcs  csind
︸ ︷︷ ︸
Zeitanteil
+ ωen  energyind
︸ ︷︷ ︸
Energieanteil
(3.3)
Diese Kostenfunktion entha¨lt in Erga¨nzung zu der in Gleichung 3.1 angegebenen Kosten-
funktion einen Energieanteil. Wenn energymax den maximal mo¨glichen Energieverbrauch
darstellt und ωen auf (energymax)
−1 gesetzt wird, werden hierdurch lediglich Kosten von
kleiner gleich eins verursacht, so dass
"
schnellere\ Lo¨sungen in jedem Fall gegenu¨ber den
energiea¨rmeren bevorzugt werden. Weitere Optimierungsziele wie die Minimierung der
Codegro¨e ko¨nnen auf analoge Weise beru¨cksichtigt werden.
3.5.6 Selektion
Vor Durchfu¨hrung der eigentlichen Selektion wird eine Elite-Selektion durchgefu¨hrt, in-
dem eine bestimmte Anzahl von Individuen unvera¨ndert in die na¨chste Generation u¨ber-
nommen wird. Im Zuge der Selektion gilt es nun, auf der Basis der zuvor durchgefu¨hrten
Bewertung, diejenigen Individuen auszuwa¨hlen, die ihre Gene in die na¨chste Generation
vererben du¨rfen. Zur Durchfu¨hrung der Selektion wird der Auswahlalgorithmus Stochastic
Universal Sampling (SUS) angewendet (s. z.B. [Nis97] fu¨r Details).
76 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
3.5.7 Crossover
Der Crossover-Operator hat die Aufgabe, das Genmaterial zweier Individuen (Eltern) zu
neuen Individuen (Kinder) zu rekombinieren, die jedes fu¨r sich genommen wiederum eine
Lo¨sung des Optimierungsproblems darstellen. Die erzeugten Nachkommen bestehen dabei
teilweise aus Genen des einen und teilweise aus Genen des anderen Elter. Das Crossover
wird dabei nur mit einer bestimmten Wahrscheinlichkeit durchgefu¨hrt. Wu¨nschenswert
sind hier Crossover-Varianten, die nur gu¨ltige Individuen erzeugen, also korrektheitser-
haltend sind. Leider ist dies aufgrund der groen Anzahl einzuhaltender Randbedingun-
gen (wie z.B. Datenabha¨ngigkeiten und Ressourcenbeschra¨nkungen) nicht ohne weiteres
umsetzbar. Aus diesem Grund wird in der nachfolgend durchlaufenen Mutationsphase
zusa¨tzlich eine Korrektheitsu¨berpru¨fung aktueller Genbelegungen durchgefu¨hrt, um wie-
derum gu¨ltige Individuen zu erzeugen. Dadurch ko¨nnen alle ga¨ngigen Crossover-Verfahren
verwendet werden. Ha¨ug verwendete Varianten sind:
 Einpunkt-Crossover
Bei dieser Crossover-Variante werden die Gene zweier Elter derart miteinander kom-
biniert, dass alle Gene ausgetauscht werden, die nach einer probabilistisch bestimm-
ten Position auf dem Chromosom liegen. In Abb. 3.8 ist dies anhand von Chromo-
somen mit neun Genen verdeutlicht, deren Allele hier beispielhaft Ausfu¨hrungszeit-
punkte der damit assoziierten Operation darstellen. Der Pfeil in diesem Beispiel gibt
den Crossover-Punkt an und besagt also, dass die Gene vier bis neun ausgetauscht
werden sollen.
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
0
2 4
3 1 0 4 3 5
0
1 3
0 2 1 0 4 5
Kind1
Kind2
0 1 3 0 2 1 0 4 5
0
2 4 3 1 0 4 3 5
Elter1
Elter2
Abb. 3.8: Beispiel zur Umsetzung des Einpunkt-Crossovers
 Zweipunkt-Crossover
Diese Crossover-Variante entspricht der des Einpunkt-Crossover, allerdings werden
hier alle Gene ausgetauscht, die zwischen zwei probabilistisch bestimmten Stellen des
Chromosoms vorkommen (s. Abb. 3.9). Eine Erweiterung dieser Crossover-Variante
auf eine beliebige Anzahl von Crossover-Punkten ist problemlos mo¨glich und wird
u¨blicherweise als N -Punkt-Crossover bezeichnet.
 Uniform-Crossover
Beim Uniform-Crossover wird fu¨r jedes einzelne Gen des Chromosoms separat mit
3.5. GENETISCHER CODEGENERATOR (GCG) 77
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
0
1 3
0 2 1
0 4 5
0
2
4
3 1 0
4 3 5
Kind1
Kind2
0 1 3 0 2 1 0 4 5
0
2 4 3 1 0 4 3 5
Elter1
Elter2
Abb. 3.9: Beispiel zur Umsetzung des Zweipunkt-Crossovers
einer bestimmten Wahrscheinlichkeit entschieden, ob dieses Gen ausgetauscht wer-
den soll (s. auch markierte Gene in Abb. 3.10).
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
0
1 3
0
2
1
0
4 5
0
2 4
3
1
0
4
3 5
Kind1
Kind2
0 1 3 0 2 1 0 4 5
0
2 4 3 1 0 4 3 5
Elter1
Elter2
Abb. 3.10: Beispiel zur Umsetzung des Uniform-Crossovers
Alle zuvor vorgestellten Crossover-Varianten haben gemein, dass sie einen Austausch der
Gene aufgrund ihrer relativen Anordnung auf dem Chromosom ohne Beru¨cksichtigung
der aktuellen Genbelegungen durchfu¨hren. Die in [SMM+91] vorgestellten Untersuchun-
gen mit sechs unterschiedlichen Crossover-Varianten fu¨r zwei reale Anwendungsprobleme
zeigen, dass fu¨r jedes der Anwendungsprobleme jeweils eine anderere Crossover-Variante
zu bevorzugen ist. Im Vergleich mit Crossover-Varianten, die lediglich einen Austausch
der Gene aufgrund ihrer Position auf dem Chromosom vornehmen, erwies sich bei Pro-
blemstellungen mit Nachfolge-Relationen wie dem bekannten Traveling-Salesman-Problem
(TSP) ein, gegenu¨ber dem in [WSS91] vorgestellten, verbessertes Edge-Recombination-
Crossover als geeigneter.
Eine einfache Crossover-Variante, die einen Austausch von Genen unter Beru¨cksichtigung
der aktuellen Ausfu¨hrungsreihenfolge der Gene vornimmt, wird nachfolgend beschrieben.
Diese Crossover-Variante (im Folgenden CS-Crossover genannt) basiert auf der Idee, die
bis zu einem bestimmten Kontrollschritt cscross zugewiesenen Gene eines Individuums
unvera¨ndert zu lassen, so dass bis zu diesem Ausfu¨hrungszeitpunkt zuna¨chst wiederum
gu¨ltige Teillo¨sungen entstehen. Es werden also nur die Gene ausgetauscht, die einem
spa¨teren Kontrollschritt als cscross zugewiesen wurden. Der Parameter cscross wird fu¨r
jedes durchzufu¨hrende Crossover zwischen zwei Elter neu bestimmt. In Abb. 3.11 ist dies
fu¨r cscross = 2 verdeutlicht.
Modikationen dieser Crossover-Variante sind z.B. in Anlehnung zum N -Punkt-Crossover
mo¨glich, indem durch die Bestimmung mehrerer Kontrollschritte eine Reihe von Teilbe-
reichen ausgetauscht werden.
78 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
1 2 3 4 5 6 7 8 9
0 1 3 0 2 1 0 4 5
0
2 4 3 1 0 4 3 5
1 2 3 4 5 6 7 8 9
Elter1
Elter2
0 1
4
0 2 1 0
3
5
0
2
3
0 1 0 0 4 5
Kind1
Kind2
cs
cross
= 2
Abb. 3.11: Beispiel zur Umsetzung des CS-Crossovers
Es bleibt festzuhalten, dass durch diese Crossover-Variante nicht die Einhaltung aller
Constraints zugesichert werden kann. Es ist jedoch zu erwarten, dass durch die Beru¨ck-
sichtigung der Ausfu¨hrungszeitpunkte zumindest gro¨ere Teilbereiche konsistent gehalten
werden ko¨nnen. An dieser Stelle ist mit Sicherheit noch Spielraum zur Entwicklung von
speziell an diese Aufgabe angepassten Crossover-Varianten. Beispielsweise ko¨nnte eine
Anpassung der im Bereich der genetischen Programmierung vero¨entlichten graphbasier-
ten Crossover-Varianten (s. z.B. [Pol97, KB02]) Potential fu¨r Verbesserungen oenbaren.
Eine Bewertung der in diesem Abschnitt vorgestellten Crossover-Varianten erfolgt in Ab-
schnitt 3.8.1.
3.5.8 Mutation
Die Aufgabe der Mutation besteht in der Erzeugung von neuem Genmaterial oder in
der Wiedergewinnung von Genmaterial, das im Verlaufe des Evolutionsprozesses verloren
gegangen ist. Da durch das zuvor durchgefu¨hrte Crossover Nachkommen erzeugt werden
ko¨nnen, die gegen Constraints verstoen, wird die Mutation in Verbindung mit einer Kor-
rektur durchgefu¨hrt. In Analogie zur Initialisierungsphase werden wiederum die Teilauf-
gaben CS, IA und RA durchgefu¨hrt, um eventuelle Versto¨e gegen Ressource-Constraints
aufzudecken und um bei Bedarf eine korrektheitserhaltende Mutation durchfu¨hren zu
ko¨nnen. Im Grundsatz kann hier auf das in der Initialisierung durchgefu¨hrte Verfahren
zuru¨ckgegrien werden, wobei diesmal jedoch die aktuellen Genbelegungen eines zu mu-
tierenden Individuums mitberu¨cksichtigt werden. So kann einerseits anhand der aktuell
zur Auswahl stehenden alternativen Ressourcen u¨berpru¨ft werden, ob ein bestimmtes Al-
lel korrigiert werden muss und andererseits im Falle einer durchzufu¨hrenden Mutation
eine probabilistische Auswahl aus der Menge der Alternativen erfolgen.
Ein mo¨glicher mittels Crossover und Mutation erzeugter Nachkomme ist in Abb. 3.12
dargestellt. Gegenu¨ber dem in Abb. 3.7 dargestellten Individuum werden nun weniger
Datentransfers verwendet und anstelle der Multiplikation und der beiden Additionen zwei
MAC-Operationen (s. MI4 und MI5) ausgefu¨hrt. Obwohl die Multiplikation (s. Gen 6)
dazu doppelt ausgefu¨hrt werden muss, konnte die Anzahl der Kontrollschritte von sieben
auf sechs reduziert werden.
3.6. ADRESSCODE-GENERIERUNG 79
13
9
6
5
+
*
1
2
7
8
&b
LD
DT
DT
Gene 3, 7 & 22:
Def ={addr}
Gen 1:
Def ={cnst2}
4
LD
&a
3
22
23
ST
&c
20
6
+
*
MI1
MI2
MI3
MI4
MI5
MI6
Gen 4 & 8:
Op ={LD}
FU ={AGU}
IT ={1}
Def ={M}
Arg1={addr}
Arg2={MEM}
Gen 5:
Op ={ElDT}
FU ={DTU}
IT ={1}
Def ={A}
Arg1={none}
Arg2={M}
Gen 6:
Op ={MUL}
FU ={DMU}
IT ={1}
Def ={*}
Arg1={const2}
Arg2={A}
Gen 9:
Op ={ElDT}
FU ={DTU}
IT ={1}
Def ={B}
Arg1={none}
Arg2={M}
Gen 13:
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={*}
Arg2={B}
Gen 20:
Op ={ADD}
FU ={DMU}
IT ={1}
Def ={ACCU}
Arg1={*}
Arg2={ACCU}
Gen 23:
Op ={ST}
FU ={AGU}
IT ={1}
Def ={MEM}
Arg1={addr}
Arg2={ACCU}
1
2
Abb. 3.12: Mittels Crossover und Mutation erzeugter Nachkomme
3.6 Adresscode-Generierung
Allgemein besteht das Ziel der Adresscode-Generierung darin, mit geringst mo¨glichem
Overhead (in Form von zusa¨tzlichen Maschineninstruktionen oder Energiekosten) alle in
einem Programm bendlichen Adressen von Speicherzugrien zu berechnen. Dazu mu¨ssen
in unserem Fall die folgenden Voraussetzungen erfu¨llt sein:
 Vor der Durchfu¨hrung der Codegenerierung werden alle AMOs, die mit AGU-MOs
umgesetzt werden sollen, markiert und bei der Durchfu¨hrung der Teilaufgaben CS,
IA und RA unberu¨cksichtigt gelassen. AMOs, fu¨r die keine Umsetzung mit AGU-
Anweisungen mo¨glich ist, wie z.B. Subtraktionen oder Multiplikationen, mu¨ssen
80 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
dann im Datenpfad berechnet werden und verhindern damit die Ausnutzung der
mit dem Einsatz von AGUs verbundenen Vorteile. Aus diesem Grund wird bereits
vor Starten der Codegenerierung mittels einfacher algebraischer Transformationen
versucht, nicht auf der AGU ausfu¨hrbare Adressberechnungen durch solche zu er-
setzen, die auf der AGU ausfu¨hrbar sind. Zum Beispiel wird eine Subtraktion einer
positiven Konstanten durch eine Addition mit einer negativen Konstanten ersetzt.
 Ebenfalls vor der Durchfu¨hrung der Codegenerierung wird durch Einfu¨gen von Da-
tentransfers dafu¨r gesorgt, dass alle erforderlichen Datentransfers von Registern des
Datenpfades zu AGU-Registern (und umgekehrt) vorhanden sind. Hierdurch werden
Registerkonflikte aufgrund der bereits durchgefu¨hrten Registerallokation vermieden.
Dies spielt insbesondere fu¨r Adressberechnungen eine wichtige Rolle, die mindestens
einen Adressbestandteil aus dem Gruppenspeicher laden mu¨ssen, da dieses Laden
in jedem Fall die Verwendung von mehreren Registern des Datenpfades erfordert.
 Nach der Durchfu¨hrung der Codegenerierung ist die Zugrisreihenfolge auf den Spei-
cher bekannt. Des Weiteren wurden allen verwendeten Variablen bereits konkrete
Adressen zugewiesen.
3.6.1 Algorithmus zur Adresscode-Generierung
In Analogie zur Durchfu¨hrung der Codegenerierung wird auch die Generierung des
Adresscodes fu¨r jeden Basisblock separat durchgefu¨hrt. Zur Verdeutlichung der Vor-
gehensweise zur Adresscode-Generierung soll zuna¨chst das in Abb. 3.13 einfache C-
Programm dienen.
int A[32];
int B[32];
int a;
int main()
{
for(i=0; i<10; i++)
for(j=0; j<16; j++)
{
A[i+5] = A[i];
A[i+j+2] = B[i+j+1] + A[i+2];
B[6] = a;
}
}
Abb. 3.13: Beispiel-Programm fu¨r Adresscode-Generierung
Das Programm besteht aus zwei ineinander geschachtelten Schleifen, deren innerste An-
3.6. ADRESSCODE-GENERIERUNG 81
weisungen eine Reihe von Zugrien auf die Arrays A und B und einen Zugri auf die
globale Variable a enthalten. In Abb. 3.14 ist zusa¨tzlich ein Speicherlayout fu¨r die beiden
Arrays und die skalare Variable a angegeben, wie es vor der Generierung des Adresscodes
vorliegen ko¨nnte.
A[0],...,A[15]
a
0
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15
Slice
G
r
u
p
p
e
0
1
2
3
4
5
6
7
A[16],...,A[31]
B[0],...,B[15]
B[16],...,B[31]
Abb. 3.14: Beispiel Adresscode-Generierung: Speicherlayout
Es ist zu erkennen, dass die Elemente der beiden Arrays jeweils zwei Gruppen des Grup-
penspeichers beanspruchen, die aufeinander folgend im Gruppenspeicher angeordnet sind.
Das Element B[6] ist z.B. in Gruppe 2 und Slice 6 abgelegt, was der Speicheradresse 38
entspricht. Nach der Durchfu¨hrung der Phasen CS, IA und RA ko¨nnte sich in jeder Ite-
ration ein Zugri auf die Daten in der folgenden Reihenfolge ergeben:
A[i], A[i+5], B[i+j+1], A[i+2], A[i+j+2], a, B[6]
Da fu¨r jeden der Datenzugrie i.d.R. ein Speicherzugri erforderlich ist, wu¨rde sich un-
ter Beru¨cksichtigung des gegebenen Speicherlayouts der in Abb. 3.15 dargestellte Graph
ergeben.
3 4 5 6 721
STLD
LD LD
ST LD ST
A[i] A[i+5] B[i+j+1] A[i+2] A[i+j+2] &a
B[6]
+2
+5
-3
-31 -27
Abb. 3.15: Beispiel Adresscode-Generierung: Speicherzugris-Graph
Die Knoten des Graphen entsprechen den Speicherzugrien und sind in der Reihenfol-
ge ihres Zugris von links nach rechts angeordnet und mit Ordnungsnummern versehen.
82 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Anhand der gewichteten Kanten kann nun erkannt werden, ob zwischen zwei bestimm-
ten Knoten ein konstanter Adressoset besteht und damit eine Ausnutzung von Auto-
Inkrement- bzw. Auto-Modify-Anweisungen mo¨glich ist. Es besteht z.B. zwischen den
Knoten eins und zwei ein konstanter Adressoset von fu¨nf und zwischen den Knoten drei
und fu¨nf von -31. Da die Erzeugung des Graphen auf Basis der Ausfu¨hrungsreihenfolge
von Speicherzugrien (einschlielich von Spills) durchgefu¨hrt wird, besteht oensichtlich
eine groe Abha¨ngigkeit zur zuvor durchgefu¨hrten Codegenerierungs-Phase.
Anhand des nachfolgend angegebenen Pseudocode-Algorithmus wird nun der prinzipielle
Ablauf der umgesetzten Adresscode-Generierung na¨her beschrieben:
Algorithmus 3.4 (Adresscode-Generierung)
(1) VerticalAddressAssignment( );
Funktion
Basisblock
(2) = InitMemSequence( );
(3) = InitOffsets( );
(4) = AddressCodeGeneration( );
;
(5) fun = RedundantAddressCodeElimination(fun);
;
gelir
fun gelir
bb fun
mem_seq bb
mem_seq mem_seq
mem_seq mem_seq
FOR EACH OF DO
FOR EACH OF DO
END
END
(1) VerticalAddressAssignment(gelir)
Die in den vorherigen Codegenerierungs-Phasen im Rahmen der horizontalen
Adresszuweisung gebildeten Gruppen werden in diesem Schritt festen Adressen zu-
gewiesen.
(2) InitMemSequence(bb)
In diesem Schritt werden zuna¨chst alle in einem bestimmten Basisblock vorkommen-
den Speicherzugrie entsprechend ihrer Zugrisreihenfolge zu einer Speicherzugris-
Sequenz angeordnet. Jeder Speicherzugri wird also mit einem Knoten des Gra-
phen assoziiert. Jedem Knoten wird entsprechend der Position des Speicherzugris
in der Zugrissequenz eine Ordnungsnummer zugewiesen (s. auch Abb. 3.15). Zur
Ermittlung der Kantengewichte zwischen je zwei Knoten in Schritt 3 werden alle
Adressbestandteile eines Speicherzugris bestimmt. Die konstanten Adressbestand-
teile, wie z.B. Basisadressen von Arrays und Arrayosets werden dann aufsummiert
und bilden den konstanten Adressoset. Alle anderen Adressbestandteile (wie z.B.
Schleifen-Indexvariablen) stellen variable Adressbestandteile dar. Fu¨r den Speicher-
zugri B[i+j+1] setzt sich der konstante Adressoset aus der Basisadresse von
Array B und der Konstante eins zusammen. Der variable Adressoset ergibt sich
3.6. ADRESSCODE-GENERIERUNG 83
durch die aktuellen Werte der Schleifen-Indexvariablen i und j. Zusa¨tzlich wird fu¨r
jeden Knoten jeweils eine Menge von Adressregistern verwaltet, die potentiell zur
Adressierung des Speichers verwendet werden ko¨nnen.
(3) InitOffsets(mem seq)
Nachdem im vorherigen Schritt die Knoten des gerichteten Graphen erzeugt und
initialisiert worden sind, werden in diesem Schritt gewichtete Kanten in den Gra-
phen eingefu¨gt. Es wird genau dann eine gerichtete Kante von Knoten ni nach nj
eingefu¨gt, wenn i  j gilt und zwischen den beiden betroenen Knoten entwe-
der keine oder dieselben variablen Adressosets zur Adressierung beno¨tigt werden.
Das Kantengewicht einer eingefu¨gten Kante ergibt sich dann aus der Dierenz der
jeweiligen konstanten Adressosets, so dass prinzipiell eine Adressierung mit Auto-
Modify- oder Auto-Inkrement-Befehlen mo¨glich ist.
(4) AddressCodeGeneration(mem seq)
Nach der Erzeugung des Graphen wird, mittels des im Anschluss an diesen Pseudo-
Algorithmus beschriebenen Verfahrens, fu¨r jeden Knoten der Adresscode bestimmt,
der zur Adressierung des entsprechenden Speicherzugris erforderlich ist und in die
GeLIR-Datenstrukturen eingefu¨gt. Um den zu diesem Zeitpunkt noch vorhande-
nen urspru¨nglichen Adresscode zu eliminieren, wird abschlieend eine Dead-Code-
Elimination durchgefu¨hrt.
(5) RedundantAddressCodeElimination(fun)
Da die Adresscode-Generierung fu¨r jeden Basisblock separat durchgefu¨hrt wird,
kann es vorkommen, dass in einen bestimmten Basisblock Anweisungen eingefu¨gt
werden, die bei einer mehr globaleren Betrachtung des Codes nicht erforderlich
gewesen wa¨ren. So kann es z.B. sein, dass in jedem Basisblock das PP-Register
immer mit derselben Seitenadresse initialisiert wird, obwohl in allen Vorga¨nger-
Basisblo¨cken dieser Wert bereits gesetzt und seitdem nicht mehr vera¨ndert wurde.
Wird in einem bestimmten Basisblock solch eine unno¨tige Initialisierung festgestellt,
wird diese Anweisung ersatzlos aus dem Code gelo¨scht.
Zur Generierung des erforderlichen Adresscodes erfolgt eine Bearbeitung der Graphkno-
ten entsprechend der Position in der Speicherzugris-Sequenz, also mit aufsteigenden
Ordnungsnummern. Fu¨r jeden Graphknoten werden dabei die nachfolgend beschriebenen
Schritte durchgefu¨hrt. Zur Einhaltung von Ressource-Constraints wird in jedem der be-
schriebenen Schritte bei einer Auswahl eines Adressregisters u¨berpru¨ft, ob dieses in der
Menge der zur Verfu¨gung stehenden Adressregister eines Knotens enthalten ist.
1.) Adressierung mittels Page-Pointer-Register.
Diese Adressierung ist nur dann mo¨glich, wenn die Adresse, auf die zugegrien wer-
den soll, bereits zur Compilierungszeit bekannt ist, also keine variablen Adressosets
84 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
vorhanden sind. Bei Bedarf wird fu¨r eine Seitenadressierung das PP-Register mit
der Adresse einer neuen Seite geladen, so dass eine Adressierung mo¨glich wird.
Bei Erfolg: Stop
2.) Addressierung mittels Adressregister AR
0
, AR
1
, AR
2
oder AR
3
.
a) Wa¨hle ein Adressregister, das von einem u¨ber Kanten erreichbaren Vorga¨nger
verwendet wurde und in der Zwischenzeit von keinem anderen Knoten wieder-
verwendet wurde. Vermerke beim Vorga¨ngerknoten den Oset zum aktuellen
Knoten, um bei der Durchfu¨hrung des Speicherzugris des Vorga¨ngers bereits
die Adresse des aktuellen Knotens zu berechnen.
Bei Erfolg: Stop
b) Adressiere den aktuellen Knoten unabha¨ngig von zuvor adressierten Kno-
ten. Versuche ein aktuell nicht in Gebrauch bendliches Adressregister aus-
zuwa¨hlen. Falls alle Adressregister bereits verwendet werden, d.h. potentiell
noch Osets zu spa¨teren Knoten ausgenutzt werden ko¨nnen, wa¨hle das Adress-
register aus, das zum spa¨test mo¨glichen Zeitpunkt wiederverwendet wird.
Da der eingefu¨gte Adresscode nur fu¨r die gegebene Speicherzugris-Sequenz zu gu¨lti-
gem Assemblercode fu¨hrt, muss bei der nachfolgend durchzufu¨hrenden Adresscode-
Kompaktierung dafu¨r gesorgt werden, dass die Reihenfolge der Speicherzugrie erhalten
bleibt. Aus diesem Grund werden zwischen je zwei aufeinander folgenden Speicherzu-
grien Sequentialisierungskanten eingefu¨gt, die eine entsprechende Ausfu¨hrungsreihenfol-
ge der Speicherzugrie erzwingen. Diese Randbedingungen mu¨ssen bei der nachfolgend
durchzufu¨hrenden Phase der Adresscode-Kompaktierung (s. Abschnitt 3.7) beru¨cksichtigt
werden.
3.6.2 Phasenkopplung mit Codegenerierung
Da die Durchfu¨hrung der Codegenerierung bereits eine sehr komplexe Aufgabe darstellt,
wird fu¨r Architekturen mit AGUs die Aufgabe der Adresscode-Generierung in einem
separaten Optimierungsschritt durchgefu¨hrt. Allerdings besteht auch zwischen diesen
Optimierungsphasen ein Phasenkopplungsproblem, da die Ergebnisse der Adresscode-
Generierung zum einen von der Anzahl der Speicherzugrie und zum anderen von der
Ausfu¨hrungsreihenfolge dieser Speicherzugrie abha¨ngen. So ist es mo¨glich, dass es meh-
rere gleich gute Ergebnisse hinsichtlich der Codegenerierung gibt, allerdings mit unter-
schiedlichen Speicherzugris-Sequenzen. Es gilt also das Problem zu lo¨sen, bereits bei
der Durchfu¨hrung der Codegenerierung die Auswirkungen der Adresscode-Generierung
zu beru¨cksichtigen.
3.7. ADRESSCODE-KOMPAKTIERUNG 85
Als Lo¨sungsansatz fu¨r dieses Phasenkopplungsproblem kommen uns wieder die besonderen
Eigenschaften des in Abschnitt 3.5 vorgestellten genetischen Codegenerators zugute. So
ist es naheliegend, durch eine Erweiterung der Bewertungsfunktion der Individuen dieses
Phasenkopplungsproblem zu beru¨cksichtigen. Im Prinzip ergeben sich bei der Bewertung
eines Individuums die folgenden beiden Mo¨glichkeiten:
 Durchfu¨hrung der Adresscode-Generierung und/oder der Kompaktierung fu¨r jedes
Individuum. Dies wu¨rde eine exakte Bewertung der Individuen erlauben, allerdings
insgesamt auch einen betra¨chtlichen Mehrbedarf an Rechenzeit erfordern. Es sind
also Abscha¨tzungsverfahren wu¨nschenswert, die aufgrund von einfach ermittelba-
rer Kriterien eine grundsa¨tzliche Dierenzierung unterschiedlicher Codesequenzen
zulassen.
 Beru¨cksichtigung bereits vorhandener Informationen bzw. schnell ermittelbarer In-
formationen:
{ Vermeidung von MOs, fu¨r die potentiell Adresscode eingefu¨gt werden muss.
Dies ko¨nnen z.B. Speicherzugrie sein oder MOs, die spezielle Hardware-
Ressourcen wie z.B. index read oder index write (s. auch Seite 100 in Ab-
schnitt 4.1.2) benutzen, fu¨r deren Verwendung ha¨ug separater Adresscode
eingefu¨gt werden muss.
{ Vermeidung des Neuladens des PP-Registers aufgrund von aufeinander fol-
genden Zugrien auf unterschiedliche Speicherseiten. Da ein Neuladen des
PP-Registers in jedem Fall mit einem nicht parallelisierbaren Move-Befehl
durchgefu¨hrt werden muss, ko¨nnen auch ohne explizite Durchfu¨hrung der
Adresscode-Kompaktierung die hierdurch entstehenden Kosten sehr genau ab-
gescha¨tzt werden.
Aus Ezienzgru¨nden wird im Codegenerator die zweite Variante realisiert.
3.7 Adresscode-Kompaktierung
Das Ziel dieses Schrittes liegt in der Kompaktierung des zuvor eingefu¨gten Adresscodes.
Da bereits eine Kompaktierung des restlichen Codes (des Datenpfades) vorliegt, besteht
eine Mo¨glichkeit darin, den zusa¨tzlich eingefu¨gten Adresscode ohne A¨nderung der bereits
kompaktierten Befehle auf die bereits vorhandenen MIs aufzuteilen. Allerdings ist zu er-
warten, dass das volle Optimierungspotential nur mit einer Neuanordnung der MOs zu
MIs ausgescho¨pft werden kann. Da diese Aufgabe im Wesentlichen der Aufgabe der bereits
durchgefu¨hrten Codegenerierung entspricht, wird dazu der in Abschnitt 3.5 beschriebene
86 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
genetische Codegenerator GCG wiederverwendet. Als Unterschied zur Codegenerierung
ist hier zu sehen, dass nun keine Auswahlmo¨glichkeiten der Ressourcen mehr vorhanden
sind, da jede Menge bereits auf genau ein Element eingeschra¨nkt wurde. Aufgrund des
eingefu¨gten Adresscodes mu¨ssen weitere Randbedingungen in Form von Sequentialisie-
rungskanten beachtet werden.
3.8 Bewertung
Das zuvor in diesem Kapitel beschriebene Codegenerierungs-Verfahren auf Basis eines ge-
netischen Optimierungsverfahrens ist unter Verwendung der Bibliothek PGAPack [Lev96],
mit der die Entwicklung von genetischen Algorithmen unterstu¨tzt wird, umgesetzt worden.
In diesem Abschnitt wird eine Bewertung der Qualita¨t des Codegenerators anhand einiger
ausgewa¨hlter Testroutinen fu¨r den speziellen Einstreifen-Modus (SISD-Modus) des M3-
DSPs vorgenommen. Erweiterungen zur eektiven Ausnutzung von SIMD-Operationen
und des Gruppenspeichers sind Bestandteil von Kapitel 4 und werden dort na¨her unter-
sucht.
Im nachfolgenden Abschnitt wird zuna¨chst auf die Einstellung der internen Parameter
des GAs eingegangen. Dies umfasst insbesondere einen Vergleich der Qualita¨t einiger
Crossover-Operatoren. Danach erfolgt eine Bewertung des genetischen Codegenerators.
Abschlieend wird der Einfluss der Adresscode-Generierung auf die Codequalita¨t betrach-
tet.
3.8.1 Einstellung der Parameter des genetischen Algorithmus
Das Konvergenzverhalten und die Qualita¨t der Ergebnisse eines GAs ha¨ngen stark von
der Wahl der internen Steuerungsparameter wie z.B. der Populationsgro¨e oder der
Mutations-Wahrscheinlichkeit ab. Da eine vollsta¨ndige Exploration der Belegung dieser
Parameter mit Werten extrem zeitaufwa¨ndig ist, wurde anhand einer kleineren Auswahl
von Programmen eine Einstellung dieser Parameter vorgenommen. Als gute Werte erga-
ben sich dabei die folgenden Parameter:
 Populationsgro¨e: 40
 Anzahl der in jeder Generation zu ersetzenden Individuen: 4
 Mutations-Wahrscheinlichkeit: 1/(Anzahl der Gene pro Individuum)
 Crossover-Wahrscheinlichkeit: 0,6
 Anzahl durchzufu¨hrender Generationen: (zwei- bis vier)-fache Anzahl von Genen
3.8. BEWERTUNG 87
Mit diesen Parametern wurde das Konvergenzhalten des GAs bei Verwendung der
Crossover-Operatoren 1-Punkt, 2-Punkt, Uniform3, 1-Punkt-CS und 2-Punkt-CS un-
tersucht. Die Anzahl der durchzufu¨hrenden Generationen wurde hier auf das 4-fache
der Anzahl von Genen gesetzt. In den Abbildungen 3.16 und 3.17 ist der Optimierungs-
fortschritt bei Durchfu¨hrung der Aufgaben CS, IA und RA fu¨r zwei selbstgeschriebene
Testroutinen dfg1 bzw. dfg2 dargestellt, die jeweils durch einen Datenflussgraphen re-
pra¨sentiert werden ko¨nnen (s. auch Seite 164 . in Anhang A). Als Mastab dient die
Anzahl der Maschineninstruktionen zu einem bestimmten Optimierungszeitpunkt (bzw.
einer Generation).
10
12
14
16
18
20
22
24
26
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300
# Generationen
#
I
n
s
t
r
u
k
t
i
o
n
e
n
1-Punkt 2-Punkt Uniform 1-Punkt-CS 2-Punkt-CS
Abb. 3.16: Einfluss der Crossover-Operatoren auf die Konvergenz: dfg1-Routine
Bei beiden Testroutinen zeigt sich deutlich die U¨berlegenheit der speziellen Crossover-
Varianten 1-Punkt-CS und 2-Punkt-CS gegenu¨ber den Standard-Varianten. Bei beiden
Testroutinen werden bei Verwendung der CS-Varianten bereits in der Anfangsphase der
Optimierung sehr gute Lo¨sungen gefunden. Des Weiteren fu¨hrt bei beiden Testroutinen
lediglich die Verwendung der CS-Varianten und des 2-Punkt-Crossovers zu den besten
Ergebnissen. Bei Betrachtung der Ergebnisse fu¨r die dfg2-Routine fa¨llt auf, dass das
Uniform-Crossover im Vergleich zu den anderen Varianten deutlich schlechter abschnei-
det. Dies la¨sst sich damit begru¨nden, dass beim Uniform-Crossover ohne Beru¨cksichtigung
der vorhandenen Ausfu¨hrungsreihenfolge einzelne Gene der Individuen ausgetauscht wer-
den, so dass die entstehenden Lo¨sungen in der nachfolgenden Mutationsphase versta¨rkt
korrigiert (bzw. mutiert) werden mu¨ssen.
3Ein Austausch der Allele erfolgte mit einer Wahrscheinlichkeit von 60%.
88 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
10
15
20
25
30
35
40
45
50
0 30 60 90 120 150 180 210 240 270 300 330 360 390 420 450
# Generationen
#
I
n
s
t
r
u
k
t
i
o
n
e
n
1-Punkt 2-Punkt Uniform 1-Punkt-CS 2-Punkt-CS
Abb. 3.17: Einfluss der Crossover-Operatoren auf die Konvergenz: dfg2-Routine
3.8.2 Genetischer Codegenerator
Um die Qualita¨t des genetischen Codegenerierungs-Verfahrens zu beurteilen, beschra¨nken
wir uns in diesem Abschnitt zuna¨chst auf die Verwendung von Testroutinen, die aus
einem Basisblock bestehen, also jeweils durch einen Datenflussgraphen dargestellt werden
ko¨nnen. Diese Routinen ko¨nnen z.B. Anweisungen der innersten Schleife eines Programms
darstellen, so dass die Erzeugung von gutem Code fu¨r diesen Basisblock sich wesentlich
auf die Codequalita¨t des gesamten Programms auswirken wu¨rde.
In Tabelle 3.1 sind fu¨r die in diesem Abschnitt verwendeten Testroutinen einige charakte-
ristische Merkmale aufgefu¨hrt. Die Routinen umfassen cmultiply, cupdate und biquad
aus der DSPstone-Benchmarksuite [ZVSM94], einen Lattice-Filter (lattice) und die be-
reits im vorherigen Abschnitt betrachteten selbstgeschriebenen Routinen dfg1 und dfg2.
#CSE- #Graphknoten #Generationen
Benchmark #CSEs Verwend. IR vor CG vor ACK CG ACK Laufzeit [s]
cmultiply 4 8 21 57 34 171 102 22
cupdate 4 8 27 73 48 219 144 35
biquad 3 7 29 81 53 243 109 46
lattice 8 16 29 95 66 285 198 74
dfg1 4 9 23 75 43 225 129 41
dfg2 6 17 29 117 57 351 171 111
Tabelle 3.1: Charakteristische Merkmale der Testroutinen
In Spalte 2 wird fu¨r die Routinen die Anzahl der CSEs und in Spalte 3 die Anzahl
3.8. BEWERTUNG 89
deren Verwendungen angegeben. Die Spalten 4 bis 6 geben Auskunft u¨ber die Anzahl
der Graphknoten der initialen GeLIR-Darstellung (IR), vor Durchfu¨hrung der Code-
generierung mit den Teilaufgaben CS, IA und RA (vor CG) und vor Durchfu¨hrung der
Adresscode-Kompaktierung (vor ACK). Es ist zu erkennen, dass sich die Anzahl der
Graphknoten der initialen GeLIR-Darstellung durch das Einfu¨gen der potentiell mo¨gli-
chen Datentransfers ungefa¨hr um den Faktor 3 erho¨ht. Die Anzahl der Graphknoten ist vor
der Durchfu¨hrung der Adresscode-Kompaktierung geringer als vor der Codegenerierung,
da viele Graphknoten aufgrund nicht erforderlicher Datentransferwege im Zuge der Code-
generierung eingespart werden konnten. Die Anzahl durchzufu¨hrender Generationen fu¨r
die Codegenerierung (CG) und die Adresscode-Kompaktierung (ACK) ist in den Spalten 7
bzw. 8 angegeben und wurde fu¨r diese Routinen auf die dreifache Anzahl von Genen (bzw.
Graphknoten) gesetzt. In der letzten Spalte werden die zur Compilierung und Simulation
der jeweiligen Routinen erforderlichen Laufzeiten in Sekunden angegeben, wobei die Lauf-
zeiten fu¨r das Front-End und die Simulation fu¨r diese Beispiele vernachla¨ssigbar sind4.
Hier ist auch zu beachten, dass in den meisten Fa¨llen die beste Lo¨sung bereits zu einem
sehr fru¨hen Optimierungszeitpunkt gefunden wurde. Es hat sich auch gezeigt (nicht in
der Tabelle dargestellt), dass eine Bewertung von Individuen mit Hilfe unseres Energie-
kostenmodells zu keiner nennenswerten Erho¨hung der Laufzeit fu¨hrt.
Zur Beurteilung der Qualita¨t des entwickelten genetischen Codegenerators werden die
folgenden Codegenerierungs-Varianten betrachtet:
 baum
Durchfu¨hrung einer baumbasierten Codeselektion unter Entkopplung der Phasen
zum Einfu¨gen von Spillcode und der Codekompaktierung, wie es in herko¨mmli-
chen Compilern der Fall ist. Das alleinige Optimierungsziel ist die Minimierung der
Ausfu¨hrungszeit, es wird also keine explizite Energieoptimierung vorgenommen.
 baum+phasen
Analoge Vorgehensweise wie bei baum, allerdings mit einer vollsta¨ndigen Phasen-
kopplung.
 graph+phasen
Analoge Vorgehensweise wie bei baum+phasen, allerdings wird statt einer baumba-
sierten eine graphbasierte Codeselektion durchgefu¨hrt.
 graph+phasen+MaxEnergie
Analoge Vorgehensweise wie bei graph+phasen, allerdings wird fu¨r die Lo¨sung mit
der geringsten Ausfu¨hrungzeit der Energieverbrauch maximiert, um das Optimie-
rungspotential aufzuzeigen.
4Die angegebenen Laufzeiten beziehen sich auf einen AMD Athlon Prozessor mit einer Taktfrequenz
von 1,34 GHz.
90 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
 graph+phasen+MinEnergie
Analoge Vorgehensweise wie bei graph+phasen, allerdings wird als alleiniges Opti-
mierungskriterium der Energieverbrauch minimiert.
In den Abbildungen 3.18 bis 3.20 werden die Ergebnisse der Codegenerierungs-Varianten
hinsichtlich der erforderlichen Ausfu¨hrungszeit, des Energieverbrauchs und der beno¨tigten
Speicherzugrie gegenu¨bergestellt. Alle Ergebnisse werden in Relation zu handgeneriertem
Code (=̂ 100%) gesetzt, der zum Vergleich einschlielich der C-Routinen in Anhang A
aufgefu¨hrt ist. Da fu¨r den M3-DSP kein Referenz-Compiler verfu¨gbar ist, muss auf einen
Vergleich mit anderen Compilern leider verzichtet werden.
1
2
1
1
0
6
1
4
1
1
7
1
1
2
4
1
7
1
1
3
9
1
1
4
1
0
6
1
2
4
1
6
2
1
1
8
1
3
8
1
2
7
1
0
0
8
8
1
0
0
1
0
0
9
4 1
0
5
9
8
1
0
0
8
8
1
0
0
1
0
0
9
4 1
0
5
9
8
1
0
0
8
8
1
0
0
1
0
0
9
4 1
0
5
9
8
60
80
100
120
140
160
180
200
cmultiply cupdate biquad lattice dfg1 dfg2 average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
baum baum+phasen
graph+phasen+MaxEnergie graph+phasen
graph+phasen+MinEnergie
Abb. 3.18: Codegenerator Ergebnisse: Ausfu¨hrungszeit (100% =̂ handgeneriertem Code)
In Abb. 3.18 zeigt sich, dass die unter Verwendung einer baumbasierten Codeselektion
(baum und baum+phasen) generierten Programme bei allen Routinen zu den ho¨chsten
Ausfu¨hrungszeiten fu¨hren. So betra¨gt der Overhead des reinen baumbasierten Verfahrens
im Vergleich zum handgenerierten Code im Durchschnitt 39%. Es zeigt sich, dass eine
integrierte Phasenkopplung diesen Overhead bereits deutlich auf 27% im Schnitt redu-
zieren kann. Bei der Betrachtung der Ausfu¨hrungszeiten der graphbasierten Varianten ist
erkennbar, dass diese an die Codequalita¨t von handgeneriertem Code herankommen und
diese im Fall der Routinen cupdate und dfg1 sogar noch verbessern ko¨nnen.
Bei Betrachtung der Ergebnisse hinsichtlich des Energieverbrauchs in Abb. 3.19 ist eben-
falls ein wesentlich schlechteres Abschneiden der baumbasierten Verfahren gegenu¨ber den
anderen Verfahren zu erkennen. So weisen die beiden baumbasierten Verfahren im Ver-
gleich zum handgenerierten Code einen Overhead von durchschnittlich 52% bzw. 44% auf.
3.8. BEWERTUNG 91
1
2
1
1
1
5
1
3
7
2
1
5
1
2
6
1
9
6
1
5
2
1
1
8
1
1
3
1
2
9
2
0
2
1
2
6
1
7
7
1
4
4
1
0
8
9
9
9
5
1
1
9
9
6
1
2
1
1
0
6
1
0
2
9
7
9
4
9
0
9
0
1
0
9
9
7
9
8
9
5
9
0
9
0
8
5
1
0
7
9
4
60
80
100
120
140
160
180
200
220
240
cmultiply cupdate biquad lattice dfg1 dfg2 average
r
e
l
.
E
n
e
r
g
i
e
v
e
r
b
r
a
u
c
h
i
n
%
baum baum+phasen
graph+phasen+MaxEnergie graph+phasen
graph+phasen+MinEnergie
Abb. 3.19: Codegenerator Ergebnisse: Energieverbrauch (100% =̂ handgeneriertem Code)
Wie zu erwarten, liefert die Verwendung des Verfahrens graph+phasen+MaxEnergie den
ho¨chsten Energieverbrauch der Lo¨sung mit der geringsten Ausfu¨hrungszeit. Im Vergleich
zu graph+phasen+MinEnergie wird hier sehr scho¨n der Optimierungsspielraum deutlich,
der im Durchschnitt 12 Prozentpunkte und fu¨r die lattice-Routine sogar 29 Prozent-
punkte betra¨gt. Die Ergebnisse von graph+phasen liegen alle innerhalb dieses Bereichs.
Interessant ist, dass sich durch die Anwendung der vom Compiler durchgefu¨hrten Ener-
gieoptimierung zum Teil deutliche Einsparungen (z.B. 15% fu¨r dfg1) im Vergleich zum
handgenerierten Assemblercode ergeben. Dies zeigt sich auch am Beispiel der biquad-
Routine, bei der trotz gleicher Ausfu¨hrungszeit, der Energiebedarf des vom Compiler
generierten Codes um 10% geringer ist.
In Abb. 3.20 zeigt sich, inwiefern sich die Verwendung der unterschiedlichen Verfahren
auf die Anzahl der Speicherzugrie auswirkt. Aua¨llig ist hier die extrem hohe Anzahl
von Speicherzugrien bei Anwendung einer baumbasierten Codeselektion, die als Haupt-
ursache fu¨r die schlechte Codequalita¨t dieser Verfahren angesehen werden kann. Dies trit
insbesondere fu¨r die Routinen lattice und dfg2 zu, die eine vergleichsweise hohe Anzahl
von CSEs und CSE-Verwendungen aufweisen. So sind fu¨r diese Routinen mehr als drei-
mal soviele Speicherzugrie erforderlich als beim handgenerierten Code und den Varianten
graph+phasen und graph+phasen+MinEnergie.
Fazit
Durch einen Vergleich der vom genetischen Codegenerator erzielten Codequalita¨t mit
handgeneriertem Assemblercode konnte die Eektivita¨t dieses neuen Codegenerierungs-
92 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
1
6
7
1
5
0
1
5
0
3
1
4
2
1
7
3
5
0
2
2
5
1
6
7
1
5
0
1
5
0
3
1
4
2
1
7
3
5
0
2
2
5
1
3
3
1
1
3
1
0
0
1
5
7
1
3
3
1
6
7
1
3
4
1
0
0
1
1
3
1
0
0
1
0
0
1
3
3
1
1
7
1
1
1
1
0
0
1
1
3
1
0
0
1
0
0
1
1
7
1
1
7
1
0
8
50
100
150
200
250
300
350
400
cmultiply cupdate biquad lattice dfg1 dfg2 average
r
e
l
.
A
n
z
a
h
l
S
p
e
i
c
h
e
r
z
u
g
r
i
f
f
e
i
n
%
baum baum+phasen
graph+phasen+MaxEnergie graph+phasen
graph+phasen+MinEnergie
Abb. 3.20: Codegenerator Ergebnisse: Speicherzugrie (100% =̂ handgeneriertem Code)
Verfahrens demonstriert werden. Als Hauptgru¨nde fu¨r die gute Codequalita¨t sind hier
die Realisierung einer vollsta¨ndigen Kopplung der Codegenerierungs-Phasen und die
Durchfu¨hrung einer graphbasierten Codeselektion anzusehen. Eine weitere Reduzierung
des Energieverbrauchs konnte durch die zusa¨tzliche Integration einer energieezienten
Auswahl und Anordnung von Maschinenoperationen zu Maschineninstruktionen in den
genetischen Codegenerator erzielt werden.
3.8.3 Adresscode-Generierung
Nachdem im vorherigen Abschnitt die Qualita¨t des genetischen Codegenerators unter-
sucht worden ist, soll nun der Einfluss der Adresscode-Generierung auf die Codequalita¨t
na¨her beleuchtet werden. In den Abbildungen 3.21 und 3.22 erfolgt dazu ein Vergleich
der Ergebnisse hinsichtlich der Ausfu¨hrungszeit und des Energieverbrauchs fu¨r die DSP-
Routinen n real update, n real update1x, chsign und antialias. Die letzten beiden
Routinen stellen dabei Sub-Routinen einer MP3-Applikation und n real update1x ei-
ne modizierte Version der n real updates-Routine dar, bei der die innerste Schleife
einmal abgerollt wurde. Da zur Durchfu¨hrung der Adresscode-Generierung eine feste
Speicherzugris-Reihenfolge gegeben sein muss und sich deswegen die Anzahl der Spei-
cherzugrie nicht mehr vera¨ndert, sind keine Ergebnisse bezu¨glich der Anzahl der Spei-
cherzugrie aufgefu¨hrt.
Mit AGU werden im Folgenden die Ergebnisse bezeichnet, bei denen die Adressberechnun-
gen zwar auf der AGU ausgefu¨hrt worden sind, allerdings fu¨r jeden Speicherzugri un-
3.8. BEWERTUNG 93
abha¨ngig. Dahingegen wird bei AGUopt die aktuell zu ermittelnde Adresse auf der Basis
vorheriger Adressen, mit Hilfe von Auto-Modify- und Auto-Inkrement-Befehlen, berech-
net. Bei AGUopt+RACE erfolgt zusa¨tzlich eine globale (Basisblock-u¨bergreifende) Eliminie-
rung redundanter Setzungen des PP-Registers. Der Zusatz MinEnergie gibt wiederum an,
dass eine Optimierung hinsichtlich des Energieverbrauchs vorgenommen wurde. Die ge-
nerierten Ergebnisse werden in Relation zu den Resultaten bei Berechnung der Adressen
im Datenpfad (=̂ 100%) gesetzt.
1
0
0
1
0
0
8
8
9
7
9
6
7
2
5
9
7
1
8
4
7
2
7
8
6
1
7
1
8
4
7
4
6
7
5
6
7
1
8
0
6
9
7
2
5
9
7
1
8
0
7
1
50
60
70
80
90
100
110
n_real_update n_real_update1x chsign antialias average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
AGU AGUopt
AGUopt+MinEnergie AGUopt+RACE
AGUopt+RACE+MinEnergie
Abb. 3.21: Adresscode-Generierung Ergebnisse: Ausfu¨hrungszeit (100% =̂ Berechnung der
Adressen im Datenpfad).
Es zeigt sich, dass bereits mit der Einbeziehung der AGU eine geringe Verbesserung der
Codequalita¨t um durchschnittlich 4% hinsichtlich der Ausfu¨hrungszeit (s. Abb. 3.21) und
durchschnittlich 6% hinsichtlich des Energieverbrauchs (s. Abb. 3.22) fu¨r diese Routinen
zu erzielen ist. Das la¨sst sich dadurch begru¨nden, dass durch die Ausfu¨hrung von Adressbe-
rechnungen auf der AGU anstatt im Datenpfad die durchzufu¨hrenden Berechnungen auf
mehr parallel ansteuerbare Funktionseinheiten aufgeteilt werden. Durch die Ausnutzung
der speziellen Adressgenerierungsbefehle kann die Codequalita¨t hinsichtlich beider Opti-
mierungskriterien um durchschnittlich ca. 30% wesentlich verringert werden. Die zusa¨tz-
liche Durchfu¨hrung einer Energieminimierung zeigt, dass nicht immer der schnellste Code
auch der energieezienteste sein muss. So liegt die Ausfu¨hrungszeit der n real update-
Routine fu¨r AGUopt+MinEnergie zwar 8% (=̂ 6 Prozentpunkten) u¨ber der fu¨r AGUopt,
fu¨hrt allerdings zu einer Energieeinsparung von ca. 10% (=̂ 8 Prozentpunkten).
94 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
9
4
9
8
9
1
9
4
9
4
7
9
7
0
7
2
8
8
7
7
7
1
6
6
7
2
7
9
7
27
6
6
8 7
2
8
3
7
5
6
7
6
4
7
2 7
6
7
0
50
60
70
80
90
100
110
n_real_update n_real_update1x chsign antialias average
r
e
l
.
E
n
e
r
g
i
e
v
e
r
b
r
a
u
c
h
i
n
%
AGU AGUopt
AGUopt+MinEnergie AGUopt+RACE
AGUopt+RACE+MinEnergie
Abb. 3.22: Adresscode-Generierung Ergebnisse: Energieverbrauch (100% =̂ Berechnung
der Adressen im Datenpfad).
3.8.4 Retargierbarkeit
Zur Demonstration der Retargierbarkeit des Codegenerators wurde neben dem Back-End
fu¨r den M3-DSP auch ein Back-End fu¨r den ADSP2100 der ADSP210X-Familie [Dev91]
entwickelt. Der betrachtete DSP-Prozessor entha¨lt im Datenpfad drei Funktionseinheiten
ALU, MAC und Shifter mit dedizierten Registerles. Des Weiteren ist der Speicher in
zwei getrennte Speicherba¨nke partitioniert, auf die mittels zweier separater AGUs parallel
zugegrien werden kann. Eine parallele Ausfu¨hrung von Datentransfers, Speicherzugrien
und Datenmanipulationen ist nur in eingeschra¨nkter Art und Weise mo¨glich.
Die Entwicklung des neuen Back-Ends wurde auf der Basis des fu¨r den M3-DSP be-
reits vorhandenen Codegenerators durchgefu¨hrt. Der Hauptaufwand entstand dabei in der
Beschreibung der neuen Zielarchitektur. Aufgrund der generischen Implementierung des
Codegenerators waren nur geringfu¨gige Anpassungen des restlichen Codes erforderlich.
Im Wesentlichen betrit dies die Generierung alternativer Maschinenprogramme durch
Spezizierung der Anzahl einzufu¨gender potentieller Datentransfers zwischen zwei Graph-
knoten und die Erzeugung einer initialen U¨berdeckung der Graphknoten mit Ressourcen.
Da der ADSP2100 keine Seiten-indirekte Adressierung, wie beim M3-DSP mittels des PP-
Registers mo¨glich, gestattet, wurde bei der Adresscode-Generierung das PP-Register nicht
in die Menge der zur Verfu¨gung stehenden Adressregister eingefu¨gt. Spezielle Funktiona-
lita¨t, insbesondere zur Handhabung des Gruppenspeichers des M3-DSPs, konnte durch
Flags ausgeschaltet werden. Auf diese Weise war es innerhalb von zwei Tagen mo¨glich,
einen Codegenerator einschlielich eines Simulators fu¨r den ADSP zu generieren, der im
Wesentlichen die gleiche Funktionalita¨t besitzt, wie der hier beschriebene Codegenerator
3.8. BEWERTUNG 95
fu¨r den M3-DSP. Es muss allerdings angemerkt werden, dass keine spezielle Optimie-
rung zur Ausnutzung der beiden Speicherba¨nke implementiert worden ist, da es lediglich
darum ging, die Retargierbarkeit zu untersuchen. Entsprechende Optimierungen ko¨nnen
allerdings sehr modular in Analogie zu den in Kapitel 4 beschriebenen Erweiterungen
fu¨r den M3-DSP vorgenommen werden. Eine Handhabung der in [HD98] beschriebenen
VLIW-Architekturen, anhand derer der allgemein als retargierbar eingestufte Compiler
AVIV getestet wurde, ist ebenfalls problemlos mo¨glich.
96 KAPITEL 3. CODEGENERIERUNG FU¨R DIGITALE SIGNALPROZESSOREN
Kapitel 4
SIMD-Optimierungen
Zur Erzielung einer mo¨glichst hohen Ausfu¨hrungsgeschwindigkeit von Anwendungen un-
terstu¨tzen digitale Signalprozessoren u¨blicherweise eine parallele Ausfu¨hrung von Ope-
rationen auf Instruktionsebene (feinko¨rnige Parallelita¨t). So ko¨nnen bei den Prozesso-
ren der M3-Plattform u.a. eine Datenmanipulation, ein Datentransfer, ein Speicherzu-
gri und eine Schiebe-Operation in einem Prozessorzyklus simultan ausgefu¨hrt werden.
Verglichen mit einer rein sequentiellen Ausfu¨hrung eines Programms kann dies, bei ent-
sprechender Unterstu¨tzung durch den Compiler, bereits zu einer drastischen Reduzierung
der Ausfu¨hrungszeit fu¨hren. Allerdings werden z.B. durch Kontrollflussverzweigungen und
Datenabha¨ngigkeiten in Programmen die Mo¨glichkeiten zur Parallelisierung erheblich ein-
geschra¨nkt, so dass das vorhandene Potential i.d.R. nur zu einem wesentlich geringeren
Anteil ausgenutzt werden kann. Eine weitere Mo¨glichkeit zur Erho¨hung der Ausfu¨hrungs-
geschwindigkeit besteht in der Ausfu¨hrung von SIMD-Operationen (Vektorisierung), wie
sie auch von den M3-Prozessoren zur Verfu¨gung gestellt werden. Das Besondere ist, dass
mit einer Anweisung mehrere unterschiedliche Daten parallel verarbeitet werden. Im Falle
des M3-DSPs ergibt sich so, in Verbindung mit der Mo¨glichkeit der parallelen Ausnutzung
der Funktionseinheiten, im Vergleich zu einer rein sequentiellen Ausfu¨hrung weitreichen-
des Potential zur Erho¨hung der Ausfu¨hrungsgeschwindigkeit von Programmen. Da beim
M3-DSP mit einer SIMD-Operation 16 Datenpfade parallel betrieben werden ko¨nnen und
dabei im Vergleich zu einer SISD-Operation lediglich das vier- bis fu¨nache an Energie
erforderlich ist, erscheint eine eektive Ausnutzung von SIMD-Operationen nicht nur hin-
sichtlich der Ausfu¨hrungszeit sinnvoll, sondern ebenfalls unter Energie-Gesichtspunkten.
Allerdings besteht das Problem, dass fu¨r eine entsprechende Compiler-Unterstu¨tzung zur
Ausnutzung von SIMD-Funktionalita¨t aufwa¨ndige Optimierungen und Analysen erforder-
lich sind.
Im folgenden Abschnitt wird zuna¨chst eine kurze Einfu¨hrung in die Problematik gegeben.
Nach einer U¨bersicht u¨ber bestehende Verfahren in diesem Bereich werden Erweiterungen
bezu¨glich der Architektur- und Programmdarstellung vorgestellt, die im Zusammenhang
97
98 KAPITEL 4. SIMD-OPTIMIERUNGEN
mit den hier vorgestellten SIMD-Optimierungen erforderlich werden. Anschlieend folgt
eine Beschreibung der Optimierung zur eektiven Ausnutzung der parallelen Datenpfade
und zur eektiven Ausnutzung der SIMD-Speicherzugrie durch eine optimierte Anord-
nung von skalaren Variablen. Das Kapitel endet mit einer Bewertung dieser Optimierungen
anhand einiger Testroutinen.
4.1 Einfu¨hrung
Da eine U¨bersetzung von Programmen in ezienten Assemblercode allgemein eine a¨uerst
komplexe Aufgabe darstellt, ko¨nnen vom Anwender in der Programmiersprache C bei-
spielsweise Erweiterungen in Form von Pragmas, Intrinsics und Inline-Assemblercode
vorgenommen werden: Pragmas sind Teil des ANSI C-Standards (s. z.B. [KR88]) und
stellen direkt in das Quellprogramm eingefu¨gte Anweisungen dar, die den Compiler bei
der U¨bersetzung bestimmter Programmfragmente unterstu¨tzen sollen. Als einzige Anfor-
derung wird vom C-Standard gefordert, dass diese keinen Einfluss auf das Ergebnis einer
C-Anweisung haben du¨rfen. Im Prinzip bleibt es dem jeweiligen Compiler u¨berlassen, ob
dieser die zusa¨tzlichen Informationen nutzt oder unberu¨cksichtigt la¨sst. In unserem Fall
ko¨nnten dies Anweisungen zur Umsetzung bestimmter Ausdru¨cke mit SIMD-Operationen
sein, die sonst nicht vom Compiler als vektorisierbar erkannt werden.
Assembler-Intrinsics gestatten spezielle Code-Erweiterungen in C-Syntax, ohne dass sich
der Benutzer mit der Assemblersprache auseinander setzen muss. Der Nachteil ist,
dass fu¨r derart in den C-Code eingefu¨gte
"
Funktionsaufrufe\, fu¨r jede Anweisung un-
abha¨ngig, entsprechende Assembler-Anweisungen eingefu¨gt werden. Ein direktes Einfu¨gen
von Assembler-Anweisungen (Inline-Assemblercode) kann auch vom Anwender direkt im
Quellcode vorgenommen werden. Allerdings ergeben sich durch diese Vorgehensweisen
eine Reihe von Nachteilen: So beno¨tigt der Entwickler zur Programmierung ein tieferes
Versta¨ndnis der zugrunde gelegten Zielarchitektur und des verwendeten Compilers, was
die Programm-Entwicklung fehleranfa¨lliger und zeitintensiver gegenu¨ber einer automa-
tisierten Compilierung macht. Des Weiteren ist der Quellcode bei der Verwendung von
Assembler-Intrinsics und Inline-Assemblercode aufgrund von verwendeten compilerspezi-
schen Bibliotheksaufrufen nicht mehr auf andere Zielarchitekturen portierbar. Wu¨nschens-
wert sind also Compiler, die in der Lage sind, SIMD-Operationen automatisch zu erkennen
und eektiv auszunutzen.
Nachfolgend wird zuna¨chst auf die Probleme einer automatisierten Ausnutzung von
SIMD-Operationen durch Compiler eingegangen. Dazu werden in den folgenden Abschnit-
ten zuna¨chst allgemeine und danach die durch die besonderen Architektureigenschaften
der M3-Prozessoren verursachten Problembereiche erla¨utert. Abschlieend erfolgt eine
Beschreibung der im Compiler erforderlichen Erweiterungen zur Ausnutzung der SIMD-
4.1. EINFU¨HRUNG 99
Funktionalita¨t.
4.1.1 Allgemeine Problembereiche
Bei der Entwicklung von Optimierungen zur Ausnutzung von SIMD-Operationen stellt
sich zuna¨chst die Frage nach dem Zeitpunkt der Ausfu¨hrung. Eine Integration in den
Compilierungsprozess sollte zu einem Zeitpunkt erfolgen, zu dem die Erkennung potenti-
eller SIMD-Ausfu¨hrungen mo¨glich ist und entschieden werden kann, ob diese wiederum zu
gu¨ltigem Assemblercode fu¨hren. Dies setzt also einen ausreichenden Informationsgehalt
des Zwischencodes voraus, der im gu¨nstigsten Fall ohne die Durchfu¨hrung von aufwa¨ndi-
gen Analysen ermittelbar ist. Sollen bestimmte Anweisungen als SIMD-Operationen um-
gesetzt werden, du¨rfen diese von nachfolgenden Compilierungsphasen nicht ungewollt wie-
der ru¨ckga¨ngig gemacht werden. Es muss also dafu¨r gesorgt werden, dass die erforderlichen
Informationen in allen nachfolgend ausgefu¨hrten Compilierungsphasen verfu¨gbar sind.
Bei der Ausnutzung von SIMD-Operationen hat die Lage (Ausrichtung) der Daten im
Speicher einen groen Einfluss darauf, ob und mit welchem Aufwand eine Vektorisierung
durchgefu¨hrt werden kann. So ist fu¨r eine Vektorisierung ha¨ug das Einfu¨gen zusa¨tzlicher
Datentransfers zum Packen und Entpacken der Vektorregister (oder beim M3: Gruppen-
register) erforderlich. Aus dem Grund kann es bei einer ungu¨nstigen Datenanordnung
durchaus vorkommen, dass zwar die Ausfu¨hrung einer SIMD-Operation mo¨glich ist, al-
lerdings der verursachte Overhead den Nutzen u¨bersteigt und somit eine Ausfu¨hrung der
SIMD-Operation vermieden werden sollte. Grundsa¨tzlich ko¨nnen hier die folgenden Fa¨lle
unterschieden werden:
 Eine Gruppe von Daten muss aus mehreren Gruppen zusammengesetzt werden.
 Die Anordnung der Daten innerhalb einer Gruppe muss vera¨ndert werden.
 Eine Kombination aus den beiden vorherigen Punkten.
 Ein Packen und Entpacken der Daten ist nicht erforderlich.
Der Optimalfall besteht oensichtlich darin, dass die Daten bereits so im Speicher abgelegt
sind, wie sie auch verarbeitet werden sollen. Da dies allerdings nicht der Regelfall ist,
sind hier Verfahren erforderlich, die eine geeignete Anordnung der Daten im Speicher
bestimmen und in Abha¨ngigkeit von dieser Datenanordnung die gegebenen Datentransfer-
Modi eektiv ausnutzen.
4.1.2 M3-spezische Problembereiche
In Erga¨nzung zum vorherigen Abschnitt sind bei den M3-Prozessoren aufgrund der vor-
handenen Irregularita¨ten weitere Problembereiche zu beru¨cksichtigen: Da zur Ausfu¨hrung
100 KAPITEL 4. SIMD-OPTIMIERUNGEN
von SISD-Operationen keine separate Funktionseinheit zur Abarbeitung vorgesehen ist,
besitzt der Datenpfad 0 gegenu¨ber den restlichen Datenpfaden eine Sonderfunktionalita¨t,
in dem neben der Ausfu¨hrung von SIMD-Operationen auch die Ausfu¨hrung von SISD-
Operationen vorgesehen ist. Dadurch begru¨ndet besitzen die Elemente des Registerles
vom Datenpfad 0 gegenu¨ber denen der restlichen 15 Datenpfade ebenfalls eine Sonder-
funktionalita¨t, was eine korrekte Umsetzung der Codegenerierung erheblich erschwert.
So werden bei einer SISD-Verarbeitung alle zu verarbeitenden Argumente entweder in
den Eingangsregistern oder im Akkumulator des Datenpfades 0 erwartet. Um zusa¨tzlich
eine mo¨glichst eektive Ausfu¨hrung im SISD-Modus zu unterstu¨tzen, bestehen spezielle
Datentransfer-Modi zwischen den Registern anderer Datenpfade und denen des Daten-
pfades 0.
Mit der Realisierung des Speichers der M3-Prozessoren als Gruppenspeicher wird eine
groe Speicherbandbreite zur Verfu¨gung gestellt, die in Verbindung mit der Ausfu¨hrung
von SIMD-Operationen ein groes Potential zur Verbesserung der Codequalita¨t bietet.
Allerdings wird eine Konsistenzhaltung der Daten im SISD-Modus erheblich erschwert,
da nur Zugrie auf Gruppen (oder Partitionen) mo¨glich sind. So muss zur Modizierung
eines einzelnen Wertes im Gruppenspeicher zuna¨chst die entsprechende Gruppe in eines
der Gruppenregisterles A, B, C oder D (s. auch Abb. 1.4 auf Seite 8) geladen werden. Erst
dann kann der zu speichernde Wert an der entsprechenden Stelle im Registerle modiziert
und die gea¨nderte Gruppe wieder in den Gruppenspeicher zuru¨ckgeschrieben werden.
Oensichtlich fu¨hrt das im SISD-Modus erforderliche zusa¨tzliche Laden der Gruppen im
Vergleich zu herko¨mmlichen Speichern zu einem groen Overhead.
Zusa¨tzliche Probleme treten bei der Verarbeitung von Daten auf, deren exakte Adresse mit
statischen Analysen zur U¨bersetzungszeit nicht ermittelt werden kann. Wenn beispielswei-
se innerhalb einer Schleife ein fortlaufender Zugri auf ein Array erfolgt, dann kann keine
allgemeine Aussage daru¨ber gemacht werden, in welchem Slice sich das aktuell adressierte
Array-Element bendet. Da die Elemente eines Arrays i.d.R. an fortlaufenden Positionen
im Speicher abgelegt werden, kann der entsprechende Slice aufgrund der Adresse addr
des Array-Elements berechnet werden. Bei einer Gruppengro¨e von n-Elementen ergibt
sich der Slice slice durch den Ausdruck: slice = addr modulo n. Um diese Berechnungen
nicht in Software realisieren zu mu¨ssen, ist die Verwendung von Befehlen vorgesehen, die
Gebrauch von einer der beiden Hardware-Ressourcen index read oder index write machen.
Beide Ressourcen haben gemein, dass sie die letzten vier Bit einer zuvor durchgefu¨hrten
Adressberechnung enthalten:
 index read-Ressource
Diese Ressource wird gesetzt, wenn ein Lesezugri auf den Gruppenspeicher mit
Hilfe des Page-Pointer-Registers PP oder dem Adressregister P
0
erfolgt. Im Falle
einer reinen Adressmodikation (ohne Speicherzugri), kann durch die Auswahl
4.1. EINFU¨HRUNG 101
eines entsprechenden Adressbefehls darauf Einfluss genommen werden, welche der
beiden Index-Ressourcen gesetzt werden soll.
 index write-Ressource
In Analogie zum Setzen der index read-Ressource wird diese Ressource bei ei-
nem Schreibzugri mit Hilfe des Page-Pointer-Registers PP gesetzt oder bei einer
Adressberechnung mit dem Adressregister P
1
.
Unabha¨ngig davon, ob lesend oder schreibend auf den Gruppenspeicher zugegrien
wird, hat eine Verwendung der Adressregister P
2
und P
3
keinen Einfluss auf die Index-
Ressourcen.
4.1.3 Auswirkungen auf den Codegenerator
Aufgrund der in den beiden vorherigen Abschnitten beschriebenen Probleme bei der Aus-
nutzung von SIMD-Operationen sind in einigen Phasen des Codegenerators Erweiterungen
erforderlich:
 Architekturspezikation
Fu¨r eine generische Handhabung von SIMD-Operationen ist eine Spezikation der
SIMD-Ausfu¨hrungsmo¨glichkeiten erforderlich. Des Weiteren reicht aufgrund der zu-
vor beschriebenen Irregularita¨ten, im Gegensatz zur Modellierung von homogenen
Registerles, die Angabe der Gro¨e eines bestimmten Registerles nicht mehr aus,
so dass eine Unterscheidung bestimmter Elemente eines Registerles erforderlich
wird.
 Programmdarstellung
Aufgrund der besonderen Eigenschaften des M3-Gruppenspeichers muss zwecks
Wahrung der Datenkonsistenz im SISD-Modus sichergestellt werden, dass zu spei-
chernde Daten in der richtigen Gruppe und im richtigen Slice abgelegt werden.
 Registerallokation
Da jeder Speicherzugri eine Gruppe von Daten betrit, mu¨ssen anstelle des u¨bli-
cherweise ausreichenden Spillens von einzelnen Registerelementen nun komplette
Registerles (Gruppen von Daten) gespillt werden. Weitere Besonderheiten erge-
ben sich auch, wenn auf ein Element zugegrien werden soll, dessen Position im
Registerle wa¨hrend der U¨bersetzungszeit nicht ermittelt werden kann, wie es bei
der Verarbeitung von Arrays in Schleifen ha¨ug vorkommt. Da in diesem Fall in der
entsprechenden Maschinenoperation kein konkretes Registerelement angegeben wer-
den kann, muss eine der Hardware-Ressourcen index read oder index write verwen-
det werden. Mit Durchfu¨hrung der Registerallokation ist dann davon auszugehen,
102 KAPITEL 4. SIMD-OPTIMIERUNGEN
dass potentiell alle Elemente des relevanten Registerles betroen sind. Obwohl also
z.B. bei einem Schreibzugri mit Hilfe der index write-Ressource nur in ein einzel-
nes Element des Registerles geschrieben wird, du¨rfen in diesem Registerle erst
dann wieder Modikationen vorgenommen werden, wenn alle von der Anweisung
datenabha¨ngigen Operationen ausgefu¨hrt worden sind.
 Adresscode-Generierung
Fu¨r alle Operationen, die mit Hilfe einer Index-Ressource auf eine Register-
Ressource zugreifen, ist bei der Adresscode-Generierung darauf zu achten, dass die
in Verbindung mit dem Einsatz der Index-Ressourcen verbundenen Randbedingun-
gen eingehalten werden: Um ein entsprechendes Setzen der Index-Ressourcen zu
gewa¨hrleisten, kann es deswegen unter gewissen Umsta¨nden erforderlich sein, zusa¨tz-
liche Dummy-Adressbefehle einzufu¨gen. Dies sind Adressbefehle, die normalerwei-
se nicht zur Adressberechnung erforderlich gewesen wa¨ren, allerdings dafu¨r sorgen,
dass die entsprechende Index-Ressource vor deren Verwendung auf den richtigen Sli-
ce gesetzt wird. Durch Sequentialisierungskanten wird zusa¨tzlich dafu¨r gesorgt, dass
bei der nachfolgend durchzufu¨hrenden Adresscode-Kompaktierung diese Ressource
nicht vor der planma¨igen Verwendung neu gesetzt wird. Die sich in Verbindung mit
der Verwendung der Index-Ressourcen ergebenden Randbedingungen bezu¨glich der
einzusetzenden Adressregister werden direkt bei der Initialisierung des jeweiligen
Knotens der Speicher-Zugrissequenz beru¨cksichtigt.
Um die Techniken auch auf andere Prozessoren mit SIMD-Funktionalita¨t anwenden zu
ko¨nnen, gilt es also vor allem eine generische Beschreibung der SIMD-Operationen auf
den GeLIR-Datenstrukturen zu ermo¨glichen. Wenn dies erreicht wird, ko¨nnen die fu¨r die
M3-Prozessoren implementierten SIMD-Techniken im Grundsatz auch fu¨r andere SIMD-
Prozessoren wiederverwendet werden. Ausnahmen stellen dabei mit Sicherheit einige spe-
zielle Manahmen zur Handhabung des Gruppenspeichers dar. Allerdings werden bei
der Entwicklung von Compilern immer wieder derartige Architektur-Besonderheiten zu
beru¨cksichtigen sein, die eine spezielle Anpassung bestehender Optimierungstechniken er-
fordern.
4.2 Bestehende Verfahren
Die automatisierte Ausnutzung von SIMD-Operationen kann grundsa¨tzlich in Verfahren
eingeteilt werden, die eine Vektorisierung von Schleifen vornehmen, oder innerhalb ei-
nes Basisblocks nach Anweisungen suchen, die zu SIMD-Operationen zusammengefasst
werden ko¨nnen.
Die Grundidee der ersten Strategie besteht darin, vor der Durchfu¨hrung der
Codegenerierungs-Teilaufgaben CS, IA und RA nach Schleifen zu suchen und diese auf ihre
4.2. BESTEHENDE VERFAHREN 103
Vektorisierbarkeit hin zu untersuchen. In [KP93, MKC00, PSB01] werden dazu Verfah-
ren auf Basis einer Mustererkennung vorgestellt. Diese suchen in einem ersten Schritt im
Quellprogramm nach Programmfragmenten, deren Struktur mit einem der spezizierten
Muster u¨bereinstimmt (Idiom-Recognition). Nach einer erfolgreichen U¨berpru¨fung weite-
rer Randbedingungen, werden dann die entsprechenden Programmfragmente unabha¨ngig
voneinander im Quellprogramm durch Funktionsaufrufe ersetzt. Die fu¨r diese Funktions-
aufrufe optimierten Assembleranweisungen werden dann vom Compiler an den entspre-
chenden Stellen eingefu¨gt. Um eine mo¨glichst groe U¨berdeckung von Programmfragmen-
ten mit Mustern zu erzielen, werden zusa¨tzlich Transformationen des Quellprogramms
vorgenommen. Da z.B. in [MKC00] nur Schleifen mit einer Anweisung gehandhabt wer-
den ko¨nnen, erfolgt dort eine Aufteilung von Schleifen mit mehr als einer Anweisung in
mehrere einfachere Schleifen.
Die klassische Vorgehensweise zur Vektorisierung von Schleifen basiert darauf, zuna¨chst
durch die Anwendung von Schleifentransformationen, die in einem gegebenen Programm
vorhandenen Schleifen in eine vektorisierbare Form zu bringen. Mit Hilfe des in [AK87] be-
schriebenen Verfahrens ko¨nnen unter Einhaltung der Datenabha¨ngigkeiten vektorisierba-
re und nicht vektorisierbare Anweisungen unterschiedlichen Schleifen zugeordnet werden,
so dass zumindest ein Teil der Anweisungen durch Vektoroperationen umgesetzt werden
kann. Eine detaillierte Beschreibung dieser Vorgehensweise wird u.a. in [Zim90] anhand
von Fortran 90-Programmen [Ada92] gegeben. Im Gegensatz zu C-Programmen besteht
dabei die Mo¨glichkeit, eine parallele Verarbeitung auf Arrays direkt in den Programmen
auszudru¨cken. Auf diese Weise kann dem Codegenerator relativ einfach mitgeteilt wer-
den, dass bestimmte Anweisungen vektorisiert werden ko¨nnen. Da im ANSI C-Standard
keine derartigen Sprachkonstrukte vorgesehen sind, ist dieses bei der U¨bersetzung von
C-Programmen nicht mo¨glich.
In [SG00] wird ein vektorisierender C-Compiler fu¨r Intels MMX-Befehle (MMX =
Multimedia Extension) des Pentium Prozessors vorgestellt. Nach der Erkennung von
vektorisierbaren Schleifen fu¨gt der auf Basis der SUIF-Entwicklungsumgebung imple-
mentierte Compiler inline Assemblercode fu¨r die entsprechenden Programmfragmen-
te in das C-Programm ein. Mit Ausnutzung der MMX-Befehle ergibt sich hier eine
Erho¨hung der Ausfu¨hrungsgeschwindigkeit bis zu einem Faktor von sechs. Um die Er-
gebnisse einer erfolgreichen Vektorisierung an den Codegenerator weiterzuleiten, werden
in [DeV97, Kra00] zu vektorisierende Anweisungen in der Compiler-Zwischendarstellung
entsprechend gekennzeichnet. In [DeV97] wird dabei am Beispiel des Torrent Vektorpro-
zessors [ABI+95] ein vektorisierender SUIF-Compiler fu¨r traditionelle Vektorprozessoren
vorgestellt. In [Kra00] erfolgt dies auf Basis der CoSy-Entwicklungsumgebung fu¨r den
Visual Instruktionssatz (VIS) [KMT+95] der UltraSPARC-Prozessoren. Experimentelle
Ergebnisse fu¨r einfache Schleifen zeigen hier, dass eine Steigerung der Ausfu¨hrungsge-
schwindigkeit bis zu einem Faktor von 4,8 mo¨glich ist.
104 KAPITEL 4. SIMD-OPTIMIERUNGEN
Diese Verfahren haben gemein, dass sie jeweils vor der Durchfu¨hrung der Codegenerierung
aufsetzen. Um die Anzahl der vektorisierbaren Schleifen zu erho¨hen, werden in allen Ver-
fahren zusa¨tzlich Schleifentransformationen wie Loop-Fission, Strip-Mining, Reduction-
Recognition oder Scalar-Expansion durchgefu¨hrt (s. z.B. [BGS94] fu¨r einen U¨berblick). Die
nachfolgend beschriebenen Verfahren versuchen stattdessen SIMD-Ausfu¨hrungsmo¨glich-
keiten durch Zusammenfassen homogener Operationen im Zuge der Codegenerierung auf
Basisblock-Ebene aufzuspu¨ren.
In [Kra00, LA00] wird eine Ausnutzung von SIMD-Operationen in Verbindung mit der
Codeselektion und der Instruktionsanordnung vorgeschlagen. Dabei wird zuvor durch
n-faches Abrollen der Schleife die in einem Basisblock vorhandene Parallelita¨t erho¨ht.
Im Allgemeinen stellt hierbei die Anzahl der parallelen Einheiten ein gutes Ma fu¨r
den Abrollfaktor dar. Danach werden gleichartige (homogene) Anweisungen, die zusam-
men als SIMD-Operation ausgefu¨hrt werden ko¨nnen, zu Gruppen zusammengefasst. Die
in [Kra00] dokumentierten Ergebnisse bezu¨glich dieser Vorgehensweise ergaben gegenu¨ber
einer ebenso vorgenommenen Vektorisierung von Schleifen, keine Unterschiede hinsicht-
lich der Codequalita¨t. Mit dem in [LA00] beschriebenen Verfahren zum Zusammenfassen
homogener Operationen zu SIMD-Oprationen kann fu¨r den betrachteten Mikroprozessor
die Ausfu¨hrungsgeschwindigkeit fu¨r ein Benchmark um den Faktor 6,7 gesteigert wer-
den und fu¨r die restlichen Benchmarks bis zu einem Faktor von 1,8. Die in [Leu00b]
beschriebene Technik fu¨hrt eine Ausnutzung von SIMD-Operationen in Verbindung mit
der Codeselektion durch, indem alternative U¨berdeckungen von Ba¨umen mit Prozessorin-
struktionen als lineares Gleichungssystem formuliert werden. Der Nachteil dieser Methode
liegt allerdings in der zu erwartenden hohen Laufzeit zur Lo¨sung von linearen Gleichungs-
systemen fu¨r eine groe Anzahl paralleler Datenpfade. So wurde in [Leu00b] lediglich ein
Abrollfaktor zwischen null und drei gewa¨hlt, wobei im Falle des M3-DSPs ein Abrollfaktor
von 16 erforderlich wa¨re.
Die Vorteile der zuletzt genannten Verfahren liegen in der geringeren Komplexita¨t der
erforderlichen Analysen. Fu¨r den Fall, dass nur geringe Teile des entstandenen Zwi-
schencodes mit SIMD-Operationen u¨berdeckt werden ko¨nnen, besteht hier jedoch eine
groe Gefahr einer drastischen Erho¨hung der Codegro¨e. Leider gibt es hier keine klaren
Ausschluss-Kriterien fu¨r die eine oder andere Vorgehensweise, so dass eine Entscheidung,
welche Methode fu¨r welche Architektur am geeignetsten ist, von Fall zu Fall entschieden
werden sollte. Da sich diese Arbeit mit der Compilierung fu¨r DSPs bescha¨ftigt, erscheint in
Erga¨nzung zu den Techniken fu¨r traditionelle Vektorprozessoren und GPPs die Entwick-
lung von Verfahren erforderlich, mit denen die irregula¨ren Architektureigenschaften von
DSPs entsprechend beru¨cksichtigt werden ko¨nnen. Dies betrit auch Techniken zur Hand-
habung von DSP-Architekturen mit Gruppenspeichern, wie im Falle der M3-Prozessoren
und des Media-Prozessors von MicroUnity.
4.3. U¨BERSICHT 105
4.3 U¨bersicht
Wie zuvor beschrieben gibt es zwei grundsa¨tzliche Vorgehensweisen zur Ausnutzung von
SIMD-Operationen. Aufgrund der weniger komplexen Analysen stellt die Methode des
Zusammenfassens homogener Operationen eines Basisblocks zu SIMD-Operationen eine
interessante Strategie dar. Durch eine entsprechende Erweiterung der Codeselektions-
Phase kann eine solche Optimierung auf elegante Art und Weise in den bisherigen
Codegenerierungs-Prozess integriert und dadurch mit den Aufgaben CS, IA und RA pha-
sengekoppelt durchgefu¨hrt werden. Im Gegensatz zu anderen Optimierungsverfahren erge-
ben sich hier einige Vorteile: Da kein separater Optimierungsschritt erforderlich ist, kann
eventuell vorhandener Overhead zum Ausrichten der Daten mit in die Bewertung einbezo-
gen werden. Dies wu¨rde dazu fu¨hren, dass nur dann SIMD-Operationen ausgewa¨hlt wer-
den, wenn der Nutzen den Overhead u¨bersteigt. Aufgrund des umgesetzten graphbasierten
Codeselektions-Verfahren besteht auch die Mo¨glichkeit, (SIMD-)Ausfu¨hrungsmo¨glichkei-
ten zwischen Ba¨umen zu erkennen und auszunutzen, ohne eine Erweiterung der bestehen-
den Codegenerierung vorzunehmen.
Trotz dieser Vorteile gegenu¨ber herko¨mmlichen Codegenerierungs-Verfahren bietet sich
im Falle der M3-Prozessoren jedoch eine Vektorisierung von Schleifen an, da ein 16-faches
Abrollen einer zu vektorisierenden Schleife zu extrem groen Basisblo¨cken fu¨hrt. Im Ver-
gleich zu anderen Prozessoren wu¨rden dadurch die bereits genannten Nachteile des poten-
tiellen Codegro¨en-Overheads und der gro¨eren Laufzeit der Optimierungen versta¨rkt ins
Gewicht fallen. Fu¨r Prozessoren mit weniger parallelen Ausfu¨hrungseinheiten und damit
auch mit einem geringeren erforderlichen Abrollfaktor wa¨re die Umsetzung einer solchen
Vorgehensweise allerdings wieder eine sehr interessante Alternative.
3. Codegenerierung CS, IA und RA)(
4. Adresscode-Generierung
5. Adresscode-Kompaktierung
1. Preprocessing
2. SIMD-Optimierungen
Vektorisierungfi
fi Optimierte Anordnung skalarer Variablen
Abb. 4.1: Einordnung der SIMD-Optimierungen in das Back-End
In Erga¨nzung zu dem in Abschnitt 3.3 vorgestellten groben Ablauf der Optimie-
106 KAPITEL 4. SIMD-OPTIMIERUNGEN
rungen im Back-End erfolgt in Abb. 4.1 eine Einordnung der entwickelten SIMD-
Optimierungen. Dies betrit zum einen die Durchfu¨hrung einer Vektorisierung von Schlei-
fen zur Ausnutzung der parallelen Datenpfade und zum anderen eine optimierte Anord-
nung von skalaren Variablen im Gruppenspeicher zur eektiven Ausnutzung von SIMD-
Speicherzugrien. Beide Optimierungen werden nach der Preprocessing-Phase und vor
den Codegenerierungs-Phasen CS, IA und RA durchgefu¨hrt.
Bevor in den Abschnitten 4.6 und 4.7 die entwickelten SIMD-Optimierungen vorgestellt
werden, erfolgt zuna¨chst eine Beschreibung der erforderlichen Erweiterungen hinsichtlich
der Architektur- und der Programmdarstellung.
4.4. ARCHITEKTURDARSTELLUNG 107
4.4 Architekturdarstellung
Um eine generische Implementierung von SIMD-Optimierungen zu ermo¨glichen, ist ei-
ne geeignete Beschreibung der SIMD-Funktionalita¨t essentiell. SIMD-Operationen haben
die Eigenschaft, dass mit einer Operation mehrere gleichartige (homogene) Operationen
parallel ausgefu¨hrt werden. Im Gegensatz zu einer SISD-Ausfu¨hrung mu¨ssen daher statt
einem Ergebnis eine Reihe von Ergebnissen gespeichert werden. Bei den Prozessoren der
M3-Plattform betrit das alle Elemente eines Registerles. Aufgrund der vorhandenen
Irregularita¨ten ist bei der Architekturspezikation eine Unterscheidung der einzelnen Ele-
mente eines Registerles zwingend erforderlich. Die auf Seite 34 in Abb. 2.6 gegebene
Spezikation der Multiplikations-Operation des M3-DSPs muss nun dahingehend modi-
ziert werden, dass einzelne Funktionseinheiten und Registerelemente eines Registerles
unterschieden werden ko¨nnen. Bis auf die zusa¨tzliche Kennzeichnung der verwendbaren
Register und Funktionseinheiten entsprechen die alternativen Ausfu¨hrungsmo¨glichkeiten
LirAltEntry 1 und LirAltEntry 2 in Abb. 4.2 der Spezikation der SISD-Operation.
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = true
Op ={MUL0}
FU ={DMU0}
IT ={1}
Def ={ACCU0,’*’}
Arg1={A0,B0,’CNST1’,’CNST2’}
Arg2={A0,C0,D0,ACCU0}
Op ={MUL0}
FU ={DMU0}
IT ={1}
Def ={ACCU0,’*’}
Arg1={A0,C0,D0,ACCU0}
Arg2={A0,B0,’CNST1’,’CNST2’}
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = false
LirAltEntry 1
LirAltEntry 2
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = true
Op ={SIMD_MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,’simd*’}
Arg1={A,B,’CNST1’,’CNST2’}
Arg2={A,C,D,ACCU}
Op ={SIMD_MUL}
FU ={DMU}
IT ={1}
Def ={ACCU,’simd*’}
Arg1={A,C,D,ACCU}
Arg2={A,B,’CNST1’,’CNST2’}
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = false
LirAltEntry 3
LirAltEntry 4
Abb. 4.2: M3-DSP Multiplikation einschlielich SIMD-Alternativen
LirAltEntry 3 und 4 stellen hingegen eine Erweiterung der Operations-Spezikation um
SIMD-Funktionalita¨t dar. So wird z.B. mit A das gesamte Registerle assoziiert, wa¨hrend
108 KAPITEL 4. SIMD-OPTIMIERUNGEN
mit A0 in LirAltEntry 1 und 2 ein konkretes Registerelement des Datenpfades 0 bezeichnet
wird. Des Weiteren ko¨nnen mit Hilfe der flu¨chtigen Ressource ’simd*’, analog zum SISD-
Modus, MAC-Operationen modelliert werden.
Am Beispiel des Element-Datentransfers (ElDT) wird in Abb. 4.3 ferner die Sonderfunk-
tionalita¨t der Register des Datenpfades 0 verdeutlicht. Es ist zu erkennen, dass Daten-
transfers von allen Elementen der Registerles A, B, D, Accu und M nach A0, B0 bzw. C0
mo¨glich sind, allerdings zu keinen weiteren Registerelementen anderer Datenpfade.
Op ={ElDT}
FU ={DTU}
IT ={1}
Def ={A0,B0,C0}
Arg1={-}
Arg2={A0,...,A15,B0,...,B15,
D0,...,D15,M0,...,M15,
Accu0,...,Accu15}
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = false
LirAltEntry 1
Abb. 4.3: M3-DSP Element-Datentransfer
Die Spezikation einer Operation, die einen Datentransport eines Einzelwertes unter Ver-
wendung der index read-Ressource durchfu¨hrt, ist in Abb. 4.4 dargestellt. Da die Position
des zu transportierenden Wertes nicht bekannt ist, kann im Prinzip jedes Element ei-
nes bestimmten Registerles betroen sein. Aus diesem Grund sind nicht alle einzelnen
Registerelemente als Argument aufgefu¨hrt, sondern nur das Registerle, aus dem der Wert
gelesen werden soll. Bei der Durchfu¨hrung der Registerallokation muss dies also entspre-
chend beru¨cksichtigt werden, indem angenommen wird, dass aus allen Elementen des
Registerles gelesen wird.
Op ={ElDT_IndexRead}
FU ={DTU}
IT ={1}
Def ={A0,B0,C0,D0}
Arg1={-}
Arg2={A,B,D,M,ACCU}
Attribute:
Exec-Time = 1
Latency = 1
Swapped-Args = false
LirAltEntry 1
Abb. 4.4: M3-DSP Element-Datentransfer mit Verwendung der index read-Ressource
Zur Verdeutlichung der Auswirkungen der Spezikationsa¨nderung sind in Abb. 4.5 fu¨r zwei
Knoten eines Datenflussgraphen die sich nun ergebenden alternativen Ressource-Mengen
angegeben. Alle Ressource-Alternativen, die speziell zur Handhabung des Gruppenspei-
chers oder zur Ausnutzung der SIMD-Funktionalita¨t zusa¨tzlich beno¨tigt werden, sind
fett gedruckt. Es zeigt sich, dass fu¨r den Knoten 6 nun neben der SISD-Multiplikation
MUL0 zusa¨tzlich die Auswahl einer entsprechenden SIMD-Operation SIMD MUL mo¨glich
ist. Eine Einschra¨nkung der Denitionsmenge auf die Ressource ’simd*’, wu¨rde zu einer
4.5. PROGRAMMDARSTELLUNG 109
16
15
23
23
21
19
17
18
14
13
12
11
10
9
7
8
6
3
4
5
2
1
+
*
2
LD
ST
&a
+
&b
&c
LD
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
CP
Op ={MUL0, }
FU ={DMU0, }
IT ={1}
Def ={ACCU0,’*’, , }
Arg1={A0,B0,C0,’CNST2’, , , }
Arg2={A0,B0,C0,D0, , , , }
SIMD_MUL
DMU
ACCU ’simd*’
A B C
A B C D
Op ={CP,ST,ElDT,MV, , , }
FU ={AGU,DTU,LMU}
IT ={1,2}
Def ={MEM,A0,B0,C0,D0,ACCU0,’*’,
, , , , , }
Arg1={ addr }
Arg2={ACCU0,’*’, , }
’ ’
ElDT_IndexRead VDT ...
A B C D ACCU
ACCU
’simd*’
’simd*’
20
3
Abb. 4.5: U¨berdeckung eines Datenflussgraphen einschlielich SIMD-Operationen
Ausfu¨hrung von zwei SIMD-MAC-Operationen fu¨hren, da die nachfolgenden Additionen
(s. Knoten 13 und 20) diese Ressource automatisch als Argument zugewiesen bekommen
wu¨rden. Die CP-Knoten 10, 11, 12, 17, 18 und 19 wu¨rden in diesem Fall jeweils mit ei-
ner abstrakten Copy-Operationen u¨berdeckt werden und damit die flu¨chtige Ressource
’simd*’ weiterleiten, ohne einen zusa¨tzlichen Prozessorzyklus zu beanspruchen.
4.5 Programmdarstellung
Der M3-Gruppenspeicher ermo¨glicht im SIMD-Modus eine eektive Versorgung der Da-
tenpfade mit Daten. Da keine Einzelzugrie auf Daten im Speicher mo¨glich sind, ist
allerdings bei einer Abarbeitung im SISD-Modus gegenu¨ber herko¨mmlichen Speichern ein
erho¨hter Aufwand zur Wahrung der Datenkonsistenz erforderlich. So muss sichergestellt
werden, dass zu speichernde Daten sowohl in der richtigen Gruppe als auch im richtigen
Slice abgelegt werden. Das Prinzip dieser Vorgehensweise wird in den Abbildungen 4.6 a)
und b) anhand des Speicherns einer Konstanten und des Ergebnisses einer Operation
verdeutlicht.
Die zusa¨tzlich einzufu¨genden Operationen zur Handhabung des Gruppenspeichers sind
jeweils durch Fettdruck hervorgehoben. In beiden Fa¨llen mu¨ssen zwei zusa¨tzliche Anwei-
sungen zum Laden der Gruppe der Variablen a in das Registerle A ausgefu¨hrt werden, be-
110 KAPITEL 4. SIMD-OPTIMIERUNGEN
LD
CP
42
ST
&a CP
M = MEM[&a];
A = M;
A[7] = 42;
MEM[&a] = A;
&a
a)
LD
CP
ST
M = MEM[&a];
A = M;
ACCU[0] = ’G1’ + ’G2’;
MEM[&a] = A;
+
CP
G1 G2
A[7] = ACCU[0];
&a
&a
b)
Abb. 4.6: Speichern von Daten unter Beibehaltung der Datenkonsistenz
vor der entsprechende Wert im Registerelement A[7] gesetzt werden kann. In Abb. 4.6 b)
ist eine weitere Anweisung erforderlich, um das Ergebnis der Addition vom Akkumulator
ACCU[0] in das Registerelement A[7] zu transportieren. Alle zum Laden der Gruppen
erforderlichen abstrakten Maschinenoperationen werden in der Preprocessing-Phase des
Back-Ends eingefu¨gt. Dabei wird, wie in den Beispielen dargestellt, mit Hilfe von Aus-
gabeabha¨ngigkeiten (s. gestrichelte Kanten) sichergestellt, dass die beno¨tigte Gruppe vor
der Modikation in das richtige Registerle geladen wird.
4.6 Vektorisierung von Schleifen
Aufgrund der zuvor genannten Nachteile, die durch ein ha¨uges Abrollen von Schleifen
entstehen, basiert die hier entwickelte Technik zur Ausnutzung von SIMD-Operationen auf
der Vektorisierung von Schleifen. Das Grundprinzip beruht darauf, zuna¨chst alle in einem
gegebenen Quellprogramm vorhandenen Schleifen auf ihre Vektorisierbarkeit hin zu u¨ber-
pru¨fen. Wird eine bestimmte Schleife als vektorisierbar eingestuft, werden entsprechende
Einschra¨nkungen bezu¨glich der zur Auswahl stehenden Operations-Alternativen vorge-
nommen. Die sich dadurch wiederum ergebenden weiteren Einschra¨nkungen bezu¨glich
anderer Ressourcen (wie Register) werden daraufhin automatisch durchgefu¨hrt. Dies hat
den Vorteil, dass der Codegenerierung sehr pra¨zise und gezielt Vorgaben gemacht wer-
den ko¨nnen. Da nun prinzipiell mit einem Schleifendurchlauf mehrere Iterationen (beim
M3-DSP: 16) simultan umgesetzt werden, verringert sich dadurch auch die Anzahl aus-
zufu¨hrender Iterationen der vektorisierten Schleifen.
Zur Verdeutlichung dieser Vorgehensweise sei dazu das folgende C-Programm gegeben,
wobei die Arrays A und B jeweils eine Gro¨e von 1024 haben:
4.6. VEKTORISIERUNG VON SCHLEIFEN 111
for(i=0; i<1024; i++)
{
x = A[i];
x = x + 2;
B[i] = x;
}
Der linke Teil von Abb. 4.7 entha¨lt den (etwas vereinfacht dargestellten) zum C-Code
geho¨rigen GeLIR-Code, bei dem die for-Schleife in mehrere Teile aufgesplittet wurde. Dies
betrit Anweisungen zur Initialisierung und Aktualisierung der Schleifen-Indexvariablen i,
zum Testen der Abbruchbedingung und zur Durchfu¨hrung eines bedingten Sprungs an den
Anfang der Schleife.
i = 0;
LOOP:
t1 = A[i];
t2 = t1;
x = t2 + 2;
B[i] = x;
t3 = i < 1024;
if(t3) goto LOOP;
i = i + 1;
// { , LDI }
// { LD }
// { VDT, }
// { SIMD_ADD, }
// { ST }
// { , ADD }
// { Compare }
// { JNE }
SIMD_LDI
ElDT
ADD
SIMD_ADD
i = 0;
LOOP:
t1 = A[i];
x = t2 + 2;
B[i] = x;
t3 = i < 1024;
if(t3) goto LOOP;
t2 = t1;
i = i + 16;
// { LDI }
// {LD }
// { VDT }
// { SIMD_ADD }
// { ST }
// { ADD }
// { Compare }
// { JNE }
Vektorisierung
Abb. 4.7: Beispiel der Vektorisierung von Schleifen
Vorhandene alternative Auswahlmo¨glichkeiten bzgl. Operationen sind als Kommentare
hinter den jeweiligen Code-Fragmenten angegeben. Mit der Durchfu¨hrung der Analy-
sen wurde erkannt, dass eine Vektorisierung dieser Schleife mo¨glich ist, was zu dem im
rechten Programmfragment dargestellten GeLIR-Code fu¨hrt (relevante A¨nderungen sind
durch Fettdruck hervorgehoben). Hier ist zu erkennen, dass die Schleifen-Indexvariable
i, entsprechend der Anzahl paralleler Datenpfade, mit jedem Schleifendurchlauf nun um
16 statt um 1 erho¨ht wird. Da durch die vorgenommenen Einschra¨nkungen mit jedem
Speicherzugri jeweils eine Gruppe von 16 Daten geladen und nachfolgend verarbeitet
wird, fu¨hrt dies dazu, dass statt der urspru¨nglich 1024 Schleifendurchla¨ufe nun nur noch
64 erforderlich sind. Die Vektorisierung von Schleifen la¨sst sich weiterhin sehr gut mit
bereits vorhandenen Optimierungen kombinieren, wie nachfolgend am Beispiel der Schlei-
fenoptimierung zur Ausnutzung von Zero-Overhead Hardware-Loops (ZOLs) demonstriert
wird.
Eine Realisierung von Schleifen durch Software ist in der Regel mit einem gewissen
Overhead an Prozessorzyklen verbunden. Dieser ergibt sich durch zusa¨tzlich erforderli-
112 KAPITEL 4. SIMD-OPTIMIERUNGEN
che Prozessorzyklen zum Testen der Abbruchbedingung, zum Aktualisieren der Schleifen-
Indexvariablen und durch nicht ausgenutzte Prozessorzyklen zur Umsetzung erforderlicher
Sprungbefehle. Zur Reduzierung dieses Overheads wird von DSPs i.d.R. die Ausfu¨hrung
einer begrenzten Anzahl von Maschineninstruktionen in Zero-Overhead Hardware-Loops
ermo¨glicht. Diese erlauben nach der Initialisierung eines speziellen Registers mit der An-
zahl auszufu¨hrender Iterationen die Ausfu¨hrung der eingebetteten Maschineninstruktio-
nen ohne den sonst u¨blichen Schleifen-Overhead. So sind fu¨r das Testen der Abbruchbe-
dingung und die Realisierung des Sprungbefehls zum Schleifenanfang keine zusa¨tzlichen
Prozessorzyklen erforderlich. Wird die Schleifen-Indexvariable lediglich als Schleifenza¨hler
beno¨tigt, kann des Weiteren auf die Aktualisierung dieser Variable verzichtet werden.
Mit Hilfe der unteren und oberen Schleifengrenze und der Schrittweite der Schleife wird
zuna¨chst die Anzahl der auszufu¨hrenden Iterationen berechnet, um die Initialisierung eines
entsprechenden Registers vornehmen zu ko¨nnen. Des Weiteren wird durch das Einfu¨gen
von zwei speziellen Maschinenoperationen die besondere Realisierung dieser Schleife ge-
kennzeichnet. In Abb. 4.8 ist dies anhand des vektorisierten Beispielcodes aus Abb. 4.7
verdeutlicht.
i = 0;
LOOP:
t1 = A[i];
x = t2 + 2;
B[i] = x;
i = i + 16;
t2 = t1;
t3 = i < 1024;
if(t3) goto LOOP;
// { LDI }
// {LD }
// { VDT }
// { SIMD_ADD }
// { ST }
// { ADD }
// { Compare }
// { JNE }
i = 0;
LOOP:
t1 = A[i];
x = t2 + 2;
B[i] = x;
i = i + 16;
zloop(64)
zgoto LOOP;
t2 = t1;
// { LDI }
// {LD }
// { VDT }
// { SIMD_ADD }
// { ST }
// { ADD }
ZOL-
Optimierung
Abb. 4.8: Beispiel der Ausnutzung von Zero-Overhead Hardware-Loops
Zur Initialisierung der Hardwareschleife wird zum einen die Maschinenoperation zloop
eingefu¨gt, mit der eine Initialisierung der Hardwareschleife mit der Anzahl auszufu¨hrender
Iterationen (hier 64) vorgenommen wird. Zum anderen wird die bedingte Sprunganwei-
sung am Ende der Schleife durch die Maschinenoperation zgoto ersetzt. Diese symboli-
siert, dass keine weiteren Instruktionen zum Testen der Schleifen-Abbruchbedingung und
Aktualisieren des Schleifenza¨hlers erforderlich sind. Nach einem erfolgreichen Einsetzen
der speziellen Anweisungen wird abschlieend eine Dead-Code-Elimination durchgefu¨hrt,
die den redundant gewordenen Schleifencode entfernt. In Abbildung 4.8 betrit dies le-
diglich den bedingten Sprungbefehl, da die Schleifen-Indexvariable noch zur Adressierung
4.6. VEKTORISIERUNG VON SCHLEIFEN 113
der Arrays im Schleifenrumpf beno¨tigt wird.
Wie sich an dem vorgestellten Beispiel erkennen la¨sst, stellt die ZOL-Optimierung eine
sehr gute Erga¨nzung zur Vektorisierung dar. Weitere Informationen zu diesen Optimie-
rungen ko¨nnen [Hor01b, LWDL02, LML02] entnommen werden.
Nach einem U¨berblick der einzelnen Schritte zur Vektorisierung von Schleifen wird im
Folgenden detaillierter auf einige Aspekte der Umsetzung eingegangen.
c) Überprüfung auf Vektorisierbarkeit
d) Ausnutzung spezieller Datentransfers
e) Optimierte Anordnung von Arrays
b) Schleifenerkennung
f) Modifizierung der GeLIR-Datenstrukturen
a) Anwendung von Schleifentransformationen
Abb. 4.9: Teilschritte zur Vektorisierung von Schleifen
a) Anwendung von Schleifentransformationen
Ha¨ug liegen die in einer Anwendung vorhandenen Schleifen nicht in der Form vor,
die eine Vektorisierung zula¨sst. Aus diesem Grund werden vor der Vektorisierung
Schleifentransformationen durchgefu¨hrt, mit dem Ziel, die vorhandenen Schleifen in
eine vektorisierbare Darstellung zu transformieren. Da eine Implementierung dieser
Schleifentransformationen nicht zu den Zielsetzungen dieser Arbeit geho¨rt, wurden
die erforderlichen Transformationen manuell durchgefu¨hrt. Das Ergebnis stellt wie-
derum gu¨ltigen C-Code dar, der nach wie vor auf andere Architekturen portierbar
ist. In Abschnitt 4.6.1 werden einige gebra¨uchliche Schleifentransformationen vor-
gestellt.
b) Schleifenerkennung
In diesem Schritt wird zuna¨chst nach potentiell vektorisierbaren Schleifen gesucht.
Aufgrund der Komplexita¨t der in einem spa¨teren Schritt noch durchzufu¨hren-
den Datenflussanalyse werden hier lediglich Schleifen betrachtet, die genau einen
Einsprungs- und Austrittspunkt (Single-Entry Single-Exit) besitzen. Um eine sol-
che Schleife im nachfolgenden Schritt auf ihre Vektorisierbarkeit hin untersuchen zu
114 KAPITEL 4. SIMD-OPTIMIERUNGEN
ko¨nnen, werden auerdem die untere und obere Schleifengrenze sowie die Schleifen-
Indexvariable ermittelt. Im Falle einer Vektorisierung werden diese Informationen
beno¨tigt, um eine entsprechende Anpassung der Anzahl durchzufu¨hrender Schleifen-
durchla¨ufe vornehmen zu ko¨nnen. Fu¨r eine Beschreibung der eingesetzten Analyse-
techniken soll an dieser Stelle auf die Diplomarbeit von Horst [Hor01b] verwiesen
werden.
c) U¨berpru¨fung auf Vektorisierbarkeit
Zur Feststellung, ob eine bestimmte Schleife vektorisierbar ist, mu¨ssen eine Reihe
von Analysen durchgefu¨hrt werden, auf die in Abschnitt 4.6.2 kurz eingegangen
wird. Eine detaillierte Beschreibung der Analysetechniken kann der Diplomarbeit
von Horst [Hor01b] entnommen werden.
d) Ausnutzung spezieller Datentransfers
Um bei einer ungu¨nstigen Anordnung der Daten im Speicher den zur Ausrichtung
der Daten erforderlichen Overhead so gering wie mo¨glich zu halten, ist die Ver-
wendung spezieller Datentransfer-Modi des Verbindungsnetzwerkes essentiell. De-
taillierte Informationen hierzu benden sich Abschnitt 4.6.3.
e) Optimierte Anordnung von Arrays
Ha¨ug ist eine Vektorisierung von Schleifen nur bei einer entsprechenden Ausrich-
tung der Daten im Gruppenspeicher mo¨glich. Da die Verarbeitung von Daten in-
nerhalb von Schleifen ha¨ug auf Arrays basiert, wird in diesem Schritt versucht, die
verwendeten Arrays in einer geeigneten Form im Gruppenspeicher abzulegen. Eine
genauere Beschreibung erfolgt in Abschnitt 4.6.4.
f) Modizierung der GeLIR-Datenstrukturen
Wird eine Schleife als vektorisierbar eingestuft, werden in diesem letzten Schritt die
entsprechenden Modikationen auf den GeLIR-Datenstrukturen vorgenommen. Dies
umfasst zuna¨chst eine entsprechende Einschra¨nkung der Operations-Alternativen
fu¨r Graphknoten, die SIMD-Operationen ausfu¨hren sollen. Zusa¨tzlich wird die
Schrittweite der Schleife entsprechend der Anzahl parallel ausgefu¨hrter Iterationen
in einem Schleifendurchlauf angepasst. Alle durch die Vektorisierung nicht beno¨tig-
ten Operationen zur Handhabung des Gruppenspeichers im SISD-Modus werden
ebenfalls aus den GeLIR-Datenstrukturen gelo¨scht und mu¨ssen in der nachfolgend
durchzufu¨hrenden Codegenerierung nicht betrachtet werden.
4.6.1 Unterstu¨tzende Schleifentransformationen
Mit der Anwendung von Schleifentransformationen wird ha¨ug bezweckt, den gegebe-
nen Programmcode derart zu modizieren, dass nachfolgende Optimierungen eektiver
4.6. VEKTORISIERUNG VON SCHLEIFEN 115
arbeiten, bzw. u¨berhaupt erst durchgefu¨hrt werden ko¨nnen. Dies trit auch in unserem
Fall auf die Vektorisierung zu, bei der durch die Anwendung von Schleifentransformatio-
nen die Anzahl der vektorisierbaren Schleifen erho¨ht werden soll. Im Folgenden werden
aus diesem Grund die ha¨ug verwendeten Schleifentransformationen Loop-Unswitching,
Loop-Interchange, Loop-Split und Reduction-Recognition vorgestellt und deren Arbeits-
weise anhand eines Beispiels verdeutlicht.
Als Ausgangspunkt betrachten wir das in Abb. 4.10 dargestellte Programmfragment
original, das schrittweise durch Anwendung von Schleifentransformationen in eine vek-
torisierbare Form gebracht werden soll.
for (i=0; i<1024; i++)
for
{
{
y[i] += x[i] * a[j];
sum += z[i];
}
y[i] += x[i] * b[j];
}
(j=0; j<40; j++)
if (cnd<42)
else
loop
unswitching
if (cnd<42)
else
for (i=0; i<1024; i++)
for (j=0; j<40; j++)
{
for (i=0; i<1024; i++)
for
{
y[i] += x[i] * a[j];
sum += z[i];
}
}
{
y[i] += x[i] * b[j];
}
(j=0; j<40; j++)
original
unswitching
Abb. 4.10: Beispiel zur Anwendung von Loop-Unswitching
Wie zu erkennen ist, entha¨lt das Programm in der innersten der beiden ineinander ge-
schachtelten Schleifen eine if-Anweisung. Grundsa¨tzlich besteht durchaus die Mo¨glich-
keit, derartige Konstrukte zu vektorisieren, was allerdings aufgrund der Verzweigungen
des Kontrollflusses im Schleifenrumpf aufwa¨ndigere Analysen erfordert. In solchen Fa¨llen
bietet sich daher die Anwendung der Schleifentransformation Loop-Unswitching an, mit
der die in einer Schleife enthaltenen if-Anweisungen aus der Schleife
"
herausgezogen\ wer-
den. Dies darf allerdings nur dann vorgenommen werden, wenn die zu testende Bedingung
schleifeninvariant, also unabha¨ngig von den in der Schleife enthaltenen Anweisungen, ist.
In Abb. 4.10 wird dies dadurch erreicht, indem die if-Anweisung in der innersten Schlei-
fe nach auen verschoben wird und der Schleifen-Kontrollcode dupliziert wird (s. Pro-
grammfragment unswitching). Dadurch wird die zuvor im Schleifenrumpf vorhandene
if-Anweisung statt 40960-mal (1024  40 = 40960) nun nur noch einmal ausgefu¨hrt, so
dass ebenfalls positive Auswirkungen hinsichtlich der Ausfu¨hrungszeit zu erwarten sind.
Leider la¨sst sich auch das erhaltene Programm noch nicht vektorisieren, weil mit y[i]
116 KAPITEL 4. SIMD-OPTIMIERUNGEN
zweimal eine Zuweisung an ein Array-Element vorgenommen wird, dessen Adresse nicht
in Abha¨ngigkeit zur Schleifen-Indexvariablen der innersten Schleife steht. Mit Hilfe der
Schleifentransformation Loop-Interchange bietet es sich darum an, die Position der Schlei-
fen zu vertauschen. Das Ergebnis dieser Schleifentransformation, angewendet auf das Pro-
grammfragment unswitching, fu¨hrt zu dem in Abb. 4.11 abgebildeten Programmcode
interchange.
loop
interchange
if (cnd<42)
{
{
y[i] += x[i] * a[j];
sum += z[i];
}
}
else
{
y[i] += x[i] * b[j];
}
for (i=0; i<1024; i++)
for (j=0; j<40; j++)
for (i=0; i<1024; i++)
for (j=0; j<40; j++)
if (cnd<42)
{
{
y[i] += x[i] * a[j];
sum += z[i];
}
}
else
{
y[i] += x[i] * b[j];
}
for (j=0; j<40; j++)
for (i=0; i<1024; i++)
for (j=0; j<40; j++)
for (i=0; i<1024; i++)
unswitching interchange
Abb. 4.11: Beispiel zur Anwendung von Loop-Interchange
Wie zu erkennen ist, bewirkt diese Transformation, dass nach der Anwendung jeweils
in der innersten Schleife die Schleifen-Indexvariable i modiziert wird. Dadurch kann
nun zumindest die im else-Zweig des Programms enthaltene innerste Schleife mit der
Anweisung y[i] += x[i] * b[j] vektorisiert werden. Dabei werden in jedem Schlei-
fendurchlauf jeweils Gruppen von Daten der Arrays x und y aus dem Gruppenspeicher
geladen. Der Array-Zugri b[j] wird als Einzelwert erkannt und muss zuna¨chst mittels
eines Broadcast-Befehls { durchfu¨hrbar innerhalb eines Prozessorzyklus { in ein komplet-
tes Registerle geschrieben werden, bevor eine Weiterverarbeitung erfolgen darf. Leider
ist nach wie vor keine Vektorisierung der innersten Schleife des if-Zweigs mo¨glich, weil
mit der Anweisung sum += z[i] eine Zuweisung an eine skalare Variable vorhanden ist,
die keine Vektorisierung zula¨sst.
Sind also in einer Schleife Anweisungen vorhanden, die nicht vektorisiert werden ko¨nnen,
kann durch die Anwendung der Schleifentransformation Loop-Split eine Schleife derart in
mehrere Schleifen aufgeteilt werden, dass zumindest ein Teil der Anweisungen vektorisiert
werden kann. Im Gegensatz zur Schleifentransformation Loop-Unswitching fu¨hrt dies nicht
unittelbar zu einer geringeren Anzahl auszufu¨hrender Anweisungen, da alle Anweisungen
nach wie vor mit derselben Ha¨ugkeit ausgefu¨hrt werden. In dem in Abb. 4.12 gegebenen
4.6. VEKTORISIERUNG VON SCHLEIFEN 117
Beispiel kann, nach der Durchfu¨hrung des Loop-Splits auf die im if-Zweig enthaltene
Schleife, die obere Schleife des Programmfragments split vektorisiert werden.
loop split
if (cnd<42)
{
for (j=0; j<40; i++)
{
y[i] += x[i] * a[j];
sum += z[i];
}
}
else
{
for
y[i] += x[i] * b[j];
}
(i=0; i<1024; i++)
for (i=0; i<1024; j++)
for (j=0; j<40; j++)
if (cnd<42)
{
}
else
{
y[i] += x[i] * b[j];
}
for (j=0; j<40; j++)
for (i=0; i<1024; i++)
for (j=0; j<40; j++)
{
y[i] += x[i] * a[j];
sum += z[i];
}
for (i=0; i<1024; i++)
for (i=0; i<1024; i++)
interchange split
Abb. 4.12: Beispiel zur Anwendung von Loop-Split
Die nach der Anwendung von Loop-Split erhaltene zweite Schleife stellt eine Reduktion ei-
nes Arrays auf einen skalaren Wert dar. Zur Handhabung solcher Reduktionen kann durch
die Anwendung der Transformation Reduction-Recognition wiederum ein Teil dieser Schlei-
fe vektorisiert werden. Dazu wird wie im Programmfragment reduction recognition in
Abb. 4.13 veranschaulicht, ein tempora¨res Array tsum eingefu¨hrt.
Das urspru¨ngliche Array z wird in einem ersten Schritt zuna¨chst auf dieses kleinere Array
reduziert. In einem abschlieenden Schritt wird dann das erhaltene Array, dessen Gro¨e
o.B.d.A. der Anzahl der parallelen Datenpfade entspricht, letztendlich auf den skalaren
Wert reduziert. Der Vorteil ist, dass nun zwar immer noch eine Schleife vorhanden ist,
die nicht vektorisiert werden kann, diese allerdings nur noch 16-mal statt zuvor 1024-mal
durchlaufen werden musss.
Die hier vorgestellten Schleifentransformationen stellen lediglich eine kleine Auswahl dar.
Weitere Informationen zu diesem Thema ko¨nnen u.a. [BGS94] entnommen werden.
4.6.2 U¨berpru¨fung auf Vektorisierbarkeit
Bevor die Vektorisierung einer bestimmten Schleife vorgenommen werden kann, ist die
Durchfu¨hrung einer Reihe von Analysen erforderlich, auf die im Folgenden kurz eingegan-
gen wird (vgl. [Hor01b]).
118 KAPITEL 4. SIMD-OPTIMIERUNGEN
reduction
recognition
if (cnd<42)
{
}
else
{
y[i] += x[i] * b[j];
}
for (j=0; j<40; j++)
{
for (i=0; i<1024; i++)
y[i] += x[i] * a[j];
}
for (j=0; j<40; j++)
for (i=0; i<1024; i++)
for (i=0; i<1024; i+=16)
for (k=0; k<16; k++)
tsum[k] += z[i+k];
for (k=0; k<16; k++)
sum += tsum[k];
if (cnd<42)
{
}
else
{
for
y[i] += x[i] * b[j];
}
for (j=0; j<40; j++)
{
for (i=0; i<1024; i++)
y[i] += x[i] * a[j];
}
(i=0; i<1024; i++)
for (i=0; i<1024; i++)
sum += z[i];
for (j=0; j<40; j++)
split
reduction_recognition
Abb. 4.13: Beispiel zur Anwendung von Reduction-Recognition
1. U¨berpru¨fung der ermittelten Schleifengrenzen und der Schrittweite.
Eine Vektorisierung ist potentiell mo¨glich, wenn die untere und obere Schleifen-
grenze durch die Anzahl der parallelen Verarbeitungseinheiten (beim M3-DSP: 16)
teilbar ist und die Schrittweite 1 betra¨gt. Ist die Schrittweite z.B. 2, so darf nur jedes
zweite Element eines bestimmten Arrays vera¨ndert werden, obwohl auf allen Daten-
pfaden simultan gearbeitet wird. Als Lo¨sung bietet sich hier eine Maskierung der
Datenpfade an, durch die entsprechende Datenpfade abgeschaltet werden ko¨nnen.
2. Erkennen von iterationsu¨bergreifenden Datenabha¨ngigkeiten.
Im Gegensatz zu einer u¨blicherweise vorhandenen Datenabha¨ngigkeitsanalyse auf
Basisblock-Ebene, mu¨ssen zur Gewa¨hrleistung einer semantisch korrekten Vektori-
sierung Datenabha¨ngigkeiten u¨ber Schleifengrenzen hinweg analysiert werden. Wird
z.B. ein Wert eines Arrays in der i-ten Iteration vera¨ndert und in der i+x-ten Iterati-
on verwendet, so ist eine Vektorisierung nicht mo¨glich, wenn x kleiner als die Anzahl
der parallelen Datenpfade ist, da in diesem Fall nicht gesichert ist, dass der zu verar-
beitende Wert rechtzeitig geschrieben wurde. Oensichtlich spielt bei der Entschei-
dung, ob eine Vektorisierung hinsichtlich dieses Kriteriums mo¨glich ist, die Laufrich-
tung (also das Vorzeichen der Schleifen-Schrittweite) eine wichtige Rolle und wird
deswegen mit beru¨cksichtigt. Des Weiteren wird in diesem Schritt getestet, ob die zu
verarbeitenden Daten in zusammenha¨ngenden Speicherbereichen (Gruppen) vorlie-
4.6. VEKTORISIERUNG VON SCHLEIFEN 119
gen, oder vor der Verarbeitung zu einer neuen Gruppe zusammengesetzt (gepackt)
werden mu¨ssen. Die Bereitstellung dieser Informationen erfordert die Durchfu¨hrung
einer Array-Datenflussanalyse. Dazu wird die von Duesterwald [DGS93] vorgestellte
δ-Array-Datenflussanalyse eingesetzt, mit der eine iterationsu¨bergreifende Analyse
von Abha¨ngigkeiten zwischen Array-Zugrien in Schleifen mo¨glich ist.
3. Analyse der Array-Indexterme.
Aufgrund der Art und Weise in der auf ein bestimmtes Array zugegrien wird,
muss entschieden werden, ob diese vom Codegenerator unterstu¨tzt werden. Dies
betrit insbesondere das Packen und Entpacken von Daten. Hier kommt es dann im
Wesentlichen darauf an, in wieweit der Codegenerator derartige Zugrie unterstu¨tzt.
4. Zuweisungen an skalare Variablen.
Bei der Verwendung von skalaren Variablen ist darauf zu achten, dass nur Zuwei-
sungen an Hilfsvariablen vorgenommen werden. Bei Variablen, die noch auerhalb
der Schleife Verwendung nden, ist eine Zuordnung eines Vektors zu einer skala-
ren Variablen (Reduktion) erforderlich. Als Beispiel kann hier die Berechnung der
Vektorsumme gesehen werden, bei der alle Werte eines Arrays in einer skalaren
Variablen aufsummiert werden (s. sum in Abb. 4.13 fu¨r ein Beispiel).
5. U¨berpru¨fung weiterer Abha¨ngigkeiten.
Neben den bereits erwa¨hnten Bedingungen ko¨nnen in einer Schleife vorhandene
Kontrollflussabha¨ngigkeiten und Ein- und Ausgabeanweisungen eine Vektorisierung
verhindern. Ergeben sich z.B. in Abha¨ngigkeit der Kontrollflusswege unterschiedli-
che Zugrie auf die Arrays, erschwert dies eine korrekte Vektorisierung immens und
wird deswegen in unserem Fall nicht durchgefu¨hrt. Durch die Anwendung von Schlei-
fentransformationen kann in solchen Fa¨llen evtl. noch eine Vektorisierung erreicht
werden.
Alle hier beschriebenen Analysen sind auf den GeLIR-Datenstrukturen implementiert und
ko¨nnen auch zur Entwicklung anderer Back-Ends eingesetzt werden.
4.6.3 Ausnutzung spezieller Datentransfers
Unter der Annahme, dass in jeder Iteration die Schleifen-Indexvariable i das erste Element
einer Gruppe bezeichnet, ko¨nnen Schleifenausdru¨cke wie A[i] = B[i] bei einem Speicher-
layout, wie es in Abb. 4.14 gegeben ist, problemlos vektorisiert werden. Wie anhand des
Speicherlayout zu erkennen ist, ko¨nnen dem Array A dann in drei Schleifendurchla¨ufen
gruppenweise die entsprechenden Daten von Array B zugewiesen werden. Die in der ersten
Iteration relevanten Daten sind entsprechend gekennzeichnet.
120 KAPITEL 4. SIMD-OPTIMIERUNGEN
for(i=16; i<64; i++)
{
A[i] = B[i];
}
0
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15
0
1
2
3
4
5
6
7
}
A
Slice
G
r
u
p
p
e
}
B
Abb. 4.14: Beispiel einer gruppenweisen Verarbeitung von Daten
Anders sieht es allerdings bei Schleifen mit Ausdru¨cken aus, bei denen die Daten nicht
gruppenweise verarbeitet werden ko¨nnen, sondern wie im Beispiel von Abb. 4.15 zuna¨chst
aus mehreren Gruppen (hier zwei) zusammengesetzt werden mu¨ssen.
for(i=16; i<64; i++)
{
A[i] = B[i-1];
}
0
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15
0
1
2
3
4
5
6
7
}
A
Slice
G
r
u
p
p
e
}
B
Abb. 4.15: Beispiel zur Verarbeitung von zusammengesetzten Gruppen
Um in einem solchen Fall dennoch eine Vektorisierung zu ermo¨glichen, wird zuna¨chst
die fu¨nfte Gruppe in ein Registerle geladen. Danach werden alle Daten in dem entspre-
chenden Registerle mittels eines Zurich-Zip-Datentransfers [LBSL97, DF02] in einem
Prozessorzyklus zyklisch um eine Position nach rechts verschoben und das noch fehlende
Einzelelement der Gruppe vier an die erste Position des Registerles nachgeladen. Die
dazu erforderlichen Operationen werden in den GeLIR-Code eingefu¨gt.
Wenn n die Anzahl der parallelen Datenpfade, cnst eine beliebige Konstante und i eine
Schleifen-Indexvariable darstellt, ko¨nnen grundsa¨tzlich die folgenden Ausdru¨cke vektori-
siert werden:
 A[i] = B[i]
 A[i] = B[i +/− ncnst]
4.6. VEKTORISIERUNG VON SCHLEIFEN 121
 A[i] = B[i +/− cnst]
 A[i] = B[cnst]
 A[i] = cnst
Zu beachten ist, dass die Ausdru¨cke auf der rechten Seite der Gleichungen durch arith-
metische Operatoren, fu¨r die eine Ausfu¨hrung als SIMD-Operation mo¨glich ist, beliebig
miteinander kombiniert werden ko¨nnen. Dies bedeutet, dass z.B. auch Ausdru¨cke wie
A[i] = B[i]  C [i− 1] + 42;
vektorisierbar sind.
4.6.4 Optimierte Anordnung von Arrays
Die Eektivita¨t der Ausnutzung von SIMD-Operationen ist stark abha¨ngig von der La-
ge der Daten im Speicher. So sind im gu¨nstigsten Fall die Daten bereits so im Speicher
angeordnet, dass keine zusa¨tzlichen Datentransfers erforderlich sind, um die Daten in
den Gruppenregisterles geeignet anzuordnen. Im ungu¨nstigsten Fall kann eine ungeeig-
nete Anordnung der Daten die Ausfu¨hrung von SIMD-Operationen verhindern. Gru¨nde
hierfu¨r liegen u.a. im ungewollten U¨berschreiben von Daten oder in zu hohen Kosten zum
Anordnen der zu verarbeitenden Daten.
Wa¨hrend skalare Variablen beliebig im Speicher angeordnet werden ko¨nnen, ist dies bei
komplexen Datentypen wie Arrays nicht ohne weiteres mo¨glich. Bei diesen wird im Allge-
meinen davon ausgegangen, dass aufeinander folgende Array-Elemente auch in aufeinan-
der folgenden Speicherzellen abgelegt werden. So mu¨ssten bei einer wahlfreien Anordnung
der Elemente ebenfalls die entsprechenden Array-Zugrisfunktionen angepasst werden. Da
diese allerdings im Prinzip beliebig komplex werden ko¨nnen, stellt dies fu¨r den allgemei-
nen Fall eine nicht lo¨sbare Aufgabe dar. So wu¨rde bereits eine Verteilung der Elemente
eines Arrays, auf das in einer einfachen Schleife mittels einer Schleifen-Indexvariablen
zugegrien wird, eine a¨uerst schwierige Aufgabe darstellen.
Als ausschlaggebendes Kriterium fu¨r die Anordnung eines Arrays dienen die bei der Schlei-
fenerkennung ermittelten Werte fu¨r die untere und obere Grenze (il und iu) einer Schleifen-
Indexvariablen i. Anhand dieser Werte werden bei n parallelen Datenpfaden die folgenden
Fa¨lle unterschieden, wobei o.B.d.A. jeweils davon ausgegangen wird, dass die Gro¨e der
verwendeten Arrays mit der Anzahl der Schleifendurchla¨ufe u¨bereinstimmt.
 (il mod n) = 0 ^ (iu mod n) = 0 Wenn die untere und obere Schleifengrenze oh-
ne Rest durch die Anzahl der Datenpfade n teilbar ist, ist keine Bestimmung ei-
nes speziellen Speicherlayouts der Arrays erforderlich, da die verwendeten Arrays
122 KAPITEL 4. SIMD-OPTIMIERUNGEN
die Gruppen des Gruppenspeichers vollsta¨ndig auu¨llen. Im Beispiel von Abbil-
dung 4.16 werden bei einer Vektorisierung der gegebenen Schleife in jeder Iteration
jeweils die Array-Elemente von genau einer Gruppe verarbeitet.
for(i=0; i<32; i++)
{
t = B[i] * C[i];
A[i] += t + a;
}
0
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15
0
1
2
3
4
5
6
7
}
A
}
B
}
C
}
a
Slice
G
r
u
p
p
e
Abb. 4.16: Einfaches Speicherlayout
 (il mod n) = 0 ^ (iu mod n) 6= 0
Ist die obere Schleifengrenze iu nicht ohne Rest durch die Anzahl der Datenpfade
teilbar, so darf nur dann eine Vektorisierung erfolgen, wenn durch eine geeignete
Ausrichtung der Arrays sichergestellt ist, dass keine noch beno¨tigten Daten bei
Verarbeitung der letzten Gruppe u¨berschrieben werden. In Abbildung 4.17 wird dies
beru¨cksichtigt, indem fu¨r die Arrays A, B und C die verbliebenen Speicherpla¨tze
der letzten Gruppe jeweils unbenutzt bleiben.
for(i=0; i<40; i++)
{
t = B[i] * C[i];
A[i] += t + a;
}
0
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15
0
1
2
3
4
5
6
7
8
9
10
}
a
}
A
}
B
}
C
Slice
G
r
u
p
p
e
Abb. 4.17: Speicherlayout mit einfacher Ausrichtung der Arrays
Obwohl bei einer Vektorisierung der Schleife in der letzten (dritten) Iteration zwar
auf 16 Datenpfaden gerechnet und eine vollsta¨ndige Gruppe in den Speicher ge-
schrieben wird, treten bei dieser Anordnung keine ungewollten Datenverluste auf.
4.7. OPTIMIERTE ANORDNUNG SKALARER VARIABLEN 123
 (il mod n) 6= 0 ^ (iu mod n) 6= 0
Wenn die untere Schleifengrenze nicht ohne Rest durch die Anzahl der Datenpfade
teilbar ist, kann in diesem Fall bei einer einfachen Ausrichtung der Arrays nicht
ohne weiteres eine Vektorisierung durchgefu¨hrt werden (s. auch Abb. 4.18). Da die
untere Schleifengrenze gleich zehn ist, mu¨ssten bei einer Vektorisierung der Schleife
in der ersten Iteration die Ergebnisse fu¨r A[10] bis A[25] berechnet werden. Da-
zu wa¨re allerdings bei einer einfachen Ausrichtung der Arrays, wie in Abb. 4.17,
ein groer Overhead zum Packen und Entpacken der zu verarbeitenden und spei-
chernden Gruppen erforderlich. Durch eine Expansion der Arrays wie in Abb. 4.18
dargestellt, kann dieser Overhead vermieden werden, wenn zusa¨tzlich die Schleifen-
Indexvariablen in jeder Iteration statt um 16, um zehn erho¨ht wird.
for(i=10; i<40; i++)
{
t = B[i] * C[i];
A[i] += t + a;
}
0
1
2
3 4 5 6 7 8 9 10 11 12 13 14 15
0
1
2
3
4
5
6
7
8
9
10
11
12
13
}
a
}
A
}
B
}
C
Slice
G
r
u
p
p
e
Abb. 4.18: Speicherlayout mit optimierter Ausrichtung der Arrays
Aufgrund der Lu¨cken im Speicher besteht allerdings nun das Problem, dass bei
SISD-Zugrien auerhalb dieser Schleife eine Anpassung der Zugrisfunktion durch-
gefu¨hrt werden muss, um nach wie vor den Zugri auf das richtige Array-Element
zu gewa¨hrleisten.
4.7 Optimierte Anordnung skalarer Variablen
Der Onchip-Gruppenspeicher der Prozessoren der M3-Plattform ermo¨glicht eine eziente
Versorgung der parallelen Datenpfade mit Daten, indem mit jedem Speicherzugri jeweils
eine Gruppe von Daten parallel geladen wird. Wenn die Parallelita¨t der Datenpfade al-
lerdings nicht ausgenutzt werden kann, ist es erforderlich, im SISD-Modus nacheinander
auf einzelne (in Registern vorliegende) Daten zuzugreifen. Benden sich nun aufeinander
124 KAPITEL 4. SIMD-OPTIMIERUNGEN
folgend zu verarbeitende Daten in unterschiedlichen Gruppen, muss jeweils die entspre-
chende Gruppe aus dem Speicher geladen werden, um auf den beno¨tigten Wert zugreifen
zu ko¨nnen. Das in Abb. 4.19 gegebene Beispiel verdeutlicht, dass dies einen betra¨chtlichen
Overhead an Speicherzugrien bedeutet, der sich durch eine geschickte Gruppierung der
Variablen erheblich reduzieren la¨sst.
Verwendung
nur von Slice 0
lexikalische
Ordnung
optimiert
G
1
b
G
2
c
G
3
d
G
4
e
G
5
f
G
0
a
G
1
G
2
c
G
3
d
G
4
e
G
5
f
G
0
a
G
1
b
G
2
c
G
3
d
G
4
G
5
f
G
0
a
b
e
Variablen-Gruppierungen
a) b) c)
9 9
4
Kosten
Abb. 4.19: Auswirkungen unterschiedlicher Variablen-Gruppierungen
Fu¨r eine Variablen-Zugrissequenz SV = (a, e, a, c, f, c, b, d, a) sind in Abb. 4.19 drei un-
terschiedliche Variablen-Gruppierungen a) bis c) mit resultierenden Kosten gegeben1. Die
Ermittlung der Kosten erfolgte in diesem Beispiel, indem fu¨r jeden Zugri auf eine Va-
riable, die sich in einer anderen Gruppe als die vorherige bendet, die Gesamtkosten um
eins erho¨ht wurden. Dabei sollte beru¨cksichtigt werden, dass der Zugri auf die erste
Variable a ebenfalls einen Speicherzugri verursacht. Fu¨r die Variablen-Gruppierungen
a) und b) ergeben sich demnach Gesamtkosten in Ho¨he von neun Speicherzugrien, da
mit jedem Variablenzugri der Sequenz eine andere Gruppe betroen ist. Die optimierte
Gruppierung c) fu¨hrt hier zu einer drastischen Reduzierung der Kosten auf vier Speicher-
zugrie, weil mehrfach auf Variablen einer Gruppe zugegrien wird, die sich bereits in
einem Registerle bendet.
Oensichtlich besteht bei einer Abarbeitung im SISD-Modus ein enger Zusammenhang
zwischen der Lage der skalaren Variablen im Gruppenspeicher und der Anzahl aus-
zufu¨hrender Speicherzugrie. Das Ziel der hier beschriebenen Optimierung besteht deswe-
gen in der Ermittlung einer optimierten Anordnung der in einem Programm verwendeten
skalaren Variablen zu Gruppen, so dass die Anzahl der erforderlichen energieintensiven
1In diesem Beispiel nehmen wir der Einfachheit halber eine Architektur mit einer Gruppenbreite von
zwei an.
4.7. OPTIMIERTE ANORDNUNG SKALARER VARIABLEN 125
Speicherzugrie reduziert wird und dadurch bedingt weniger Operationen ausgefu¨hrt wer-
den mu¨ssen. Neben einer Reduzierung der Ausfu¨hrungszeit ist ebenfalls auch eine Redu-
zierung des Energieverbrauchs zu erwarten. Da bei Prozessoren mit mehreren verteilten
Speicherba¨nken ebenfalls eine Aufteilung von Variablen auf die einzelnen Speicher vorge-
nommen werden kann, ist eine entsprechende Verwendung der im Folgenden beschriebenen
Techniken nicht nur auf Prozessoren mit Gruppenspeichern wie denen der M3-Prozessoren
beschra¨nkt.
Im folgenden Abschnitt wird zuna¨chst eine formale Grundlage des zu lo¨senden Optimie-
rungsproblems geschaen. Danach erfolgt eine Beschreibung des Lo¨sungsansatzes und der
Integration in den Compilierungsprozess.
4.7.1 Problemdenition
U¨blicherweise besteht die Aufgabe der Adresszuweisung in der Zuweisung der verwende-
ten Variablen zu Adressen im Speicher. Aufgrund des Gruppenspeichers ist in unserem
Fall allerdings eine weitere Phase der Adresszuweisung erforderlich. So wird die Aufga-
be der Adresszuweisung, wie in Abb. 4.20 verdeutlicht, in die horizontale und vertikale
Adresszuweisung unterteilt.
S = (a , e , a, c, f, c, b, d, a)
V
G
0
a e
...
G
1
c
f
...
G
2
b d
...
Variablen-
Zugriffssequenz
Variablen-
Gruppierung
horizontale
Adresszuweisung
Element-
Adresse
Gruppe
Speicher-
layout
vertikale
Adresszuweisung
0 - 15
32 - 47 G
1
64 - 79 G
2
80 - 95
48 - 63
16 - 31 G
0
96 - 111
...
Gruppen-
Adresse
0
2
4
5
3
1
6
Abb. 4.20: Horizontale und vertikale Adresszuweisung
Die Aufgabe der horizontalen Adresszuweisung besteht in der Zuordnung aller verwende-
ten Variablen zu Gruppen. Erst danach werden im Zuge der vertikalen Adresszuweisung,
mittels des in Abschnitt 3.6 beschriebenen Verfahrens, den sich ergebenden Gruppen
Adressen zugewiesen.
126 KAPITEL 4. SIMD-OPTIMIERUNGEN
Wie wir zuvor gesehen haben, sind zur Ermittlung einer geeigneten Anordnung der Varia-
blen zu Gruppen, Informationen u¨ber die Zugrisreihenfolge von Variablen erforderlich,
die der Optimierung in Form einer Variablen-Zugrissequenz zur Verfu¨gung gestellt wer-
den mu¨ssen:
Denition 4.1 (Variablen-Zugrissequenz) Wenn V = fv
1
, v
2
, . . . , vng eine Men-
ge von skalaren Variablen darstellt, besteht eine Variablen-Zugrissequenz SV =
(s
1
, s
2
, . . . , sm) aus einer Sequenz von Variablen s 2 V , auf die wa¨hrend einer Programm-
ausfu¨hrung in dieser zeitlichen Reihenfolge lesend oder/und schreibend zugegrien wird.
In der in Abb. 4.20 dargestellten Variablen-Zugrissequenz erfolgen Zugrie auf die Varia-
blen a, b, c, d und e. Das Ergebnis der horizontalen Adresszuweisung ko¨nnte in der darge-
stellten Zuweisung der Variablen zu den Gruppen G
0
, G
1
und G
2
bestehen. Da zu Beginn
der Sequenz auf die Variablen a und e zweimal aufeinander folgend zugegrien wird, er-
scheint die Zuweisung dieser Variablen zur selben Gruppe eine gute Wahl. In diesem Fall
ist es also mo¨glich, einmal die Gruppe G
0
aus dem Speicher in ein Registerle zu laden und
die danach folgenden Zugrie { ohne erneuten Speicherzugri { direkt auf dem Registerle
durchzufu¨hren. Dazu bietet es sich an, Variablen, die in einer Variablen-Zugrissequenz
an aufeinander folgenden Positionen stehen (also Nachbarn sind), mo¨glichst denselben
Gruppen zuzuweisen.
Denition 4.2 (Nachbar) Zwei Variablen v und w sind genau dann Nachbarn in der
Variablen-Zugrissequenz SV = (s1, s2, . . . , sn), wenn es mindestens ein i 2 f1, . . . , n − 1g
in SV gibt, fu¨r das si und si+1 Zugrie auf die Variablen v und w darstellen. Die Reihen-
folge der Zugrie spielt dabei keine Rolle.
Aus dieser Denition ergibt sich unmittelbar der Begri der Nachbarschaftsbeziehung.
Denition 4.3 (Nachbarschaftsbeziehung) Zwischen zwei Variablen v und w einer
Variablen-Zugrissequenz SV besteht eine Nachbarschaftsbeziehung, wenn diese Nachbarn
sind.
In Abha¨ngigkeit davon, ob zwei Variablen derselben Gruppe zugewiesen werden, besteht
zwischen diesen Variablen entweder eine erfu¨llte oder eine unerfu¨llte Nachbarschaftsbezie-
hung.
Denition 4.4 (Erfu¨llte und unerfu¨llte Nachbarschaftsbeziehung) Wenn zwi-
schen zwei Variablen v und w eine Nachbarschaftsbeziehung existiert und diese derselben
Gruppe angeho¨ren, besteht zwischen den Variablen v und w eine erfu¨llte Nachbarschafts-
beziehung. Geho¨ren die Variablen v und w unterschiedlichen Gruppen an, besteht eine
unerfu¨llte Nachbarschaftsbeziehung.
4.7. OPTIMIERTE ANORDNUNG SKALARER VARIABLEN 127
In Analogie zu [LDK+95] verwenden wir die folgende Graph-Repra¨sentation der Variablen-
Zugrissequenz:
Denition 4.5 (Variablen-Zugrisgraph) Ein Variablen-Zugrisgraph GV = (V, E)
ist ein ungerichteter Graph mit einer Menge von Knoten V = fv
1
, v
2
, . . . , vng, auf die in
einer Variablen-Zugrissequenz SV zugegrien wird. Die Kantenmenge E entha¨lt genau
dann eine Kante eij zwischen zwei Knoten vi und vj, wenn zwischen diesen Variablen eine
Nachbarschaftsbeziehung bezu¨glich SV besteht. Das Gewicht wij einer Kante eij ergibt sich
durch die Anzahl der aufeinander folgenden Zugrie der Variablen vi und vj in SV .
Zusa¨tzlich wird die Menge der Kanten des Variablen-Zugrisgraphen in externe und in-
terne Kanten eingeteilt:
Denition 4.6 (Externe und interne Kanten) Eine Kante eij zwischen zwei Knoten
vi und vj wird als externe Kante bezeichnet, wenn zwischen den Knoten vi und vj eine
Nachbarschaftsbeziehung besteht und diese Knoten unterschiedlichen Gruppen angeho¨ren.
Eine Kante wird stattdessen als interne Kante bezeichnet, wenn diese Knoten derselben
Gruppe zugewiesen wurden.
S = (a, e, a, c, f, c, b, d, a)
V
a
c
b
d
e
f
1
2
1
1
1
2
Variablen-Zugriffsgraph
Variablen-Zugriffssequenz
Abb. 4.21: Darstellung einer Variablen-Zugrissequenz als Variablen-Zugrisgraph
In Abb. 4.21 ist fu¨r die bereits betrachtete Variablen-Zugrissequenz der zugeho¨ri-
ge Variablen-Zugrisgraph abgebildet. Nachdem in diesem Abschnitt die erforderlichen
Grundlagen geschaen worden sind, wird im na¨chsten Abschnitt der verfolgte Lo¨sungs-
ansatz beschrieben.
128 KAPITEL 4. SIMD-OPTIMIERUNGEN
4.7.2 Lo¨sungsansatz
Da Speicherzugrie immer auf Gruppen bezogen sind, entspricht die Aufgabe der ho-
rizontalen Adresszuweisung einer Partitionierung der Variablen. Oensichtlich kann die
Anzahl der Speicherzugrie dadurch minimiert werden, indem durch eine geeignete Auf-
teilung (oder Partitionierung) der Variablen zu Gruppen, die Summe der Kantengewichte
der externen Kanten minimiert wird (Graph-Partitionierungsproblem). Dabei gilt es, die
folgenden Randbedingungen zu beachten:
 Die Anzahl der Variablen, die einer Partition zugeordnet werden du¨rfen, ist durch
die Gruppenbreite beschra¨nkt.
 Die Anzahl der resultierenden Gruppen ist unbekannt, da die Gruppen nicht
zwangsla¨ug voll ausgelastet sein mu¨ssen.
 Jede Variable muss genau einer Gruppe zugewiesen werden.
 Die Position einer Variablen innerhalb einer Gruppe spielt keine Rolle.
In Abb. 4.22 sind fu¨r drei mo¨gliche Graph-Partitionierungen die dazugeho¨rigen Variablen-
Gruppierungen angegeben. Oensichtlich stellen die Partitionen a) und b) das Ergebnis
schlechter Partionierungsverfahren dar, da in keinem dieser Fa¨lle eine Nachbarschaftsbe-
ziehung ausgenutzt wird und dadurch nur externe Kanten (siehe fett gedruckte Kanten)
existieren. Wie zu erkennen ist, entsprechen die aus den Partitionierungen resultierenden
Variablen-Gruppierungen denen aus Abb. 4.19.
Da die Durchfu¨hrung einer derartigen Partitionierung die Lo¨sung eines NP-harten Op-
timierungsproblems bedeutet [GJ79], wurden im Rahmen der Diplomarbeit von Kott-
mann [Kot00] einige Partitionierungsverfahren implementiert und hinsichtlich ihrer Gu¨te
gegenu¨bergestellt. Darunter benden sich einfache heuristische Partitionierungsverfah-
ren, der ha¨ug zur Partitionierung verwendete Kernighan-Lin-Algorithmus [KL70] und
ein Partitionierungsverfahren auf Basis eines genetischen Algorithmus. Die Heuristiken
stellen dabei polynomielle Verfahren auf Basis eines Kruskal-Algorithmus [Kru56] dar,
die allerdings im Vergleich zu den anderen Verfahren ha¨ug unbefriedigende Ergebnisse
liefern. Der Kernighan-Lin-Algorithmus fu¨hrte hingegen bereits zu sehr guten Ergebnis-
sen, wobei jedoch keine polynomielle Laufzeit dieses Verfahrens garantiert werden kann.
Eine Validierung hat ergeben, dass insbesondere fu¨r gro¨ere Variablenmengen durch das
genetische Partitionierungsverfahren bessere Ergebnisse erzielt werden. Die Einsparungen
liegen dabei zwischen 10% und 35% gegenu¨ber den Kruskal-Varianten und zwischen 3%
und 10% gegenu¨ber dem Kernighan-Lin-Algorithmus. Da eine Validierung dieser Verfah-
ren klare Vorteile zugunsten des genetische Partitionierungsverfahrens ergab, wird die
4.7. OPTIMIERTE ANORDNUNG SKALARER VARIABLEN 129
G
1
b
G
2
c
G
3
d
G
4
e
G
5
f
G
0
a
G
1
G
2
c
G
3
d
G
4
e
G
5
f
G
0
a
G
1
b
G
2
c
G
3
d
G
4
G
5
f
G
0
a
b
e
Variablen-Gruppierungen
Partitionierungen
a
c
b
d
e
f
1
2
1
1
1
2
a
c
b
d
e
f
1
2
1
1
1
2
a
c
b
d
e
f
1
2
1
1
1
2
Abb. 4.22: Graph-Partitionierungen und resultierende Variablen-Gruppierungen
Aufteilung der Variablen zu Gruppen in diesem Compiler auf Basis des genetischen Al-
gorithmus durchgefu¨hrt. Detaillierte Informationen zur Realisierung des genetischen Par-
titionierungsverfahrens ko¨nnen [Kot00, LKB+01] entnommen werden.
4.7.3 Integration in den Compilierungsprozess
Da die Zugrisreihenfolge der Variablen stark vom generierten Code abha¨ngt, ist vor
Durchfu¨hrung der Optimierung ein Codegenierungs-Durchlauf erforderlich, bei dem die
Teilaufgaben der Codegenerierung CS, IA und RA durchgefu¨hrt werden. Hierbei wird da-
von ausgegangen, dass in jede Gruppe nur eine Variable aufgenommen werden kann. Das
sich hieraus ergebende beste Individuum wird ermittelt und gespeichert. Zusa¨tzlich werden
von dieser Lo¨sung zwei Variablen-Zugrissequenzen erzeugt, in denen (Speicher-)Zugrie
auf globale und lokale Variablen getrennt voneinander aufgefu¨hrt werden. Diese Unter-
scheidung ist erforderlich, da lokale und globale Variablen unterschiedlichen Speicherbe-
reichen und damit nicht denselben Gruppen zugewiesen werden du¨rfen. Des Weiteren
ergibt sich bei der Partitionierung der lokalen Variablen gegenu¨ber den globalen Varia-
blen zusa¨tzliches Optimierungspotential. So kann aufgrund der begrenzten Lebensdauer
130 KAPITEL 4. SIMD-OPTIMIERUNGEN
lokaler Variablen derselbe Speicherplatz mehreren Variablen zugewiesen werden, sofern
sich ihre Lebensbereiche nicht u¨berschneiden. Mit Hilfe des Partitionierungsverfahrens
wird fu¨r diese Variablenzugrissequenzen eine optimierte Variablen-Gruppierung ermit-
telt. Diese dienen dann als Eingabe fu¨r einen erneuten Codegenerierungs-Durchlauf, der
in der Initialisierungsphase mit Lo¨sungen der zuvor ermittelten besten Lo¨sung initialisiert
wird.
4.8 Bewertung
In diesem Abschnitt erfolgt eine Bewertung der zuvor vorgestellten Optimierungen an-
hand einiger Testroutinen. Dazu werden im folgenden Abschnitt zuna¨chst Ergebnisse der
Vektorisierung, in Verbindung mit der Optimierung zur Ausnutzung der Zero-Overhead
Hardware-Loops, vorgestellt. Des Weiteren wird der Einfluss von Schleifentransformatio-
nen auf die Codequalita¨t anhand des in Abschnitt 4.6.1 betrachteten Beispielprogramms
demonstriert. Danach erfolgt eine Bewertung der Optimierung fu¨r eine eektive Ausnut-
zung der SIMD-Speicherzugrie im SISD-Modus.
4.8.1 Vektorisierung
Zur Beurteilung der Eektivita¨t der Optimierung zur Vektorisierung von Schleifen wer-
den in diesem Abschnitt die Ergebnisse einiger Compiler-Varianten gegenu¨bergestellt.
Dabei soll durch das Ein- bzw. Ausschalten von Optimierungen ein direkter Vergleich der
Auswirkungen der jeweiligen Optimierungen auf die Codequalita¨t ermo¨glicht werden. Im
einzelnen werden die Einflu¨sse der folgenden Optimierungen untersucht, die alle die volle
Breite des Gruppenspeichers ausnutzen:
 SISD
Durchfu¨hrung einer Codegenerierung im Einstreifen-Modus.
 SIMD
Durchfu¨hrung der Optimierung zur Vektorisierung von Schleifen.
 seq
Statt der standardma¨ig durchgefu¨hrten Kompaktierung von Maschinenoperatio-
nen (s. Kapitel 3) wird lediglich sequentieller Code erzeugt. Hiermit soll zum einen
der Nutzen einer Kompaktierung gegenu¨ber einer rein sequentiellen Codeerzeugung
aufgezeigt werden und zum anderen auch das Potential zur Verbesserung der Code-
qualita¨t durch eine SIMD-Ausfu¨hrung gegenu¨ber dem einer Kompaktierung.
4.8. BEWERTUNG 131
 ZOL
Hiermit werden Verfahren gekennzeichnet, die zusa¨tzlich die Optimierung zur Aus-
nutzung von Zero-Overhead Hardware-Loops ausfu¨hren. Auch hier soll durch einen
Vergleich mit den entsprechenden Varianten ohne Beru¨cksichtigung dieser Optimie-
rung, das Potential zur Verbesserung aufgezeigt werden. Des Weiteren soll gezeigt
werden, dass diese Optimierung eine sehr gute Erga¨nzung zur Vektorisierung von
Schleifen darstellt.
Bei der mit SISD+ZOL bezeichneten Compiler-Variante wird also eine Codegenerierung im
Einstreifen-Modus unter Ausnutzung von Zero-Overhead Hardware-Loops durchgefu¨hrt,
wobei zusa¨tzlich eine Kompaktierung der Maschinenoperationen erfolgt. Da in diesem
Abschnitt in erster Linie Aussagen u¨ber die Eektivita¨t der SIMD-Optimierung zur
Ausnutzung der parallelen Datenpfade gemacht werden sollen, werden alle Ergebnisse in
Relation zu der Variante SISD+ZOL (=̂ 100%) gesetzt. Als Testroutinen dienen dabei die
folgenden drei Schleifen:
for(i=0; i<1024; i++)
{
A[i] = B[i] + 2;
}
Schleife 1
for(i=0; i<1024; i++)
{
t = B[i] * C[i];
A[i] += t + a;
}
Schleife 2
for(i=0; i<1022; i++)
{
t = B[i+1] * C[i+2];
A[i] += t + 2;
}
Schleife 3
In den Abbildungen 4.23 bis 4.25 werden Ergebnisse bezu¨glich Ausfu¨hrungszeit, Energie-
verbrauch und durchschnittlicher Leistungsaufnahme2 fu¨r diese drei Testroutinen vorge-
stellt. In Abb. 4.23 sind zuna¨chst die Ergebnisse bezu¨glich der Ausfu¨hrungszeit dargestellt.
Es zeigt sich, dass durch einen Verzicht auf eine Kompaktierung und die Ausnutzung
von Zero-Overhead Hardware-Loops (s. SISD+seq) die Ausfu¨hrungszeit gegenu¨ber der
Variante SISD+ZOL im Durchschnitt um 97% ho¨her ist. Bei einer zusa¨tzlichen Beru¨ck-
sichtigung von Zero-Overhead Hardware-Loops (s. SISD+ZOL+seq) ko¨nnen bereits deut-
liche Verbesserungen der Codequalita¨t erzielt werden. Der Anteil der durch eine Kom-
paktierung erzielten Verbesserungen betra¨gt fu¨r diese Testroutinen im Durchschnitt 52%
(s. SISD+ZOL+seq). Die Durchfu¨hrung einer Vektorisierung der Schleifen (s. SIMD) ohne
eine Ausnutzung von Zero-Overhead Hardware-Loops fu¨hrt bereits zu einer drastischen
Reduzierung der Ausfu¨hrungszeit auf durchschnittlich 9%. Mit einer zusa¨tzlichen Umset-
zung der Optimierung der Zero-Overhead Hardware-Loops kann die Ausfu¨hrungszeit fu¨r
2Im Gegensatz zum Energieverbrauch wird bei der Leistungsaufnahme die Anzahl der Prozessorzyklen
des Programms nicht mitberu¨cksichtigt.
132 KAPITEL 4. SIMD-OPTIMIERUNGEN
2
0
8
1
8
8
1
9
4
1
9
7
1
5
8
1
4
1
1
5
6
1
5
2
1
5
0
1
2
3
1
3
7
1
3
7
9
8
9 9
4
5
7
5
0
20
40
60
80
100
120
140
160
180
200
220
schleife1 schleife2 schleife3 average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
SISD+seq SISD+ZOL+seq SISD SIMD SIMD+ZOL
Abb. 4.23: Vektorisierung Ergebnisse: Ausfu¨hrungszeit (100% =̂ SISD+ZOL)
diese Testroutinen letztlich auf durchschnittlich 5% reduziert werden, was einer Erho¨hung
der Ausfu¨hrungsgeschwindigkeit um den Faktor 20 entspricht.
Die in Abb. 4.24 dargestellten Ergebnisse bezu¨glich des Energieverbrauchs weisen dieselbe
Tendenz auf, wie die zuvor dargestellten. Allerdings ist hier zu beobachten, dass die erziel-
ten Einsparungen im Vergleich zur Reduzierung der Ausfu¨hrungszeit geringer ausfallen.
Beispielsweise betra¨gt der durchschnittliche Overhead bei einer sequentiellen Ausfu¨hrung
(s. Variante SISD+ZOL+seq) nun lediglich 31% statt 52% bezu¨glich der Ausfu¨hrungszeit.
1
5
6
1
4
8
1
7
0
1
5
8
1
2
9
1
2
1
1
4
4
1
3
1
1
1
5
1
0
6
1
2
3
1
1
5
1
0
8
1
1
1
0
7 7
9
8
0
20
40
60
80
100
120
140
160
180
schleife1 schleife2 schleife3 average
r
e
l
.
E
n
e
r
g
i
e
v
e
r
b
r
a
u
c
h
i
n
%
SISD+seq SISD+ZOL+seq SISD SIMD SIMD+ZOL
Abb. 4.24: Vektorisierung Ergebnisse: Energieverbrauch (100% =̂ SISD+ZOL)
4.8. BEWERTUNG 133
A¨hnliches la¨sst sich bei Betrachtung der SIMD-Varianten beobachten. Die geringeren
Einsparungen hinsichtlich des Energieverbrauchs lassen sich dadurch erkla¨ren, dass zur
Ausnutzung der Parallelita¨t mit der Ausfu¨hrung einer Maschineninstruktion im Vergleich
zu einer SISD-Ausfu¨hrung mehr Energie aufgewendet werden muss. So ko¨nnen mit ei-
ner SIMD-Operation 16 Operationen in einem Zyklus ausgefu¨hrt werden, was ein Nut-
zenverha¨ltnis zwischen SISD und SIMD von 1:16 bedeutet. Bezu¨glich des Energiever-
brauchs ist das Nutzenverha¨ltnis aufgrund des vier- bis fu¨nfmal ho¨heren Energiebedarfs
bei Ausfu¨hrung einer SIMD-Operation jedoch mit ca. 1:4 wesentlich geringer. Dies belegen
auch die in Abb. 4.25 dargestellten Ergebnisse bezu¨glich der durchschnittlichen Leistungs-
aufnahme. Wie zu erwarten zeigt sich, dass bei der Ausfu¨hrung von SIMD-Operationen
die deutlich ho¨chste durchschnittliche Leistungsaufnahme zu verzeichnen ist. Da z.B. die
durchschnittliche Leistungsaufnahme der Variante SIMD+ZOL im Vergleich zu der Referenz-
Variante SISD+ZOL um durchschnittlich 47% ho¨her ist, mu¨ssen die Reduzierungen des
Energieverbrauchs gegenu¨ber denen der Ausfu¨hrungszeit auch geringer ausfallen.
7
5
7
9
8
8
8
1
8
1
8
6
9
2
8
6
7
7
8
6
8
9
8
4
1
0
9
1
1
0
1
1
8
1
1
2
1
6
5
1
4
3
1
3
3
1
4
7
0
20
40
60
80
100
120
140
160
180
schleife1 schleife2 schleife3 average
r
e
l
.
d
u
r
c
h
s
c
h
n
i
t
t
l
.
L
e
i
s
t
u
n
g
s
a
u
f
n
.
i
n
%
SISD+seq SISD+ZOL+seq SISD SIMD SIMD+ZOL
Abb. 4.25: Vektorisierung Ergebnisse: Durchschnittliche Leistungsaufnahme (100% =̂
SISD+ZOL)
Um den mo¨glichen Einfluss von Schleifentransformationen auf die Codequalita¨t aufzu-
zeigen, werden in Abb. 4.26 Ergebnisse fu¨r die in Abschnitt 4.6.1 vorgestellten Schlei-
fentransformationen pra¨sentiert. Dabei wurde die Compiler-Variante SIMD+ZOL auf das
in Abschnitt 4.6.1 angegebene Originalprogramm original sowie auf die durch Schlei-
fentransformationen entstandenen Programme unswitching, interchange, split und
reduction recognition angewendet. Alle in Abb. 4.26 dargestellten Ergebnisse sind in
Relation zum urspru¨nglichen Programm original gesetzt.
Wie zu erwarten, wird durch die Anwendung der Schleifentransformation Loop-
Unswitching eine Reduzierung der Ausfu¨hrungszeit erzielt, da die in der innersten Schleife
134 KAPITEL 4. SIMD-OPTIMIERUNGEN
7
6
8
8
8
0
1
0
5
1
2
0
7
5
9
9
8
7
1
1
5
1
0
0
4
6
6
6
5
8
1
2
6
1
0
6
1
1
1
1
7
1
4
9
1
5
9
0
20
40
60
80
100
120
140
160
180
Ausführungszeit #Speicherzugriffe Energieverbrauch durchschnittliche
Leistungsaufnahme
Codegröße
% unswitching interchange split reduction_recognition
Abb. 4.26: Schleifentransformationen zur eektiven Ausnutzung von SIMD-Operationen
(100% =̂ original)
vorhandene if-Anweisung statt 40960-mal nun nur noch einmal ausgefu¨hrt werden muss
(s. Programm unswitching in Abb. 4.10). Dies wirkt sich ebenfalls positiv auf die An-
zahl der Speicherzugrie und den Energieverbrauch aus. Wa¨hrend lediglich eine geringe
Erho¨hung der durchschnittlichen Leistungsaufnahme zu verzeichnen ist, erho¨ht sich die
Codegro¨e durch diese Optimierung um 20%. Mit der Durchfu¨hrung der Schleifentransfor-
mation Loop-Interchange kann im Programm interchange (s. Abb. 4.11) die Schleife im
else-Zweig vektorisiert werden. Dies fu¨hrt zwar gegenu¨ber dem Programm unswitching
zu einer Reduzierung der Codegro¨e, schla¨gt sich aber nur geringfu¨gig in einer geringe-
ren Laufzeit nieder, da bei der verwendeten Initialisierung der Variablen cnd das Testen
der if-Anweisung den Wert true liefert und somit der else-Zweig des Programms nicht
ausgefu¨hrt wird.
Durch die Aufteilung der Schleife des if-Zweigs mittels Loop-Split in das Programm split
(s. Abb. 4.12) kann nun die Ausfu¨hrungszeit gegenu¨ber der vorherigen Version um 39%
(=̂ 29 Prozentpunkte) weiter gesenkt werden, da nun ein weiterer Teil der Anweisungen
vektorisiert werden kann. Dies wirkt sich ebenso positiv auf die Anzahl der Speicherzugrie
und den Energieverbrauch aus, der nun bereits um 42% gegenu¨ber dem Originalprogramm
geringer ist. Durch die zusa¨tzliche Schleife, fu¨r die nun Code erzeugt werden muss, ist wie-
derum ein Anstieg der Codegro¨e zu verzeichnen. Aufgrund der versta¨rkten Ausfu¨hrung
von SIMD-Operationen fu¨hrt dies zu einem Anstieg der durchschnittlichen Leistungs-
aufnahme um nun insgesamt 26%. Mit der Umsetzung von Reduction-Recognition kann
wiederum ein Teil der Anweisungen vektorisiert werden. So ist nun insgesamt eine Redu-
zierung der Ausfu¨hrungszeit auf 7% erreicht. Auch die Anzahl der Speicherzugrie und
der Energieverbrauch weisen mit nunmehr 11% gegenu¨ber den urspru¨nglichen Werten auf
4.8. BEWERTUNG 135
eine drastische Verbesserung der Codequalita¨t hin. Die durchschnittliche Leistungsauf-
nahme ist durch die intensive Ausfu¨hrung von SIMD-Operationen auf 49% u¨ber die des
Originalprogramms angestiegen. Durch das Einfu¨gen von zwei zusa¨tzlichen Schleifen ist
die Codegro¨e um insgesamt 59% angestiegen.
Fazit
Die dargestellten Ergebnisse zeigen, dass die im Compiler umgesetzten Optimierungen
zur Kompaktierung und Ausnutzung von Zero-Overhead Hardware-Loops bereits zu ei-
ner drastischen Verbesserung der Codequalita¨t beitragen. Der gro¨te Anteil der hier auf-
gezeigten Verbesserungen wurde mit der Vektorisierung von Schleifen erzielt. Allerdings
enthielten die hier betrachteten Testroutinen jeweils eine Schleife, die ohne weitere Schlei-
fentransformationen vektorisiert werden konnte. Ergebnisse fu¨r einige ga¨ngige Schleifen-
transformationen zeigten, dass sich die Anwendung von Schleifentransformationen positiv
auf den Anteil der vektorisierbaren Anweisungen auswirken und zu betra¨chtlichen Code-
Verbesserung fu¨hren kann. Wie anhand der beispielhaft durchgefu¨hrten Schleifentransfor-
mationen allerdings auch festgestellt wurde, ist damit auch ein gewisses Risiko verbunden.
So fu¨hrte die Anwendung der Schleifentransformationen fu¨r die hier betrachtete Testrou-
tine zu einer Reduzierung der Ausfu¨hrungszeit um 93% und des Energieverbrauchs um
90%, bei einer gleichzeitigen Erho¨hung der Codegro¨e um 59%. Oensichtlich besteht in
diesem Fall ein Trade-O zwischen der Durchfu¨hrung von Performance- und Energieop-
timierungen auf der einen Seite und einer Reduzierung der Codegro¨e auf der anderen
Seite.
4.8.2 Anordnung skalarer Variablen
In diesem Abschnitt werden experimentelle Ergebnisse fu¨r die Optimierung zur Bestim-
mung einer geeigneten Anordnung von skalaren Variablen innerhalb des Gruppenspeichers
vorgestellt. Da die Breite des Gruppenspeichers entscheidenden Einfluss auf die Partitio-
nierung der Variablen zu Gruppen hat, werden M3-Architekturen mit unterschiedlichen
Gruppen- bzw. Partitionsgro¨en betrachtet. Gekennzeichnet werden diese mit XXslices,
wobei XX fu¨r die entsprechende Partitionsgro¨e steht. Zur Beurteilung der Eektivita¨t
dieser Optimierung werden die Ergebnisse des Codegenerators unter Verwendung des
genetischen Partitionierungsverfahrens { gekennzeichnet mit dem Zusatz opt { den Er-
gebnissen bei einer unoptimierten Anordnung gegenu¨bergestellt. Dabei werden bei dieser
Anordnung keine Proling-Informationen ausgenutzt und die Variablen entsprechend ihres
Vorkommens im unoptimierten IR-Zwischencode angeordnet.
Als Testroutinen dienen hier die beiden DSP-Routinen fft und dct. Vor Durchfu¨hrung
der Codegenerierung wurden in beiden Routinen die enthaltenen Schleifen abgerollt
und die vorhandenen Array-Zugrie durch Zugrie auf skalare Variablen ersetzt (Array-
Skalarisierung). Dies hat nun den Vorteil, dass die resultierenden skalaren Variablen
136 KAPITEL 4. SIMD-OPTIMIERUNGEN
beliebig im Gruppenspeicher angeordnet werden ko¨nnen. In den Abbildungen 4.27
und 4.28 werden Ergebnisse bezu¨glich der Anzahl erforderlicher Speicherzugrie und der
Ausfu¨hrungszeit vorgestellt. Dabei werden fu¨r jede M3-Architektur die Ergebnisse des
einfachen und des genetischen Partitionierungsverfahrens nebeneinander dargestellt und
die prozentualen Vera¨nderungen der beiden Partitionierungsverfahren fu¨r eine bestimm-
te Gruppenbreite angegeben (hervorgehoben durch schwarzen Kasten). Alle Ergebnisse
werden in Relation zu einer M3-Architektur mit einer Gruppenbreite von eins (1slice)
gesetzt, fu¨r die keine spezielle Partitionierung erforderlich ist.
Wie in Abb. 4.27 zu erkennen ist, fu¨hrt die Verwendung des genetischen Partitionierungs-
verfahrens zu erheblichen Verbesserungen der Anzahl von Speicherzugrien gegenu¨ber der
Verwendung des einfachen Partitionierungsverfahren. So werden fu¨r die FFT-Routine bis
zu 50% und fu¨r die DCT-Routine bis zu 66% an Speicherzugrien eingespart. Im Durch-
schnitt sind dies zwischen 39% fu¨r eine Architektur mit einer Gruppenbreite von vier und
61% fu¨r eine Gruppenbreite von zwo¨lf.
8
6
1
5
2
1
1
9
7
3
7
1
7
2
1
4
5
9
8
5
0
4
3
4
4
3
1
1
0
2
6
0
1
8
5
0
3
6
7
9
1
2
1
3
6
1
8
1
8
3
8
2
8
0
20
40
60
80
100
120
140
160
fft dct average
r
e
l
.
A
n
z
a
h
l
S
p
e
i
c
h
e
r
z
u
g
r
i
f
f
e
i
n
%
4slices 4slices+opt 8slices 8slices+opt
12slices 12slices+opt 16slices 16slices+opt
15 28 50 0 53 66 64 63 39 56 61 53
Abb. 4.27: Anordnung skalarer Variablen: Speicherzugrie (100% =̂ 1slice)
Im Vergleich der Architektur-Varianten mit einer Gruppenbreite gro¨er als eins zeigt
sich, dass durch eine gu¨nstige Anordnung der Variablen sehr viele energieintensive Spei-
cherzugrie eingespart werden ko¨nnen. Im Durchschnitt liegen die Einsparungen zwi-
schen 28% fu¨r eine Gruppenbreite von vier und 72% fu¨r eine Gruppenbreite von 16. In
Abb. 4.28 ist dargestellt, wie sich diese Reduzierung der Anzahl von Speicherzugrien auf
die Ausfu¨hrungszeit auswirkt.
Es zeigt sich, dass die Einsparungen hinsichtlich der Ausfu¨hrungszeit sowohl im Vergleich
der Partitionierungsverfahren untereinander als auch im Vergleich der M3-Architekturen
mit unterschiedlichen Gruppenbreiten geringer ausfallen. Die Ursachen sind darin zu se-
4.8. BEWERTUNG 137
1
3
3
1
5
5
1
4
4
1
2
1
1
1
5
1
1
8
1
1
9
1
5
4
1
3
7
1
0
0
1
1
1
1
0
6
1
0
2
1
4
7
1
2
5
9
0
1
0
8
9
9
8
8
1
3
6
1
1
2
8
1
1
0
3
9
2
40
60
80
100
120
140
160
fft dct average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
4slices 4slices+opt 8slices 8slices+opt
12slices 12slices+opt 16slices 16slices+opt
9 16 12 8 26 28 27 24 18 23 21 18
Abb. 4.28: Anordnung skalarer Variablen: Ausfu¨hrungszeit (100% =̂ 1slice)
hen, dass das unmittelbare Ziel dieser Optimierung in einer Reduzierung der Anzahl von
Speicherzugrien besteht, die zumindest teilweise durch Datentransfers ersetzt worden
sind. Dennoch fu¨hrt der Einsatz des genetischen Partitionierungsverfahrens im Vergleich
zu einer einfachen Partitionierung noch zu einer deutlichen Reduzierung der Ausfu¨hrungs-
zeit. Bei Betrachtung der Ergebnisse wird auch der durch den Gruppenspeicher entstande-
ne Overhead gegenu¨ber einem herko¨mmlichen Speicher mit einer Gruppengro¨e von eins
deutlich. So kann erst ab einer Gruppenbreite von zwo¨lf, bei Verwendung des genetischen
Partitionierungsverfahrens, der Overhead im Durchschnitt wettgemacht werden.
Fazit
Die vorgestellten Ergebnisse zeigen, dass zur Handhabung des Gruppenspeichers im SISD-
Modus ein betra¨chtlicher Overhead entsteht, der durch eine geeignete Anordnung von
Variablen zu Gruppen erheblich reduziert werden kann. Die hier vorgestellten Ergebnisse
demonstrieren die Eektivita¨t der entwickelten Optimierung, die mit kleineren Modika-
tionen ebenfalls fu¨r Prozessoren mit verteilten Speicherba¨nken, wie den Prozessoren der
ADSP210X-Familie [Dev91], eingesetzt werden kann.
138 KAPITEL 4. SIMD-OPTIMIERUNGEN
Kapitel 5
Experimentelle Ergebnisse
In Erga¨nzung zu den bereits vorgenommenen Bewertungen der Compilertechniken anhand
von Testroutinen werden in diesem Kapitel Ergebnisse fu¨r eine Reihe von Benchmarks
vorgestellt. Dazu werden im folgenden Abschnitt zuna¨chst die betrachteten Benchmarks
vorgestellt, anhand derer in Abschnitt 5.2 eine Bewertung der entwickelten Compilertech-
niken vorgenommen wird. In Abschnitt 5.3 folgt dann ein Vergleich des vom Compiler
generierten Assemblercodes mit handgeneriertem Code. Nach einem Systemvergleich des
M3-DSPs und des TMS320C6201 von Texas Instruments in Abschnitt 5.4 werden ab-
schlieend die Ergebnisse einer HW/SW-Exploration vorgestellt.
5.1 Betrachtete Benchmarks
Eine U¨bersicht der betrachteten Benchmarks einschlielich einiger charakteristi-
scher Merkmale ist in Tabelle 5.1 gegeben. Dies umfasst die Benchmarks
n real up (n real updates), lms und dot prod (dot product) aus der DSPstone-
Benchmarksuite [ZVSM94], bei denen die Gro¨e der zu verarbeitenden Arrays jeweils
auf 1000 Elemente festgesetzt wurde. Des Weiteren werden mit den Benchmarks fir,
cmultiply (complex multiply), hamming (hamming window), biquad und lattice typi-
sche DSP-Routinen betrachtet. Um die Anwendbarkeit der entwickelten Techniken auch
fu¨r gro¨ere Programme zu zeigen, werden zusa¨tzlich Ergebnisse fu¨r eine MP3-Anwendung
mp3 (MP3 = MPEG 1 Layer III) vorgestellt1. Da zur Durchfu¨hrung einer Vektorisierung
der Benchmarks teilweise die Anwendung von Schleifentransformationen erforderlich ist
und sich dadurch bedingt Unterschiede bei der Compilierung ergeben, werden zu jedem
Benchmark die charakteristischen Merkmale fu¨r eine SISD- und SIMD-Codegenerierung
angegeben. Eine entsprechende Kennzeichnung erfolgt in der zweiten Spalte von Tabel-
le 5.1 mit SISD bzw. SIMD. Als charakterische Merkmale zu diesen Benchmarks ist in
1Die Benchmarks fir, cmultiply, hamming, biquad, lattice und mp3 wurden von den Entwicklern
des M3-DSPs der TU Dresden zur Verfu¨gung gestellt.
139
140 KAPITEL 5. EXPERIMENTELLE ERGEBNISSE
den Spalten drei bis fu¨nf die Anzahl der gemeinsamen Teilausdru¨cke (#CSEs) und deren
Verwendungen (#CSE-Verw.) sowie die Anzahl der Basisblo¨cke (#BBs) angegeben. Es
ist zu erkennen, dass sich durch die Anwendung der Schleifentransformationen die An-
zahl der Basisblo¨cke teilweise mehr als verdoppelt. So erho¨ht sich z.B. die Anzahl der
Basisblo¨cke fu¨r die Benchmarks lms und fir jeweils von 5 auf 11. Die Spalten sechs bis
acht geben Auskunft u¨ber die Anzahl der Graphknoten der initialen GeLIR-Darstellung
(IR), vor der Durchfu¨hrung der Codegenerierung (vor CG) und vor der Durchfu¨hrung
der Adresscode-Kompaktierung (vor ACK). Stellvertretend fu¨r alle in den nachfolgenden
Abschnitten verwendeten Compiler-Varianten werden in der letzten Spalte exemplarisch
die Compilierungszeiten fu¨r diese Benchmarks angegeben2. Dabei wurden im genetischen
Codegenerator die auf Seite 86 in Abschnitt 3.8.1 angegebenen Parametereinstellungen
verwendet und die Anzahl durchzufu¨hrender Generationen auf die zweifache Anzahl von
Genen gesetzt.
#CSE- #Graphknoten Lauf-
Benchmark Modus #CSEs
Verw.
#BBs
IR vor CG vor ACK zeit [s]
SISD 1 2 3 28 61 58 23
n real up
SIMD 1 2 3 28 58 49 25
SISD 8 16 5 80 195 191 223
lms
SIMD 6 12 11 113 217 256 114
SISD 1 2 3 25 53 51 24
dot prod
SIMD 3 6 7 57 96 115 33
SISD 2 4 5 53 114 120 50
r
SIMD 5 10 11 99 189 204 70
SISD 2 6 3 42 104 84 77
cmultiply
SIMD 2 6 3 42 98 90 63
SISD 5 10 7 63 107 137 120
hamming
SIMD 3 6 7 62 104 118 37
SISD 2 4 5 81 167 128 194
biquad
SIMD 5 10 11 168 391 312 258
SISD 6 13 9 137 312 321 245
lattice
SIMD 10 20 19 247 523 507 249
SISD 27 54 56 722 1338 1806 1448
mp3
SIMD 31 62 64 794 1457 1966 1583
Tabelle 5.1: Charakteristische Merkmale der betrachteten Benchmarks
2Die angegebenen Laufzeiten beziehen sich auf einen Intel Pentium 4-Prozessor mit 2,66 GHz Takt-
frequenz.
5.2. BEWERTUNG DER COMPILERTECHNIKEN 141
5.2 Bewertung der Compilertechniken
Um die Auswirkungen des genetischen Codegenerators und der Vektorisierung auf die
Codequalita¨t beurteilen zu ko¨nnen, werden in diesem Abschnitt die folgenden Compiler-
Varianten betrachtet:
 SISD+baum
Durchfu¨hrung einer baumbasierten Codeselektion unter Entkopplung der Phasen
zum Einfu¨gen von Spillcode und der Codekompaktierung, wie es in herko¨mmlichen
Compilern der Fall ist. Es wird keine Vektorisierung von Schleifen durchgefu¨hrt,
aber dennoch eine Gruppenspeicherbreite von 16 Elementen zugrunde gelegt.
 SISD+baum+phasen
Analoge Vorgehensweise wie bei SISD+baum, allerdings mit einer vollsta¨ndigen Pha-
senkopplung.
 SISD+graph+phasen
Analoge Vorgehensweise wie bei SISD+baum+phasen, allerdings wird statt einer
baumbasierten eine graphbasierte Codeselektion durchgefu¨hrt.
 SISD+graph+phasen+1slice
Analoge Vorgehensweise wie bei SISD+graph+phasen, allerdings wird ein Gruppen-
speicher mit einer Breite von eins zugrunde gelegt. Im Vergleich mit der Variante
SISD+graph+phasen, bei der eine Gruppenspeicherbreite von 16 Elementen ange-
nommen wird, soll hiermit der durch den Gruppenspeicher verursachte Overhead
zur Wahrung der Datenkonsistenz aufgezeigt werden.
 SIMD+graph+phasen
Analoge Vorgehensweise wie bei SISD+graph+phasen, allerdings werden SIMD-
Operationen ausgenutzt.
Zusa¨tzlich erfolgt bei allen Varianten eine Ausnutzung von Zero-Overhead Hardware-
Loops. In den Abbildungen 5.1 bis 5.4 werden zuna¨chst die Ergebnisse fu¨r die zuvor
aufgefu¨hrten Benchmarks vorgestellt. Eine Darstellung der Ergebnisse fu¨r die MP3-
Anwendung erfolgt anschlieend. Um die Auswirkungen der Optimierungen gegenu¨ber
den u¨blicherweise in Compilern eingesetzten Verfahren zu demonstrieren, werden alle Er-
gebnisse in Relation zum Verfahren SISD+baum (=̂ 100%) gesetzt. Mit average wird
jeweils der Durchschnitt u¨ber alle Benchmarks fu¨r jedes Verfahren angegeben.
In Abbildung 5.1 werden zuna¨chst die Ergebnisse der oben aufgefu¨hrten Compiler-
Varianten bezu¨glich der Ausfu¨hrungszeit gegenu¨bergestellt. Es zeigt sich, dass das Ver-
fahren SISD+baum, wie es in herko¨mmlichen Compilern Anwendung ndet, in allen
142 KAPITEL 5. EXPERIMENTELLE ERGEBNISSE
8
4
9
0
8
1
9
1
8
8
8
9
8
8
9
1
8
8
5
2
8
0
7
1
7
9
4
4
8
1
5
6
7
5
6
7
4
2
5
4
3
8
6
6
2
7
6
3
5
1
5
5
5
0
2
8
7 2 7
3
4
2
9
1
2
6
0
10
20
30
40
50
60
70
80
90
100
n_real_up lms dot_prod fir cmultiply hamming biquad lattice average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
SISD+baum+phasen SISD+graph+phasen
SISD+graph+phasen+1slice SIMD+graph+phasen
Abb. 5.1: Ergebnisse bzgl. Ausfu¨hrungszeit (100% =̂ SISD+baum)
Fa¨llen zu der geringsten Codequalita¨t fu¨hrt. Mit der Durchfu¨hrung einer Phasenkopp-
lung kann die Ausfu¨hrungszeit fu¨r diese Benchmarks bereits um durchschnittlich 12%
reduziert werden. Eine weitere Verbesserung der Codequalita¨t um durchschnittlich 33%
ergibt sich durch die Umsetzung einer graphbasierten Codeselektion. Die Ergebnisse von
SISD+graph+phasen+1slice zeigen im Vergleich zu SISD+graph+phasen deutlich den
Overhead zur Handhabung des Gruppenspeichers im SISD-Modus auf. Die besten vom
Compiler generierten Ergebnisse werden bei der Ausnutzung von SIMD-Operationen er-
zielt. So kann die Ausfu¨hrungszeit dieser Benchmarks im Durchschnitt um 88%, und im
Falle der Benchmarks n real up und cmultiply sogar um 97,5% drastisch reduziert wer-
den. Dies entspricht einer Erho¨hung der Ausfu¨hrungsgeschwindigkeit um den Faktor 40.
8
9
9
3
8
8
8
8
9
3
9
1
9
2
9
9
9
2
6
0
8
8
6
8
7
4
5
5
8
5
6
7
8
1
7
2
5
3
6
2
5
5
7
0
4
0
7
0
5
7
6
8
5
9
4
8
1
1
1
0
1
0
5
4
6
3
4
1
6
0
10
20
30
40
50
60
70
80
90
100
n_real_up lms dot_prod fir cmultiply hamming biquad lattice average
r
e
l
.
E
n
e
r
g
i
e
v
e
r
b
r
a
u
c
h
i
n
%
SISD+baum+phasen SISD+graph+phasen
SISD+graph+phasen+1slice SIMD+graph+phasen
Abb. 5.2: Ergebnisse bzgl. Energieverbrauch (100% =̂ SISD+baum)
5.2. BEWERTUNG DER COMPILERTECHNIKEN 143
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
1
0
0
6
4
8
5
6
7
6
4
6
0
8
0
8
0
6
5
7
1
5
5
7
0
6
7
6
4
4
5
6
8
7
5
6
4
6
4
8
3
3
6
4
8
2
8
1
4
7 7
0
10
20
30
40
50
60
70
80
90
100
110
120
n_real_up lms dot_prod fir cmultiply hamming biquad lattice average
r
e
l
.
#
S
p
e
i
c
h
e
r
z
u
g
r
i
f
f
e
i
n
%
SISD+baum+phasen SISD+graph+phasen
SISD+graph+phasen+1slice SIMD+graph+phasen
Abb. 5.3: Ergebnisse bzgl. der Anzahl von Speicherzugrie (100% =̂ SISD+baum)
Die in den Abbildungen 5.2 und 5.3 dargestellten Ergebnisse bezu¨glich des Energiever-
brauchs und der Anzahl erforderlicher Speicherzugrie weisen den gleichen Trend auf.
Die Einsparungen hinsichtlich des Energieverbrauchs fallen aufgrund des ho¨heren Ener-
giebedarfs von SIMD-Operationen im Vergleich zu dem von SISD-Operationen zwar etwas
geringer aus, betragen aber immer noch durchschnittlich 84%.
1
0
6
1
0
4
1
0
9
9
6
1
0
6
1
0
2
1
0
4
1
0
8
1
0
4
1
1
6
1
1
1
9
5
9
4
1
2
4
1
0
5
1
2
1
1
0
8
1
0
9
1
2
6
1
1
4
1
4
5
1
0
6
1
4
8
1
1
1
1
1
3
1
2
4
1
2
3
1
7
2
1
4
2
1
4
3
1
3
8
1
9
8
1
4
4
1
3
5
1
1
7
1
4
9
80
100
120
140
160
180
200
n_real_up lms dot_prod fir cmultiply hamming biquad lattice average
r
e
l
.
d
u
r
c
h
s
c
h
n
.
L
e
i
s
t
u
n
g
s
a
u
f
n
.
i
n
%
SISD+baum+phasen SISD+graph+phasen
SISD+graph+phasen+1slice SIMD+graph+phasen
Abb. 5.4: Ergebnisse bzgl. der durchschnittlichen Leistungsaufnahme (100% =̂
SISD+baum)
In Abbildung 5.4 werden die Ergebnisse bezu¨glich der durchschnittlichen Leistungsauf-
nahme vorgestellt. Wie erwartet zeigt sich hier, dass bei einer versta¨rkten Ausfu¨hrung von
SIMD-Operationen die durchschnittliche Leistungsaufnahme am ho¨chsten ist. So ergibt
sich im Vergleich mit der Compiler-Variante SISD+baum bei einer Ausnutzung von SIMD-
Operationen im Durchschnitt eine um 49% ho¨here durchschnittliche Leistungsaufnahme.
144 KAPITEL 5. EXPERIMENTELLE ERGEBNISSE
Fu¨r die cmultiply-Routine fa¨llt auf, dass mit jeder ausgefu¨hrten Maschineninstruktion im
SIMD-Modus zwar fast das doppelte an Leistung aufgewendet wird, der Energieverbrauch
aufgrund der erheblich geringeren Ausfu¨hrungszeit dennoch um 95% geringer ist.
9
2
1
0
0
9
9
1
0
9
8
1
8
7
9
6
1
0
7
5
8 6
5
8
5
1
1
1
5
7
6
1
5
6
1
1
0
40
60
80
100
120
Ausführungszeit Energieverbrauch #Speicherzugriffe durchschnittliche
Leistungsaufnahme
%
SISD+baum+phasen SISD+graph+phasen
SISD+graph+phasen+1slice SIMD+graph+phasen
Abb. 5.5: Ergebnisse fu¨r eine MP3-Anwendung (100% =̂ SISD+baum)
In Abb. 5.5 sind die Ergebnisse fu¨r die MP3-Anwendung bezu¨glich Ausfu¨hrungszeit, Ener-
gieverbrauch, Anzahl Speicherzugrie und durchschnittlicher Leistungsaufnahme darge-
stellt. Es zeigt sich auch hier, dass der Einsatz der entwickelten Compilertechniken zu
einer drastischen Verbesserung der Codequalita¨t fu¨hrt. So ergeben sich bezu¨glich der
Ausfu¨hrungszeit Verbesserungen um 44%, bezu¨glich des Energieverbrauchs um 39% und
bezu¨glich der Anzahl Speicherzugrie um 43%. Aufgrund des verha¨ltnisma¨ig geringen
Anteils vektorisierbarer Schleifen variiert die durchschnittliche Leistungsaufnahme bei al-
len Varianten nur geringfu¨gig. Die in Tabelle 5.1 angegebenen Laufzeiten des Compilers
fu¨r diese Anwendungen belegen die Anwendbarkeit der entwickelten Techniken auch fu¨r
gro¨ere Programme. So werden fu¨r die U¨bersetzung der MP3-Anwendung mit 63 Basis-
blo¨cken 1583 Sekunden beno¨tigt, was im Bereich der DSP-Compilierung eine akzeptable
Zeitspanne darstellt. Im Vergleich zu den schnelleren traditionellen U¨bersetzungsverfahren
sind die Laufzeiten aufgrund des zugrunde gelegten genetischen Optimierungsverfahrens
zwar relativ hoch, allerdings ist die erzielte Codequalita¨t auch wesentlich besser. Zusa¨tz-
lich wird dem Anwender wesentlich mehr Flexiblita¨t eingera¨umt, da z.B. die Mo¨glichkeit
besteht, in der Entwicklungsphase einer Anwendung den genetischen Codegenerator zu
Testzwecken mit einer geringen Anzahl von Generationen zu starten. Die erzielte Code-
qualita¨t wird dadurch zwar i.d.R. unter den Mo¨glichkeiten bleiben, dies hat allerdings den
Vorteil, dass das Ergebnis bereits nach sehr kurzer Zeit vorliegt. Bei Bedarf wird dem An-
wender auch die Mo¨glichkeit gegeben, durch eine Erho¨hung der Anzahl durchzufu¨hrender
Generationen, besseren Assemblercode zu generieren, indem der Compiler
"
u¨ber Nacht\
5.3. VERGLEICH MIT HANDGENERIERTEM ASSEMBLERCODE 145
gestartet wird.
5.3 Vergleich mit handgeneriertem Assemblercode
Um einen Eindruck der erzielten Codequalita¨t des Compilers zu bekommen, wird in diesem
Abschnitt zusa¨tzlich ein Vergleich des vom Compiler generierten Assemblercodes fu¨r die
Benchmarks fir, cmultiply und hamming mit handgeneriertem Code durchgefu¨hrt.
Im Falle des cmultiply-Benchmarks hat sich gezeigt, dass der Compiler an die Code-
qualita¨t des Handassembler-Codes herankommt. So betra¨gt der Overhead bezu¨glich der
Ausfu¨hrungszeit 16% und bezu¨glich des Energieverbrauchs lediglich 2%. Fu¨r die fir-
und hamming-Routinen hingegen betra¨gt der Overhead bezu¨glich der Ausfu¨hrungszeit ca.
400% bzw. 480% und bezu¨glich des Energieverbrauchs ungefa¨hr 330% bzw. 600%.
Aua¨llig ist, dass die auf Seite 88 in Abschnitt 3.8.2 durchgefu¨hrte Bewertung des ge-
netischen Codegenerators im Durchschnitt keinen Overhead gegenu¨ber handgeneriertem
Code ergab. Da die dort betrachteten Routinen jeweils aus einzelnen Basisblo¨cken be-
stehen, liegt die Vermutung nahe, dass der noch vorhandene Overhead vornehmlich auf
Basisblock-u¨bergreifende Einflu¨sse zuru¨ckzufu¨hren ist. So ko¨nnte z.B. durch ein Halten
von Werten in Registern u¨ber Basisblock-Grenzen hinweg vor allem in Schleifen die
Codequalita¨t deutlich verbessert werden. Allerdings sind derartige Optimierungen auf-
grund der stark irregula¨ren Architektur des M3-DSPs nicht ohne weiteres umsetzbar.
Wu¨nschenswert wa¨re deswegen vor allem eine Reihe von homogenen Registerles, in de-
nen Basisblock-u¨bergreifend Werte bzw. Gruppen von Werten zwischengespeichert werden
ko¨nnen.
Ein weiteres Dezit gegenu¨ber dem handgenerierten Code la¨sst sich durch die mangeln-
de Analysefa¨higkeit von zu u¨bersetzenden Programmen erkla¨ren. So ko¨nnen bereits fu¨r
einen Menschen
"
einfach\ durchzufu¨hrende Analysen von Arrayzugrien, den Compiler
vor groe Probleme stellen. Insbesondere die Programmiersprache C bietet dem Anwen-
der zahlreiche Mo¨glichkeiten, Zugrisfunktionen auf Arrays zu implementieren, die vom
Compiler nicht mehr analysiert werden ko¨nnen und somit eine Vektorisierung verhindern.
Im Falle des hamming-Benchmarks war eine Vektorisierung durch den Compiler nur durch
ein optimiertes Speicherlayout mo¨glich. Die zu verarbeitenden Arrays wurden dabei so im
Speicher abgelegt, dass lediglich zehn von 16 Elementen einer Gruppe ausgenutzt wurden.
Die Verarbeitung erfolgte dann zwar auf allen 16 Datenpfaden, wobei allerdings 10 Da-
tenpfade ausreichend gewesen wa¨ren. Im Gegensatz dazu konnten durch die Generierung
eines speziellen Speicherlayouts beim Handassemblercode 16 Datenpfade ausgenutzt wer-
den, wodurch sich der Overhead des vom Compiler generierten Codes im Vergleich zum
handgenerierten Code erkla¨ren la¨sst.
146 KAPITEL 5. EXPERIMENTELLE ERGEBNISSE
5.4 Systemvergleich
Um einen Eindruck der Ezienz des Gesamtsystems bestehend aus M3-DSP und dem
entwickelten Compiler zu bekommen, werden in diesem Abschnitt die Ergebnisse eines
Systemvergleichs vorgestellt. Dazu erfolgt eine Gegenu¨berstellung der erzielten Codequa-
lita¨t des M3-Systems mit einem System, bestehend aus dem TMS320C6201-Prozessor
von Texas Instruments (TI) und dem dazugeho¨rigen TI-Compiler [Tex99]. Die Takt-
frequenz betra¨gt fu¨r den TI-Prozessor 133 MHz und in Analogie zu den in [WFL+99]
vero¨entlichten Ergebnissen 100 MHz fu¨r den M3-DSP. Es werden wiederum die Ergeb-
nisse mehrerer Varianten des M3-Compilers betrachtet. In Abb. 5.6 sind die Ergebnis-
se fu¨r die Compiler-Varianten M3+SISD+graph+phasen, M3+SISD+graph+phasen+1slice
und M3+SIMD+graph+phasen in Relation zu denen des TI-Compilers gesetzt.
1
9
4
3
1
9
6
4
1
2
6
0
1
7
4
5
3
5
1
6
2
9
1
1
5
3
8
4
7
1
6
3
3
2
7
1 1
1
1
1
7
6
3 3
5 5
0
10
20
30
40
50
60
70
n_real_up lms dot_prod fir cmultiply hamming biquad lattice average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
M3+SISD+graph+phasen M3+SISD+graph+phasen+1slice M3+SIMD+graph+phasen
Abb. 5.6: Systemvergleich bzgl. Ausfu¨hrungszeit (100% =̂ TI TMS320C6201)
Es zeigt sich, dass in allen Fa¨llen das M3-System im Vergleich zum TI-System die ge-
ringsten Ausfu¨hrungszeiten aufweist. Die gro¨ten Unterschiede in der Ausfu¨hrungsge-
schwindigkeit sind jeweils fu¨r das cmultiply-Benchmark zu verzeichnen. So liegt bereits
mit der Compiler-Variante M3+SISD+graph+phasen die Ausfu¨hrungsgeschwindigkeit um
88% u¨ber der des TI-Systems. Im Durchschnitt u¨ber alle Benchmarks sind dies 65%.
Fu¨r die M3-Variante M3+SISD+graph+phasen+1slice ist aufgrund des fehlenden Over-
heads zur Handhabung des M3-Gruppenspeichers eine weitere Verbesserung gegenu¨ber
dem TI-System zu verzeichnen. Die besten Resultate ergeben sich wie erwartet fu¨r die
M3-Variante M3+SIMD+graph+phasen, bei der eine Vektorisierung durchgefu¨hrt worden
ist. Fu¨r die cmultiply- und n real updates-Benchmarks betragen die Ausfu¨hrungszei-
ten lediglich 1% im Vergleich zu denen des TI-Systems. Fu¨r den Durchschnitt u¨ber alle
betrachteten Benchmarks ergibt sich eine um 94% geringere Ausfu¨hrungszeit des M3-
Systems.
5.5. HW/SW-EXPLORATION 147
5.5 HW/SW-Exploration
Der in Abschnitt 5.3 aufgezeigte Overhead des Compilers gegenu¨ber handgeneriertem As-
semblercode beruht zu einem groen Anteil auf den a¨uerst irregula¨ren Architektureigen-
schaften der M3-Prozessoren. Aus diesem Grund werden im Folgenden Ergebnisse einer in
Zusammenarbeit mit den Entwicklern des M3-DSPs durchgefu¨hrten HW/SW-Exploration
vorgestellt. Hierdurch sollen Erkenntnisse gewonnen werden, die es ermo¨glichen, ein ener-
gieezienteres Gesamtsystem bestehend aus Prozessor und Compiler zu entwickeln. Vor
allem soll die Architektur compilerfreundlicher und damit auch energieezienter gestaltet
werden. Dazu werden die folgenden Architekturvarianten betrachtet:
 M3-DSP
Aktuelle Architektur des M3-DSPs mit 16 parallelen Datenpfaden.
 XXslices
Zugrunde gelegt wird hier die Architektur des M3-DSPs, wobei allerdings die Anzahl
der parallelen Datenpfade variiert wird. Eine Architektur mit 10 Datenpfaden wird
demnach mit 10slices bezeichnet.
 scalar
Analog zu M3-DSP, allerdings wird der Befehlssatz um eine Maschinenoperation
ScalarReduction erweitert, mit der die Werte eines Gruppenregisters baumartig
entsprechend einer angegebenen Operation (z.B. Addition) verknu¨pft und das Er-
gebnis im Akkumulator des Datenpfades 0 ablegt werden (Skalarreduktion). Zusa¨tz-
lich kann ein Registerelement angegeben werden, dessen Inhalt ebenfalls mitberu¨ck-
sichtigt wird. Die Ausfu¨hrung einer solchen Operation auf einer Architektur mit
16 Datenpfaden beno¨tigt 4 Taktzyklen zum Verknu¨pfen der Inhalte des angegebe-
nen Gruppenregisters, zuzu¨glich einem extra Taktzyklus fu¨r die Verknu¨pfung mit
dem Einzelregister.
 accu
Analog zu M3-DSP, allerdings wird ein zusa¨tzlicher Akkumulator in jeden Datenpfad
eingefu¨gt. Das Ergebnis einer MAC-Operation kann nun wahlweise in einen der
beiden Akkumulatoren geschrieben und von dort aus weiterverarbeitet werden. Mit
dieser Architekturmodikation soll z.B. dem Compiler eine ezientere Umsetzung
einer komplexen Multiplikation ermo¨glicht werden.
 MACsplit+accu
Analog zu accu, allerdings wird zusa¨tzlich in jedem Datenpfad die vorhandene MAC-
Einheit in einen parallel ansteuerbaren Addierer und Multiplizierer aufgeteilt. Die
Akkumulatoren sind in diesem Fall den Funktionseinheiten fest zugeordnet. In Hin-
blick auf den Energieverbrauch hat eine solche Aufsplittung den Vorteil, dass bei
148 KAPITEL 5. EXPERIMENTELLE ERGEBNISSE
einer einfachen Operation (Addition oder Multiplikation) kein Anlegen des ent-
sprechenden neutralen Elementes der auszufu¨hrenden Operation erforderlich ist.
Des Weiteren entfa¨llt bei der Ausfu¨hrung einer Multiplikation gefolgt von einer
Subtraktion das energieintensive Invertieren des Subtrahenden. Bei dieser Variante
mu¨ssen MAC-Operationen zwar als einzelne Operationen (Multiplikation und Addi-
tion) hintereinander ausgefu¨hrt werden, allerdings ko¨nnen zu einem Zeitpunkt mehr
datenunabha¨ngige Operationen parallel ausgefu¨hrt werden.
 4homogRF
Analog zu M3-DSP, jedoch werden zusa¨tzlich zu den bereits vorhandenen Registerles
vier homogene Registerles beru¨cksichtigt.
In den Abbildungen 5.7 und 5.8 werden die Auswirkungen der einzelnen Architekturmodi-
kationen auf die Ausfu¨hrungszeit vorgestellt, indem die Vera¨nderungen der Codequalita¨t
mit der Codequalita¨t fu¨r den M3-DSP in Relation gestellt werden. Da fu¨r diese Archi-
tekturvarianten keine separaten Energiekostenmodelle vorliegen, wird auf die Angabe von
entsprechenden Energiewerten verzichtet. Allerdings ko¨nnen teilweise trotzdem durchaus
Ru¨ckschlu¨sse auf den Energieverbrauch gezogen werden, weil in der Regel eine Reduzie-
rung der Ausfu¨hrungszeit auch zu einer Reduzierung des Energieverbrauchs fu¨hrt.
3
0
9
2
9
4
2
3
2
1
2
3
1
4
1
2
2
0
2
3
7
2
7
7
1
8
8
1
1
5
1
3
8
1
9
1
1
7
9
1
5
6
1
8
8
1
0
6
1
2
0
1
5
0
1
3
2
1
2
6
1
0
0
1
0
5
1
1
8
1
1
6
8
4
9
2
5
6
1
0
0
9
9
8
6
0
40
80
120
160
200
240
280
320
fir cmultiply hamming biquad lattice average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
4slices 5slices 8slices 10slices 20slices
Abb. 5.7: Auswirkungen der Anzahl von Datenpfaden auf die Ausfu¨hrungszeit (100% =̂
M3-DSP)
In Abbildung 5.7 sind Ergebnisse fu¨r fu¨nf Benchmarks bei Variation der Anzahl von Da-
tenpfaden dargestellt. Wie zu erwarten, verringert sich die erforderliche Ausfu¨hrungszeit
bei einer steigenden Anzahl von Datenpfaden. Dies ist insbesondere bei den Benchmarks
fir, cmultiply und auch hamming zu beobachten. Allerdings fu¨hrt eine Erho¨hung der
Anzahl von Datenpfaden von z.B. zehn auf 16 zu keiner Verbesserung bei dem hamming-
Benchmark, da aufgrund der speziellen Anordnung der zu verarbeitenden Arrays nur auf
5.5. HW/SW-EXPLORATION 149
zehn von 16 Datenpfaden sinnvolle Berechnungen ausgefu¨hrt werden. Aufgrund des klei-
neren Gruppenspeichers und der geringeren Anzahl von Datenpfaden ist bezu¨glich des
Energieverbrauchs bei der Architektur mit zehn Datenpfaden jedoch mit einem gerin-
geren Energieverbrauch zu rechnen. Die Auswirkungen auf die biquad- und lattice-
Benchmarks sind relativ gering, da in beiden Fa¨llen keine vollsta¨ndige Vektorisierung
mo¨glich war, so dass sich eine Vera¨nderung der Anzahl von Datenpfaden jeweils nur auf
einen Teil der Anwendung auswirkt.
1
0
0
1
0
0
1
0
0
1
0
0
3
3
7
5
8
5
8
2
7
4
1
0
0
1
0
0
8
7
9
9
9
0
8
2
7
8
1
0
0
1
0
0
8
8
9
8
9
1
7
8
7
8
1
0
0
1
0
0
9
9
1
0
0
9
3
0
10
20
30
40
50
60
70
80
90
100
110
fir cmultiply hamming biquad lattice mp3 average
r
e
l
.
A
u
s
f
ü
h
r
u
n
g
s
z
e
i
t
i
n
%
scalar accu MACsplit+accu 4homogRF
Abb. 5.8: Auswirkungen weiterer Architektura¨nderungen auf die Ausfu¨hrungszeit (100%
=̂ M3-DSP)
Abschlieend werden in der Abbildung 5.8 die Auswirkungen der u¨brigen Archi-
tektura¨nderungen fu¨r die in Abb. 5.7 betrachteten Benchmarks und die MP3-Applikation
vorgestellt. Die Anwendung einer Skalarreduzierung war lediglich fu¨r die Benchmarks
lattice und mp3 mo¨glich und fu¨hrte dort zu einer Reduzierung der Ausfu¨hrungszeit
von 67% bzw. 25%. Die Einfu¨hrung eines zusa¨tzlichen Akkumulators erscheint ebenfalls
sinnvoll. So konnte die Ausfu¨hrungszeit im Durchschnitt um 10% reduziert werden. Ei-
ne Aufsplittung der MAC-Einheit fu¨hrt fu¨r diese Benchmarks trotz Wegfall der MAC-
Ausfu¨hrungsmo¨glichkeiten zu einer Reduzierung der Ausfu¨hrungszeit von durchschnittlich
9%. Dies zeigt, dass der Compiler sehr gut in der Lage ist, die gro¨ere Parallelita¨t aus-
zunutzen. Die Beru¨cksichtigung von vier zusa¨tzlichen homogenen Registerles wirkt sich
ebenfalls positiv aus. Es ist allerdings zu erwarten, dass durch den Einsatz von Basisblock-
u¨bergreifenden Optimierungen die Codequalita¨t noch um einiges verbessert werden kann.
Leider sind aufgrund der vorgenommenen Architektura¨nderungen keine konkreten Aus-
sagen u¨ber den letztendlich resultierenden Energieverbrauch mo¨glich.
150 KAPITEL 5. EXPERIMENTELLE ERGEBNISSE
Kapitel 6
Zusammenfassung
Mit dem Einsatz von Prozessoren in eingebetteten Systemen wird dem Entwickler durch
die Verwendung von Software ein hohes Ma an Flexibilita¨t eingera¨umt. So wird im Gegen-
satz zur Verwendung von anwendungsspezischer Hardware auch bei Spezikationsa¨nde-
rungen in spa¨ten Entwicklungsphasen i.d.R. keine kosten- und zeitintensive Neuentwick-
lung der verwendeten Hardware erforderlich. Um den Anforderungen bezu¨glich einer ho-
hen Verarbeitungsgeschwindigkeit, einer geringen Chipgro¨e und in zunehmendem Mae
auch einem geringen Energieverbrauch zu genu¨gen, werden ha¨ug digitale Signalprozesso-
ren (DSPs) zur Datenverarbeitung eingesetzt. Leider stellt die manuelle U¨berfu¨hrung einer
Anwendung in Assemblercode des Zielprozessors eine a¨uerst zeitaufwa¨ndige und fehler-
tra¨chtige Aufgabe dar. Aus diesem Grund werden Compiler beno¨tigt, die in der Lage sind,
eine gegebene Anwendung in ezienten Assemblercode zu u¨berfu¨hren. Im Vergleich zu
General-Purpose Prozessoren (GPPs) weisen DSPs spezielle Architekturmerkmale auf, die
von herko¨mmlichen Compilertechniken nur unzureichend oder gar nicht ausgenutzt wer-
den. Das Ziel dieser Arbeit bestand darum in der Entwicklung neuer Compilertechniken
fu¨r DSPs, um die durch Compiler generierte Codequalita¨t insbesondere hinsichtlich der
Ausfu¨hrungszeit und des Energiebedarfs zu verbessern. Aufgrund der charakteristischen
Merkmale von DSPs, werden an die Compiler dabei die folgenden Anforderungen gestellt:
 Ausfu¨hrung von komplexen Operationen (z.B. MAC-Operationen) in einem Takt-
zyklus.
 Unterstu¨tzung einer (ha¨ug eingeschra¨nkten) Parallelita¨t auf Instruktionsebene und
bei Bedarf von SIMD-Operationen.
 Ausnutzung von Adressgenerierungseinheiten, mit denen die Durchfu¨hrung von
Adressberechnungen parallel zu weiteren Operationen des Datenpfades mo¨glich ist.
 Handhabung der irregula¨ren Datentransferwege zwischen Registern.
151
152 KAPITEL 6. ZUSAMMENFASSUNG
 Falls erforderlich, Aufteilung der Daten auf mehrere Speicherba¨nke zur Erho¨hung
der Speicherbandbreite.
 Ausfu¨hrung von einer oder mehreren Maschineninstruktionen in Zero-Overhead
Hardware-Loops ohne den u¨blichen Schleifen-Overhead.
In den nachfolgenden Abschnitten wird nach Themen geordnet eine kompakte Darstellung
dieser Arbeit gegeben. Dies betrit im folgenden Abschnitt zuna¨chst die neue Compiler-
Zwischendarstellung GeLIR. In Abschnitt 6.2 werden dann die wesentlichen Architek-
turmerkmale der in dieser Arbeit betrachteten Zielarchitektur einschlielich des Ener-
giekostenmodells zusammengefasst. Die wesentlichen Eigenschaften des entwickelten ge-
netischen Codegenerators und der SIMD-Optimierungen werden in den Abschnitten 6.3
und 6.4 beschrieben. Abschlieend wird eine Konklusion dieser Arbeit gegeben.
6.1 Compiler-Zwischendarstellung (GeLIR)
Aufgrund der mangelnden Mo¨glichkeiten bestehender Zwischendarstellungen (IRs) zur
Handhabung der irregula¨ren DSP-Architektureigenschaften, wurde in dieser Arbeit ei-
ne neue Compiler-Zwischendarstellung GeLIR (Generic Low-Level IR) pra¨sentiert. Diese
stellt eine Weiterentwicklung der von Bashford entwickelten constraintbasierten Zwischen-
darstellung CoLIR (Constraint based Low-Level IR) dar und dient sowohl auf der ma-
schinenunabha¨ngigen als auch auf der maschinenabha¨ngigen Ebene als allgemeines Aus-
tauschformat zwischen den einzelnen Optimierungen. Basierend auf den Konzepten von
CoLIR, wurde mit GeLIR eine Compiler-Zwischendarstellung geschaen, mit der neben
einer maschinenunabha¨ngigen Darstellung des Quellprogramms auch die Mo¨glichkeit der
Darstellung von alternativen Maschinenprogrammen besteht. Dazu ko¨nnen unabha¨ngig
von der Programmdarstellung prozessorspezische Merkmale in generischer Form abgelegt
werden. Insbesondere durch die Mo¨glichkeit, die fu¨r DSPs typischen irregula¨ren Daten-
transferwege und parallelen Ausfu¨hrungsmo¨glichkeiten von Operationen spezizieren zu
ko¨nnen, wird die Implementierung von Compilertechniken fu¨r eine breite Klasse von Pro-
zessoren ermo¨glicht.
Neben einigen einfachen Analysen und Optimierungen wird auf den GeLIR-Datenstruk-
turen eine δ-Array-Datenflussanalyse zur Ermittlung von Abha¨ngigkeiten zwischen Ar-
rayzugrien, eine Schleifenanalyse zur Ermittlung der in einer Schleife ausgefu¨hrten Ba-
sisblo¨cke sowie eine generische Schleifenoptimierung zur Ausnutzung von Zero-Overhead
Hardware-Loops zur Verfu¨gung gestellt.
Zur Validierung der auf den GeLIR-Datenstrukturen ausgefu¨hrten Transformationen und
Optimierungen besteht des Weiteren die Mo¨glichkeit der Simulation einer gegebenen
GeLIR-Darstellung auf unterschiedlichen Abstraktionsebenen. Grundsa¨tzlich wird hier
6.2. ZIELARCHITEKTUR UND ENERGIEKOSTENMODELL 153
zwischen einer maschinenunabha¨ngigen Simulation und einer maschinenabha¨ngigen Simu-
lation unterschieden. Die Generierung des Simulators erfolgt automatisch auf Basis der
gegebenen Programm- und Architekturdarstellung und vereinfacht damit erheblich die
Beru¨cksichtigung von Architektura¨nderungen. Bei Vorliegen eines entsprechenden Ener-
giekostenmodells ko¨nnen im Gegensatz zu herko¨mmlichen Simulatoren auch Informatio-
nen u¨ber den Energieverbrauch des simulierten Assemblerprogramms generiert werden.
6.2 Zielarchitektur und Energiekostenmodell
Zur Demonstration der Anwendbarkeit der entwickelten Compilertechniken dienten die
Prozessoren der skalierbaren M3-Plattform. Wesentliche Merkmale dieser Prozessoren sind
eine Reihe von Datenpfaden, auf denen sowohl eine Abarbeitung nach dem SIMD-Prinzip
(SIMD = Single Instruction Multiple Data) als auch in einem speziellen Einstreifen-Modus
nach dem SISD-Prinzip (SISD = Single Instruction Single Data) mo¨glich ist. Aufgrund des
verwendeten Gruppenspeichers wird eine hohe Speicherbandbreite zur Verfu¨gung gestellt,
die im SIMD-Modus eine eektive Versorgung der Datenpfade mit Daten erlaubt. Im
speziellen wurde der M3-DSP betrachtet, der eine Instanz dieser Prozessor-Plattform mit
16 Datenpfaden darstellt. Da der M3-DSP alle DSP-typischen Charakteristika aufweist
und zusa¨tzlich noch eine SIMD-Ausfu¨hrung von Operationen unterstu¨tzt, stellt dieser
Prozessor zur Demonstration der entwickelten Compilertechniken eine geeignete Beispiel-
architektur dar.
Um neben der Performance auch den Energiebedarf von Programmen durch den Com-
piler optimieren zu ko¨nnen, wurde ein Energiekostenmodell auf Instruktionsebene fu¨r
den M3-DSP vorgestellt, das eine Bewertung beliebiger Befehlssequenzen hinsichtlich des
Energieverbrauchs im Codegenerator und Simulator erlaubt. Eine Validierung des Ener-
giekostenmodells ergab eine Abweichung von weniger als 2% im Vergleich zur Messung
wa¨hrend der Ausfu¨hrung auf dem M3-DSP. Bei Betrachtung der einzelnen Energiedaten
fu¨r den M3-DSP wurde deutlich, dass sich fu¨r eine Minimierung des Energieverbrauchs
neben der Entwicklung von Optimierungen zur Verringerung der Ausfu¨hrungszeit insbe-
sondere Techniken lohnen, die
 zu einer Reduzierung von Speicherzugrien fu¨hren,
 eine geschickte Auswahl und Anordnung von Maschinenoperationen zu Maschinen-
instruktionen vornehmen und
 die vorhandenen Datenpfade sinnvoll ausnutzen.
Zur Umsetzung dieser Ziele wurden neben einem neuen Codegenerierungs-Verfahren auf
Basis eines genetischen Algorithmus auch SIMD-Optimierungen vorgestellt.
154 KAPITEL 6. ZUSAMMENFASSUNG
6.3 Genetischer Codegenerator (GCG)
Aufgrund der irregula¨ren DSP-Architektureigenschaften sind im Vergleich zu GPPs beson-
ders starke Abha¨ngigkeiten zwischen den einzelnen Codegenerierungs-Phasen der Code-
selektion, Instruktionsanordnung und Registerallokation vorhanden. Da eine separate Be-
trachtung der Teilprobleme zu potentiell inezientem Assemblercode fu¨hrt, besteht ein
groer Bedarf an phasengekoppelten Optimierungsverfahren, die diese Teilprobleme si-
multan lo¨sen. Aus diesem Grund ist dem in dieser Arbeit vorgestellten Codegenerator
ein Optimierungsverfahren auf Basis eines genetischen Algorithmus zugrunde gelegt. Eine
sehr wichtige Eigenschaft genetischer Algorithmen ist es, dass geeignetes Genmaterial be-
vorzugt in nachfolgende Generationen u¨bernommen wird. Ungu¨nstige Entscheidungen, die
in einer fru¨hen Optimierungsphase (Generation) gemacht wurden, ko¨nnen so (im Sinne ei-
ner Phasenkopplung) revidiert werden. Im Gegensatz zu herko¨mmlichen Techniken ist mit
diesem Verfahren eine vollsta¨ndige Phasenkopplung der Teilaufgaben der Codeselektion,
Instruktionsanordnung (einschlielich Kompaktierung) und Registerallokation mo¨glich,
was insbesondere fu¨r die hier betrachteten irregula¨ren DSP-Prozessoren eine wichtige Ei-
genschaft darstellt. Aufgrund des integrierten Energiekostenmodells ist der Codegenerator
in der Lage, eine energieeziente Auswahl und Anordnung von Instruktionen, mit dem
Ziel der Minimierung des Energieverbrauchs einer Anwendung durchzufu¨hren. Zusa¨tzlich
werden bereits die Auswirkungen der Adresscode-Generierung mitberu¨cksichtigt. Des Wei-
teren wird anstelle der von herko¨mmlichen Codegeneratoren u¨blicherweise durchgefu¨hrten
baumbasierten Codeselektion eine graphbasierte Codeselektion realisiert, was zu einer dra-
stischen Reduzierung von energieintensiven Speicherzugrien, dem Energieverbrauch und
auch der Ausfu¨hrungszeit fu¨hrt.
Ergebnisse fu¨r Testroutinen bestehend aus einem Basisblock zeigen, dass der Codegene-
rator mit dem per Hand generierten Assemblercode konkurrieren kann. Im Durchschnitt
konnte die Ausfu¨hrungszeit fu¨r diese Routinen sogar um 2% verringert werden. Ergeb-
nisse bezu¨glich des Energieverbrauchs zeigen, dass bei einer zusa¨tzlich im genetischen
Codegenerator durchgefu¨hrten Energieoptimierung der Energieverbrauch gegenu¨ber dem
handgenerierten Code im Durchschnitt um 6% und im Einzelfall sogar bis zu 15% re-
duziert werden konnte, ohne eine Verschlechterung der Ausfu¨hrungszeit hinnehmen zu
mu¨ssen.
Die Realisierung einer vollsta¨ndigen Phasenkopplung in Verbindung mit einer graphba-
sierten Codeselektion erfordert im Vergleich zu Standardverfahren zwar la¨ngere Optimie-
rungszeiten, fu¨hrt allerdings auch zu ezienterem Assemblercode. So ergaben sich fu¨r
die betrachteten Benchmarks durchschnittliche Verbesserungen von 33% bezu¨glich der
Ausfu¨hrungszeit, bei einer gleichzeitigen Reduzierung des Energieverbrauchs um 28%.
Eine ebenfalls vorgestellte Technik zur Adresscode-Generierung basiert auf einer schnel-
len Heuristik, mit der alle architekturspezischen Randbedingungen beru¨cksichtigt wer-
6.4. SIMD-OPTIMIERUNGEN 155
den ko¨nnen. Die durch diese Optimierung generierten Anweisungen zur Adressierung des
Speichers werden zuna¨chst ohne Beru¨cksichtigung von parallelen Ausfu¨hrungsmo¨glich-
keiten in den bereits vorhandenen GeLIR-Code eingefu¨gt. Die endgu¨ltige Zuweisung zu
Maschineninstruktionen erfolgt dann in einer abschlieend durchgefu¨hrten Adresscode-
Kompaktierung unter Verwendung des genetischen Codegenerators. Ergebnisse fu¨r einige
Testroutinen zeigten, dass durch eine Ausnutzung der Adressgenerierungseinheit und de-
ren Spezialbefehle die Codequalita¨t um durchschnittlich 31% bezu¨glich der Ausfu¨hrungs-
zeit und 30% bezu¨glich des Energieverbrauchs reduziert werden konnte.
6.4 SIMD-Optimierungen
Zur Einhaltung von Echtzeitbedingungen unterstu¨tzt der M3-DSP neben den u¨blichen
parallelen Ausfu¨hrungsmo¨glichkeiten auf Instruktionsebene auch die Ausfu¨hrung von
SIMD-Operationen. Aus diesem Grund wurden des Weiteren Optimierungsverfahren zur
eektiven Ausnutzung der SIMD-Datenpfade und der SIMD-Speicherzugrie vorgestellt.
Vektorisierung von Schleifen
Die beschriebene Vorgehensweise zur Ausnutzung von SIMD-Operationen basiert auf
der klassischen Technik zur Vektorisierung von Schleifen auf der Basis von Fortran 90-
Programmen. Im Gegensatz zu C-Programmen besteht dabei die Mo¨glichkeit, eine par-
allele Verarbeitung auf Arrays direkt in den Programmen auszudru¨cken. Auf diese Weise
kann nachfolgenden Compilerphasen relativ einfach mitgeteilt werden, dass bestimmte
Anweisungen vektorisiert werden ko¨nnen. In Erga¨nzung zu den bereits entwickelten Tech-
niken fu¨r traditionelle Vektorprozessoren und GPPs war die Entwicklung von Techniken
erforderlich, mit denen die irregula¨ren Architektureigenschaften von DSPs entsprechend
beru¨cksichtigt werden ko¨nnen. Dies umfasste dabei die folgenden Punkte:
 Spezikation der erforderlichen SIMD-Funktionalita¨t auf den GeLIR-Daten-
strukturen einschlielich der erforderlichen Dierenzierung unterschiedlicher Regis-
terelemente eines Registerles.
 Weiterreichung von Informationen bezu¨glich der Vektorisierung bestimmter Anwei-
sungen an nachfolgende Compilerphasen.
 Entwicklung einer Technik zur Handhabung von DSP-Architekturen mit Gruppen-
speichern, wie sie bei den M3-Prozessoren und dem Media-Prozessor von MicroUnity
verwendet werden.
 Entwicklung eines Verfahrens, mit dem spezielle SIMD-Datentransfers eektiv aus-
genutzt werden ko¨nnen.
156 KAPITEL 6. ZUSAMMENFASSUNG
 Ermittlung einer optimierten Anordnung von Arrays im Gruppenspeicher, um die
Anzahl der vektorisierbaren Schleifen zu erho¨hen.
Die Spezikation der SIMD-Funktionalita¨t auf den GeLIR-Datenstrukturen hat dabei
zum einen den Vorteil, dass mit der Mo¨glichkeit zur Darstellung alternativer Maschi-
nenprogramme pra¨zise und gezielt Vorgaben an nachfolgende Compilierungsphasen ge-
macht werden ko¨nnen. Zum anderen besteht damit auch die Mo¨glichkeit, die entwickelten
Techniken in anderen Compilern wiederzuverwenden. Bei Kenntnis von entsprechenden
Energieverbrauchswerten fu¨r einen Prozessor kann ebenfalls das Energiekostenmodell wie-
derverwendet werden.
Mit der Integration des Energiekostenmodells in den Codegenerator und den Simulator
wird mit dieser Arbeit erstmalig das Potential von SIMD-Operationen hinsichtlich der
energieezienten Ausfu¨hrung von DSP-Programmen compilerunterstu¨tzt untersucht. Bei
der Betrachtung des Energiekostenmodells fu¨r den M3-DSP wurde ersichtlich, dass fu¨r die
Ausfu¨hrung einer SIMD-Operation gegenu¨ber einer entsprechenden SISD-Operation das
vier- bis fu¨nache an Energie beno¨tigt wird. Ergebnisse fu¨r eine Reihe von Testroutinen
und Benchmarks haben jedoch gezeigt, dass dieser Overhead wieder mehr als ausgeglichen
werden kann.
Fu¨r die betrachteten Benchmarks wurden Verbesserungen bezu¨glich der Ausfu¨hrungszeit
von bis zu 96% und bezu¨glich des Energieverbrauchs von bis zu 93% festgestellt. Im
Durchschnitt lagen die Verbesserungen bei 82% bzw. 78%. Anhand weiterer Ergebnisse
konnte gezeigt werden, dass sich diese Optimierung sehr gut mit einer Ausnutzung von
Zero-Overhead Hardware-Loops kombinieren la¨sst.
Optimierte Anordnung von skalaren Variablen
Neben der groen Parallelita¨t, die durch die Datenpfade zur Verfu¨gung gestellt wird, kann
als Grund fu¨r die drastischen Verbesserungen die hohe Speicherbandbreite des M3-DSPs
angesehen werden. So wird mit der Realisierung des On-Chip-Speichers als Gruppenspei-
cher eine eektive Versorgung der Datenpfade mit Daten ermo¨glicht. Kann diese Paralle-
lita¨t der Datenpfade allerdings nicht ausgenutzt werden, ist es erforderlich, nacheinander
auf einzelne (in Registern vorliegende) Daten zuzugreifen. Wenn sich nun aufeinander fol-
gend zu verarbeitende Daten jeweils in unterschiedlichen Gruppen benden, muss bei je-
der Verwendung ein erneuter Speicherzugri auf eine Gruppe durchgefu¨hrt werden. Es hat
sich gezeigt, dass sich die Anzahl der Speicherzugrie durch eine geschickte Gruppierung
der Variablen erheblich verringern la¨sst und indirekt dadurch auch die Ausfu¨hrungszeit
reduziert werden kann. Es konnte gezeigt werden, dass sich das zu lo¨sende Optimierungs-
problem auf ein Partitionierungsproblem abbilden la¨sst. So fu¨hrten gute Lo¨sungen fu¨r
dieses Partitionierungsproblem auch zu besserem Assemblercode. Mit dem Einsatz eines
genetischen Partitionierungsverfahrens konnte so die Anzahl auszufu¨hrender Speicherzu-
grie um bis zu 66% gegenu¨ber einer unoptimierten Anordnung der Variablen reduziert
6.5. KONKLUSION 157
werden. Dadurch ergaben sich fu¨r diese Routine Verbesserungen der Ausfu¨hrungszeit in
Ho¨he von 28%.
6.5 Konklusion
In dieser Arbeit wurden neue Compilertechniken fu¨r DSPs pra¨sentiert, die deren typische
Hardwareeigenschaften eektiv ausnutzen. Anhand von Ergebnissen fu¨r eine Reihe von
Testroutinen, Benchmarks und einer MP3-Anwendung konnte gezeigt werden, dass hier-
mit der Overhead herko¨mmlicher Compilertechniken bezu¨glich der Performance und des
Energieverbrauchs drastisch reduziert werden kann. Mit dem entwickelten Codegenerator
auf Basis eines genetischen Algorithmus wird dabei ein neues phasengekoppeltes Verfah-
ren zur Codegenerierung vorgestellt, das auch eine graphbasierte Codeselektion erlaubt.
Aufgrund eines integrierten Energiekostenmodells ist der genetische Codegenerator des
Weiteren in der Lage, den Energieverbrauch von Programmen zu minimieren.
Ein Vergleich der Codequalita¨t des Compilers mit handgeneriertem Assemblercode zeig-
te, dass fu¨r Anwendungen ohne Kontrollfluss der Compiler in der Lage ist, die Code-
qualita¨t von handgeneriertem Assemblercode zu erzielen und sogar noch zu u¨bertreen.
Bei der Betrachtung von Benchmarks mit Kontrollfluss und einer Ausnutzung der par-
allelen SIMD-Datenpfade konnte fu¨r ein Benchmark nahezu die Codequalita¨t des hand-
generierten Assemblercodes erzielt werden. Fu¨r zwei weitere Benchmarks war jedoch ein
gro¨erer Overhead zu verzeichnen. Als Gru¨nde dafu¨r konnten die nur eingeschra¨nkten
Analysemo¨glichkeiten des Compilers und mangelnde Basisblock-u¨bergreifende Optimie-
rungen ausgemacht werden. Hieraus ergeben sich Ansa¨tze fu¨r weitere Arbeiten in diesem
Bereich. So ist zu erwarten, dass bereits durch eine globale Optimierung, die das Hal-
ten von Werten in Registern u¨ber Basisblock-Grenzen auch fu¨r irregula¨re Registersa¨tze
erlaubt, die Codequalita¨t erheblich verbessert werden kann.
Mit einer Gegenu¨berstellung der von Compilern generierten Codequalita¨t fu¨r den M3-
DSPs und den TMS320C6201 von Texas Instruments konnte des Weiteren die Ezienz
des Systems bestehend aus M3-Architektur und Compiler demonstriert werden. Leider war
hier aufgrund fehlender Energieverbrauchswerte fu¨r das TI-System lediglich ein Vergleich
bezu¨glich der Ausfu¨hrungszeit mo¨glich.
Mit der Integration des Energiekostenmodells in den Codegenerator und den Simula-
tor konnte mit dieser Arbeit erstmalig das Potential von SIMD-Operationen hinsichtlich
der energieezienten Ausfu¨hrung von DSP-Programmen compilerunterstu¨tzt untersucht
werden. Durch die beispielhafte Implementierung der Techniken fu¨r die M3-Prozessoren
und die Retargierung des genetischen Codegenerators auf einen weiteren DSP wurde die
Anwendbarkeit fu¨r reale Prozessoren gezeigt.
158 KAPITEL 6. ZUSAMMENFASSUNG
Anhang A
Referenzcode
In diesem Kapitel werden die in Abschnitt 3.8.2 verwendeten Quellprogramme und die
dazugeho¨rigen manuell erzeugten Assemblerprogramme angegeben, um dem Leser eine
bessere Beurteilung des vom Compiler generierten Assemblercodes zu ermo¨glichen. Da-
bei war es das Hauptziel, den Assemblercode nachvollziehbar zu halten und ist deswegen
vereinfacht als Pseudo-Assemblercode dargestellt. Da sich die Generierung des Assemb-
lercodes auf eine M3-DSP-Architektur mit einem Slice bezieht, werden Elemente eines
Registerles nicht explizit mit der entsprechenden Slice-Nummer angegeben. Vereinfacht
dargestellt ko¨nnen dabei die folgenden elementaren Befehle mit den angegebenen Res-
sourcen verwendet werden, wobei nur eine parallele Ausfu¨hrung von Befehlen aus den
Klassen AGU, DTU und DMU mo¨glich ist1:
AGU: Lese- bzw. Schreibzugri auf die Adresse a des On-Chip-Speichers:
M = MEM[ &a ];
MEM[ &a ] = fA,B,ACCUg;
DTU: Datentransfers zwischen zwei Registern:
fA,B,C,Dg = M;
fA,B,Cg = fA,B,D,ACCUg;
DMU: Durchfu¨hrung einer MAC-Operation2.
ACCU = fA,B,ACCU,0g f+,-g fA,B,1,2g * fA,C,D,ACCUg;
LMI: Datenmove zwischen zwei Registern:
fA,B,C,D,ACCUg = fA,B,C,D,ACCUg;
1Die dargestellten Befehle stellen lediglich eine Teilmenge des Befehlssatzes dar, die zur Umsetzung
der Quellprogramme erforderlich sind.
2Die Umsetzung einer Multiplikation bzw. Addition erfolgt durch Anlegen des entsprechenden neutra-
len Elementes (Null bzw. Eins), auf dessen Angabe im Assemblercode zugunsten einer besseren U¨bersicht
verzichtet wurde.
159
160 ANHANG A. REFERENZCODE
A.1 Testroutine complex multiply
A.1.1 Quellprogramm
int cr, ci, br, bi, ar, ai;
int main()
f
cr = ar * br - ai * bi;
ci = ar * bi + ai * br;
return 0;
g
A.1.2 Handgeschriebener Pseudo-Assemblercode
AGU.reset();
M = MEM[ &ar ];
M = MEM[ &br ] jj A = M;
M = MEM[ &bi ] jj C = M;
M = MEM[ &ai ] jj B = M jj ACCU = A * C;
D = M;
ACCU = ACCU - B * D;
MEM[ &cr ] = ACCU jj A = D jj ACCU =A * B;
ACCU = ACCU + A * C;
MEM[ &ci ] = ACCU;
push 0;
A.2. TESTROUTINE COMPLEX UPDATE 161
A.2 Testroutine complex update
A.2.1 Quellprogramm
int a0, a1, b0, b1, c0, c1, d0, d1;
int main()
f
d0 = c0 + a0 * b0;
d0 = d0 - a1 * b1;
d1 = c1 + a1 * b0;
d1 = d1 + a0 * b1;
return 0;
g
A.2.2 Handgeschriebener Pseudo-Assemblercode
AGU.reset();
M = MEM[ &a0 ];
M = MEM[ &b0 ] jj D = M;
M = MEM[ &c0 ] jj B = M;
M = MEM[ &a1 ] jj A = M;
M = MEM[ &b1 ] jj A = M jj ACCU = A + B * D;
B =ACCU jj ACCU = B * A;
M =MEM[ &c1 ] jj C = M;
B =ACCU jj ACCU = B - A * C;
MEM[ &d0 ] = ACCU jj A = M;
A = C jj ACCU = A + B;
ACCU = ACCU + A * D;
MEM[ &d1 ] = ACCU;
push 0;
162 ANHANG A. REFERENZCODE
A.3 Testroutine biquad one section
A.3.1 Quellprogramm
int x, w1, w2, b0, b1, b2, a1, a2;
int main()
f
int y, w;
w = x - a1 * w1;
w -= a2 * w2;
y = b0 * w;
y += b1 * w1;
y += b2 * w2;
w2 = w1;
w1 = w;
return 0;
g
A.3.2 Handgeschriebener Pseudo-Assemblercode
AGU.reset();
M = MEM[ &w1 ];
M = MEM[ &a1 ] jj C = M;
M = MEM[ &x ] jj A = M;
M = MEM[ &w2 ] jj B = M;
M = MEM[ &a2 ] jj D = M jj ACCU = B - A * C;
M = MEM[ &b0 ] jj A = M;
M = MEM[ &b1 ] jj A = M jj ACCU = ACCU - A * D;
MEM[ &w1 ] = ACCU jj A = M jj ACCU = A * ACCU;
M = MEM[ &b2 ] jj B = D jj ACCU = ACCU + A * C;
B = C;
MEM[ &w2 ] = B jj A = M;
ACCU = ACCU + A * D;
push ACCU;
A.4. TESTROUTINE LATTICE2 163
A.4 Testroutine lattice2
A.4.1 Quellprogramm
int x, y, y81, y61;
int main()
f
int y2,y3,y4,y5,y6,y7,y8,y9;
y2 = (y81 + x) * 1;
y3 = y2 + x;
y5 = (y3 + y61) * 2;
y6 = y3 + y5;
y8 = y5 + y61;
y9 = ((y2 + y81) * 3) + (y8 * 4);
y = y9 + (y6 * 5);
y81 = y8;
y61 = y6;
return 0;
g
A.4.2 Handgeschriebener Pseudo-Assemblercode
AGU.reset();
M = MEM[ &x ];
M = MEM[ &y81 ] jj C = M;
M = MEM[ &y61 ] jj A = M;
M = MEM[ &y81 ] jj D = M jj ACCU = A + C;
A = ACCU jj ACCU = ACCU + C;
B = ACCU jj ACCU = ACCU + D;
ACCU = 2 * ACCU;
C = ACCU jj ACCU = ACCU + D;
MEM[ &y81 ] = ACCU jj C = ACCU jj ACCU = B + C;
MEM[ &y61 ] = ACCU jj B = M;
A = ACCU jj ACCU = A + B;
B = 3;
B = 4 jj ACCU = B * ACCU;
C = 5 jj ACCU = ACCU + B * C;
ACCU = ACCU + A * C;
MEM[ &y ] = ACCU;
push 0;
164 ANHANG A. REFERENZCODE
A.5 Testroutine dfg1
A.5.1 Quellprogramm
int a, b, c, d;
int main()
f
int t a, t b, t c;
t a = c - d * (a - b);
t b = t a + b * d * t a;
t c = c + (e - t a * t b);
c = t c;
return 0;
g
A.5.2 Handgeschriebener Pseudo-Assemblercode
AGU.reset();
M = MEM[ &a ];
M = MEM[ &b ] jj A = M;
M = MEM[ &d ] jj C = M;
M = MEM[ &c ] jj A = M jj ACCU = A - C;
M = MEM[ &e ] jj B=M;
ACCU = B - A*ACCU;
A = ACCU jj ACCU = A * C;
ACCU = A + A * ACCU;
A = M jj ACCU = A * ACCU;
ACCU = A - ACCU;
ACCU = B + ACCU;
MEM[ &c ] = ACCU;
push 0;
A.6. TESTROUTINE DFG2 165
A.6 Testroutine dfg2
A.6.1 Quellprogramm
int a, b, c, d, e;
int main()
f
int t a, t b, t c, t d;
t a = a + b * c - d * (a - b);
t b = t a + b * d * t a;
t c = t b * c + d * (e - t a * t b);
t d = t b * t c + d;
d = t d;
return 0;
g
A.6.2 Handgeschriebener Pseudo-Assemblercode
AGU.reset();
M = MEM[ &a ];
M = MEM[ &b ] jj B = M;
M = MEM[ &c ] jj A = M;
M = MEM[ &d ] jj D = M jj ACCU = B - A;
C = ACCU jj ACCU = B + A * D;
M = MEM[ &e ] jj B = M;
ACCU = ACCU - B * C;
A = ACCU jj ACCU = A * ACCU;
ACCU = A + B * ACCU;
C = ACCU jj ACCU = A * ACCU;
A = M;
A = C jj ACCU = A - ACCU;
ACCU = B * ACCU;
ACCU = ACCU + A * D;
ACCU =B + A * ACCU;
MEM[ &d ] = ACCU;
push 0;
166 ANHANG A. REFERENZCODE
Literaturverzeichnis
[ABI+95] K. Asanovic, J. Beck, B. IZZbrissou, B.E.D. Kingsbury, N. Morgan, and
J. Wawrzynek. The T0 Vector Microprocessor. In Proceedings of Hot Chips
VII, pages 187{196, August 1995.
[Ada92] J. Adams. Fortran 90 Handbook. McGraw Hill, 1992.
[AGT89] A.V. Aho, M. Ganapathi, and S.W.K. Tjiang. Code Generation Using Tree
Matching and Dynamic Programming. ACM Transactions on Programming
Languages and Systems (TOPLAS), 11(4), October 1989.
[aiS] aiSee. http://www.aisee.com.
[AK87] R. Allen and K. Kennedy. Automatic Translation of FORTRAN Programs
to Vector Form. ACM Transactions on Programming Languages and Systems
(TOPLAS), 9(4), October 1987.
[AM95] G. Araujo and S. Malik. Optimal Code Generation for Embedded Memory
Non-Homogeneous Register Architectures. In Proceedings of the International
Symposium on System Synthesis (ISSS), pages 36{41, 1995.
[AML96] G. Araujo, S. Malik, and M. Lee. Using Register Transfer Paths in Code
Generation for Heterogeneous Memory-Register Architectures. In Proceedings
of the Design Automation Conference (DAC), 1996.
[AOC02] G. Araujo, G. Ottini, and M. Cintra. Global Array Reference Allocation.
Transactions on Design Automation for Electronic Systems (TODAES), 7(2),
April 2002.
[ASU77] A.V. Aho, R. Sethi, and J.D. Ullman. Code Generation for Expressions with
Common Subexpressions. Journal of the ACM, 24(1), January 1977.
[ASU86] A.V. Aho, R. Sethi, and J.D. Ullman. Compilers: Principles, Techniques and
Tools. Addison-Wesley, 1986.
167
168 LITERATURVERZEICHNIS
[Ba¨96] T. Ba¨ck. Evolutionary Algorithms in Theory and Practice. Oxford University
Press, 1996.
[Bak74] K.R. Baker. Introduction to Sequencing and Scheduling. Wiley, 1974.
[Bar92] D. H. Bartley. Optimizing Stack Frame Accesses for Processors with Restric-
ted Addressing Modes. In Software Practice and Experience, volume 22(2),
pages 101{110, February 1992.
[Bas95] S. Bashford. Code Generation Techniques for Irregular Architectures. Techni-
cal Report 596, Lehrstuhl Informatik XII, University of Dortmund, November
1995.
[Bas01] S. Bashford. Constraintbasierte Codegenerierung fu¨r eingebettete Pro-
zessoren. PhD thesis, Universita¨t Dortmund, http://eldorado.uni-dort-
mund.de:8080/FB4/ls12/forschung/2001/Bashford, 2001.
[Bea91] S.J. Beaty. Instruction Scheduling Using Genetic Algorithms. PhD thesis, De-
partment of Mechanical Engineering, Colorado State University, Fort Collins,
Colorado, USA, 1991.
[BGS94] D.F. Bacon, S.L. Graham, and O.J. Sharp. Compiler Transformations for
High-Performance Computing. ACM Computing Surveys, 26(4), December
1994.
[BL99] S. Bashford and R. Leupers. Constraint driven Code Selection for Fixed-Point
DSPs. In Proceedings of the Design Automation Conference (DAC), 1999.
[CAC+81] G. J. Chaitin, M. A. Auslander, A. K. Chandra, J. Cocke, M. E. Hopkins, and
P. W. Markenstein. Register Allocation via Coloring. Computer Languages,
6(1), January 1981.
[CoS] CoSy. http://www.ace.nl.
[Dev91] Analog Devices. ADSP-2001 User’s Manual, 1991.
[DeV97] D.J. DeVries. A Vectorizing SUIF Compiler. PhD thesis, University of To-
ronto, June 1997.
[DF02] T. Dra¨ger and G. Fettweis. Energy Savings with Appropriate Interconnec-
tion Networks in Parallel DSP. In Proceedings of the Workshop zum DFG-
Verbundprojekt
"
Grundlagen und Verfahren verlustarmer Informationsverar-
beitung (VIVA)\, pages 35{42, Chemnitz, Germany, March 2002.
LITERATURVERZEICHNIS 169
[DGS93] E. Duesterwald, R. Gupta, and M. Soa. A Practical Data Flow Framework
for Array Reference Analysis and its Use in Optimizations. In Proceedings
of the Conference on Programming Languages Design and Implementation
(PLDI), pages 68{77, Albuquerque, New Mexico, June 1993.
[EB98] J. Eyre and J. Bier. DSP Processors Hit the Mainstream. IEEE Computer,
August 1998.
[Ert99] M.A. Ertl. Optimal Code Selection in DAGs. In Proceedings of the Sympo-
sium on the Principles of Programming Languages (POPL), pages 242{249,
January 1999.
[ESL89] H. Emmelmann, F.W. Schro¨er, and R. Landwehr. BEG { A Generator for
Ecient Back Ends. In Proceedings of the Conference on Programming Lan-
guage Design and Implementation (PLDI), pages 227{237, New York, USA,
1989.
[Fal02] H. Falk. Control Flow Optimization by Loop Nest splitting at the Source Code
Level. Technical Report 773, Universita¨t Dortmund, Lehrstuhl Informatik
XII, October 2002.
[FHP92] C.W. Fraser, D.R. Hanson, and T.A. Proebsting. Engineering a Simple, Ef-
cient Code-Generator Generator. ACM Letters on Programming Languages
and Systems, 1(3), September 1992.
[Fie01] M. Fiesel. XML-basierte generische Zwischendarstellung fu¨r Compiler. Ma-
ster’s thesis, Universita¨t Dortmund, Lehrstuhl Informatik XII, 2001.
[FM03] H. Falk and P. Marwedel. Control Flow driven Splitting of Loop Nests at
the Source Code Level. In Proceedings of the Design Automation and Test
Conference in Europe (DATE), Munich, Germany, March 2003. (to appear).
[Fro¨01] S. Fro¨hlich. Codegenerierung fu¨r Signalprozessoren mit Hilfe genetischer Al-
gorithmen. PhD thesis, Technische Universita¨t Wien, April 2001.
[FWD+98] G. Fettweis, M. Weiss, W. Drescher, U. Walther, F. Engel, and S. Kobayashi.
Breaking new grounds over 3000 MOPS: A broadband mobile multimedia
modem DSP. In Proceedings of the International Conference on Signal Pro-
cessing Applications and Technology (ICSPAT), pages 1547{1551, Toronto,
Canada, September 1998.
[Geb97] C. H. Gebotys. An Ecient Model for DSP Code Generation: Performance,
Code Size, Estimated Energy. In Proceedings of the International Symposium
on System Synthesis (ISSS), pages 41{47, Antwerp, Belgium, September 1997.
170 LITERATURVERZEICHNIS
[GeL] GeLIR. http://ls12-www.cs.uni-dortmund.de/research/gelir/.
[GFO97] A. Gierlinger, R. Forsyth, and E. Ofner. Gepard - A Parameterizable DSP
Core for ASICs. In Proceedings of the International Conference on Signal
Processing Applications and Technology (ICSPAT), San Diego, California,
USA, 1997.
[GJ79] M. R. Garey and D. S. Johnson. Computers and Intractability: A Guide to
the Theory of NP-Completeness. Freeman and Company, 1979.
[Gol89] D.E. Goldberg. Genetic Algorithms in Search, Optimization, and Machine
Learning. Addison-Wesley, 1989.
[Gro90] G.F. Grohoski. Machine Organization of the IBM RISC System/6000 Pro-
cessor. IBM Journal of Research and Development, 34(1), 1990.
[Han96] C. Hansen. MicroUnity’s MediaProcessor Architecture. IEEE Micro, 16(4),
August 1996.
[Han99] S. Hanono. Aviv: A Retargetable Code Generator for Embedded Processors.
PhD thesis, Massachusetts Institute of Technology, 1999.
[HD98] S. Hanono and S. Devadas. Instruction Selection, Resource Allocation, and
Scheduling in the AVIV Retargetable Code Generator. In Proceedings of
the Design Automation Conference (DAC), pages 510{515, San Francisco,
California, USA, June 1998.
[HKN+01] A. Homann, T. Kogel, A. Nohl, G. Braun, O. Schliebusch, O. Wahlen,
A. Wieferink, and H. Meyr. A Novel Methodology for the Design of
Application-Specic Instruction-Set Processors (ASIPs) Using a Machine De-
scription Language. Transactions on Computer-Aided Design of Integrated
Circuits and Systems (TCAD), 20, 2001.
[Hol92] J.H. Holland. Adaption in Natural and Articial Systems. MIT Press, 1992.
[Hor01a] L. Hornbach. Generische Low-Level Optimierungen fu¨r RISC-Architekturen.
Master’s thesis, Universita¨t Dortmund, Lehrstuhl Informatik XII, 2001.
[Hor01b] M. Horst. Schleifenoptimierungen zur Ausnutzung paralleler Rechenwerke
von Prozessoren der M3-DSP Plattform. Master’s thesis, Universita¨t Dort-
mund, Lehrstuhl Informatik XII, 2001.
[Int] Moore’s Law. http://www.intel.com/research/silicon/mooreslaw.htm.
LITERATURVERZEICHNIS 171
[JP01] S. Jung and Y. Paek. The Very Portable Optimizer for Digital Signal Proces-
sors. In Proceedings of the International Conference on Compilers, Architec-
tures and Synthesis for Embedded Systems (CASES), pages 84{92, Atlanta,
Georgia, USA, November 2001.
[KB02] W. Kantschik and W. Banzhaf. Linear-Graph GP { A new GP Structure. In
Proceedings of the European Conference on Genetic Programming (EuroGP),
pages 83{92, Kinsale, Ireland, April 2002.
[KL70] B. W. Kernighan and S. Lin. An Ecient Heuristic Procedure for Partitioning
Graphs. Bell System Technical Journal, 49, 1970.
[KL98] D. Ka¨stner and M. Langenbach. Integer Linear Programming vs. Graph-
Based Methods in Code Generation. Technical Report A/01/98., Universita¨t
des Saarlandes, 1998.
[KMT+95] L. Kohn, G. Maturana, M. Tremblay, A. Prabhu, and G. Zyner. The Visual
Instruction Set (VIS) in UltraSPARC. In Proceedings of IEEE COMPCON,
pages 462{469, San Francisco, California, USA, March 1995.
[Kot00] D. Kottmann. Adrezuweisung fu¨r den M3-DSP. Master’s thesis, Universita¨t
Dortmund, Lehrstuhl Informatik XII, 2000.
[KP93] C.W. Kessler and W.J. Paul. Automatic Parallelization by Pattern Mat-
ching. In Proceedings of the International Conference of Parallel Computing
(ACPC), pages 166{181, Gmunden, Austria, October 1993.
[KR88] B.W. Kernighan and D.M. Ritchie. The C Programming Language. Prentice
Hall, 1988.
[Kra00] A. Krall. Compilation Techniques for Multimedia Extensions. In Internatio-
nal Journal of Parallel Programming, volume 28, pages 347{361, 2000.
[Kru56] J.B. Kruskal. On the Shortest Spanning Subtree of a Graph and the Traveling
Salesman Problem. Proceedings of the American Mathematical Society, 7(1),
1956.
[Ka¨s00] D. Ka¨stner. PROPAN: A Retargetable System for Postpass Optimisations
and Analyses. In Proceedings of the Workshop on Languages, Compilers, and
Tools for Embedded Systems (LCTES), pages 63{80, Vancouver, California,
USA, June 2000.
[Ka¨s01] D. Ka¨stner. Retargetable Postpass Optimisation by Integer Linear Program-
ming. PhD thesis, Universita¨t des Saarlandes, 2001.
172 LITERATURVERZEICHNIS
[LA86] C. F. Lin and J. B. Anderson. M-algorithm Decoding of Channel Convo-
lutional Codes. In Proceedings of the Princeton Conference of Information
Science and Systems, pages 362{366, Princeton, Great Britain, March 1986.
[LA00] S. Larsen and S. Amarasinghe. Exploiting Superword Level Parallelism with
Multimedia Instruction Sets. In Proceedings of the Conference on Program-
ming Language Design and Implementation (PLDI), pages 145{156, Vancou-
ver, Canada, June 2000.
[LBSL97] P. Lapsley, J. Bier, A. Shoham, and E. Lee. DSP Processor Fundamentals.
Wiley, 1997.
[LD98] R. Leupers and F. David. A Uniform Optimization Technique for Oset
Assignment Problems. In Proceedings of the International Symposium on
System Synthesis (ISSS), pages 3{8, Hsinchu, Taiwan, December 1998.
[LDK+95] S. Liao, S. Devadas, K. Keutzer, S. Tjiang, and A. Wang. Storage Assignment
to Decrease Code Size. In Proceedings of the Conference on Programming
Language Design and Implementation (PLDI), pages 186{195, La Jolla, Ca-
lifornia, USA, 1995.
[LDKT95] S. Liao, S. Devadas, K. Keutzer, and S. Tjiang. Instruction Selection Using
Binate Covering for Code Size Optimization. In Proceedings of the Interna-
tional Conference on Computer-Aided Design (ICCAD), 1995.
[LDL+01] M. Lorenz, T. Dra¨ger, R. Leupers, P. Marwedel, and G.P. Fettweis. Low-
Energy DSP Code Generation Using a Genetic Algorithm. In Proceedings of
the International Conference on Computer Design (ICCD), pages 431{437,
Austin, Texas, USA, September 2001.
[Leu98] R. Leupers. Optimized Array Index Computation in DSP Programs. In
Proceedings of the Asia and South Pacic Design Automation Conference
(ASP-DAC), pages 87{92, Yokohama, Japan, February 1998.
[Leu99] R. Leupers. Schneller Code statt schnelle Compiler. Elektronik, 22, 1999.
[Leu00a] R. Leupers. Code Optimization Techniques for Embedded Processors. Kluwer
Academic Publishers, 2000.
[Leu00b] R. Leupers. Code Selection for Media Processors with SIMD Instructions. In
Proceedings of the Design Automation and Test Conference in Europe (DA-
TE), pages 4{8, Paris, France, March 2000.
LITERATURVERZEICHNIS 173
[Leu00c] R. Leupers. Register Allocation for Common Subexpression in DSP Data
Paths. In Proceedings of the Asia and South Pacic Design Automation Con-
ference (ASP-DAC), 2000.
[Lev96] D. Levine. Users Guide to the PGAPack Parallel Genetic Algorithm Library.
Technical Report ANL-95/18, Argonne National Laboratory, January 1996.
[LKB+01] M. Lorenz, D. Kottmann, S. Bashford, R. Leupers, and P. Marwedel. Opti-
mized Address Assignment for DSPs with SIMD Memory Accesses. In Pro-
ceedings of the Asia and South Pacic Design Automation Conference (ASP-
DAC), pages 415{420, Yokohama, Japan, January 2001.
[LLHT00] C. Lee, J.K. Lee, T.T. Hwang, and S.-C. Tsai. Compiler Optimization on
Instruction Scheduling for Low Power. In Proceedings of the International
Symposium on System Synthesis (ISSS), pages 55{60, Madrid, Spain, Sep-
tember 2000.
[LM96] R. Leupers and P. Marwedel. Algorithms for Address Assignment in DSP Co-
de Generation. In Proceedings of the International Conference on Computer-
Aided Design (ICCAD), pages 109{112, San Jose, California, USA, November
1996.
[LM01] R. Leupers and P. Marwedel. Retargetable Compiler Technology for Embedded
Systems. Kluwer Academic Publishers, 2001.
[LML02] M. Lorenz, P. Marwedel, and R. Leupers. Energiebewusste Compilierung
fu¨r Digitale Signalprozessoren. In Proceedings of the Workshop zum DFG-
Verbundprojekt
"
Grundlagen und Verfahren verlustarmer Informationsverar-
beitung VIVA\, pages 76{83, Chemnitz, Germany, March 2002.
[LTMF95] M. T.-C. Lee, V. Tiwari, S. Malik, and M. Fujita. Power Analysis and Low-
Power Scheduling Techniques for Embedded DSP Software. In Proceedings
of the International Symposium on System Synthesis (ISSS), pages 110{115,
Cannes, France, September 1995.
[LWDL02] M. Lorenz, L. Wehmeyer, T. Dra¨ger, and R. Leupers. Energy aware Compila-
tion for DSPs with SIMD Instructions. In Proceedings of the Joint Conference
on Languages, Compilers and Tools for Embedded Systems and Software and
Compilers for Embedded Systems (LCTES/SCOPES), pages 94{101, Berlin,
Germany, June 2002.
[Mar97] P. Marwedel. Compilers for Embedded Processors. In Workshop on Synthe-
sis and System Integration of Mixed Technologies (SASIMI), pages 201{208,
Osaka, Japan, December 1997.
174 LITERATURVERZEICHNIS
[MB02] P. Marwedel and L. Benini. Low-Power/Low-Energy Embedded Software.
Tutorial at Design, Automation and Test in Europe (DATE), Paris, March
2002.
[MG95] P. Marwedel and G. Goossens, editors. Code Generation for Embedded Pro-
cessors. Kluwer Academic Publishers, 1995.
[MKC00] R. Manniesing, I. Karkowski, and H. Corporaal. Automatic SIMD Paralleliza-
tion of Embedded Applications Based on Pattern Recognition. In Proceedings
of the International Euro-Par Conference, pages 349{356, Munich, Germany,
August 2000.
[Moo65] G. Moore. Cramming more components onto integrated circuits. Electronics,
38(8), April 1965.
[Mot86] Motorola. DSP56000, Digital Signal Processor, User’s Manual, 1986.
[MPS98] E. Macii, M. Pedram, and F. Somenzi. High-Level Power Modeling, Estima-
tion, and Optimization. In Transactions on CAD of ICs and Systems. IEEE,
November 1998.
[Muc97] S.S. Muchnick. Advanced Compiler Design and Implementation. Morgan
Kaufmann Publishers, 1997.
[Nis97] V. Nissen. Einfu¨hrung in Evolutiona¨re Algorithmen. Vieweg, 1997.
[NN94] S. Novack and A. Nicolau. Mutation Scheduling: A Unied Approach to
Compiling for Fine{Grain Parallelism. In K. Pingali, U. Banerjee, D. Gelern-
ter, A. Nicolau, and D. Padua, editors, Languages and Compilers for Parallel
Computing, volume 892 of LNCS, pages 16{30. Springer{Verlag, Ithaca, New
York, USA, August 1994.
[Pol97] R. Poli. Evolution of Graph-Like Programs with Parallel Distributed Genetic
Programming. In Proceedings of the International Conference on Genetic
Algorithms (ICGA), pages 346{353, East Lansing, Michigan, USA, July 1997.
[PSB01] G. Pokam, J. Simonnet, and F. Bodin. A Retargetable Preprocessor for
Multimedia Instructions. In Proceedings of the Workshop on Compilers for
Parallel Computers (CPC), Edingburgh, Scotland, June 2001.
[RF98a] A. Ro¨mer and G.P. Fettweis. Code Generation for Processors with VLIW
Architecture. In Workshop on System Design Automation (SDA), pages 31{
35, Dresden, Germany, March 1998.
LITERATURVERZEICHNIS 175
[RF98b] A. Ro¨mer and G.P. Fettweis. Neuer Ansatz fu¨r die Code-Generierung mit
Hilfe des Viterbi-Algorithmus. In Proceedings of DSP Deutschland, pages
78{86, Munich, Germany, October 1998.
[RP96] J.M. Rabaey and M. Pedram, editors. Low Power Design Methodologies.
Kluwer Academic Publishers, 1996.
[SBT00] A. Sama, M. Balakrishnan, and J.F.M. Theeuwen. Speeding up Power Esti-
mation of Embedded Software. In Proceedings of the International Symposi-
um on Low Power Electronics and Design (ISLPED), pages 191{196, Rapallo,
Italy, July 2000.
[SG00] N. Sreraman and R. Govindarajan. A Vectorizing Compiler for Multimedia
Extensions. International Journal of Parallel Programming, 28(4), 2000.
[SKWM01] S. Steinke, M. Knauer, L. Wehmeyer, and P. Marwedel. An Accurate and Fine
Grain Instruction-Level Energy Model Supporting Software Optimizations.
In Proceedings of the International Workshop Power and Timing Modeling,
Optimization and Simulation (PATMOS), Yverdon-Les-Bains, Switzerland,
September 2001.
[SMM+91] T. Starkweather, S. McDaniel, K. Mathias, D. Whitley, and C. Whitley. A
Comparison of Genetic Sequencing Operators. In Proceedings of the Interna-
tional Conference on Genetic Algorithms (ICGA), pages 69{76, San Mateo,
California, USA, 1991. Morgan Kaufman.
[SPA] SPAM. http://www.ee.princeton.edu/spam/.
[SS99] G. Sinevriotis and T. Stouraitis. Power Analysis of the ARM 7 Embedded
Microprocessor. In Proceedings of the International Workshop Power and
Timing Modeling, Optimization and Simulation (PATMOS), pages 261{270,
Kos Island, Greece, October 1999.
[Sta] StarCore. http://www.starcore-dsp.com/starcore.html.
[STD94] C.-L. Su, C.-Y. Tsui, and A.M. Despain. Low Power Architecture Design and
Compilation Techniques for High-Performance Processors. In Proceedings of
IEEE COMPCON, pages 489{498, February 1994.
[Sti99] A. Stiller. Prozessorgeflu¨ster. CT, 25, 1999.
[SUI] SUIF. http://suif.stanford.edu/suif/.
[Tex99] TMS320C6000 CPU and Instruction Set Reference Guide. Texas Instruments,
1999.
176 LITERATURVERZEICHNIS
[Tig] TigerShark. http://www.analog-devices.com.
[Tji93] S. Tjiang. An Olive Twig. Technical report, Synopsys Inc., 1993.
[TMW94a] V. Tiwari, S. Malik, and A. Wolfe. Compilation Techniques for Low Energy:
An Overview. In Proceedings of the Symposium on Low Power Electronics,
pages 38{39, San Diego, California, USA, October 1994.
[TMW94b] V. Tiwari, S. Malik, and A. Wolfe. Power Analysis of Embedded Software: A
First Step towards Software Power Minimization. In IEEE Transactions on
VLSI Systems, pages 437{445, December 1994.
[Tri] Trimaran. http://www.trimaran.org/.
[WFL+99] M.H. Weiss, G. P. Fettweis, M. Lorenz, R. Leupers, and P. Marwedel. Toolum-
gebung fu¨r plattformbasierte DSPs der na¨chsten Generation. In Proceedings
of DSP Deutschland, pages 175{184, Munich, Germany, September 1999.
[WG97] B. Wess and M. Gotschlich. Optimal DSP Memory Layout Generation as a
Quadratic Assignment Problem. In Proceedings of the International Sympo-
sium on Circuits and Systems (ISCAS), volume 3, pages 1712{1715, Hong
Kong, June 1997.
[WGHB94] T. Wilson, G. Grewal, B. Halley, and D. Banerji. An Integrated Approach
to Retargetable Code Generation. In Proceedings of the International Sym-
posium on High-Level Synthesis, pages 70{75, Niagra-on-the-Lake, Ontario,
Canada, May 1994.
[WM95] R. Wilhelm and D. Maurer. Compiler Design. Addison Wesley, 1995.
[WSS91] D. Whitley, T. Starkweather, and D. Shaner. The Traveling Salesman and
Sequence Scheduling: Quality Solutions Using Genetic Edge Recombination.
In L. David, editor, The Handbook of Genetic Algorithms, pages 350{372, Van
Nostrand Reinhold, New York, USA, 1991.
[ZDT99] E. Zitzler, K. Deb, and L. Thiele. Comparison of Multiobjective Evolutio-
nary Algorithms: Empirical Results (Revised Version). Technical Report 70,
Institut fu¨r Technische Informatik und Kommunikationsnetze, ETH Zu¨rich,
December 1999.
[Zim90] H. Zima. Supercompilers for Parallel and Vector Computers. ACM Press,
1990.
LITERATURVERZEICHNIS 177
[ZVSM94] V. Zivojnovic, J.M. Velarde, C. Schla¨ger, and H. Meyr. DSPstone - A DSP-
oriented Benchmarking Methodology. In Proceedings of the International
Conference on Signal Processing Applications and Technology (ICSPAT), pa-
ges 715{720, Dallas, Texas, USA, October 1994.
[ZW99] T. Zeitlhofer and B. Wess. Operation Scheduling for Parallel Functional Units
Using Genetic Algorithms. In Proceedings of the International Conference on
Acoustics, Speech, and Signal Processing (ICASSP), pages 1997{2000, Phoe-
nix, Arizona, USA, March 1999.
178 LITERATURVERZEICHNIS
Index
δ-Array-Datenflussanalyse, 40, 119
Adresscode-Generierung, 5, 51, 56, 60, 80,
102
Adresscode-Kompaktierung, 60, 85, 86
Adressgenerierungseinheit, 5, 51
Adressoset
konstant, 83
variable, 83
Adresspointer-Register, 51
Adresszuweisung, 57, 125
horizontale, 62, 125
vertikale, 60, 125
Aggregation, 66
AGU, 5, 51
aiSee, 41
ALAP, 69
Allel, 63, 68
alternative Ausfu¨hrungsmo¨glichkeit, 107
Antiabha¨ngigkeit, 25
Architekturdarstellung, 32, 101, 107
Array-Skalarisierung, 136
ASAP, 69
ASIC, 2
Ausgabeabha¨ngigkeit, 25
Auto-Dekrement, 51
Auto-Inkrement, 51, 83
Auto-Modify, 52, 83
AVIV, 55
Back-End, 3
Basisblock, 22
Baumgrammatik, 48
Bewertung von Individuen, 75
Bypass, 70, 72
Chromosom, 63, 67
COCOON, 28
Codegenerator, 101
genetischer, 62, 64
Codegenerator-Generator, 27, 48
Codegenerierung, 4, 47, 53, 59
Codeselektion, 4, 50
baumbasiert, 16, 48, 71
graphbasiert, 48, 71
Cold-Scheduling, 58
CoLIR, 28
Compiler, 3
Compilierungsprozess, 3
Constant-Folding, 3
Constraint-Programmierung, 54
Constraintpropagierung, 30, 37, 39, 61
Copy-Propagation, 3
CoSy, 26
Crossover, 63, 77
CS-, 78
Einpunkt-, 77
Uniform-, 77
Zweipunkt-, 77
CSE, 16, 48
Datenflussabha¨ngigkeit, 25
Datenflussgraph, 16
Dead-Code-Elimination, 3, 72, 112
Delay-Line, 6
DFG, 16
digitale Signalverarbeitung, 5
Dominanz, 65
179
180 INDEX
Drei-Adressbefehl, 23
DSP, 2, 7, 47, 97
DSP-Plattform, 7
Dummy-Adressbefehl, 102
eingebetteter Prozessor, 2
eingebettetes System, 2
Einstreifen-Modus, 7
ELCOR, 27
Element-Datentransfer, 108
Energiegruppe, 10
Energiekosten
Basis-, 10
Overhead-, 10
Energiekostenmodell, 9
Energieoptimierung, 13, 57
feinko¨rnige Parallelita¨t, 97
FIR-Filter, 5
Fortran 90, 103
Front-End, 3
Funktionseinheit, 33
ganzzahlig lineare Programmierung, 53
GCG, 62, 64
GeLIR, 29
Gen, 63, 67
General-Oset-Assignment, 52
Generic Low-Level IR, 29
genetische Programmierung, 79
genetischer Algorithmus, 56, 63
Parameter, 87
GOA, 52
GPP, 2, 16, 47
Gruppe, 7
Gruppenregister, 99
Gruppenregisterle, 8, 100
Gruppenspeicher, 8, 100, 109
Hamilton-Pfad, 57
Hamming-Distanz, 58
HW/SW-Exploration, 147
Idiom-Recognition, 103
ILP, 17
Individuum, 63
Initialisierung eines Individuums, 68
Inline-Assemblercode, 98
Instruktionsanordnung, 4, 50
Instruktionstyp, 25, 33
Intrinsic, 98
IR, 3
Kante
externe, 127
interne, 127
Kantenkonsistenz, 37, 39, 61
Kernighan-Lin-Algorithmus, 128
Knotenkonsistenz, 37, 38, 61
Kompaktierung, 4
kompilierte Simulation, 44
Kontrolldatenflussgraph, 41
Kontrollflussgraph, 22, 41
LANCE, 27
lebendige Variable, 4
LIR, 4
List-Scheduling, 55, 56, 68
probabilistisch, 64, 69
Low-Level IR, 4
M-Algorithmus, 55
M3-DSP, 8
M3-Plattform, 7
MAC-Operation, 6, 108
Maschineninstruktion, 4, 25
Maschineninstruktionstyp, 25
Maschinenoperation, 4, 24
abstrakte, 22
faktorisierte, 24, 33
komplexe, 24
partielle, 24
INDEX 181
zgoto, 112
zloop, 112
Maschinenprogramm
alternatives, 35
Middle-End, 3
MMX-Befehl, 103
Mobilita¨t, 69
Modify-Register, 52
Moore’sches Gesetz, 1
Mustererkennung, 103
Mutation, 63, 79
Nachbar, 126
Nachbarschaftsbeziehung, 126
erfu¨llte, 127
unerfu¨llte, 127
Nicht-Dominanz, 65
Page-Pointer-Adressierung, 52
Page-Pointer-Register, 52, 84
Pareto-Optimalita¨t, 65
Partitionierung, 127
Partitionierungsverfahren, 128
genetisches, 128
Peephole-Optimierung, 5
PGAPack, 87
Phasenkopplung, 49, 85
Phasenkopplungsproblem, 5, 85
Meta-, 51, 62
Population, 63
Pragma, 98
Programmdarstellung, 30, 101, 109
PROPAN, 28
Registerallokation, 4, 50, 101
Registerbindung, 4
Registerle, 33
Registervergabe, 4
Ressource, 33
flu¨chtige, 24, 34, 108
index read, 86, 100, 108
index write, 86, 101
sequentielle, 23
Retargierbarkeit, 95
Scheduling
horizontal, 58
Mutation, 55
vertikal, 58
Schleifenanalyse, 40
Schleifenerkennung, 113
Schleifentransformation, 103, 113, 114
Loop-Interchange, 116
Loop-Split, 116
Loop-Unswitching, 115
Reduction-Recognition, 117
Selektion, 63, 76
Sequentialisierungskante, 85, 87, 102
SIMD, 7
SIMD-MAC-Operation, 109
SIMD-Operation, 97
SIMD-Speicherzugri, 106
Simple-Oset-Assignment, 52
Simulation, 43
maschinenabha¨ngig, 43
maschinenunabha¨ngig, 43
Single-Entry Single-Exit, 113
SISD, 7
Skalarreduktion, 147
Slice, 7
SOA, 52
SoC, 2
SPAM, 28
Speicherlayout, 119
Spillcode, 5
Split-Node-Graph, 55
Standardoptimierung, 3
SUIF, 26
High-Level, 26
Low-Level, 26
Systems-on-Chip, 2
182 INDEX
Systemvergleich, 146
Target Description Language, 28
TDL, 28
Tie-Break-Heuristik, 57
Time-to-Market, 2
Trade-O, 135
Tree-Pattern-Matcher, 48, 53
Trellis, 54
Trimaran, 27
TWIF, 28
Typ
abstrakter, 33
realer, 33
Value-Nummer, 72
Variablen-Gruppierung, 124
Variablen-Zugrisgraph, 127
Variablen-Zugrissequenz, 124, 126
Vektordatentransfer, 8
Vektorisierung, 97, 99, 102, 110
Vektorregister, 99
Very Long Instruction Word, 8
Very Portable Optimizer, 27
VLIW, 8
VPO, 27
XeLIR, 30, 42
Zephyr, 27
Zero-Overhead Hardware-Loop, 7, 40,
111
Zurich-Zip-Datentransfer, 9, 120
Zwischendarstellung, 21, 25