Effiziente Kapazitätsplanung durch dynamische Erweiterung einer lokalen Ressourcenumgebung um Grid- und Cloud-Ressourcen: algorithmische und technische Betrachtungen
Date
2014-06-04
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
The increasing complexity of scientific problems and industrial challenges leads to significant demands on computing infrastructures. Today, many scientific institutions and also most companies are still hosting their own computing infrastructures as commodity clusters or parallel machines to handle the upcoming load. Usually, these infrastructures are shared between many users with various applications. Caused by new problems and a fluctuating user community, changing load leads to phases with overloaded resources and undesired delays in job calculation on the first hand, and to idle phases with inefficent use of the available performance on the other hand. Instead of adapting the physical resources to the varying load, a resource operator is able to make use of algorithms and technologies of Grid- and Cloud- Computing to dynamically exchange load with delegation partners or a public cloud. This work investigates algorithmic approaches for the dynamic load exchange between autonomous resource environments in Computational Grids. The bilateral exchange between equitable partners is optimized using computational intelligence methods and subsequently is evaluated concerning improvements in service quality for the respective user communities. Usually, in Computational Grids the participating resource centers do not charge accepted workload. However, a cloud provider does charge unilateral load exchange. Thus, from the delegating centers point of view the charge represent an additional objective. This leads to a Multi-Objective Optimization Problem with the contradicting objectives of minimizing charge and maximizing service quality. In addition to common offline optimization algorithms, we introduce an adaptive reinforcement learning based policy to establish a beneficial relation of charge and gain for a considered resource centre. All presented algorithms are evaluated with real workload traces and examined regarding their robustness on foreign workload data or different local scheduling systems. The achieved results motivate the usage of dynamic load exchange algorithms for the improvement in service quality. Further, they serve as alternative to an extension of physical resources, which would be unfavorable from the economical and ecological perspective.
Mit der Komplexität der Probleme aus Forschung und Industrie steigen auch die Anforderungen an Rechnerinfrastrukturen zur ihrer effizienten Berechnung. Dabei greifen viele wissenschaftliche Einrichtungen und Unternehmen bisher noch auf den Betrieb eigener Rechnerinfrastruktur in Form von Commodity-Clustern bzw. Parallelrechnern zurück, deren Zugriff oftmals unter einer Vielzahl von Nutzern mit unterschiedlichen Anwendungen geteilt wird. Die aufgrund neuer Problemstellungen und der fluktuierenden Nutzergemeinschaft schwankende Rechenlast führt jedoch dazu, dass in Phasen mit Überlast eine unerwünschte Verzögerung der Rechenjobs stattfindet, während das Leistungspotential der Ressourcen in Phasen mit Unterlast nicht voll ausgeschöpft wird. Anstatt seine Ressourcen physisch den Lastschwankungen anzupassen, kann ein Ressourcenbetreiber auf Algorithmen und Technologien des Grid- und Cloud- Computings zurückgreifen, um einen dynamischen Lastaustausch mit einem Delegationspartner bzw. in eine öffentliche Cloud vorzunehmen. Diese Arbeit untersucht algorithmische Lösungen für den dynamischen Lastaustausch zwischen autonomen Ressourcenumgebungen in Computational Grids. Der wechselseitige Lastaustausch zwischen gleichberechtigten Partnern wird dabei hinsichtlich einer verbesserten Servicequalität für ihre jeweiligen Nutzergemeinschaften evaluiert und mit Methoden der Computational Intelligence optimiert. Während für den beidseitigen Lastaustausch innerhalb eines Computational Grids in der Regel kein (monetärer) Ausgleich verlangt wird, ist dies bei einseitiger Auslagerung von Last in eine Cloud stets der Fall. Die durch die Auslagerung entstehenden Kosten stellen neben der Steigerung der Servicequalität einen weiteren Optimierungsfaktor dar, welcher im Rahmen eines mehrkriteriellen Optimierungsproblems aus Kosten und Steigerung der Servicequalität untersucht wird. Neben Offline-Optimierungsverfahren wird für diesen Auslagerungsansatz eine adaptive Online-Lernstrategie auf Basis von Reinforcement Learning umgesetzt, mit dem Ziel ein gutes Kosten-Nutzen-Verhältnis für das auslagernde Ressourcenzentrum zu erreichen. Alle vorgestellten Algorithmen werden dabei mit realen Lastaufzeichnungen und in Bezug auf ihre Robustheit bei Übertragung auf Änderungen der Eingabedaten sowie des lokalen Scheduling-Systems untersucht. Die gewonnenen Erkenntnisse motivieren den Einsatz dynamischer Lastverteilungsalgorithmen zur Steigerung der Servicequalität als Alternative zu einer aus ökonomischen und ökologischen Gründen unvorteilhaften Erweiterung der physischen Ressourcen.
Mit der Komplexität der Probleme aus Forschung und Industrie steigen auch die Anforderungen an Rechnerinfrastrukturen zur ihrer effizienten Berechnung. Dabei greifen viele wissenschaftliche Einrichtungen und Unternehmen bisher noch auf den Betrieb eigener Rechnerinfrastruktur in Form von Commodity-Clustern bzw. Parallelrechnern zurück, deren Zugriff oftmals unter einer Vielzahl von Nutzern mit unterschiedlichen Anwendungen geteilt wird. Die aufgrund neuer Problemstellungen und der fluktuierenden Nutzergemeinschaft schwankende Rechenlast führt jedoch dazu, dass in Phasen mit Überlast eine unerwünschte Verzögerung der Rechenjobs stattfindet, während das Leistungspotential der Ressourcen in Phasen mit Unterlast nicht voll ausgeschöpft wird. Anstatt seine Ressourcen physisch den Lastschwankungen anzupassen, kann ein Ressourcenbetreiber auf Algorithmen und Technologien des Grid- und Cloud- Computings zurückgreifen, um einen dynamischen Lastaustausch mit einem Delegationspartner bzw. in eine öffentliche Cloud vorzunehmen. Diese Arbeit untersucht algorithmische Lösungen für den dynamischen Lastaustausch zwischen autonomen Ressourcenumgebungen in Computational Grids. Der wechselseitige Lastaustausch zwischen gleichberechtigten Partnern wird dabei hinsichtlich einer verbesserten Servicequalität für ihre jeweiligen Nutzergemeinschaften evaluiert und mit Methoden der Computational Intelligence optimiert. Während für den beidseitigen Lastaustausch innerhalb eines Computational Grids in der Regel kein (monetärer) Ausgleich verlangt wird, ist dies bei einseitiger Auslagerung von Last in eine Cloud stets der Fall. Die durch die Auslagerung entstehenden Kosten stellen neben der Steigerung der Servicequalität einen weiteren Optimierungsfaktor dar, welcher im Rahmen eines mehrkriteriellen Optimierungsproblems aus Kosten und Steigerung der Servicequalität untersucht wird. Neben Offline-Optimierungsverfahren wird für diesen Auslagerungsansatz eine adaptive Online-Lernstrategie auf Basis von Reinforcement Learning umgesetzt, mit dem Ziel ein gutes Kosten-Nutzen-Verhältnis für das auslagernde Ressourcenzentrum zu erreichen. Alle vorgestellten Algorithmen werden dabei mit realen Lastaufzeichnungen und in Bezug auf ihre Robustheit bei Übertragung auf Änderungen der Eingabedaten sowie des lokalen Scheduling-Systems untersucht. Die gewonnenen Erkenntnisse motivieren den Einsatz dynamischer Lastverteilungsalgorithmen zur Steigerung der Servicequalität als Alternative zu einer aus ökonomischen und ökologischen Gründen unvorteilhaften Erweiterung der physischen Ressourcen.
Description
Aus urheberrechtlichen Gründen wurde der Ordner Quellen aus der Anlage entfernt.
Table of contents
Keywords
Grid, Cloud, Evolutionäre Fuzzy-Systeme, Optimierung, Kapazitätsplanung, Scheduling, Load balancing