Lehrstuhl Computergestützte Statistik
Permanent URI for this collection
Browse
Recent Submissions
Item Clusteranzahlbestimmung und Clusterung unter Nebenbedingungen in der Musiksignalanalyse und in Energienetzen(2022) Krey, Sebastian; Ligges, Uwe; Weihs, ClausClusterverfahren sind ein wichtiges Werkzeug des unüberwachten maschinellen Lernens. Sie ermöglichen eine automatisierte Strukturierung von großen Datenmengen und können so ein wichtiges Werkzeug zur weiteren Datenverarbeitung bzw. -analyse sein oder das Fundament für Entscheidungen bilden. Die in dieser Arbeit betrachteten Anwendungsbeispiele aus der Musiksignalanalyse sowie der Elektrotechnik zeigen, dass reine distanzbasierte Clusterverfahren nicht immer ausreichend sind und Nebenbedingungen in die zugrundeliegenden Optimierungsprobleme eingefügt werden müssen, um sinnvolle Clusterungen zu erhalten, die für den Anwender hilfreich sind. Hierfür werden die Order Constrained Solutions in k-Means Clustering (OCKC) und Spectral Clustering zur Abbildung der Nebenbedingungen verwendet. Für OCKC wird zusätzlich eine effiziente Implementierung des Verfahrens vorgestellt. Ein gemeinsame Herausforderungen aller Clusterverfahren ist die Festlegung der Anzahl der Cluster. Da es sich bei den hier betrachteten Clusterverfahren um Methoden mit Nebenbedingungen handelt, kann klassische Stabilitätsanalyse mit Hilfe des adjustierten Rand-Index auf Bootstrap-Stichproben der Daten nicht für die Beurteilung der Clusterstabilität verwendet werden, da diese unter Umständen die Nebenbedindung verletzt. Es werden Alternativen präsentiert, die sowohl unter Ordnungsrestriktion, als auch bei einer Nachbarschaftsbedingung die Einhaltung der Nebenbedingung in den generierten Datensätzen sicherstellen. Mit diesen Methoden ist auch bei den Clusterverfahren mit Nebenbedingungen eine Beurteilung der Clusterstabilität mit dem Rand-Index möglich.Item Multimodale Likelihood-Funktionen in Mischverteilungsmodellen(2021) Jastrow, Malte; Weihs, Claus; Ligges, UweMischverteilungsmodelle (Mixture Models) dienen allgemein zur Anpassung zusammengesetzter Verteilungen an Daten, in denen einzelne Gruppen von Beobachtungen unterschiedlichen Verteilungen folgen. Durch die Modellierung der Gruppenzugehörigkeiten als latente Variable sind diese Modelle darüber hinaus ein populäres Verfahren zur Clusteranalyse (unüberwachtes Lernen). Dabei werden die Gruppen, denen Beobachtungen zugeordnet werden sollen, durch unterschiedlich parametrisierte Verteilungskomponenten repräsentiert. Die Verteilungsparameter der einzelnen Komponenten, sowie deren Mischungsverhältnis können mittels Maximum-Likelihood-Prinzip geschätzt werden. Wie in der Literatur beschrieben, kann die Likelihood-Funktion bereits für die Mischung zweier Normalverteilungskomponenten zahlreiche Optima aufweisen, wenn sich die zugrundeliegenden Varianzen stark unterscheiden. Im Rahmen dieser Dissertation wird das Problem der Multimodalität zunächst für Mischungen verschiedener Verteilungen durch grafische Darstellungen verdeutlicht. Anschließend wird systematisch der Einfluss der zugrundeliegenden Parameter der Mischverteilungsmodelle untersucht. Dabei ergibt sich, dass die Multimodalität maßgeblich mit dem Abstand zwischen den Varianzparametern der beiden Mischungskomponenten ansteigt. Anhand einer umfangreichen Simulationsstudie wird untersucht, wie gut der üblicherweise verwendete EM-Algorithmus Normalverteilungsmischungen mit unterschiedlicher Komplexität der Likelihood optimieren kann. Es stellt sich heraus, dass EM gegenüber allgemeinen Black-Box-Optimierungsalgorithmen, die spezielle Ansätze zum Überwinden lokaler Optima verfolgen, im Vorteil ist, da die in jedem Schritt verwendete konkrete Zuordnung der Daten zu den Verteilungskomponenten eine erhebliche Vereinfachung der Zielfunktion verursacht. Darüber hinaus wird mit der Methode der Clusterstartpunkte für EM eine für den Anwendungsfall relevante Methode vorgeschlagen, um möglichst viele lokale Optima einer multimodalen Likelihood-Funktion zu identifizieren. Dies gelingt deutlich besser als mit der häufig praktizierten Verwendung von Zufallsstartpunkten für EM und kann einen entscheidenden Beitrag zur Bewertung eines globalen Optimierungsergebnisses in der Praxis liefern.Item Online Diskriminanzanalyse für Datensituationen mit Concept Drift(2020) Schnackenberg, Sarah Anna; Ligges, Uwe; Weihs, ClausVor dem Hintergrund der Existenz von immer mehr Datenströmen anstelle von Batch-Daten gewinnen Online-Algorithmen immer mehr an Bedeutung. Eine wesentliche Eigenschaft von Datenströmen besteht darin, dass sich die den Beobachtungen zugrunde liegende Verteilung im Laufe der Zeit ändern kann. Für solche Situationen hat sich der Begriff concept drift etabliert. Die Dissertation fokussiert auf die Diskriminanzanalyse als ein mögliches Klassifikationsverfahren. Viele bisher publizierte Algorithmen für Online Diskriminanzanalyse haben gemein, dass zwar eine Adaption an einen concept drift ermöglicht wird, eine kontinuierlich fortschreitende Veränderung der Verteilung allerdings nicht beachtet wird, sodass veraltete (und daher verzerrte) Schätzer in die Klassifikationsregel zur Prognose einfließen. In der Dissertation wird eine Methodik zur Erweiterung von Methoden für Online Diskriminanzanalyse zur Verbesserung der Prognosegüte für Datensituationen mit concept drift entwickelt. Für die Erweiterung wird der concept drift geeignet modelliert und prognostiziert. Es wird ein linearer Trend der Erwartungswertvektoren über die Zeit unterstellt, welcher mit lokaler linearer Regression modelliert wird. So können kontinuierlich die Erwartungswertvektoren des kommenden Zeitpunktes für jede Klasse prognostiziert werden. Diese Prognosen ersetzen laufend die bisherigen Schätzer in der jeweiligen Klassifikationsregel der Online Diskriminanzanalyse, um eine bessere Prognose für Beobachtungen des folgenden Zeitpunktes gewährleisten zu können. Durch die Lokalität lokaler linearer Regressionsmodelle können auch nicht-lineare Trends geeignet linear approximiert werden. Für Spezialfälle wird bewiesen, dass die Schätzfunktionen für die Erwartungswertvektoren der Klassen der erweiterten Methoden jeweils erwartungstreu für die Erwartungswertvektoren der Verteilung der Prognose sind. Die theoretischen Ergebnisse werden durch eine umfangreiche Simulationsstudie untermauert und erweitert. Für die Evaluierung werden Datenströme mit unterschiedlichen Arten und Stärken von concept drift als Ausprägungen des unendlichen Raumes aller möglichen Datensituationen mit concept drift simuliert. Die ursprünglichen sowie die erweiterten Methoden werden auf diesen Datensituationen hinsichtlich der Prognosegüte miteinander verglichen. Die Prognosegüte der Klassifikatoren kann durch Erweiterung der Methoden unter verschiedenster Formen von concept drift verbessert werden.Item Methodenbaukasten zur Quantifizierung der statistischen Güte und deren Sensitivität von Last- und Verschleißanalysen mit einem Beispiel im Kontext alternativer Antriebskonzepte(2020) Lehmann, Thomas; Weihs, Claus; Müller, ChristineDie vorliegende Arbeit wurde im Rahmen einer Industriepromotion bei der Daimler AG in Sindelfingen erstellt. Sie umfasst die Entwicklung und Beschreibung eines statistischen Methodenbaukastens um Last- und Verschleißanalysen prozessual durchführen zu können. Dieser Methodenbaukasten wird an Daten im Kontext alternativer Antriebssysteme beispielhaft erprobt. Der methodische Fokus liegt auf der Quantifizierung und Sensitivität der Güte bzw. Unsicherheit auf den einzelnen Analysestufen. Die erste Analysestufe beinhaltet die Identifizierung verschiedener Gruppen in Belastungsdaten, umgesetzt durch Clusterverfahren. Auf der zweiten Analysestufe sollen über verschiedene lineare und nichtlineare Verfahren Vorhersagen für das Verschleißverhalten der identifizierten Gruppen getroffen werden. Auf beiden Stufen soll sowohl die Güte des Verfahrens als auch dessen Sensitivität quantifiziert werden. Im Rahmen der Arbeit werden alle notwendigen statistischen Methoden definiert, die entsprechenden Gütekriterien werden eingeführt. Der Methodenbaukasten beinhaltet einen iterativen Prozess, in dem in jeder Iteration sowohl das Clustering als auch die Prognose durchgeführt wird. So kann zum einen in jedem Schritt die Güte des jeweiligen Verfahrens und zum anderen die Sensitivität der Güte bzw. Unsicherheit der Verfahren/Modelle über mehrere Iterationen quantifiziert und bewertet werden. Der entwickelte, iterative Prozess, integriert in den Algorithmus des Evidence Accumulation Clusterings, bietet dem Anwender entscheidende methodische Vorteile. Zum einen kann in jedem Schritt die Güte und dessen Sensitivität des jeweiligen Verfahrens bewertet werden, zum anderen wird über die gleichzeitige Durchführung aller Verfahren in jeder Iteration beides über die Analysestufen hin weg quantifiziert. Im Anwendungsbeispiel werden Potentiale aufgezeigt, die Güte der Modelle zu steigern sowie die Sensitivität zu verringern, indem sowohl die Variablenselektion für die Lastanalyse als auch die Modellauswahl für die Verschleißprognose prozessual durchgeführt wird. Der entwickelte Prozess bietet die Möglichkeit, die Qualität und Stabilität der durchgeführten Analyse bereits zu frühen Zeitpunkten (geringe Datenbasis) zu bewerten und ggf. Handlungsmaßnahmen abzuleiten.Item Cutting Optimal Pieces from Production Items(2019-03-08) Kirchhof, Michael; Meyer, Oliver; Weihs, ClausIn the process of manufacturing various products, a larger production item is first produced and subsequently smaller parts are cut out of it. In this report we present three algorithms that find optimal positions of production pieces to be cut out of a larger production item. The algorithms are able to consider multiple quality parameters and optimize them in a given priority order. They guarantee different levels of optimality and therefore differ in their required computing time and memory usage. We assemble these algorithms with respect to each’s specific benefits and drawbacks and in adaption to the given computational resources. If possible, the process is sped up by splitting the search for pieces on the whole production item into several local searches. Lastly, the approach is embedded into an application with a graphical user interface to enable its use in the industry.Item Multi-objective analysis of machine learning algorithms using model-based optimization techniques(2019) Horn, Daniel; Weihs, Claus; Groll, AndreasMy dissertation deals with the research areas optimization and machine learning. However, both of them are too extensive to be covered by a single person in a single work, and that is not the goal of my work either. Therefore, my dissertation focuses on interactions between these fields. On the one hand, most machine learning algorithms rely on optimization techniques. First, the training of a learner often implies an optimization. This is demonstrated by the SVM, where the weighted sum of the margin size and the sum of margin violations has to be optimized. Many other learners internally optimize either a least-squares or a maximum likelihood problem. Second, the performance of most machine learning algorithms depends on a set of hyper-parameters and an optimization has to be conducted in order to find the best performing model. Unfortunately, there is no globally accepted optimization algorithm for hyper-parameter tuning problems, and in practice naive algorithms like random or grid search are frequently used. On the other hand, some optimization algorithms rely on machine learning models. They are called model-based optimization algorithms and are mostly used to solve expensive optimization problems. During the optimization, the model is iteratively refined and exploited. One of the most challenging tasks here is the choice of the model class. It has to be applicable to the particular parameter space of the OP and to be well suited for modeling the function’s landscape. In this work, I gave special attention to the multi-objective case. In contrast to the single-objective case, where a single best solution is likely to exist, all possible trade-offs between the objectives have to be considered. Hence, not only a single best, but a set of best solutions exists, one for each trade-off. Although approaches for solving multi-objective problems differ from the corresponding approaches for single-objective problems in some parts, other parts can remain unchanged. This is shown for model-based multi-objective optimization algorithms. The last third of this work addresses the field of offline algorithm selection. In online algorithm selection the best algorithm for a problem is selected while solving it. Contrary, offline algorithm selection guesses the best algorithm a-priori. Again, the work focuses on the multi-objective case: An algorithm has to be selected with respect to multiple, conflicting objectives. As with all offline techniques, this selection rule hast to be trained on a set of available training data sets and can only be applied to new data sets that are similar enough to those in the training set.Item Kontrollkarten zur Alarmgebung in Stromnetzen(2018) Langesberg, Christian; Ligges, Uwe; Weihs, ClausDie Dissertation Kontrollkarten zur Alarmgebung in Stromnetzen entstand im Rahmen einer von der Deutschen Forschungsgemeinschaft geförderten Forschergruppe mit dem Schwerpunkt Schutz- und Leitsysteme zur zuverlässigen und sicheren elektrischen Energieübertragung (FOR 1511). Durch den Verfasser wurde die Möglichkeit einer automatisierbaren Überwachung eines elektrischen Energienetzes mittels statistischer Prozesskontrolle untersucht. Dazu standen Aufzeichnungen der Netzfrequenz aus fünf europäischen Orten zur Verfügung. Wie sich herausstellte, können die vorliegenden Frequenz-Daten nicht mittels Standard- Methoden wie Mittelwert- oder Urwertkarten überwacht werden: Diese führen zu unpraktikabel großen Raten falscher Alarme. Diese Problematik resultiert aus multiplen Annahmeverletzungen der Kontrollkarten-Technik: Die Frequenzwerte sind sowohl hochgradig autokorreliert als auch untereinander stark abhängig. Außerdem entstammen die Daten keiner bekannten statistischen Verteilung und unterliegen ständigen Regelungsprozessen. Zur Abhilfe wurden verschiedene bekannte Verfahren aus dem der Statistischen Prozesskontrolle in Betracht gezogen, jedoch in keinem Fall eine zufriedenstellende Qualität erreicht. Folglich werden Ansätze für neue Varianten diskutiert. Vorgeschlagen wird schließlich die Nutzung eines gleitenden Mittelwertes von absoluten Differenzen als Kontrollkarten- Statistik. Zudem wird eine Symmetrisierung der absoluten Differenzen verwendet und damit die Konvergenzgeschwindikgeit der Mittelwerte (ZGWS) erhöht. Zum Vergleich der Konvergenzgeschwindigkeiten zweier Verfahren oder Parametereinstellungen wird ein Messmittel zur Beurteilung der Nähe eines Datenvektors zur Familie der Normalverteilung benötigt. Da hier keine allgemein gute Methodik bekannt ist, wurden neun Metriken und Teststatistiken bezüglich ihrer zugrunde liegenden Ideen und Eigenschaften sowie durch eine Simulationsstudie verglichen. Schließlich erfolgt die Anwendung der Methodik auf stellvertretende Beispiele von Stromausfällen.Item Statistische Modellierung eines Bohrprozesses(2018) Herbrandt, Swetlana; Weihs, Claus; Ligges, UweItem Models and algorithms for low-frequency oscillations in power transmission systems(2018) Surmann, Dirk; Weihs, Claus; Ligges, UweEnergy supply in the European power transmission system undergoes a structural change due to expansion and integration of renewable energy sources on a large scale. Generating renewable energy is more volatile and less predictable because it usually depends on the weather like wind and sun. Furthermore, the increase in power trading as a result of the full integration of national electricity markets into the European transmission system additionally burdens the power network. Higher volatility and increasing power trading consume additional resources of existing transmission lines while construction projects for network extension take a huge amount of time. As a consequence, the available resources within the European network have to be utilised efficiently and carefully. Reducing the security margins of components in power networks leads to higher vulnerability to additional problems. This thesis focuses on two topics with the aim of supporting power transmission systems stability. Firstly, selecting an optimal subset of nodes within a power network with respect to the particular issue of Low-Frequency Oscillation is addressed. A common application is the optimal placement of measurement devices within a power network. By integrating the modelled oscillations as a preprocessor into the algorithm, the constructed subset includes their characteristics and is optimal to measure this type of oscillation. Secondly, simulation software is widely applied to power networks generating data or investigating the potential effects of changed device parameters. The state of the art way manually defines test scenarios to investigate effects. Each test scenario challenges the corresponding transmission system by, e. g. changing device parameters, increasing its power consumption, or disconnecting a transmission line. Instead of relying on the manual generation of test scenarios to check the network behaviour for modified or new components, it is advantageous to employ an algorithm for building test scenarios. These mechanisms ensure that the range of operating conditions is covered and at the same time propose challenging test scenarios much better than manually generated test scenarios. Black box optimisation techniques support this process by exploring the possible space for test scenarios using a specialised criterion. This cumulative dissertation comprises a summary of six papers which deal with modelling of Low-Frequency Oscillations and with the prediction of corresponding values at unobserved nodes within a power transmission system. I will present two published R packages we implemented to simplify the above process. Applying graph kernels in combination with evolutionary algorithms addresses the node selection task. Issues in multimodal optimisation are addressed using contemporary techniques from model-based optimisation to efficiently identify local minima.Item Musikklassifikation mittels auditorischer Modelle zur Optimierung von Hörgeräten(2016-05-30) Friedrichs, Klaus; Weihs, Claus; Ligges, UweIn der Dissertation werden für drei Musikklassifikationsprobleme - Toneinsatzzeiterkennung, Tonhöhenschätzung und Instrumentenklassifikation - Verfahren entwickelt, die auf der Ausgabe eines Simulationsmodells des menschlichen Hörvorgangs (Ohrmodell) aufbauen. Für modifizierte Ohrmodelle, die eine Hörschädigung simulieren, kann mit Hilfe dieser Verfahren evaluiert werden, wie gut Musik differenziert wird. Ziel eines Hörgeräts ist es, die Identifizierbarkeit von Musikeigenschaften zu steigern. Durch die Verknüpfung eines Hörgerätealgorithmus mit dem Ohrmodell und den Musikklassifikationsverfahren kann somit die Güte des Hörgeräts für eine durch das Ohrmodell gegebene Hörschädigung bewertet werden. Für die Paramateroptimierung des Hörgerätealgorithmus mit Hilfe der sequentiellen modellbasierten Optimierung (MBO) wird diese Bewertung als Kostenfunktion verwendet. Für die Schätzung der drei untersuchten Klassifikationsprobleme existieren bereits umfangreiche Forschungsarbeiten, die jedoch üblicherweise nicht die Ohrmodellausgabe sondern die akustische Wellenform als Grundlage nutzen. Daher werden zunächst die entwickelten Verfahren gegen diese Standardverfahren getestet. Für die Vergleichsexperimente wird ein statistischer Versuchsplan, dem ein Plackett-Burman-Design zu Grunde liegt, aufgestellt, um die untersuchten Musikdaten in einer strukturierten Form auszuwählen. Es wird gezeigt, dass die Ohrmodellbasierte Merkmalsgrundlage keinen Nachteil darstellt, denn für die Tonhöhenschätzung und die Instrumentenklassifikation werden sogar die Ergebnisse der Standardverfahren übertroffen. Lediglich bei der Einsatzzeiterkennung schneidet das entwickelte Verfahren etwas schlechter ab, für das jedoch weitere Verbessserungsideen vorgeschlagen werden. Durch den Versuchsplan werden acht musikalische Einflussgrößen berücksichtigt. Für diese wird evaluiert, wie sie sich auf die Güte der Klassifikationsverfahren auswirken. Neben vielen erwarteten Ergebnissen, z.B. die größeren Fehlerraten bei einer Streicherbegleitung auf Grund der klanglichen Nähe zum Cello, kommen auch einige unerwartete Ergebnisse heraus. Beispielsweise sind höhere Tonhöhen und kürzere Töne vorteilhaft für die Einsatzzeiterkennung, wohingegen tiefere Tonhöhen die Ergebnisse der Instrumentenerkennung verbessern. Der Versuchsplan wird auch für einen Vergleich des normalen Ohrmodells (ohne Hörschädigung) mit drei Modellen, die unterschiedliche Hörschädigungen simulieren (Hearing Dummies), verwendet. Für all diese Modelle steigen die Fehlerraten der Musikklassifikationsverfahren in plausiblen Stärken, die abhängig von den Hörschädigungen sind. Schließlich wird die praktische Anwendbarkeit des Bewertungsverfahrens in einer leicht vereinfachten Form, die aus Rechenzeitgründen lediglich die Ergebnisse der Instrumentenerkennung berücksichtigt, für die Optimierung eines Hörgerätealgorithmus getestet. Dabei wird MBO verwendet, um das Hörgerät optimal an eine starke Hörschädigung (Hearing Dummy 1) anzupassen. Durch das optimierte Hörgerät wird die Fehlklassifikationsrate stark reduziert, und auch eine vergleichende Experteneinstellung wird geschlagen (27% ohne Hörgerät, 19% mit Hörgerät und Experteneinstellung, 14% mit optimiertem Hörgerät). Wie die Auswertung des Versuchsplans zeigt, wird am stärksten die Klassifikationsgüte für Musikstücke mit Streicherbegleitung verbessert. Am Ende der Dissertation wird noch umfangreich diskutiert, welche Möglichkeiten es gibt, die Laufzeit von MBO für das vorgestellte Optimierungsproblem zu reduzieren.Item Optimierung der Toneinsatzzeiterkennung(2016) Bauer, Nadja; Weihs, Claus; Ligges, UweDie beiliegende Arbeit befasst sich mit der Optimierung der Toneinsatzzeiterkennung. Die Einsatzzeiterkennung ist eine wichtige Komponente für verschiedene Anwendungen wie Musiktranskription oder Wiedergabe der Musik in Hörgeräten. Angesichts der Komplexität der bekannten Algorithmen zur Einsatzzeiterkennung stellt sich ihre Optimierung als ein nicht triviales Problem dar. Als Hauptergebnisse dieser Arbeit lassen sich die Entwicklung einer neuen schnellen Optimierungsstrategie sowie eines innovativen multivariaten Ansatzes für die Einsatzzeiterkennung nennen. Die Grundidee der verwendeten klassischen modellbasierten Optimierungsmethode (MBO) besteht in der Modellierung des Zusammenhanges zwischen den Einflussparametern und der Zielgröße durch ein so genanntes Surrogatmodell. Die Versuche (bzw. Experimente) werden dann iterativ durchgeführt, wobei ein neuer Punkt sowohl einen möglichst guten Wert der Surrogatmodell-Vorhersage haben als auch möglichst weit von den bereits evaluierten Punkten entfernt liegen soll. Die vorgeschlagene Methode der instanzgebundenen modellbasierten Optimierung eignet sich für solche Probleme, bei denen die Zielfunktion in jeder Iteration auf mehreren Instanzen ausgewertet werden soll. Hier stellen die Musikstücke die Probleminstanzen dar. Die Hauptidee liegt dabei in einer modellbasierten Entscheidung, ob die Instanzauswertung in jeder Verfahrensiteration wegen einer nicht aussichtsreichen Güte frühzeitig abgebrochen werden soll. Im Mittel konnte dadurch ca. 85% der Funktionsauswertungszeit im Vergleich zu klassischer MBO gespart werden bei einem geringen Güteverlust. Das wesentliche Ergebnis in Bezug auf das Anwendungsproblem ist die Entwicklung der multivariaten Einsatzzeiterkennung: einer Methode, bei der nicht nur ein, sondern mehrere Merkmale bei der Schätzung der Toneinsatzzeiten berücksichtigt werden. Realisiert wird sie durch die Anwendung von Klassifikationsverfahren. Besonders erfolgreich scheint der Zufallswald für diese Aufgabe zu sein: die Erkennungsgüte konnte deutlich und auch statistisch signifikant im Vergleich zu herkömmlichen univariaten Algorithmen verbessert werden. Außerdem bieten die optimalen Einstellungen des multivariaten Verfahrens die Möglichkeit, die Latenzzeit der online Erkennung deutlich zu reduzieren. Anschließend wurde eine innovative Idee für eine weitere Verbesserungsmöglichkeit der Einsatzzeiterkennung diskutiert: Berücksichtigung der (größtenteils) strikten zeitlichen Struktur einer Musikaufnahme. Nachdem diese Struktur erkannt wird, könnten beispielsweise die geschätzten Toneinsätze präziser gesetzt bzw. verworfen werden.Item Multivariate statistical process control using dynamic ensemble methods(2015) Mejri, Dhouha; Weihs, Claus; Ligges, UweOne important challenge with some applications such as credit card fraud detection, intrusion detection and network traffic monitoring is that data arrive in streams over time and leads to changes in concepts which are known in data mining as concept drift. Thus, models analyzing such data become obsolete and efficient learning should be able to identify these changes and quickly update the system to them. The objective of this dissertation is to investigate the effectiveness of ensemble methods and Statistical Process Control (SPC) techniques in detecting changes in processes in order to improve the robustness of tracking concept drift and coping with the dynamics of online data stream processes. For reaching this objective, different heuristics were proposed. First, an improved dynamic weighted majority Winnow algorithm based on ensemble methods is proposed. Furthermore, parameters optimization based on genetic algorithm of the proposed method as well as an analysis of its robustness are investigated. Second, in order to handle the problem of concept drift while monitoring nonstationary environment using SPC tools, a time adjusting control chart based on a recursive adaptive formulas of the charting statistics is proposed. Results show that the updating charts cope much better with the nonstationarity of the environment. Also, two new heuristics are proposed based on both ensemble methods and adaptive control charts. The first is an offline learning chart model while the second is an online batch learning algorithm. Results show that quick adaptation of the system and accurate shift point identification are achieved when using both heuristics together. Also, the new adaptive ensemble charts have better performance in learning concept drifts along with a good suitability to nonlinearity and noise issues.Item Methods to characterize the behaviour of optimization algorithms(2014) Mersmann, Olaf; Weihs, Claus; Rahnenführer, JörgItem Model and Algorithm Selection in Statistical Learning and Optimization.(2014-02-07) Bischl, Bernd; Weihs, Claus; Rahnenführer, JörgModern data-driven statistical techniques, e.g., non-linear classification and regression machine learning methods, play an increasingly important role in applied data analysis and quantitative research. For real-world we do not know a priori which methods will work best. Furthermore, most of the available models depend on so called hyper- or control parameters, which can drastically influence their performance. This leads to a vast space of potential models, which cannot be explored exhaustively. Modern optimization techniques, often either evolutionary or model-based, are employed to speed up this process. A very similar problem occurs in continuous and discrete optimization and, in general, in many other areas where problem instances are solved by algorithmic approaches: Many competing techniques exist, some of them heavily parametrized. Again, not much knowledge exists, how, given a certain application, one makes the correct choice here. These general problems are called algorithm selection and algorithm configuration. Instead of relying on tedious, manual trial-and-error, one should rather employ available computational power in a methodical fashion to obtain an appropriate algorithmic choice, while supporting this process with machine-learning techniques to discover and exploit as much of the search space structure as possible. In this cumulative dissertation I summarize nine papers that deal with the problem of model and algorithm selection in the areas of machine learning and optimization. Issues in benchmarking, resampling, efficient model tuning, feature selection and automatic algorithm selection are addressed and solved using modern techniques. I apply these methods to tasks from engineering, music data analysis and black-box optimization. The dissertation concludes by summarizing my published R packages for such tasks and specifically discusses two packages for parallelization on high performance computing clusters and parallel statistical experiments.Item Ensuring an efficient turning process by means of desirability index optimization for correlated quality criteria(2012-09-19) Wonggasem, Kris; Weihs, Claus; Biermann, DirkThe desirability index (DI) is a method for multi-criteria optimization accepted widely in industrial quality management. The DI integrates expert knowledge into the optimization process by setting up desirability functions (DFs) of the quality criteria regarding their objective regions and aggregating them into a single performance index. However, the independence assumption of DFs rarely holds true in real turning applications, and a number of studies have been conducted proving the existence of dependencies between tool wear, surface roughness, tool life and cutting forces. As a consequence, the optimal solution obtained might be biased towards the group of performance measures, which have a high level of association (positive correlations). In this thesis, modfications of DI for handling correlated multi-criteria optimization are developed. By integrating principal component analysis (PCA) into the optimization procedure, the correlations of DFs can be eliminated, and the overall performance index, PCA-based DI, is formulated as a strictly monotonically increasing transformation of DFs; thus, the optimality of solutions can be guaranteed through the research of Legrand [26]. Apart from the PCA-based procedure, the weight-adjustment method provides an attractive alternative approach which is simpler and more exible, by introducing the weight-adjustment cofficients into the original formulas of DIs. The proposed procedures are demonstrated by means of case studies of a turning process optimization, and the optimization results are benchmarked with the traditional DIs. It has been shown in results that optimizations should be also subjected to the correlation information of performance measures. In addition, the procedure for determining correlation is found to be the second important key for a successful optimization.Item Kernel methods for advanced statistical process control(2012-01-18) Ben Khedhiri, Issam; Weihs, Claus; Kunert, Joachim; Limam, MohamedThis thesis investigated development and application of Kernel methods to enhance Statistical Process Control procedures. The first part of this thesis discussed the development of a control chart based on adaptive Kernel Principal Components Analysis (KPCA) to monitor non-stationary nonlinear process behaviour. Moreover, in order to have a fast adaptive KPCA model, we proposed an updating method that provides a reduced computation cost for large-scale KPCA model and a good tracking of the original matrix with a small reconstruction error. Analysis and comparison with other Principal Components Analysis control charts showed that the proposed procedure provides overall competitive detection results. The second part of this thesis investigated monitoring of nonlinear autocorrelated processes based on Support Vector Regression (SVR). The advantage of this procedure is that it allows modelling and control of nonlinear processes without the need to find analytical solutions to describe phenomena of interest. Results showed that the used control charts can effectively monitor the process behaviour while guarantying an acceptable robustness. The third part of this dissertation dealt with development of local Support Vector Domain Description (SVDD) based control chart to monitor complex and multimodal processes without specifying a probability distribution. This procedure allows simplifying and reducing the complexity of the problem which can help selecting SVDD parameters. Analysis of the proposed control chart using simulated and real case studies showed that this procedure allows better detection results while guaranteeing a reduced false alarm rate.Item Physikalisch-statistische Modellierung von Biegeschwingungen(2011-05-27) Raabe, Nils; Weihs, Claus; Ligges, UweItem Learning diagnostic rules with multivariate classification algorithms(2010-01-13T11:33:35Z) Schmitt, Raluca Ilinca; Weihs, Claus; Rahnenführer, JörgItem Multivariate calibration of classifier scores into the probability space(2009-05-06T10:43:18Z) Gebel, Martin; Weihs, Claus; Ickstadt, KatjaItem Post cochlea processing(2008-11-04T10:14:13Z) Szepannek, Gero; Weihs, C.; Ligges, U.