Online Diskriminanzanalyse für Datensituationen mit Concept Drift
Loading...
Date
2020
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Vor dem Hintergrund der Existenz von immer mehr Datenströmen anstelle von Batch-Daten gewinnen Online-Algorithmen immer mehr an Bedeutung. Eine wesentliche Eigenschaft von Datenströmen besteht darin, dass sich die den Beobachtungen zugrunde liegende Verteilung im Laufe der Zeit ändern kann. Für solche Situationen hat sich der Begriff concept drift etabliert. Die Dissertation fokussiert auf die Diskriminanzanalyse als ein mögliches Klassifikationsverfahren. Viele bisher publizierte Algorithmen für Online Diskriminanzanalyse haben gemein, dass zwar eine Adaption an einen concept drift ermöglicht wird, eine kontinuierlich fortschreitende Veränderung der Verteilung allerdings nicht beachtet wird, sodass veraltete (und daher verzerrte) Schätzer in die Klassifikationsregel zur Prognose einfließen. In der Dissertation wird eine Methodik zur Erweiterung von Methoden für Online Diskriminanzanalyse zur Verbesserung der Prognosegüte für Datensituationen mit concept drift entwickelt. Für die Erweiterung wird der concept drift geeignet modelliert und prognostiziert. Es wird ein linearer Trend der Erwartungswertvektoren über die Zeit unterstellt, welcher mit lokaler linearer Regression modelliert wird. So können kontinuierlich die Erwartungswertvektoren des kommenden Zeitpunktes für jede Klasse prognostiziert werden. Diese Prognosen ersetzen laufend die bisherigen Schätzer in der jeweiligen Klassifikationsregel der Online Diskriminanzanalyse, um eine bessere Prognose für Beobachtungen des folgenden Zeitpunktes gewährleisten zu können. Durch die Lokalität lokaler linearer Regressionsmodelle können auch nicht-lineare Trends geeignet linear approximiert werden. Für Spezialfälle wird bewiesen, dass die Schätzfunktionen für die Erwartungswertvektoren der Klassen der erweiterten Methoden jeweils erwartungstreu für die Erwartungswertvektoren der Verteilung der Prognose sind. Die theoretischen Ergebnisse werden durch eine umfangreiche Simulationsstudie untermauert und erweitert. Für die Evaluierung werden Datenströme mit unterschiedlichen Arten und Stärken von concept drift als Ausprägungen des unendlichen Raumes aller möglichen Datensituationen mit concept drift simuliert. Die ursprünglichen sowie die erweiterten Methoden werden auf diesen Datensituationen hinsichtlich der Prognosegüte miteinander verglichen. Die Prognosegüte der Klassifikatoren kann durch Erweiterung der Methoden unter verschiedenster Formen von concept drift verbessert werden.
Description
Table of contents
Keywords
Diskriminanzanalyse, Klassifikationsverfahren, Concept drift