Direct and indirect classifiers

Peters, Andrea

Authors:	Peters, Andrea
Title:	Direct and indirect classifiers
Language (ISO):	en
Abstract:	Automated classification rules are often required tools in medical research. In screening programs, an automated classification rule is desired which can accurately identify the subjects as being ``healthy'' or ``affected'', allowing expensive and experienced specialised staff to be replaced by cheaper assistants. In the current thesis we examine how to make use of medical examinations and a priori knowledge, which are given for learning samples but not for later test samples, in order to improve an automated classification rule. The starting point of all considerations was glaucoma, an affection of the retinal nerve fibre layer. Glaucoma is an irreversible disease and focus of recent research. Several medical approaches lead to learning samples in the Erlanger Eye Registry. The registry includes a magnitude of medical examinations, although the diagnosis is usually based on two conventional examination tools.At the beginning, we describe the approach of indirect classification. The conventional indirect classifier distinguishes between explanatory variables, i.e. variables which are available for recent and future observations, and intermediate variables, i.e. variables the diagnosis is based on. This approach of indirect classification can be applied in situations where detailed a priori knowledge, including a diagnostic rule based on the intermediate variables, is given. In the following, we extend indirect classification to situations where such a diagnostic tool is not known. We define an indirect classifier more generally, as a classification rule, which makes use of all variables given in the learning sample. We make the algorithmic proposal ``indirect subagging''. Indirect subagging is a generalised indirect classification approach which combines an arbitrary number of prediction models for intermediate variables, which are not collected for future observations. In contrast to the conventional indirect approach, we can apply indirect subagging in situations where only little a priori knowledge is given. In contrast to the framework of indirect classification we define a direct classifier as a classifier which only uses the set of explanatory variables. A given diagnostic function, incorporated into the conventional indirect classification approach, enables the distinction between an observed class membership following the diagnostic function and a true class membership. We distinguish between these two possible states of the disease in following investigations.Furthermore, we examine asymptotic properties of indirect classification and show that the conventional indirect approach is Bayes consistent with respect to the observed class membership and under certain model assumptions, while indirect subagging is Bayes consistent under more general assumptions. An artificial simulation model leads to the conclusion, that a correct specification of the fixed diagnostic function is crucial for the performance of the conventional indirect classifier. All in all, the indirect classifiers outperform direct ones within this simulation framework.Moreover, we develop a complex simulation setup, which generates the data structure as given by the task of glaucoma classification. We investigate the performance of direct and indirect classifiers for different variances of explanatory and intermediate variables here.Application to a case-control study of glaucoma and healthy subjects show the gain of indirect classification. The application to two additional datasets indicate that indirect subagging performs comparably or even better than the corresponding direct classifiers. The performance of the classifier seems to depend on the diagnostic value of the intermediate variables.Finally, we demonstrate the application of indirect classification, using the add-on package ipred in the programming environment R. In der medizinischen Forschung finden automatische Klassifikationsregeln ihre Anwendung häufig als Hilfsmittel zur untersucherunabhängigen Entscheidungsfindung. So kann in Screeningprogrammen mit einer solchen Klassifikationsvorschrift, welche die Probanden automatisch in ,,krank'' und ,,gesund'' einteilt, teures und erfahrenes Fachpersonal durch weniger teure Hilfskräfte entlastet werden. In der vorliegenden Arbeit wird diskutiert, wie sowohl das a priori Wissen eines Arztes über eine Erkrankung, als auch die medizinischen Messungen, welche nur für den Lerndatensatz, nicht jedoch für spätere Testdatensätze erhoben werden, zur Verbesserung einer solchen automatischen Klassifikationsvorschrift genutzt werden können.Ausgangspunkt aller Überlegungen ist hierbei eine irreversible Erkrankung der retinalen Nervenfaserschicht, genannt der grüne Star (Glaukom). Diese Erkrankung ist derzeit Gegenstand aktueller medizinischer Forschung. Daher sind durch verschiedenste Forschungsansätze im Erlanger Glaukomregister Lerndatensätze entstanden, welche Ergebnisse vieler medizinischer Untersuchungen beinhalten, obwohl die eigentliche medizinische Diagnose dieser Erkrankung meist auf nur zwei konventionellen Untersuchungsverfahren basiert.In der vorliegenden Arbeit wird zunächst der Ansatz der indirekten Klassifikation beschrieben. Der konventionelle indirekte Klassifikator unterscheidet zwischen so genannten ,,erklärenden'' Variablen, welche sowohl für derzeitige, als auch für zukünftige Beobachtungen erhoben werden, und ,,intermediären'' Variablen, auf denen die Diagnose basiert. Dieser konventionelle Ansatz der indirekten Klassifikation kann in Situationen, in denen ein detailliertes a priori Wissen einschließlich einer medizinischen Diagnosevorschrift, basierend auf intermediären Variablen, bekannt ist, angewendet werden. In einem weiteren Schritt wird die indirekte Klassifikation auf Situationen, in denen weniger Wissen über einen gegebenen Lerndatensatz vorhanden ist, ausgeweitet. Allgemeiner wird ein indirekter Klassifikator als ein Klassifikator definiert, der alle im Lerndatensatz vorhandenen Variablen in einer gewissen Form für die Klassifikation nutzt. Der algorithmische Vorschlag ,,indirect subagging'' kombiniert eine beliebige Anzahl von Vorhersagemodellen für intermediäre Variablen, welche für zukünftige Probanden nicht erfaßt werden. Im Gegensatz zur konventionellen indirekten Klassifikation, kann ,,indirect subagging'' auch in Situationen angewendet werden in denen nur wenig a priori Wissen vorhanden ist. Ein direkter Klassifikator nutzt ausschließlich die erklärenden Variablen und die Klassenvariable zur Erstellung einer automatischen Entscheidungsregel.Eine bekannte medizinische Diagnosevorschrift, wie sie im konventionellen Ansatz der indirekten Klassifikation einbezogen wird, ermöglicht die Unterscheidung zwischen einer diagnostizierten Klassenzugehörigkeit bzgl. der Diagnosevorschrift und einer wahren Klassenzugehörigkeit. Es wird im folgenden zwischen diesen beiden möglichen Erkrankungszuständen unterschieden. Asymptotische Eigenschaften der indirekten Klassifikation werden untersucht, und es wird gezeigt, daß der konventionelle indirekte Ansatz unter bestimmten Modellannahmen Bayes konsistent bzgl. des diagnostizierten Erkrankungszustandes ist, während ,,indirect subagging'' auch unter allgemeineren Annahmen Bayes konsistent ist.Ein abstraktes Simulationsmodell führt zu der Erkenntnis, daß die korrekte Formulierung der Diagnosevorschrift im konventionellen indirekten Ansatz ausschlaggebend für dessen Misklassifikationsrate ist. Insgesamt erreichten die indirekten Klassifikatoren niedrigere Fehlerraten, als die direkten. Im weiteren wird ein komplexes Simulationsmodell beschrieben, welches eine ähnliche Datenstruktur, wie sie bei der Glaukomklassifikation gegeben ist, generiert. Es wird untersucht, wie indirekte und direkte Klassifikatoren auf verschiedene Varianzen der erklärenden bzw. der intermediären Variablen reagieren.Die Anwendung der diskutierten Verfahren auf eine Fall-Kontroll-Studie von Glaukompatienten und gesunden Probanden macht den Nutzen der indirekten Klassifikation bei realen Fragestellungen deutlich. Anwendungen auf zwei weitere Datensätze weisen darauf hin, daß der Ansatz ,,indirect subagging'' vergleichbar gute oder bessere Misklassifikationsraten wie die entsprechenden direkten Klassifikatoren zu erreichen scheint. Die Güte der indirekten Klassifikation scheint auch von dem Informationsgehalt der intermediären Variablen abzuhängen. Abschließend wird die Durchführung der indirekten Klassifikation mit Hilfe des Zusatzpaketes ipred in der Programmierumgebung R demonstriert.
Subject Headings:	classification indirect combination of predictive models glaucoma simulation study error rates differential misclassification Klassifikation Indirekt Kombination von Vorhersagemodellen Glaukom Simulationsstudie Fehlerraten Differentielle Fehlklassifikation
URI:	http://hdl.handle.net/2003/2793 http://dx.doi.org/10.17877/DE290R-14927
Issue Date:	2004-02-13
Provenance:	Universität Dortmund
Appears in Collections:	Lehrstuhl Computergestützte Statistik

Files in This Item:

File	Description	Size	Format
petersunt.pdf	DNB	1.17 MB	Adobe PDF	View/Open

This item is protected by original copyright

Show full item record

This item is protected by original copyright rightsstatements.org