Statistische Modelle mit nicht-ignorierbar fehlender Zielgröße und Anwendung in der reject inference
Loading...
Date
2011-04-28
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Statistische Modelle zur Prognose von Kreditausfällen vernachlässigen in der Regel die Beobachtungen
derjenigen Kunden, denen erst gar kein Kredit gewährt wurde. Denn für diese
abgelehnten Kreditnehmer ist schließlich die Zielgröße unbekannt, das heißt die Bank hat üblicherweise
keine Information über die Zahlungsmoral dieser Antragsteller im Falle einer Zusage.
Die Vernachlässigung beeinflusst die Schätzung solcher Modelle nicht, solange die fehlenden
Daten „missing at random” (MAR) sind, das bedeutet, falls die Ausfallwahrscheinlichkeit bei
gegebenen Kovariablen für akzeptierte und abgelehnte Kunden dieselbe ist. In der Praxis ist
diese Annahme dann sinnvoll, wenn der Kreditgeber seine Vergabeentscheidung einzig auf Basis
eines statistischen Modells trifft.
Allerdings ist ein solches Vorgehen in Deutschland nicht legitim. Das Bundesdatenschutzgesetz
untersagt die rein automatisierte Gewährung von Krediten, ohne dass eine Person in den
Entscheidungsprozess einbezogen wird. Das kann zur Folge haben, dass bei zwei Kunden mit
ansonsten identischen Ausprägungen aller Prädiktoren dem einen ein Kredit gewährt wird, dem
zweiten jedoch nicht. Anders ausgedrückt ist die Wahrscheinlichkeit für die Bewilligung eines
Kredits bei gegebenen Regressoren nicht identisch mit derWahrscheinlichkeit bei gegebenen Regressoren
und dem Wissen über die eventuelle spätere Rückzahlung, falls die Beurteilung durch
einen Bankangestellten zusätzliche Information über letztere liefert. Dann sind die fehlenden
Beobachtungen nicht-ignorierbar fehlend oder „missing not at random” (MNAR).
Die vorliegende Arbeit schlägt einen neuen Ansatz zur Bewältigung der oben beschriebenen
„Reject Inference” vor. Er basiert auf Qin, Leung und Shao (2002), die bei Vorliegen nichtignorierbar
fehlender Daten die vorliegenden Beobachtungen so gewichten, dass sie deren Erwartungswert
konsistent schätzen können. Dazu verwenden sie ein parametrisches Modell für
das Fehlen und nutzen zudem die Theorie der Empirischen Likelihood. In statistischen Modellen
wie Generalisierten Linearen Modellen liefert dieselbe Gewichtung der Likelihood unter nicht
allzu restriktiven Annahmen konsistente und asymptotisch normalverteilte Parameterschätzer.
Damit können Logistische Regressionsmodelle im Kreditscoring unverzerrt geschätzt werden,
auch wenn Vergabeentscheidung und Kreditausfall bei gegebenen Regressoren korrelieren.
Mit Hilfe eines Hausman-Test lässt sich die Hypothese des nicht-ignorierbaren Fehlens untersuchen.
In Simulationen erweist sich die vorgeschlagene Testprozedur als zuverlässig. Eine
Anwendung auf Daten von fast zehntausend Privatkunden einer großen deutschen Bank zeigt,
dass das neue Schätzverfahren zu signifikant unterschiedlichen Parameterschätzungen gegenüber
konventionellen Methoden führt, sowohl im ökonomischen als auch im statistischen Sinne.
Zahlreiche weitere Anwendungsmöglichkeiten des neuen Schätzers sind denkbar, da fehlende
Daten in der Praxis immer wieder auftreten und die Ursache dafür oft unbekannt ist
Description
Table of contents
Keywords
empirical likelihood, Generalisierte lineare Modelle, Hausman-Test, Kreditscoring, missing not at random, reject inference