Statistische Modelle mit nicht-ignorierbar fehlender Zielgröße und Anwendung in der reject inference

Loading...
Thumbnail Image

Date

2011-04-28

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Statistische Modelle zur Prognose von Kreditausfällen vernachlässigen in der Regel die Beobachtungen derjenigen Kunden, denen erst gar kein Kredit gewährt wurde. Denn für diese abgelehnten Kreditnehmer ist schließlich die Zielgröße unbekannt, das heißt die Bank hat üblicherweise keine Information über die Zahlungsmoral dieser Antragsteller im Falle einer Zusage. Die Vernachlässigung beeinflusst die Schätzung solcher Modelle nicht, solange die fehlenden Daten „missing at random” (MAR) sind, das bedeutet, falls die Ausfallwahrscheinlichkeit bei gegebenen Kovariablen für akzeptierte und abgelehnte Kunden dieselbe ist. In der Praxis ist diese Annahme dann sinnvoll, wenn der Kreditgeber seine Vergabeentscheidung einzig auf Basis eines statistischen Modells trifft. Allerdings ist ein solches Vorgehen in Deutschland nicht legitim. Das Bundesdatenschutzgesetz untersagt die rein automatisierte Gewährung von Krediten, ohne dass eine Person in den Entscheidungsprozess einbezogen wird. Das kann zur Folge haben, dass bei zwei Kunden mit ansonsten identischen Ausprägungen aller Prädiktoren dem einen ein Kredit gewährt wird, dem zweiten jedoch nicht. Anders ausgedrückt ist die Wahrscheinlichkeit für die Bewilligung eines Kredits bei gegebenen Regressoren nicht identisch mit derWahrscheinlichkeit bei gegebenen Regressoren und dem Wissen über die eventuelle spätere Rückzahlung, falls die Beurteilung durch einen Bankangestellten zusätzliche Information über letztere liefert. Dann sind die fehlenden Beobachtungen nicht-ignorierbar fehlend oder „missing not at random” (MNAR). Die vorliegende Arbeit schlägt einen neuen Ansatz zur Bewältigung der oben beschriebenen „Reject Inference” vor. Er basiert auf Qin, Leung und Shao (2002), die bei Vorliegen nichtignorierbar fehlender Daten die vorliegenden Beobachtungen so gewichten, dass sie deren Erwartungswert konsistent schätzen können. Dazu verwenden sie ein parametrisches Modell für das Fehlen und nutzen zudem die Theorie der Empirischen Likelihood. In statistischen Modellen wie Generalisierten Linearen Modellen liefert dieselbe Gewichtung der Likelihood unter nicht allzu restriktiven Annahmen konsistente und asymptotisch normalverteilte Parameterschätzer. Damit können Logistische Regressionsmodelle im Kreditscoring unverzerrt geschätzt werden, auch wenn Vergabeentscheidung und Kreditausfall bei gegebenen Regressoren korrelieren. Mit Hilfe eines Hausman-Test lässt sich die Hypothese des nicht-ignorierbaren Fehlens untersuchen. In Simulationen erweist sich die vorgeschlagene Testprozedur als zuverlässig. Eine Anwendung auf Daten von fast zehntausend Privatkunden einer großen deutschen Bank zeigt, dass das neue Schätzverfahren zu signifikant unterschiedlichen Parameterschätzungen gegenüber konventionellen Methoden führt, sowohl im ökonomischen als auch im statistischen Sinne. Zahlreiche weitere Anwendungsmöglichkeiten des neuen Schätzers sind denkbar, da fehlende Daten in der Praxis immer wieder auftreten und die Ursache dafür oft unbekannt ist

Description

Table of contents

Keywords

empirical likelihood, Generalisierte lineare Modelle, Hausman-Test, Kreditscoring, missing not at random, reject inference

Citation