Christian DÜSI, Mosbach, Guido PINKERNELL, Heidelberg  
& Gerhard GÖTZ, Mosbach 
Ist der typische Fehler „Überlinearisierung“ systematisch? – 
Eine Modellierung als latente Variable von Distraktoren mit erhöhtem 
diagnostischem Potential 
Durch die Nutzung von Vor-/Brückenkursen und die häufig damit verbun-
denen summativen Diagnoseverfahren entsteht vielfach die sog. „Testzeit-
Inhalt-Problematik“ (Feldt-Caesar & Bruder, 2014). Im Folgenden wird ein 
Vorgehen vorgestellt, welches diagnostische Tiefe durch die Nutzung von 
Distraktoren mit erweitertem diagnostischen Potenzial (Winter, 2011) im 
Hinblick auf typische/systematische Fehler herstellt. Dieses Testverfahren 
wurde innerhalb eines Mathematikvorkursangebots mit einer Stichprobe von 
N=813 WiMINT-Studierenden validiert. 
Testzeit-Inhalt-Problematik und summatives Testen im Übergang 
Viele Hochschulen stellen sich, meist mit fachspezifischen Unterstützungs-
angeboten, den häufig wahrgenommenen Schwierigkeiten in der Transiti-
onsphase von Schule zu Hochschule (z.B. Bausch et al., 2014). Mit diesen 
Unterstützungsangeboten entsteht das Desiderat zur theoretischen Reflek-
tion summativer Referenzmodelle im Hinblick auf Wissen und Können am 
Ende der Sekundarstufen (z.B. Pinkernell, Düsi, & Vogel, 2017). Die Ope-
rationalisierung dieser Referenzmodelle führt allerdings notwendigerweise 
zu einem testtheoretischen Problem, welche als „Testzeit-Inhalt-Problema-
tik“ beschrieben werden kann. Hierbei handelt es sich um die Problematik, 
dass die vollständige Erfassung der notwendigen Wissens- und Könnensas-
pekte einer zeitökonomischen Testung diametral entgegensteht. 
Eine mögliche Lösung dieser Problematik wurde von Feldt-Caesar und Bru-
der 2014 vorgestellt. Dieses Testverfahren integriert die Vorteile des elemen-
tarisierenden Testens in ein Testverfahren mit komplexeren Aufgaben 
exemplarisch am Inhaltsbereich des funktionalen Zusammenhangs mit Fo-
kus auf Differential-/Integralrechnung. Dieses Verfahren ermöglicht die Di-
agnose eines vergleichsweise breiten Inhaltsbereichs mit wenigen Items 
(wenn die Items der sog. Hauptlinie korrekt beantwortet werden). Die Schlei-
fen, welche durchlaufen werden falls ein Item der Hauptlinie falsch beant-
wortet wird, elementarisieren die komplexeren Aufgaben fachinhaltlich in 
(theoretisch) notwendige inhaltliche Einzelschritte um zu analysieren, ob 
z.B. die fehlende Fähigkeit ein bestimmtes Integral zu berechnen im Bereich 
begrifflicher Unkenntnis, fehlender Methodenkenntnis o.ä. liegt. 
In Fachgruppe Didaktik der Mathematik der Universität Paderborn (Hrsg.)
Beiträge zum Mathematikunterricht 2018. Münster: WTM-Verlag 481
 Diagnostische Tiefe an Stelle von diagnostischer Breite 
Die diagnostische Breite der Testinstrumente am Übergang zwischen Schule 
und Hochschule ist weitgehend diskutiert und (in Teilen) durch verschiedene 
adaptive Testverfahren gelöst. Die Lücke, welche allerdings in diesen Test-
verfahren übrig zu bleiben scheint, ist die tiefe der Diagnostik. Mit Breite 
der Diagnostik wird hier die fachinhaltlich möglichst vollständige Testung 
bezeichnet. Somit erscheint das adaptive Testverfahren von Feldt-Caesar 
und Bruder als ausgesprochen vielversprechend diese Dimension zu erfüllen. 
Mit diagnostischer Tiefe ist hier nicht die fachinhaltliche Dimension ge-
meint, sondern die fachdidaktische Dimension der, ob theoretisch oder em-
pirisch, bekannten fachinhaltsbereichsübergreifenden Fähigkeiten und Prob-
leme. Beispielhaft sei hier die Fähigkeit zu Substitutionsleistungen erwähnt. 
Diese Fähigkeit wird in arithmetischen Operationen, dem (rechnerischen) 
Umgang mit Funktionen oder im Substitutionsverfahren der Integralberech-
nung genutzt. 
Um eine derartige diagnostische Tiefe in ein diagnostisch breites Testinstru-
ment zeitökonomisch einzubinden, wurden Distraktoren mit erhöhtem diag-
nostischem Potenzial genutzt (Düsi & Pinkernell, 2017). Hierbei muss sich 
der Problematik gestellt werden, dass die mit diesen Distraktoren diagnosti-
zierten Konzepte negativ bestimmt werden müssen, da mit Hilfe der Anzahl 
ausgewählter Distraktoren gleicher Art über Items hinweg diagnostiziert 
wird. Auf Grund dieser Tatsache beschränkt sich die Art der diagnostischen 
Tiefe vorerst auf typische bzw. systematische Fehler. 
Typische und systematische Fehler 
Von typischen Fehlern spricht man, wenn „Fehler identifiziert werden [kön-
nen], die von einer Vielzahl der Schülerinnen und Schüler begangen wer-
den“ (Nitsch, 2015). Es handelt sich somit um eine rein empirische Kategorie 
von Fehlern, welche durch systematische Suche und Kategorisierung der ge-
gebenen Antworten innerhalb offener Fragetypen identifiziert werden kön-
nen. 
Systematische Fehler haben hingegen eine lange Tradition der theoretischen, 
fachdidaktischen Reflektion. Seemann beschrieb schon 1929, dass „Rechen-
fehler keine Zufallserscheinungen sondern gesetzmäßige Gebilde“ [sic] 
seien, die vom „Prinzip des kleinesten Energieaufwands“ determiniert seien 
(vgl. Radatz, 1980). Im Folgenden wird die Definition von Führer genutzt, 
die systematische Fehler als „gedankliche Leistungen, die unter ähnlichen 
Bedingungen weitgehend reproduzierbar sind und auf abweichendem Ver-
ständnis, auf kognitiven Konflikten oder auf Interferenzen begrenzt sinnvol-
ler Konzepte beruhen“ (Nitsch, 2015) betrachtet. Im Gegensatz zu typischen 
482
 Fehlern handelt es sich hierbei also um eine (fach-)didaktische Kategorie, 
die erst durch einen fachdidaktisch theoretischen Blick entsteht. 
Überlinearisierung als systematischer Fehler 
Beispielhaft wird im Folgenden die Er-
stellung und Evaluation diagnostischer 
Tiefe durch den typischen/(systemati-
schen) Fehler „Überlinearisie-
rung“ (Malle, 1993) beschrieben. Hier-
für wurden vier Single-Chioce-Items 
aus dem Inhaltsbereich der Sek.II-
Arithmetik Distraktoren beigefügt, die 
diesen Fehler abbilden sollen (Bei-
spielhaft Abb. 1).  
Aus den Antworten auf diese Items 
wurden Post-hoc dichotome Variablen erstellt, deren eine „1“ zugeordnet 
wurde, falls der entsprechende Distraktor, welcher für „Überlinearisie-
rung“ steht, ausgewählt wurde. Im Beispiel von Abb. 1 wäre dies der Dis-
traktor „b) und c)“.  
Mit diesen Variablen wurde eine CFA durchgeführt um das theoretisch er-
wartete Konstrukt, welches als diesen Variablen gemein vermutet wurde, nä-
her zu beschreiben. Die Ladungen der Items befinden sich zum 2. MZP im 
Bereich zwischen 0.552 und 0.743 und können somit als homogen hoch an-
gesehen werden. 
Die Modellkenndaten für dieses Modell zum 
ersten Messzeitpunkt erscheinen durchweg 
gut. Zum zweiten Messzeitpunkt verbessern 
sich die meisten Werte nochmals, sodass 
insgesamt das Modell als gutes bis sehr gu-
tes Modell angesehen werden kann. 
Zur qualitativen Beschreibung des Testin-
struments wurde Cronbachs alpha zu jedem MZP berechnet. Zum ersten 
MZP ergab sich ein Wert von 0.50, zum zweiten MZP ein Wert von 0.54. 
Diese Werte sind, im Gegensatz zu den Modellkennwerten der CFA, eher 
schlechte Werte. Es muss allerdings beachtet werden, dass die einzelnen 
Skalen jeweils nur vier Items enthalten und es sich um ein komplexes Kon-
strukt mit schwieriger Operationalisierung handelt. Bei derartigen Rahmen-
bedingungen können auch geringere Cronbachs alpha Werte akzeptiert wer-
den (Schecker, 2014). 
Kenn-
wert 
1. MZP 
(N= 602) 
2. MZP 
(N=813) 
RMSEA 0.052 0.049 
p-Wert 
(𝜒2) 
.142 .138 
CFI 0.989 0.994 
TLI 0.981 0.983 
Abb. 1 
483
 Zusammenfassung der Testbewertung, deskriptive Daten und Ausblick 
Durch die vorliegenden Daten zur Modellidentifizierung und der Reliabili-
tätsanalyse gepaart mit der Diskussion zur Inhaltsvalidität lässt sich sagen, 
dass das Instrument, insbesondere in den vorhande-
nen Rahmenbedingungen, gut funktioniert.  
Die deskriptiven Daten zur diagnostischen Analyse 
dieses typischen Fehlers ergaben, dass insgesamt 
93 Studierende zum zweiten MZP drei oder vier 
Mal (von vier möglichen Malen) den „Überlineari-
sierungs“-Distraktor gewählt haben. Auf Grund 
probabilistischer Überlegungen zur zufälligen Aus-
wahl einer von fünf Auswahlmöglichkeiten wurden 
diese Studierenden mit dem Konstrukt „Überlinea-
risierung“ identifiziert. Der typische Fehler „Über-
linearisierung“ kann daher bei 11,4% der Studierenden als systematisch, also 
als über Aufgaben hinweg beständig, identifiziert werden. 
In der nächsten Vorkursdurchführung wird, neben der Testung weiterer ty-
pischer Fehler, dieser Fehler an Hand von Items zur Integralberechnung er-
weitert und eine längsschnittliche Veränderungen per LCM modelliert.  
Literatur 
Bausch, I., Biehler, R., Bruder, R., Fischer, P. R., Hochmuth, R., Koepf, W., …, Wassong, 
T. (Hrsg.). (2014). Mathematische Vor- und Brückenkurse: Konzepte, Probleme und 
Perspektiven. Wiesbaden: Springer Spektrum. 
Düsi, C., Pinkernell, G. (2017). Distraktorenerstellung im Zusammenhang mit einem 
Testverfahren zu Mathematikvorkursen. Beiträge zum Mathematikunterricht 2017. 
Feldt-Caesar, N., Bruder, R. (2014). Diagnose von Grundwissen und Grundkönnen durch 
ein adaptives Testverfahren. Beiträge zum Mathematikunterricht 2014.  
Malle, G. (1993). Didaktische Probleme der elementaren Algebra. Wiesbaden: Vieweg. 
Nitsch, R. (2015). Diagnose von Lernschwierigkeiten im Bereich funktionaler Zusam-
menhänge. Wiesbaden: Springer Fachmedien Wiesbaden.  
Pinkernell, G., Düsi, C., Vogel, M. (2017). Aspekte des Wissens und Könnens der ele-
mentaren Algebra. Beiträge zum Mathematikunterricht 2017. 
Radatz, H. (1979). Fehleranalysen im Mathematikunterricht. Braunschweig, Wiesbaden: 
Vieweg. 
Schecker, H. (2014). Überprüfung der Konsistenz von Itemgruppen mit Cronbach‘s Al-
pha. Springer Spektrum: Berlin, Germany. 
Winter, K. (2011). Entwicklung von Item-Distraktoren mit diagnostischem Potential zur 
individuellen Defizit- und Fehleranalyse: didaktische Überlegungen, empirische Un-
tersuchungen und konzeptionelle Entwicklung für ein internetbasiertes Mathematik-
Self-Assessment. Münster: WTM, Verl. für wiss. Texte und Medien. 
Linearisieren_Gesamt-
score_2.MZP 
 
Häu-
figkeit 
Prozent 
0 371 45,6 
1 215 26,4 
2 134 16,5 
3 63 7,7 
4 30 3,7 
484