Eine Alternative zu verteilungsfreier Modellierung von Normdaten ist die parametrische Modellierung. Dabei werden die Parameter bestimmter Verteilungsfunktionen (z. B. Normalverteilung, Box-Cox-Potenzfunktion, Beta-Binomialverteilung etc.) über das Alter hinweg angepasst. Eine Schwierigkeit besteht bei diesem Ansatz darin, eine Funktion zu finden, die auf die real vorliegenden Daten gut passt. Für die Normalverteilung trifft dies jedenfalls in aller Regel nicht zu (vgl. A. Lenhard et al., 2019).
In bestimmten Fällen ist jedoch die Beta-Binomialverteilung hervorragend geeignet um Normwerte zu modellieren (Timmermann et al., 2021). Vor allem gilt dies für Testverfahren mit einer festgelegte Anzahl von Fragen oder Aufgaben, die ohne Zeitbegrenzung bearbeitet werden müssen und bei denen jede einzelne Aufgabe nur mit 0 oder 1 bewertet werden kann.
Wie der Name schon erahnen lässt, kombiniert die Beta-Binomial-Verteilung die Binomialverteilung mit der Beta-Verteilung. Mit Hilfe der Binomialverteilung lässt sich die Wahrscheinlichkeit ermitteln, dass bei n Versuchen x Treffer erzielt werden. Die Binomialverteilung geht dabei von einer konstanten Trefferwahrscheinlichkeit aus. Dies ist in Testverfahren, vor allem bei Leistungstests, jedoch normalerweise nicht gegeben. Hier kommt nun die Betaverteilung ins Spiel. Bei der Beta-Binomialverteilung wird nämlich davon ausgegangen, dass die Trefferwahrscheinlichkeit nicht konstant ist, sondern dass die Itemschwierigkeiten einer Beta-Verteilung folgen. Letztere stellt dabei keine festgelegte Verteilung, sondern eine ganze Verteilungsfamilie dar, die durch zwei Formparameter \(\alpha\) und \(\beta\) bestimmt ist. Obwohl die Itemschwierigkeiten bei den meisten Verfahren vermutlich nicht exakt betaverteilt sind, lassen sich die Testergebnisse zumindest bei ungespeedeten Tests in der Regel trotzdem sehr gut mit der Beta-Binomialverteilung modellieren.
Seit der Version 3.2 ist cNORM in der Lage, psychometrische Daten über das Alter hinweg nicht nur mit Hilfe von Taylor-Polynomen, sondern auch mit Hilfe der Beta-Binomial-Verteilung zu modellieren. Mehr über den mathematischen Hintergrund und die Implementation der parametrischen Normierung in cNORM finden Sie hier. Im Folgenden werden wir die Voraussetzungen dafür erläutern, ein praktisches Beispiel zeigen und die Ergebnisse einer Simulationsstudie präsentieren.
Tatsächlich ist es bislang unseres Wissens empirisch noch nicht systematisch untersucht, unter welchen Umständen die Beta-Binomialverteilung die besten Ergebnisse liefert und wann lieber verteilungsfreie Modellierung herangezogen werden sollte. Im Folgenden möchten wir Ihnen dennoch einige Voraussetzungen mitteilen, die das Testverfahren erfüllen sollte, wenn Sie die Beta-Binomialverteilung bei der Modellierung mit cNORM verwenden möchten.
Systematische Entwicklung über das Alter bzw. die explanatorische Variable: Die Testrohwerte müssen eine systematische, aber nicht notwendigerweise monotone Entwicklung über das Alter (bzw. die explanatorische Variable) zeigen. Standardmäßig kann die Modellierung auch nichtlineare Beziehungen über das Alter hinweg erfassen. Dies gilt sowohl für die Entwicklung des Mittelwerts als auch für die Entwicklung der Standardabweichung der Rohwerte. Bei komplexeren Verläufen können die Polynomgrade für die Altersanpassung beider Formparameter erhöht werden. Achten Sie jedoch darauf, dass in diesen Fällen ausreichend große Stichprobenumfänge zur Verfügung stehen. Es kann sonst leicht zur Überanpassung kommen.
Diskrete Ergebnisse: Als Testrohwerte sind nur ganzzahlige positive Werte einschließlich Null erlaubt. Dezimalzahlen, Brüche oder negative Zahlen sind für die Anpassung mit Beta-Binomialverteilung nicht geeignet.
Feste Höchstpunktzahl: Der Test sollte eine vorher festgelegte Höchstpunktzahl haben bzw. über eine feste Anzahl von Items verfügen. Es ist zwar nicht ausgeschlossen, dass die Beta-Binomialverteilung auch für Testskalen mit nach oben offener Punktzahl funktioniert. Allerdings wird bei der Beta-Binomialverteilung zumindest theoretisch davon ausgegangen, dass es eine diskrete Anzahl von Versuchen und damit auch eine Höchstzahl an Treffern gibt.
Keine Zeitbegrenzung: Es sollte sich um einen ungespeedeten Test handeln. Zumindest theoretisch wird bei der Beta-Binomialverteilung davon ausgegangen, dass die Verteilung der Rohwerte ausschließlich von der Anzahl an Items und der Verteilung der Itemschwierigkeiten abhängt. Bei gespeedeten Tests hängt die Lösungswahrscheinlichkeit aber auch davon ab, an welcher Stelle des Tests ein Item dargeboten wird. So ist bei Personen mit niedriger Bearbeitungsgeschwindigkeit die Wahrscheinlichkeit, ein Item weit hinten im Test zu lösen, niedriger als dies alleine aufgrund der Itemschwierigkeit zu erwarten wäre. In Übereinstimmung mit dieser Hypothese stellten wir in unseren eigenen Simulationsstudien fest, dass die Beta-Binomialverteilung umso schlechter passt, je höher die Speed-Komponente eines Tests ist.
Größe und Repräsentativität der Normstichprobe: Wie immer hängt das Ergebnis der Modellierung auch von der Qualität der Normierungsdaten ab. Die Stichprobe sollte repräsentativ für die Referenzpopulation sein und sie sollte groß genug sein, um die Variabilität hinsichtlich der Persönlichkeitseigenschaft, die gemessen werden soll, ausreichend zu erfassen. Leichte bis mäßige Abweichungen der Normstichprobe von der Repräsentativität können teilweise durch Post-Stratifikation und Gewichtung korrigiert werden. Bei starken Abweichungen ist dies jedoch nicht unbedingt gewährleistet. Bei kontinuierlicher Normierung wird in der Regel ein Minimum von 100 Fällen pro Alterskohorte empfohlen. Diese Empfehlung ergibt sich aus der Notwendigkeit, die Parameter des Modells zuverlässig genug schätzen zu können. Wenn mehrere Schichtungsvariablen verwendet werden oder wenn der Zusammenhang zwischen Rohwertverteilung und explanatorischer Variable komplex ist, dann können aber ggf. auch größere Stichproben vonnöten sein.
Abwesenheit von Ausreißern oder einflussreichen Beobachtungen: Es ist wichtig, die Daten vor der Modellierung auf Ausreißer zu überprüfen, die die Modellanpassung unverhältnismäßig beeinflussen könnten. Solche Ausreißer können z. B. durch Dateneingabefehler oder unzulässige Testbedingungen verursacht worden sein. Falls solche Gründe vorliegen, sollten die betroffenen Datensätze aus der Modellierung ausgeschlossen werden. Beachten Sie aber, dass immer ein nachvollziehbarer Grund für den Datenausschluss vorliegen muss und dass Datenausschlüsse außerdem dokumentiert werden müssen, um der wissenschaftlichen Transparanz zu genügen.
Am Beispiel der Entwicklung des rezeptiven Wortschatzes in der Kindheit und Jugend wollen wir im Folgenden die parametrische kontinuierliche Normierung mittels Beta-Binomialverteilung demonstrieren. Zu diesem Zweck haben wir in cNORM einen Datensatz integriert, der mit der deutschen Version des Peabody Picture Vocabulary Test 4 (PPVT-4) erhoben wurde. Wenn Sie die Modellierung selbst nachvollziehen möchten, dann achten Sie bitte darauf, dass Sie eine aktuelle Version von cNORM installiert haben.
Mit dem folgenden Code können Sie die cNORM-Bibliothek laden und die Struktur des 'ppvt'-Datensatzes anschauen:
## Package laden und Datensatz anzeigen
library(cNORM)
str(ppvt)
plot(ppvt$age, ppvt$raw, main="PPVT Raw Scores by Age",
xlab="Age", ylab="Raw Score")
Der Datensatz enthält zwei Spalten, die beide die explanatorische Variable kodieren, nämlich eine kontinuierliche Altersvariable und eine diskrete Gruppenvariable (siehe auch Datenaufbereitung). Letztere wird bei der parametrischen Normierung im Prinzip nur für Darstellungszwecke verwendet. Außerdem enthält der Datensatz den Rohwert sowie drei Hintergrundvariablen, die z. B. für Stratifizierung oder Gewichtung verwendet werden können, nämlich Geschlecht, Migrationshintergrund und Region.
Der 'Raw Scores by Age'-Plot zeigt einen stark kurvilinearen Verlauf, was typisch für die Wortschatzentwicklung ist. Im Kindergartenalter ist ein rascher Anstieg der Werte zu beobachten, der sich in der Pubertät abschwächt.
Wir werden die Modellierung zunächst ohne Stratifizierung oder Gewichtung durchführen.
Um die Beta-Binomialverteilung an die Daten anzupassen, verwenden wir die Funktion 'cnorm.betabinomial()'. Zur Ausführung der Funktion müssen die Variablen 'age' für die explanatorische Variable und 'score' für den Rohwert spezifiziert werden. Zusätzlich ist die Angabe der Itemzahl erforderlich, die beim PPVT-4 228 beträgt. Der Maximalwert im Datensatz liegt allerdings nur bei 221. Es ist vorab nicht mit Sicherheit zu sagen, welcher Wert hier zu einer besseren Modellpassung führt, das sollte man tatsächlich ausprobieren. Bei gespeedeten Tests kann es manchmal sogar von Vorteil sein, den Parameter n höher anzugeben als die Itemzahl. Allerdings führt die Beta-Binomialverteilung bei gespeedeten Tests unserer Erfahrung nach generell zu schlechteren Ergebnissen als die verteilungsfreie Modellierung. Beim PPVT erzielt man jedenfalls mit der höchsten Rohpunktzahl im Datensatz geringfügig bessere Ergebnisse als mit der Itemzahl, weshalb wir n = 221 setzen. Beachten muss man hierbei aber, dass 221 dann auch der höchste Rohwert ist, zu dem ein Normwert ausgegeben werden kann. Dieses Vorgehen ist also nicht in jedem Fall empfehlenswert. Vielmehr raten wir dazu, im individuellen Fall gut zwischen den Erfordernissen der Modellpassung und den praktischen Implikationen abzuwägen. Hätten wir n überhaupt nicht spezifiziert, dann wäre übrigens automatisch die höchste Rohpunktzahl gewählt worden.
# Modelliert die Daten über eine kontinuierliche explanatorische Variable
# (z. B. das Alter) unter der Annahme, dass die Daten bei konstantem Alter
# einer Beta-Binomialverteilung folgen
model.betabinomial <- cnorm.betabinomial(age = ppvt$age, score = ppvt$raw, n = 221)
Fitindizes können mit der Funktion 'diagnostic.betabinomial()' oder der 'summary()'-Funktion abgerufen werden. Wenn zusätzlich die Alters- und die Rohwertvariable angegeben werden, dann erhält man zusätzlich R2, RMSE und den Bias in Bezug auf die manifesten Daten.
# Gibt Fitindizes des berechneten Modells zurück
diagnostics.betabinomial(model.betabinomial, age = ppvt$age, score = ppvt$raw)
Standardmäßig passt die Funktion ein Polynom dritten Grades sowohl für \(\alpha\) als auch für \(\beta\) an. Sie können die Grade der Polynome für die Altersanpassung aber auch selbst festlegen. Verwenden Sie hierfür die Parameter 'alpha' und 'beta'. Wenn der 'mode'-Parameter der Funktion auf 1 gesetzt wird, erfolgt die Anpassung nicht über \(\alpha\) und \(\beta\), sondern über die Parameter für den Mittelwert und die Standardabweichung (\(\mu\) und \(\sigma\)).
Die Normwerte werden standarmäßig als T-Werte ausgegeben, aber IQ, z-Werte, Perzentile oder durch einen Vektor 'c(M, SD)' definierte Normwerte sind ebenfalls möglich.
Außerdem wird standardmäßig auch bereits ein Plot der manifesten und modellierten Perzentilkurven ausgegeben. Dies kann auch manuell mit der Funktion 'plot()' erfolgen. Prüfen Sie den Verlauf der Perzentilverläufe. Wellige Verläufe deuten auf eine Überanpassung hin.
Um Normwerte zu bestimmen, verwenden Sie bitte die Funktion 'predict()' und geben Sie das Modellobjekt zusammen mit einem Vektor für die gewünschten Altersstufen und Rohwerte an. Beachten Sie dabei, dass als Altersangabe immer die Intervallmitte des gewünschten Altersintervalls verwendet werden sollte. Im Beispiel werden zum Rohwert 200 T-Werte für 10-jährige Kinder in 3-Monatsintervallen ausgegeben.
# Bestimmung von Normwerten für spezifische Altersstufen und Rohwerte.
# Falls im Modell nicht anders spezifiziert, werden die Normwerte
# als T-Werte ausgegeben.
predict(model.betabinomial, c(10.125, 10.375, 10.625, 10.875), c(200, 200, 200, 200))
[1] 66.55376 65.53361 64.55965 63.63105
Die Post-Stratifikation ist eine Vorgehensweise, bei der die einzelnen Datensätze nach abgeschlossener Datensammlung gewichtet werden, um Abweichungen der Stichprobe von der Repräsentativität möglichst zu minimieren. Bei der parametrischen Modellierung mit der Beta-Binomialfunktion können solche Gewichte ebenso angewandt werden, wie bei der verteilungsfreien Normierung. Die Funktion 'computeWeights()' berechnet die notwendigen Gewichte mit Hilfe von "raking". In Beispiel gewichten wir die einzelnen Fälle so, dass die Bevölkerungsproportionen für Geschlecht und Migrationsstatus bei der Berechnung des Modells berücksichtigt werden. Die resultierenden Normwerte sollte die Zielpopulation also besser repräsenterien als dies beim ungewichteten Modell der Fall ist.
# Berechnung der Gewichte und anschließende Modellierung:
margins <- data.frame(variables = c("sex", "sex",
"migration", "migration"),
levels = c(1, 2, 0, 1),
share = c(.52, .48, .7, .3))
weights <- computeWeights(ppvt, margins)
model_weighted <- cnorm.betabinomial(ppvt$age, ppvt$raw, weights = weights)
Normtabellen können mit der Funktion 'normTable.betabinomial()' erstellt werden. Die Funktion benötigt das Modellobjekt und eine Altersangabe bzw. einen Vektor mit mehreren Altersangaben, für die Sie Normtabellen generieren möchten. Beachten Sie bei den Altersangaben bitte wieder, dass die Intervallmitte des gewünschten Altersintervalls verwendet werden sollte. Im Beispiel werden Normen für 14-jährige Kinder in 6-Monatsintervallen ausgegeben. Wenn in der 'normTable.betabinomial()'-Funktion zusätzlich noch ein Konfidenz- und ein Reliabilitätskoeffizient spezifiziert werden, dann wird die Tabelle mit Konfidenzintervallen ausgegeben. Standardmäßig begrenzt die Funktion die Normwerte auf +/- 3 Standardabweichungen.
# Generiert Normtabellen für einen Vektor mit gegebenen Altersstufen und
# berechnet 95%-Konfidenzintervalle mit einer Reliabilität von 0.97.
tables <- normTable.betabinomial(model.betabinomial, c(14.25, 14.75), CI = .95, reliability = .97)
print(c(tables[1], tables[2]))
Die ausgegebenen Normtabellen umfassen die Rohwerte (x), ihre Wahrscheinlichkeiten (Px), die kumulativen Wahrscheinlichkeiten (Pcum), Perzentile, z-Werte und Normwerte (falls nicht anders spezifiziert: T-Werte) und in diesem Fall auch die 95%-Konfidenzintervalle bezogen auf Normwerte und Perzentile.
In Simulationsstudien (W. Lenhard & Lenhard, 2021) konnten wir zeigen, dass die verteilungsfreie kontinuierliche Normierung mittels Taylorpolynomen, wie sie in cNORM ursprünglich ausschließlich angewendet wurde, konventionellen Normierungsmethoden stark überlegen ist. Dabei war die Überlegenheit umso stärker ausgeprägt, je kleiner die Normierungsstichprobe war. Erst bei unrealistisch großen Stichproben fand sich kein relevanter Unterschied mehr zwischen kontinuierlicher und konventioneller Normierung. In einer anderen Simulationsstudie (A. Lenhard et al., 2019) verglichen wir verteilungsfreie mit parametrischer Normierung. Bei diesen Untersuchungen gab es keine generelle Überlegenheit einer Methode. Vielmehr hing die Normierungsqualität von der Rohwertverteilung und der Stichprobengröße ab. Ein entscheidender Faktor für die Qualität der Normierung war hier die Frage, ob bei parametrischer Normierung eine passende Verteilung gefunden wird, die auf die Rohwertverteilungen innerhalb jeder einzelnen Altersstufe passt. Die Beta-Binomialverteilung war allerdings bei unserer damaligen Simulationsstudie nicht dabei.
Neuere Publikationen von Urban et al. (2024) haben nun gezeigt, dass parametrische Modellierung mittels Beta-Binomialverteilung die Normwerte einiger typischer psychologischer Testskalen sehr effektiv approximieren kann. Auch eigene (nicht publizierte) Simulationen mit 1-PL IRT-Skalen wiesen in diese Richtung.
Mit der unten dargestellten Simulationsstudie wollen wir deshalb unsere bisherigen Ergebnisse zum Vergleich von parametrischer und verteilungsfreier Modellierung um die Beta-Binomialverteilung erweitern. In den Simulationen wurden ausschließlich Skalen ohne Zeitlimitation (also ohne Speedeffekte) modelliert. Solchen Skalen sollten rein theoretisch sehr gut mit der Beta-Binomialverteilung modellierbar sein.
Unsere Simulation beinhaltet Skalen unterschiedlicher Schwierigkeit und Itemanzahl sowie Normierungsstichproben verschiedener Größen.
Wir führten fünf Simulationsläufe mit folgenden Parametern durch:
Anzahl der Items: 10, 30 und 50
Skalenschwierigkeit: leicht, mittel und schwer
Stichprobengrößen: 700, 1.400, 2.800 und 5.600 Fälle verteilt über 7 Altersgruppen
Kreuzvalidierungsstichprobe: 70.000 Fälle
In den Ergebnissen vergleichen wir konventionelle Normierung mit 6-Monats-Intervallen, verteilungsfreie kontinuierliche Normierung und parametrische kontinuierliche Normierung mittels Beta-Binomialverteilung. Die resultierenden Normwerte für jede Methode werden jeweils mit manifesten T-Werten verglichen, die für eine ideal repräsentative, große Population mittels eines IRT-Prozesses simuliert wurden. Dieser Ansatz ermöglicht es uns, die Modellqualität zu beurteilen und gleichzeitig Verzerrungen zu minimieren, die bei realen Normierungsstudien auftreten. Da die Personenparameter in der Simulation bekannt sind, können für die unterschiedlichen Normierungsarten jeweils der mittlere Bias, der Root Mean Square Error (RMSE), die Varianzaufklärung R2 und die mittlere absolute Differenz (MAD) berechnet werden. Im Folgenden möchten wir uns der Einfachheit halber auf R2. Die detaillierten Ergebnisse sind jedoch inklusive des kompletten Simulationscodes in unserem OSF-Repository verfügbar.
Unsere Ergebnisse zeigen, dass parametrische kontinuierliche Normierung mittels Beta-Binomialverteilung für die simulierten Skalen sehr gut funktioniert. Selbst bei relativ kleinen Stichproben werden die "idealen" Normwerte, die für die große und repräsentative Kreuzvalidierungsstichprobe simuliert wurden, sehr gut angenähert. Die parametrisch Normierung mittels Beta-Binomialverteilung ist der konventionellen Normierung mit 6-Monats-Intervallen deutlich überlegen. Tatsächlich schneidet sie bei den hier simulierten einfachen 1-PL-Skalen sogar geringfügig besser ab als die verteilungsfreie kontinuierliche Normierung mittels Taylor-Polynomen, wobei die Unterschiede zwischen den beiden letztgenannten Methoden so gering ausfallen, dass sie in der Praxis in aller Regel keine Rolle spielen werden.
Des Weiteren kann auf Basis der hier präsentierten Ergebnisse nicht davon ausgegangen werden, dass parametrische Normierung mittels Beta-Binomialverteilung generell bessere Ergebnisse liefert als verteilungsfreie kontinuierliche Normierung. Zumindest in unsystematischen Simulationen für einzelne Altersgruppen stellten wir bei gespeedeten Testskalen eine bessere Anpassung mit Taylor-Polynomen fest. Aktuell bereiten wir gerade weitere systamtische Simulationen vor, deren Ergebnisse wir so bald wie möglich berichten werden.
Ein vielfältiges methodisches Instrumentarium ist in der Psychometrie von unschätzbarem Wert. Taylor-Polynome, wie sie in cNORM implementiert sind, haben sich in einer Vielzahl von Normierungsszenarien als effektiv erwiesen. Ihre verteilungsfreie Natur macht sie für verschiedenste Tests anwendbar, einschließlich solcher mit kontinuierlichen oder negativen Rohwerten. Parametrische Modellierung mittels Beta-Binomialverteilung eignet sich hingegen besonders gut für ungespeedete Tests mit dichotomen Items und festen Höchstpunktzahlen. Beide Methoden liefern bei den üblichen Stichprobengrößen erheblich bessere Ergebnisse als konventionelle Normierung und sollten deshalb bei der Testkonstruktion bevorzugt angewandt werden.
Die Wahl zwischen diesen Ansätzen sollte von folgenden Faktoren geleitet werden:
Unabhängig davon, welche Methode verwendet wurde, ist es immer vonnöten, die Modellanpassung gründlich zu evaluieren und die Güte im Testhandbuch transparent zu berichten. Besonderes Augenmerk sollte dabei auf den Verlauf der Perzentilkurven gelegt werden. Dieser sollte mit den theoretischen Erwartungen übereinstimmen. So werden beispielsweise in der Regel keine wellenförmigen Perzentillinien erwartet. Ein solcher Verlauf deutet auf Überanpassung hin und sollte deshalb vermieden werden. Überprüfen Sie in einem solchen Fall die Modellparameter oder verwenden Sie einen alternativen alternativen Modellierungsatz.
Zusammenfassend lässt sich sagen, dass sowohl die verteilungsfreie als auch die parametrische kontinuierliche Normierung mit cNORM signifikante Vorteile gegenüber konventioneller Normierung bieten. Die spezifische Wahl zwischen den beiden kontinuierlichen Normierungsmethoden sollte durch sorgfältige Berücksichtigung der Art des Tests und der verfügbaren Daten getroffen werden.
Verteilungsfreie Modellierung |
Beispiele |