Die Beta-Binomial-Verteilung entsteht aus der Kombination von Binomial- und Beta-Verteilung. Für einen Test mit n Items, die dichotom mit 0 (= falsch) und 1 (= richtig) bewertet werden, sei X die Anzahl der richtigen Antworten. Die Wahrscheinlichkeitsfunktion der Beta-Binomial-Verteilung ist gegeben durch: \[P(X = k | n, \alpha, \beta) = \binom{n}{k} \frac{B(k + \alpha, n - k + \beta)}{B(\alpha, \beta)}\] wobei \(B(\cdot,\cdot)\) die Beta-Funktion ist und \(\alpha\) und \(\beta\) Formparameter der Beta-Verteilung sind.
In cNORM werden die Formparameter \(\alpha\) und \(\beta\) der Beta-Binomial-Verteilung als Funktionen des Alters (oder einer anderen erklärenden Variable) unter Verwendung polynomialer Regression modelliert. Konkret: \[\log(\alpha(age)) = a_0 + a_1age + a_2age^2 + ... + a_mage^m\] \[\log(\beta(age)) = b_0 + b_1age + b_2age^2 + ... + b_sage^s\] wobei m und s die Grade der Polynome für \(\alpha\) und \(\beta\) sind. Wir verwenden den Logarithmus von \(\alpha\) und \(\beta\), um sicherzustellen, dass sie positiv sind. Die Beta-Binomial-Verteilung ist nämlich nur für positive \(\alpha\) und \(\beta\) definiert. Diese Transformation hilft auch bei der Stabilisierung der Varianz und verbessert den Optimierungsprozess. Der Mittelwert \(\mu\) und die Varianz \(\sigma^2\) der Beta-Binomial-Verteilung können aus \(\alpha\) und \(\beta\) wie folgt abgeleitet werden: \[\mu = \frac{n\alpha}{\alpha + \beta}\] \[\sigma^2 = \frac{n\alpha\beta(\alpha + \beta + n)}{(\alpha + \beta)^2(\alpha + \beta + 1)}\] Zur Schätzung der Parameter (\(a_0, ..., a_m, b_0, ..., b_s\)), verwenden wir die Maximum-Likelihood-Schätzung. Die Log-Likelihood-Funktion für N Beobachtungen lautet:
\[L(a, b | X, Age) = \sum_{i=1}^N \log[P(X_i | n, \alpha(Age_i), \beta(Age_i))]\]
wobei \(X_i\) der Score und \(Age_i\) das Alter für die i-te Beobachtung ist.Die Datenanpassung erfolgt unter Verwendung numerischer Optimierungstechniken, speziell des L-BFGS-B (Limited-memory BFGS) Algorithmus der 'optim'-Funktion. Letzterer ist eine Quasi-Newton-Methode zur Lösung großer nichtlinearer Optimierungsprobleme mit einfachen Grenzen. Dabei werden durch Approximation der Hesse-Matrix simultan diejenigen Koeffizienten der Regressionsgleichungen für \(\alpha\) und \(\beta\) bestimmt, die die Log-Likelihood maximieren und damit die beste Anpassung an die beobachteten Daten liefern.
![]() |
zurück zur parametrischen Modellierung |