Im Falle
der EZU-Studie wählte man folgendes Vorgehen: Sieben Rutengeher mussten
einen 5m mal 10m großen Raum muten und in einer Planskizze jene Stellen
markieren, an denen sie eine “Störzone” orteten. Laut EZU durften die
Rutengeher untereinander nicht kommunizieren. Die Markierungen wurden
in eine Datenmatrix eingetragen und per Software wurde daraus die
Interrater-Reliabilität zwischen je zwei Rutengehern ermittelt. Das Maß
für diese Übereinstimmung ist eine Zahl, die sich Cohens Kappa nennt.
Sie ähnelt einem Korrelationskoeffizienten und liegt immer zwischen -1
und +1. Ein Kappa von +1 bedeutet perfekte Übereinstimmung der zwei
Rutengeher, ein Kappa von -1 bedeutet perfekte Anti-Übereinstimmung
(der eine Rutengeher sieht genau dort Störzonen, wo der zweite keine
sieht, und umgekehrt) und ein Kappa von 0 bedeutet Unabhängigkeit, wie
sie etwa bei reinen Zufallsergebnissen zu erwarten wäre.
Was für ein
Kappa wäre zu erwarten, wenn zwei “renommierte” Rutengeher unabhängig
voneinander einen Raum muten? Aus Sicht der Rutengeher natürlich ein
positives und jedenfalls ein relativ hohes.
Die sieben Rutengeher der
EZU-Studie erlauben 21 paarweise Vergleiche und damit 21 Kappa-Werte,
die samt Standardabweichung, 95%-Konfidenzintervall und p-Wert (für
Kappa = 0 als Nullhypothese) in Tabelle 02 der Studie zu finden sind. Der Median
der Kappa-Werte beträgt 0,047.
1.3 Statistische Signifikanz?
Auf
den ersten Blick bedeutet das, dass es zwischen den sieben Rutengehern
so gut wie überhaupt keine Übereinstimmung gibt. Betrachtet man die
Tabelle genauer, so sieht man allerdings, dass von den 21 Kappa-Werten
immerhin acht auf dem üblichen 5%-Niveau statistisch signifikant sind,
also p-Werte von < 0,05 haben. (Zwei dieser acht signifikanten
Ergebnisse sind erstaunlicherweise signifikant negativ.) Diese
Resultate verdienen besondere Beachtung. Zuerst einmal fällt auf, dass
die Tabelle offenbar von Hand eingetragen wurde. Z.B. sollte der
Kappa-Wert des Paares (2,6) statt -0,1884 nur -0,1084 betragen, wie
sich aus der Symmetrie des Konfidenzintervalls ergibt. Offensichtlich
handelt es sich um einen Übertragungsfehler; die p-Werte bleiben davon
unberührt. Nur: Die p-Werte stimmen mit den Konfidenzintervallen nicht
überein.
Zu erkennen ist das daran, dass die p-Werte der Paare
(2,5), (2,6) und (2,7) im Bereich von 0,021-0,029 liegen und folglich,
da < 0,05, als signifikant ausgewiesen sind.
Die
95%-Konfidenzintervalle enthalten aber in allen drei Fällen den Wert 0,
was bedeutet, dass die Nullhypothese auf dem 5%-Niveau nicht abgelehnt
werden kann. Da die Konfidenzintervalle korrekt aussehen (Mittelwert
plus/minus das 1,96-fache der Standardabweichung), liegt der Verdacht
nahe, dass die p-Werte falsch berechnet wurden und um etwa den Faktor 2
zu klein sind.
Auch nach dieser Korrektur bleiben allerdings
signifikante Abweichungen bestehen. Bedeutet das, dass es zwischen
manchen Paaren von Rutengehern Übereinstimmungen gibt, die nicht durch
Zufall erklärt werden können? Hier stoßen wir auf ein weiteres Problem,
das in der EZU-Studie in keinster Weise berücksichtigt wurde: Das
Problem des multiplen Testens.
1.4 Multiples Testen
Angenommen,
die Nullhypothese ist gültig, die “wahren” Kappa-Werte sind also alle
gleich 0. Die Wahrscheinlichkeit, einen alpha-Fehler zu begehen,
die Nullhypothese also zu Unrecht abzulehnen, beträgt 5%, da das
Signifikanzniveau so festgelegt wurde. Zu beachten ist allerdings, dass
dies gilt, wenn genau ein Test, also genau ein Paarvergleich
durchgeführt wird. Hier haben wir aber nicht einen, sondern ganze 21
Tests durchgeführt, da jeder der sieben Rutengeher mit jedem anderen
paarweise verglichen wurde. Wie groß ist nun die Wahrscheinlichkeit,
dass trotz gültiger Nullhypothese mindestens ein scheinbar
signifikantes Resultat gefunden wird? Das ist die
Gegenwahrscheinlichkeit dazu, dass kein positives Resultat gefunden
wird, also 1 – 0,95^21. Laut Taschenrechner sind das ganze 66%!
Bei
einer so großen Zahl von Tests irgendwo einen p-Wert von unter 0,05 zu
erhalten, sagt also rein gar nichts aus. Das Problem des multiplen
Testens ist kein Geheimtipp unter Statistikern, sondern eines der
bekanntesten Probleme bei klinischen Studien mit mehreren Endpunkten.
Wenn es nicht berücksichtigt wird, so ist das ein deutliches
Warnzeichen, da es oft einen Hinweis darauf gibt, dass man Signifikanz
erzwingen wollte.
Kommentare (52)