Statistik wird ständig in der Forschung verwendet, um Daten auszuwerten und die Erkenntnisse in Zahlen zu gießen. Da viele Biologen und Mediziner, aber auch andere Naturwissenschaftler öfter (meist öfter, als ihnen lieb ist) damit zu tun haben, möchte ich nach und nach eine kleine Wissenssammlung über ständig wiederkehrende Verfahren zusammenstellen. Der T-Test letztes Mal war der Anfang.
Diesmal geht es um etwas wichtiges, wenn man viele Tests macht. Oder wenn man ein Paper liest, in dem viele Test gemacht wurden. Denn wenn man nicht aufpaßt, ist die Aussage wertlos.
Im Beitrag über den T-Test wurde erwähnt, dass man seiner Statistik eine Fehlerwahrscheinlichkeit zugestehen muss, bei uns lag sie bei alpha=5%. Das bedeutet, dass mit einer Wahrscheinlichkeit von 5% unser Test positiv ausfällt, obwohl es doch nur Zufall war. Klingt ziemlich unwahrscheinlich. Und oft wird sogar mit 1% gearbeitet. Das heisst aber auch, dass wenn man in seinem Leben 100 Statistiken gemacht hat, bis zu fünf (bzw. einer) falsch-positiv waren. Gerade, wenn man viele Daten verarbeitet, kommt man schnell in einen Bereich, wo das relevant ist.
Haben wir als Aufgabenstellung… mhm, tja, ach, nehmen wir halt wieder Erbsen. Also, wir wollen herausfinden, welche Erbsensorte von zwei zu untersuchenden größere Erbsen hat, süßer ist, vitaminreicher und vielleicht noch robuster. Das ergäbe 4 Tests (T-Tests) mit jeweils einer Wahrscheinlichkeit von 5%, dass einer der Tests falsch-positiv ist, macht zusammen 1 – 0.95^4 = 18.5% Fehlerwahrscheinlichkeit. Damit lockt man niemanden hinter dem Ofen hervor. Man kann das in einer Veröffentlichung dann einfach nicht erwähnen, geht aber das Risiko ein, dass es jemand merkt – oder dass das Ergebnis tatsächlich Zufall war, auch wenn’s gar nicht so aussah.
Was tun?
Das fragte sich schon vor fast 100 Jahren Carlo Emilio Bonferroni aus Italien und empfahl, die sogenannte Alpha-Kummulierung dadurch zu behandeln, indem man ein entsprechend niedrigeres alpha verwendet, als das, was für den Einzeltest gegolten hätte, nämlich alpha/(Anzahl der Tests).
In unserem Fall würden wir also statt auf alpha=5% zu prüfen und bei einer Signifikanz von 4,9 Hurra zu schreien, alle Tests mit alpha=5/4=1.25% durchführen. Das Ganze nennt man die Bonferroni-Korrektur. Damit ist man auf der sicheren Seite, Herr Bonferroni hat nachgewiesen, dass man damit mindestens so sicher sein kann, wie beim Einzeltest.
Leider würden uns so viele Erkenntnisse verwehrt bleiben, da ja die Erbsen vielleicht wirklich süßer waren, aber durch den strengen Test können wir das nicht mit Sicherheit behaupten, wir haben also ein falsch-negatives Ergebnis.
Herr Sture Holm änderte das Verfahren ab und entwickelte die Bonferroni-Holm-Prozedur, sodass mehr Hypothesen eine Chance bekommen abgelehnt zu werden (= dass man mehr Unterschiede zwischen den Sorten findet). Dabei gilt nicht ein alpha für alle Tests, sondern sie werden angepasst. (Für die Details verweise ich auf Wikipedia, sonst wär’s redundant.)
Kommt man allerdings in den Bereich, wo man tausende und zehntausende Tests machen muss, ist auch diese Methode zu streng (=”konservativ”). Ich kenne das von Microarrays, wo man Unterschiede in der Expression von Genen feststellen möchte und Gene gibt es ja ziemlich viele!
Hier ist man dazu übergegangen, nicht die falsch-positiven Ergebnisse zu kontrollieren, sondern ihr Ausmaß zu kennen. Man gibt sich eine FDR(=false discovery rate) vor, so dass man weiß, wieviele der Tests vermutlich falsch-positiv sind – man weiß nur nicht, welche. Alle positiven Ergebnisse, die man so erhält, versucht man dann biologisch zu begründen und was vielversprechend aussieht, muss mit einer neuen Studie untersucht werden.
Stellt viele Fragen und kriegt auch manchmal keine Antwort:
Andrea Thum
Kommentare (6)