Statistik wird ständig in der Forschung verwendet, um Daten auszuwerten und die Erkenntnisse in Zahlen zu gießen. Da viele Biologen und Mediziner, aber auch andere Naturwissenschaftler öfter (meist öfter, als ihnen lieb ist) damit zu tun haben, möchte ich nach und nach eine kleine Wissenssammlung über ständig wiederkehrende Verfahren zusammenstellen. Der T-Test letztes Mal war der Anfang.

Diesmal geht es um etwas wichtiges, wenn man viele Tests macht. Oder wenn man ein Paper liest, in dem viele Test gemacht wurden. Denn wenn man nicht aufpaßt, ist die Aussage wertlos.

Im Beitrag über den T-Test wurde erwähnt, dass man seiner Statistik eine Fehlerwahrscheinlichkeit zugestehen muss, bei uns lag sie bei alpha=5%. Das bedeutet, dass mit einer Wahrscheinlichkeit von 5% unser Test positiv ausfällt, obwohl es doch nur Zufall war. Klingt ziemlich unwahrscheinlich. Und oft wird sogar mit 1% gearbeitet. Das heisst aber auch, dass wenn man in seinem Leben 100 Statistiken gemacht hat, bis zu fünf (bzw. einer) falsch-positiv waren. Gerade, wenn man viele Daten verarbeitet, kommt man schnell in einen Bereich, wo das relevant ist.

Haben wir als Aufgabenstellung… mhm, tja, ach, nehmen wir halt wieder Erbsen. Also, wir wollen herausfinden, welche Erbsensorte von zwei zu untersuchenden größere Erbsen hat, süßer ist, vitaminreicher und vielleicht noch robuster. Das ergäbe 4 Tests (T-Tests) mit jeweils einer Wahrscheinlichkeit von 5%, dass einer der Tests falsch-positiv ist, macht zusammen 1 – 0.95^4 = 18.5% Fehlerwahrscheinlichkeit. Damit lockt man niemanden hinter dem Ofen hervor. Man kann das in einer Veröffentlichung dann einfach nicht erwähnen, geht aber das Risiko ein, dass es jemand merkt – oder dass das Ergebnis tatsächlich Zufall war, auch wenn’s gar nicht so aussah.

Was tun?

Das fragte sich schon vor fast 100 Jahren Carlo Emilio Bonferroni aus Italien und empfahl, die sogenannte Alpha-Kummulierung dadurch zu behandeln, indem man ein entsprechend niedrigeres alpha verwendet, als das, was für den Einzeltest gegolten hätte, nämlich alpha/(Anzahl der Tests).
In unserem Fall würden wir also statt auf alpha=5% zu prüfen und bei einer Signifikanz von 4,9 Hurra zu schreien, alle Tests mit alpha=5/4=1.25% durchführen. Das Ganze nennt man die Bonferroni-Korrektur. Damit ist man auf der sicheren Seite, Herr Bonferroni hat nachgewiesen, dass man damit mindestens so sicher sein kann, wie beim Einzeltest.

Leider würden uns so viele Erkenntnisse verwehrt bleiben, da ja die Erbsen vielleicht wirklich süßer waren, aber durch den strengen Test können wir das nicht mit Sicherheit behaupten, wir haben also ein falsch-negatives Ergebnis.

Herr Sture Holm änderte das Verfahren ab und entwickelte die Bonferroni-Holm-Prozedur, sodass mehr Hypothesen eine Chance bekommen abgelehnt zu werden (= dass man mehr Unterschiede zwischen den Sorten findet). Dabei gilt nicht ein alpha für alle Tests, sondern sie werden angepasst. (Für die Details verweise ich auf Wikipedia, sonst wär’s redundant.)

Kommt man allerdings in den Bereich, wo man tausende und zehntausende Tests machen muss, ist auch diese Methode zu streng (=”konservativ”). Ich kenne das von Microarrays, wo man Unterschiede in der Expression von Genen feststellen möchte und Gene gibt es ja ziemlich viele!

i-bc35fd66ad1d169d1910c6243d869d4e-Microarray2.gif
(So sehen Microarrays aus. Jeder Punkt steht für ein Genstück, wenn es bunt leuchtet, heisst es, dass das zugehörige Gen in der Gewebsprobe expremiert wurde.)

Hier ist man dazu übergegangen, nicht die falsch-positiven Ergebnisse zu kontrollieren, sondern ihr Ausmaß zu kennen. Man gibt sich eine FDR(=false discovery rate) vor, so dass man weiß, wieviele der Tests vermutlich falsch-positiv sind – man weiß nur nicht, welche. Alle positiven Ergebnisse, die man so erhält, versucht man dann biologisch zu begründen und was vielversprechend aussieht, muss mit einer neuen Studie untersucht werden.

Stellt viele Fragen und kriegt auch manchmal keine Antwort:
Andrea Thum

Kommentare (6)

  1. #1 Urban
    August 23, 2010

    Das ergäbe 4 Tests (T-Tests) mit jeweils einer Wahrscheinlichkeit von 5%, dass einer der Tests falsch-positiv ist, macht zusammen 4*5=20% Fehlerwahrscheinlichkeit.

    Und bei 40 Tests gibt es eine Wahrscheinlichkeit von 40*5%=200% dass ein Test falsch-positiv ist? Nicht wirklich 😉

    Die Wahrscheinlichkeit, dass bei 4 Tests mindestens einer falsch-positiv ist, berechnet sich mit 1 – 0.95^4 = 18.5%

  2. #2 pogobi
    August 23, 2010

    @Urban:
    Ich nehme an, dass hier gemeint war, dass dann bei 4 Tests durchschnittlich 0.2 Tests falsch sind. Bei 40 Tests dann 2 😉

    Die Wahrscheinlichkeit, dass mindestens einer falsch war, ist von dir natürlich korrekt angegeben.

  3. #3 Andrea Thum
    August 23, 2010

    @Urban: *räusper* Äh, danke für den Hinweis 🙂

  4. #4 Mattis
    August 23, 2010

    […], dass das zugehörige Gen in der Gewebsprobe expremiert wurde.

    Nicht Gene selbst sondern deren Proteine werden exprimiert.

  5. #5 enbeh
    August 23, 2010

    Das Problem multipler Vergleiche ist auch notorisch für die funktionelle Bildgebung von Gehirnaktivität, z.B. mit funktioneller Magnetresonanz-Tomographie (fMRI). Hier testet man einige zehntausend Bildpunkte, so dass das Problem der multiple comparisons enorm hoch ist. Natürlich gibt es hier eine Reihe von Korrekturverfahren (Bonferroni, random field theory, false discovery rate). Dennoch gibt es nach wie vor eine Menge Leute, die ihre Ergebnisse nicht korrigieren und trotzdem publiziert bekommen.

    Das Problem ist kürzlich humorvoll illustriert worden in der Atlantic Salmon Study: ein toter Lachs aus dem lokalen Supermarkt bekam die “Aufgabe”, sich Bilder von Menschen in sozialer Interaktion anzusehen und zu beurteilen, in welcher emotionalen Lage sich die abgebildeten Menschen befanden. Dabei wurde seine “Hirnaktivität” mit fMRI gemessen. An jedem der 130.000 gescannten Bildpunkte wurde ein t-Test zwischen der Emotions-Aufgabe und einer Ruhe Bedingung gerechnet. Diese Analyse macht natürlich überhaupt keinen Sinn, wenn der Proband ein toter Fisch ist. Dennoch zeigte die Analyse, dass im Gehirn des Lachses eine ganze Menge los war – so lange man nicht für die 130.000 multiplen Vergleiche korrigiert.

    Nachzulesen hier:
    https://prefrontal.org/blog/2009/09/the-story-behind-the-atlantic-salmon/

  6. #6 Andrea Thum
    August 23, 2010

    @Mattis: Gene werden expremiert und dabei entstehen Proteine (siehe hier).
    @enbeh: Danke für das Beispiel!