Dieser Artikel ist Teil des ScienceBlogs Blog-Schreibwettbewerb 2018. Informationen zum Ablauf gibt es hier. Leserinnen und Leser können die Artikel bewerten und bei der Abstimmung einen Preis gewinnen – Details dazu gibt es hier. Eine Übersicht über alle am Bewerb teilnehmenden Artikel gibt es hier. Informationen zu den Autoren der Wettbewerbsartikel finden sich in den jeweiligen Texten.
——————————————————————————————————————
Bayes Theorem ist ein Arschloch
von Joachim Ripken
Ich bin Astrophysiker. Ich arbeitete bereits in Hamburg und Stockholm und bin aktuell am Max-Planck-Institut für Sonnensystemforschung in Göttingen angestellt (derzeit in Elternzeit).
Müssen Wissenschaftler jeder Behauptung vollkommen unvoreingenommen begegnen, oder soll nicht auch die Plausibilität einer Aussage in die Untersuchung mit einfließen? Ich plädiere für letzteres und werde das hier darlegen.
“Außergewöhnliche Behauptungen benötigen außergewöhnliche Beweise.” Diese Forderung wurde unter anderem von Carl Sagan aufgestellt, und sie ist zu einer Art Leitspruch in der Skeptiker-Bewegung geworden. In Kreisen der Esoterik und “alternativen Wissenschaften” ist dieser Spruch natürlich verhasst. Da ist die häufige Erwiderung sinngemäß: “Gleiches Recht für alle. Ein Beweis ist ein Beweis.”
Und auch in Skeptiker-Kreisen ist der Leitspruch nicht ganz unumstritten. Zum Beispiel im (sehr empfehlenswerten) Podcast Hoaxilla (Folge #158) wird das von den Podcast-Moderatoren Alexander und Alexa Waschkau und deren Interview-Partner Sebastian Bartoschek folgendermaßen bewertet: (ab Timecode: 30:28)
Alexa Waschkasu: “Oder hängt das mit dem – Sagan wars glaube ich – Zitat zusammen, dass außergewöhnliche Behauptungen außegewöhnliche Beweise verlangen, was ich übrigens nie verstanden habe, weil entweder ich beweise etwas oder ich beweise es nicht.”
Sebastian Bartoschek: “Ja, dieses Zitat hängt natürlich damit zusammen und es ist ein schöner Beleg dafür, wie auch jemand, der an sicher sehr schlau ist, etwas unglaublich Dummes sagen kann, was dann alle hochhalten und sich auf T-Shirts drucken lassen.”
Diese Bewertung ist durchaus nachvollziehbar, und Sebastian Bartoschek hat auch vollkommen Recht damit, dass kluge Menschen sehr dumme Sachen sagen können. Die Forderung von Carl Sagan gehört da allerdings nicht dazu. Ich will hier darlegen, warum der Leitspruch korrekt ist, also warum Behauptumngen nicht komplett ungeachtet ihrer Plausibilität behandelt werden können und auch nicht werden sollten. Dazu müssen wir zuerst verstehen, wie in der aktuell gängigen wissenschaftlichen Praxis ein Beleg aussieht. Danach werde ich Bayes Theorem kurz vorstellen und darlegen, wieso damit die Forderung nach stärkeren Beleg-Kriterien bei unplausiblen (außergewöhnlichen) Behauptungen durchaus gerechtfertigt ist.
Was ist in der aktuellen Praxis ein wissenschaftlicher Beleg?
Ein sehr großer Anteil der wissenschaftlichen Experimente betrachten statistische Prozesse, und sie werden somit auch statistisch ausgewertet.
Beispielsweise in medizinischen Studien geht es oft darum, den Krankheitsverlauf mit Behandlung mit dem Verlauf ohne Behandlung (bzw. mit der Behandlung zum Schein) zu vergleichen. Im Idealfall, dem sog. “Goldstandard”, geschieht das in randomisierten doppelt verblindeten kontrollierten Vergleichsstudien. Man teilt die teilnehmenden Patienten dazu in zwei Gruppen ein. Die eine Gruppe, die Versuchsgruppe, wird mit der zu testenden Methode behandelt, die andere Gruppe, die Kontrollgruppe, wird nur zum Schein mit der zu testenden Methode behandelt. Am Schluss wird statistisch verglichen, ob in der Versuchsgruppe mehr Behandlungserfolge erzielt werden als in der Kontrollgruppe.
In diesem Vergleich wird der sog. p-Wert berechnet. Das bezeichnet die Wahrscheinlichkeit, dass das beobachtete Ergebnis zustande kommt (oder ein “besseres”) im Rahmen der Hypothese, dass tatsächlich keine Wirkung vorhanden ist, der sog Nullhypothese. Liegt dieser p-Wert unterhalb einer vorher festgelegten Schwelle, dem sog. Alpha-Wert, spricht man von einem “statistisch signifikanten” Ergebnis.
In medizinischen Studien liegt der Alpha-Wert meist bei 0,05. Also, wenn im Rahmen der Nullhypothese das Ergebnis mit einer Wahrscheinlichkeit von weniger als 0,05 zustande käme, ist es ein “positives Ergebnis”. In der Physik ist man da viel strenger. Hier gilt zumeist das “5-Sigma-Kriterium” – die geforderte Schwelle beträgt hiebei p < 0,0000003. Der Grund für diesen Unterschied ist schlicht, dass das 5-Sigma-Kriterim für medizinische Studien nicht praktikabel wäre. Die Studien müssten dafür unrealistisch viele Patienten beinhalten, um realistisch so niedrige p-Werte erreichen zu können. Hier wird schon deutlich, dass eine solche positive Studie mit einem statistisch signifikanten Ergebnis kein Beweis im strengen Wortsinn sein kann. Allgemein spricht man darum bei solchen Studienergebnissen auch lieber von einem Beleg. Eine Wortwahl, die ich oben heimlich auch schon übernommen habe. Bayes Theorem
Bayes Theorem handelt von den sog. “bedingten Wahrscheinlichkeiten”. Das sind die Wahrscheinlichkeiten, wenn eine bestimmte Bedingung erfüllt ist. Also zum Beispiel die Wahrscheinlichkeit, dass ein Hut-Träger (Bedingung “tragt Hut”) auch eine Brille trägt, wird mit p(trägt Brille | trägt Hut) bezeichnet. Das ist, wie wir jetzt sehen werden nicht zu verwechseln mit der umgekehrten bedingten Wahrscheinlichkeit, dass ein Brillenträger auch einen Hut trägt p(trägt Hut | trägt Brille).
Als Veranschaulichung für Bayes Theorem wird gerne ein medizinischer Test betrachtet. Angenommen, Sie lassen sich vom Arzt auf eine bestimmte Erkrankung, nennen wir sie hier mal XYZ, testen. Von dem Test wissen wir, dass er 99% aller von XYZ betroffenen Menschen richtig erkennt. Außerdem wissen wir, dass nur 1% aller Nicht-Betroffenen Menschen fälschlicherwise das Testergebnis bekommen, dass sie XYZ hätten. Kling nach einem ziemlich zuverlässigen Test, oder?
Nun bekommen Sie vom Arzt das positive Testergebnis, also der Test besagt, dass Sie an XYZ erkrankt sind. Wie groß ist die Wahrscheinlichkeit, dass das auch stimmt?
Viele von Ihnen werden hier wahrscheinlich: “99%” wie aus der Pistole geschossen antworten. Als ich vor etlichen Jahren das erste Mal mit diesem Rätsel konfrontiert wurde, war es jedenfalls meine (die falsche) Antwort. Und viele auch sehr kluge Menschen fallen immernoch drauf rein.
Um die Frage korrekt zu beantworten, ist noch nämlich noch eine weitere Information notwendig: Die Erkrankung XYZ betrifft 0,1% aller Menschen.
Schauen wir uns nun mal 100000 Menschen an. Von denen werden also 100 von der besagten Krankheit befallen. Wenn wir alle 100000 testen, werden 99 von den 100 Erkrankten richtig diagnostiziert. Von den 99900 gesunden Menschen, bekommen allerdings 999 das falsche Ergebnis, sie hätten XYZ. Von allen 1998 positiven Test-Ergebnissen, sind also nur 99/1098, also grob 9%, wahr.
In der Sprache der Wahrscheinlichkeitsrechnung übertragen ist also die bedingte Wahrscheinlichkeit, dass der Test positiv ist, unter der Bedingung, dass der Patient wirklich XYZ hat ist p(Test positiv | XYZ) = 0,99. Das ist nicht zu verwechseln mit der bedingten Wahrscheinlichkeit, dass der Patient XYZ hat, unter der Bedingung, dass der Test positiv verlief. Diese Wahrscheinlichkeit beträgt, wie wir berechnet haben: p(XYZ | Test positiv) = 0,09. Das heißt also, bei seltenen Erkrankungen sind sie auch bei positivem Testergebnis durchaus wahrscheinlich trotzdem nicht betroffen. Darum wird eine solche Diagnose meist auch nicht alleinig aufgrund eines Test erstellt, so zuverlässig er auch erscheinen mag.
Allgemein gesprochen schauen wir uns die beiden verschiedenen bedingten Wahrscheinlichkeiten p(A | B) und p(B | A) an, also dass A zutrifft, wenn B gegeben ist, und dass B zutrifft, wenn A gegeben ist. Sie sind unterschiedlich, was in vielen Beispielen unserer naiven Anschauung widerspricht. Sie werden häufig miteinander verwechselt und verwurschtelt, was schon zu einigen Fehlschlüssen führte. Diese beiden Wahrscheinlichkeiten sind aber durchaus miteinander verknüpft über Bayes Theorem: p(A | B) = p(B | A) * p(A)/p(B)
In dieser Formel benötigen wir also noch die Angaben, wie oft die Ereignisse bzw. Bedingungen allgemein ohne weitere Bedingungen stattfinden bzw. zutreffen. Das ist kontra-intuitiv, und gerade deswegen wichtig, im Hinterkopf zu behalten, um Fehlschlüsse zu vermeiden.
Und was hat das jetzt mit Experiment-Ergebnissen zu tun?
Das Ergebnis eines statistischen Experiments, der p-Wert, ist eine bedingte Wahrscheinlichkeit. Er benennt die Wahrscheinlichkeit, dass das Studienergebnis (oder ein “besseres”) eintritt unter der Bedingung, dass die Nullhypothese wahr ist. D.h. er beantwortet die Frage: unter der Annahme, dass nur der Zufall im Spiel ist, wie wahrscheinlich wäre damit das Studien-Ergebnis (oder ein besseres)? Es ist p-Wert = p(gegebenes Studienergebnis | Nullhypothese wahr) .
Salopp wird der p-Wert auch die “Zufallswahrscheinlichkeit” genannt. Das führt allerdings gerne zu dem Missverständnis, dass ein statistisch signifikantes Ergebnis falsch gedeutet wird als: “Die Wahrscheinlichkeit, dass es Zufall war, ist kleiner als 0,05”. DAS wäre nämlich p(Nullhypothese wahr | gegebenes Studienergebnis), was zwar die deutlich interessantere Wahrscheinlichkeit ist, aber NICHT vom p-Wert alleine gegeben ist.
Die Frage ist nun: Warum geben wir diese eigentlich interessantere wirkliche Zufallswahrscheinlichkeit nicht an? Die frustrierende Antwort ist: Weil wir es meist nicht können oder nur mit sehr großem Aufwand könnten. Um Bayes Theorem hier anwenden zu können, müssten wir nämlich auch noch unter anderem wissen, wie wahrscheinlich allgemein, die Nullhypothese wahr ist. Das ist ein Zahlenwert, den wir nicht kennen.
Aber wir können zumindest grob Urteile darüber fällen, wie plausibel eine Behauptung ist, ob sie gewöhnlich (plausibel) oder außergewöhnlich (unplausibel) ist. Wir können bewerten, wie gut eine Behauptung sich in bestehende Erkenntnisse einfügt, also ob sie sich nachvollziehbar aus bestehenden Erkenntnissen herleiten lässt, oder ob sie unserem Wissen in einigen Punkten widerspricht. Natürlich kann es sein, dass unsere bestehenden Lehrbuch-Aussagen falsch sind, und eine Behauptung die unserem Lehrbuchwissen widerspricht, dann doch wahr wäre. Somit bedeutet unplausibel nicht automatisch falsch. Und plausibel bedeutet nicht automatisch wahr. Wir können aber durchaus annehmen, dass plausible Behauptungen wahrscheinlicher wahr sind als unplausible.
Als Gedankenexperiment stellen wir uns vor, dass in zwei Schüsseln jeweils 100 Zettelchen mit jeweils einer Behauptung gelegt sind. In Schüssel A sind es plausible Aussagen, die sich gut in unser bestehendes Wissen einfügen und herleiten lassen. Als Zahlenbeispiel sagen wir mal, dass 80 von ihnen wahr sind. In Schüssel B sind es unplausible Behauptungen – z.B. sowas wie: “Wenn ich einen Würfel vorher ordentlich anschreie, wird er wahrscheinlicher eine 6 würfeln.” Von diesen Behauptungen seien in unserem Gedankenexperiment nur 20 wahr. Hier können wir also die Wahrscheinlichkeit, dass eine gegebene Behauptung wahr ist, abgeben entgegen dem wirklichen Leben, wo wir das zumeist nicht quantifizieren können. Vereinfachend gehen wir mal weiter davon aus, dass wir mit wissenschaftlichen Versuchen wirklich alle wahren Behauptungen richtig als wahr erkennen.
Ein Alpha-Wert von 0,05 – also die Forderung, dass der p-Wert unter diesen 0,05 liegen soll, damit das Ergebnis “statistisch Signifikant” genannt wird – bedeutet allerdings, dass auch 5% aller Experimente, bei denen die Nullhypothese wahr ist, ein falsch positives Ergebnis liefern werden. D.h. 5% aller falschen Behauptungen, jede 20. Studie zu einem Nicht-Effekt mit diesem Alpha-Wert, wird ein falsch-positives Ergebnis bekommen.
In Schüssel A werden wir also die 80 wahren Behauptungen richtig erkennen und von den 20 falschen Behauptungen, wird eine ein falsch positives Ergebnis bekommen. Insgesamt haben wir 81 positive Ergebnisse, und die Wahrscheinlichkeit, dass ein positives Ergebnis auch der Wahrheit entspricht ist damit p(wahr | positives Ergebnis) = 80/81 (etwa 0,988). Die Irrtumswahrscheinlichkeit lieg damit bei nur etwa 0,012.
In Schüssel B werden wir wieder alle 20 wahren Behauptungen richtig erkennen, und von den 80 falschen werden wir 4 fälschlicherweise positiv testen. Die Irrtumswahrscheinlichkeit liegt hier bei ganzen 0,167 – in 4 der 24 positiven Ergebnissen werden wir uns irren.
Je kleiner der Anteil der wahren Aussagen bei den getesteten, desto größer ist die Wahrscheinlichkeit, dass wir uns bei einem positiven Ergebnis doch irren.
Fazit
Das Problem ist, dass wir die Aussagekraft des p-Werts intuitiv falsch einschätzen. Diese Fehldeutung ist in den Wissenschaften auch gut bekannt. Es wird in vielen Artikeln wie z.B. “Der Fluch des p-Werts” (Spektrum der Wissenschaft, September 2014) oder “Statisticians issue warning over misuse of P values” (Nature 531, 151 (10 March 2016)) oder im Buch “Der Schein der Weisen” von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben behandelt.
Auch Vorschläge, wie dem Problem zu begegnen ist, gibt es viele. Darauf will ich hier nur kurz eingehen: Wichtig ist vor allem, dass wir uns der Problematik bewusst sind, und so die Aussagekraft einzelner p-Werte nicht überschätzen und fehlinterpretieren. Es ist auch sinnvoll, als Studien-Ergebnis nicht nur ein p-Wert anzugeben, sondern auch z.B. die Stärke des Effekts zu benennen, sollte das Ergebnis statistisch signifikant sein. Und generell gilt ja für die Naturwissenschaften: Ein Ergebnis muss reproduzierbar sein. D.h. andere Forschergruppen sollten durch das gleiche oder gar ein verbessertes Versuchs-Design zum gleichen Ergebnis kommen. Eine Studie mit positivem Ergebnis oder vereinzelte positive Studien unter vielen, sind keine Beweise. Und je mehr (methodisch hochwertige) Reproduktionen anteilig ein Ergebnis bestätigen, desto geringer ist auch die resultierende Irrtumswahrscheinlichkeit.
Für diesen Artikel ist mir gerade wichtiger, was wir aufgrund dieser Problematik nicht tun sollten: Wir dürfen nicht für jede Behauptung alles vergessen, was schon frühere Experimente gezeigt haben. Wir müssen Behauptungen in unser bestehendes Wissen auch einordnen können, um so ihre Plausibilität zu bewerten.
Zum Beispiel Anhänger der Homöopathie fordern gerne: “Nun seid doch mal offen gegenüber alternativen Ansätzen.” Die Homöopathie passt allerdings zu gar nichts, was wir aus Physik, Chemis, Biochemie etc. wissen. Es fügt sich u.a. nicht nachvollziehbar ein, dass durch einen Prozess, die sog. “Potenzierung”, ein wirksames Mittel hervorgeht, der de Facto nur eine Verdünnung bedeutet, und bei dem nichts erkennbar ist, warum das noch mehr bzw. was anders sein sollte, warum da z.B. irgendwelche Informationen im Wasser gespeichert werden sollten, und bei dem oft am Ende Verdünnungs-Grade bei rauskommen, in denen es sehr unwarscheinlich ist, auch nur einzelne Moleküle der ursprünglichen Substanz anzutreffen. Das ist also als unplausible Behauptung anzusehen. Die methodisch hochwertigen Studien gehen auch oftmnals negativ aus, wie zum Beispiel auch so einige Meta-Analysen zeigen. Da haben die positiven Studien, die in den Augen der Homöopathie-Anhänger ja ihre Lehre “beweisen”, nicht die Aussagekraft, die sie gerne hätten. Auch nicht, wenn sie keine methodischen Mängel enthielten (die z.B. in diesem Blog immer wieder aufgezeigt werden: Beweisaufnahme Homöopathie ) Sollte – entgegen meiner Überzeugung – die Homöopathie doch eine zutreffende Lehre sein, so ist es die Aufgabe der Anhänger zu zeigen, wie sie sich in unser Wissen über Physik, Chemie etc. gut einfügen lässt, bzw. was in diesen Fächern unvollständig oder falsch ist, und was sonst bei den negativen Studien schief lief. Wir haben nämlich schon einiges Wissen über biochemische Reaktionen, molekularen Wechselwirkungen u.ä. All das zu vergessen, um einer Behauptung “offen”, gegenüberzustehen, ist nicht unvoreingenommen, sondern Unfug. Im Gegenteil ist der implizite Wunsch, bestehende Erkenntnisse zu vergessen, hier äußerst voreingenommen.
Das ist auch alles keine abgehobene mathematisch konstruierte Diskussion. Wir denken eigentlich alle schon so. Wenn wir ein Foto oder Film eines Autos auf der Straße sehen, wird uns das nicht groß beeindrucken. Dagegen werden wir (fast) alle beim Anfang des Films “Harry Potter und die Kammer des Schreckens” wissen, dass das fliegende Auto ziemlich sicher durch Tricktechnik zustande kam und nicht durch eine unverarbeitete Filmaufnahme. Wir bewerten Behauptungen, Aussagen und Berichte, die wir sehen, schon anhand der Plausibilität, also anhand dessen was wir schon wissen, bzw. was wir für wahr halten. Damit sollten wir nicht aufhören. Behauptungen können und müssen natürlich noch und nöcher wiederholt überprüft werden, auch unplausible Behauptungen. Aber die Beweiskraft (einzelner) positiver Ergebnisse hängt auch mit der Plausibilität zusammen, was sowohl unser “gesunde Menschenverstand” schon macht, als auch mathematisch durch Bayes Theorem nahegelegt werden kann. Wer für alles “offen” ist, ist nicht ganz dicht. Außergewöhnliche, also unplausible Behauptungen benötigen mehr als nur normale Belege. Sie benötigen außergewöhnliche Belege.
Kommentare (35)