sb-wettbewerb_kleinDieser Artikel ist Teil des ScienceBlogs Blog-Schreibwettbewerb 2018. Informationen zum Ablauf gibt es hier. Leserinnen und Leser können die Artikel bewerten und bei der Abstimmung einen Preis gewinnen – Details dazu gibt es hier. Eine Übersicht über alle am Bewerb teilnehmenden Artikel gibt es hier. Informationen zu den Autoren der Wettbewerbsartikel finden sich in den jeweiligen Texten.
——————————————————————————————————————
Bayes Theorem ist ein Arschloch

von Joachim Ripken

Ich bin Astrophysiker. Ich arbeitete bereits in Hamburg und Stockholm und bin aktuell am Max-Planck-Institut für Sonnensystemforschung in Göttingen angestellt (derzeit in Elternzeit).

Müssen Wissenschaftler jeder Behauptung vollkommen unvoreingenommen begegnen, oder soll nicht auch die Plausibilität einer Aussage in die Untersuchung mit einfließen? Ich plädiere für letzteres und werde das hier darlegen.

“Außergewöhnliche Behauptungen benötigen außergewöhnliche Beweise.” Diese Forderung wurde unter anderem von Carl Sagan aufgestellt, und sie ist zu einer Art Leitspruch in der Skeptiker-Bewegung geworden. In Kreisen der Esoterik und “alternativen Wissenschaften” ist dieser Spruch natürlich verhasst. Da ist die häufige Erwiderung sinngemäß: “Gleiches Recht für alle. Ein Beweis ist ein Beweis.”

Und auch in Skeptiker-Kreisen ist der Leitspruch nicht ganz unumstritten. Zum Beispiel im (sehr empfehlenswerten) Podcast Hoaxilla (Folge #158) wird das von den Podcast-Moderatoren Alexander und Alexa Waschkau und deren Interview-Partner Sebastian Bartoschek folgendermaßen bewertet: (ab Timecode: 30:28)

Alexa Waschkasu: “Oder hängt das mit dem – Sagan wars glaube ich – Zitat zusammen, dass außergewöhnliche Behauptungen außegewöhnliche Beweise verlangen, was ich übrigens nie verstanden habe, weil entweder ich beweise etwas oder ich beweise es nicht.”

Sebastian Bartoschek: “Ja, dieses Zitat hängt natürlich damit zusammen und es ist ein schöner Beleg dafür, wie auch jemand, der an sicher sehr schlau ist, etwas unglaublich Dummes sagen kann, was dann alle hochhalten und sich auf T-Shirts drucken lassen.”

Diese Bewertung ist durchaus nachvollziehbar, und Sebastian Bartoschek hat auch vollkommen Recht damit, dass kluge Menschen sehr dumme Sachen sagen können. Die Forderung von Carl Sagan gehört da allerdings nicht dazu. Ich will hier darlegen, warum der Leitspruch korrekt ist, also warum Behauptumngen nicht komplett ungeachtet ihrer Plausibilität behandelt werden können und auch nicht werden sollten. Dazu müssen wir zuerst verstehen, wie in der aktuell gängigen wissenschaftlichen Praxis ein Beleg aussieht. Danach werde ich Bayes Theorem kurz vorstellen und darlegen, wieso damit die Forderung nach stärkeren Beleg-Kriterien bei unplausiblen (außergewöhnlichen) Behauptungen durchaus gerechtfertigt ist.

Was ist in der aktuellen Praxis ein wissenschaftlicher Beleg?

Ein sehr großer Anteil der wissenschaftlichen Experimente betrachten statistische Prozesse, und sie werden somit auch statistisch ausgewertet.

Beispielsweise in medizinischen Studien geht es oft darum, den Krankheitsverlauf mit Behandlung mit dem Verlauf ohne Behandlung (bzw. mit der Behandlung zum Schein) zu vergleichen. Im Idealfall, dem sog. “Goldstandard”, geschieht das in randomisierten doppelt verblindeten kontrollierten Vergleichsstudien. Man teilt die teilnehmenden Patienten dazu in zwei Gruppen ein. Die eine Gruppe, die Versuchsgruppe, wird mit der zu testenden Methode behandelt, die andere Gruppe, die Kontrollgruppe, wird nur zum Schein mit der zu testenden Methode behandelt. Am Schluss wird statistisch verglichen, ob in der Versuchsgruppe mehr Behandlungserfolge erzielt werden als in der Kontrollgruppe.

In diesem Vergleich wird der sog. p-Wert berechnet. Das bezeichnet die Wahrscheinlichkeit, dass das beobachtete Ergebnis zustande kommt (oder ein “besseres”) im Rahmen der Hypothese, dass tatsächlich keine Wirkung vorhanden ist, der sog Nullhypothese. Liegt dieser p-Wert unterhalb einer vorher festgelegten Schwelle, dem sog. Alpha-Wert, spricht man von einem “statistisch signifikanten” Ergebnis.

In medizinischen Studien liegt der Alpha-Wert meist bei 0,05. Also, wenn im Rahmen der Nullhypothese das Ergebnis mit einer Wahrscheinlichkeit von weniger als 0,05 zustande käme, ist es ein “positives Ergebnis”. In der Physik ist man da viel strenger. Hier gilt zumeist das “5-Sigma-Kriterium” – die geforderte Schwelle beträgt hiebei p < 0,0000003. Der Grund für diesen Unterschied ist schlicht, dass das 5-Sigma-Kriterim für medizinische Studien nicht praktikabel wäre. Die Studien müssten dafür unrealistisch viele Patienten beinhalten, um realistisch so niedrige p-Werte erreichen zu können. Hier wird schon deutlich, dass eine solche positive Studie mit einem statistisch signifikanten Ergebnis kein Beweis im strengen Wortsinn sein kann. Allgemein spricht man darum bei solchen Studienergebnissen auch lieber von einem Beleg. Eine Wortwahl, die ich oben heimlich auch schon übernommen habe. Bayes Theorem

Bayes Theorem handelt von den sog. “bedingten Wahrscheinlichkeiten”. Das sind die Wahrscheinlichkeiten, wenn eine bestimmte Bedingung erfüllt ist. Also zum Beispiel die Wahrscheinlichkeit, dass ein Hut-Träger (Bedingung “tragt Hut”) auch eine Brille trägt, wird mit p(trägt Brille | trägt Hut) bezeichnet. Das ist, wie wir jetzt sehen werden nicht zu verwechseln mit der umgekehrten bedingten Wahrscheinlichkeit, dass ein Brillenträger auch einen Hut trägt p(trägt Hut | trägt Brille).

Als Veranschaulichung für Bayes Theorem wird gerne ein medizinischer Test betrachtet. Angenommen, Sie lassen sich vom Arzt auf eine bestimmte Erkrankung, nennen wir sie hier mal XYZ, testen. Von dem Test wissen wir, dass er 99% aller von XYZ betroffenen Menschen richtig erkennt. Außerdem wissen wir, dass nur 1% aller Nicht-Betroffenen Menschen fälschlicherwise das Testergebnis bekommen, dass sie XYZ hätten. Kling nach einem ziemlich zuverlässigen Test, oder?

Nun bekommen Sie vom Arzt das positive Testergebnis, also der Test besagt, dass Sie an XYZ erkrankt sind. Wie groß ist die Wahrscheinlichkeit, dass das auch stimmt?

Viele von Ihnen werden hier wahrscheinlich: “99%” wie aus der Pistole geschossen antworten. Als ich vor etlichen Jahren das erste Mal mit diesem Rätsel konfrontiert wurde, war es jedenfalls meine (die falsche) Antwort. Und viele auch sehr kluge Menschen fallen immernoch drauf rein.

Um die Frage korrekt zu beantworten, ist noch nämlich noch eine weitere Information notwendig: Die Erkrankung XYZ betrifft 0,1% aller Menschen.

Schauen wir uns nun mal 100000 Menschen an. Von denen werden also 100 von der besagten Krankheit befallen. Wenn wir alle 100000 testen, werden 99 von den 100 Erkrankten richtig diagnostiziert. Von den 99900 gesunden Menschen, bekommen allerdings 999 das falsche Ergebnis, sie hätten XYZ. Von allen 1998 positiven Test-Ergebnissen, sind also nur 99/1098, also grob 9%, wahr.

In der Sprache der Wahrscheinlichkeitsrechnung übertragen ist also die bedingte Wahrscheinlichkeit, dass der Test positiv ist, unter der Bedingung, dass der Patient wirklich XYZ hat ist p(Test positiv | XYZ) = 0,99. Das ist nicht zu verwechseln mit der bedingten Wahrscheinlichkeit, dass der Patient XYZ hat, unter der Bedingung, dass der Test positiv verlief. Diese Wahrscheinlichkeit beträgt, wie wir berechnet haben: p(XYZ | Test positiv) = 0,09. Das heißt also, bei seltenen Erkrankungen sind sie auch bei positivem Testergebnis durchaus wahrscheinlich trotzdem nicht betroffen. Darum wird eine solche Diagnose meist auch nicht alleinig aufgrund eines Test erstellt, so zuverlässig er auch erscheinen mag.

Allgemein gesprochen schauen wir uns die beiden verschiedenen bedingten Wahrscheinlichkeiten p(A | B) und p(B | A) an, also dass A zutrifft, wenn B gegeben ist, und dass B zutrifft, wenn A gegeben ist. Sie sind unterschiedlich, was in vielen Beispielen unserer naiven Anschauung widerspricht. Sie werden häufig miteinander verwechselt und verwurschtelt, was schon zu einigen Fehlschlüssen führte. Diese beiden Wahrscheinlichkeiten sind aber durchaus miteinander verknüpft über Bayes Theorem: p(A | B) = p(B | A) * p(A)/p(B)

In dieser Formel benötigen wir also noch die Angaben, wie oft die Ereignisse bzw. Bedingungen allgemein ohne weitere Bedingungen stattfinden bzw. zutreffen. Das ist kontra-intuitiv, und gerade deswegen wichtig, im Hinterkopf zu behalten, um Fehlschlüsse zu vermeiden.

Und was hat das jetzt mit Experiment-Ergebnissen zu tun?

Das Ergebnis eines statistischen Experiments, der p-Wert, ist eine bedingte Wahrscheinlichkeit. Er benennt die Wahrscheinlichkeit, dass das Studienergebnis (oder ein “besseres”) eintritt unter der Bedingung, dass die Nullhypothese wahr ist. D.h. er beantwortet die Frage: unter der Annahme, dass nur der Zufall im Spiel ist, wie wahrscheinlich wäre damit das Studien-Ergebnis (oder ein besseres)? Es ist p-Wert = p(gegebenes Studienergebnis | Nullhypothese wahr) .

Salopp wird der p-Wert auch die “Zufallswahrscheinlichkeit” genannt. Das führt allerdings gerne zu dem Missverständnis, dass ein statistisch signifikantes Ergebnis falsch gedeutet wird als: “Die Wahrscheinlichkeit, dass es Zufall war, ist kleiner als 0,05”. DAS wäre nämlich p(Nullhypothese wahr | gegebenes Studienergebnis), was zwar die deutlich interessantere Wahrscheinlichkeit ist, aber NICHT vom p-Wert alleine gegeben ist.

Die Frage ist nun: Warum geben wir diese eigentlich interessantere wirkliche Zufallswahrscheinlichkeit nicht an? Die frustrierende Antwort ist: Weil wir es meist nicht können oder nur mit sehr großem Aufwand könnten. Um Bayes Theorem hier anwenden zu können, müssten wir nämlich auch noch unter anderem wissen, wie wahrscheinlich allgemein, die Nullhypothese wahr ist. Das ist ein Zahlenwert, den wir nicht kennen.

Aber wir können zumindest grob Urteile darüber fällen, wie plausibel eine Behauptung ist, ob sie gewöhnlich (plausibel) oder außergewöhnlich (unplausibel) ist. Wir können bewerten, wie gut eine Behauptung sich in bestehende Erkenntnisse einfügt, also ob sie sich nachvollziehbar aus bestehenden Erkenntnissen herleiten lässt, oder ob sie unserem Wissen in einigen Punkten widerspricht. Natürlich kann es sein, dass unsere bestehenden Lehrbuch-Aussagen falsch sind, und eine Behauptung die unserem Lehrbuchwissen widerspricht, dann doch wahr wäre. Somit bedeutet unplausibel nicht automatisch falsch. Und plausibel bedeutet nicht automatisch wahr. Wir können aber durchaus annehmen, dass plausible Behauptungen wahrscheinlicher wahr sind als unplausible.

Als Gedankenexperiment stellen wir uns vor, dass in zwei Schüsseln jeweils 100 Zettelchen mit jeweils einer Behauptung gelegt sind. In Schüssel A sind es plausible Aussagen, die sich gut in unser bestehendes Wissen einfügen und herleiten lassen. Als Zahlenbeispiel sagen wir mal, dass 80 von ihnen wahr sind. In Schüssel B sind es unplausible Behauptungen – z.B. sowas wie: “Wenn ich einen Würfel vorher ordentlich anschreie, wird er wahrscheinlicher eine 6 würfeln.” Von diesen Behauptungen seien in unserem Gedankenexperiment nur 20 wahr. Hier können wir also die Wahrscheinlichkeit, dass eine gegebene Behauptung wahr ist, abgeben entgegen dem wirklichen Leben, wo wir das zumeist nicht quantifizieren können. Vereinfachend gehen wir mal weiter davon aus, dass wir mit wissenschaftlichen Versuchen wirklich alle wahren Behauptungen richtig als wahr erkennen.

Ein Alpha-Wert von 0,05 – also die Forderung, dass der p-Wert unter diesen 0,05 liegen soll, damit das Ergebnis “statistisch Signifikant” genannt wird – bedeutet allerdings, dass auch 5% aller Experimente, bei denen die Nullhypothese wahr ist, ein falsch positives Ergebnis liefern werden. D.h. 5% aller falschen Behauptungen, jede 20. Studie zu einem Nicht-Effekt mit diesem Alpha-Wert, wird ein falsch-positives Ergebnis bekommen.

In Schüssel A werden wir also die 80 wahren Behauptungen richtig erkennen und von den 20 falschen Behauptungen, wird eine ein falsch positives Ergebnis bekommen. Insgesamt haben wir 81 positive Ergebnisse, und die Wahrscheinlichkeit, dass ein positives Ergebnis auch der Wahrheit entspricht ist damit p(wahr | positives Ergebnis) = 80/81 (etwa 0,988). Die Irrtumswahrscheinlichkeit lieg damit bei nur etwa 0,012.

In Schüssel B werden wir wieder alle 20 wahren Behauptungen richtig erkennen, und von den 80 falschen werden wir 4 fälschlicherweise positiv testen. Die Irrtumswahrscheinlichkeit liegt hier bei ganzen 0,167 – in 4 der 24 positiven Ergebnissen werden wir uns irren.

Je kleiner der Anteil der wahren Aussagen bei den getesteten, desto größer ist die Wahrscheinlichkeit, dass wir uns bei einem positiven Ergebnis doch irren.

Fazit

Das Problem ist, dass wir die Aussagekraft des p-Werts intuitiv falsch einschätzen. Diese Fehldeutung ist in den Wissenschaften auch gut bekannt. Es wird in vielen Artikeln wie z.B. “Der Fluch des p-Werts” (Spektrum der Wissenschaft, September 2014) oder “Statisticians issue warning over misuse of P values” (Nature 531, 151 (10 March 2016)) oder im Buch “Der Schein der Weisen” von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben behandelt.

Auch Vorschläge, wie dem Problem zu begegnen ist, gibt es viele. Darauf will ich hier nur kurz eingehen: Wichtig ist vor allem, dass wir uns der Problematik bewusst sind, und so die Aussagekraft einzelner p-Werte nicht überschätzen und fehlinterpretieren. Es ist auch sinnvoll, als Studien-Ergebnis nicht nur ein p-Wert anzugeben, sondern auch z.B. die Stärke des Effekts zu benennen, sollte das Ergebnis statistisch signifikant sein. Und generell gilt ja für die Naturwissenschaften: Ein Ergebnis muss reproduzierbar sein. D.h. andere Forschergruppen sollten durch das gleiche oder gar ein verbessertes Versuchs-Design zum gleichen Ergebnis kommen. Eine Studie mit positivem Ergebnis oder vereinzelte positive Studien unter vielen, sind keine Beweise. Und je mehr (methodisch hochwertige) Reproduktionen anteilig ein Ergebnis bestätigen, desto geringer ist auch die resultierende Irrtumswahrscheinlichkeit.

Für diesen Artikel ist mir gerade wichtiger, was wir aufgrund dieser Problematik nicht tun sollten: Wir dürfen nicht für jede Behauptung alles vergessen, was schon frühere Experimente gezeigt haben. Wir müssen Behauptungen in unser bestehendes Wissen auch einordnen können, um so ihre Plausibilität zu bewerten.

Zum Beispiel Anhänger der Homöopathie fordern gerne: “Nun seid doch mal offen gegenüber alternativen Ansätzen.” Die Homöopathie passt allerdings zu gar nichts, was wir aus Physik, Chemis, Biochemie etc. wissen. Es fügt sich u.a. nicht nachvollziehbar ein, dass durch einen Prozess, die sog. “Potenzierung”, ein wirksames Mittel hervorgeht, der de Facto nur eine Verdünnung bedeutet, und bei dem nichts erkennbar ist, warum das noch mehr bzw. was anders sein sollte, warum da z.B. irgendwelche Informationen im Wasser gespeichert werden sollten, und bei dem oft am Ende Verdünnungs-Grade bei rauskommen, in denen es sehr unwarscheinlich ist, auch nur einzelne Moleküle der ursprünglichen Substanz anzutreffen. Das ist also als unplausible Behauptung anzusehen. Die methodisch hochwertigen Studien gehen auch oftmnals negativ aus, wie zum Beispiel auch so einige Meta-Analysen zeigen. Da haben die positiven Studien, die in den Augen der Homöopathie-Anhänger ja ihre Lehre “beweisen”, nicht die Aussagekraft, die sie gerne hätten. Auch nicht, wenn sie keine methodischen Mängel enthielten (die z.B. in diesem Blog immer wieder aufgezeigt werden: Beweisaufnahme Homöopathie ) Sollte – entgegen meiner Überzeugung – die Homöopathie doch eine zutreffende Lehre sein, so ist es die Aufgabe der Anhänger zu zeigen, wie sie sich in unser Wissen über Physik, Chemie etc. gut einfügen lässt, bzw. was in diesen Fächern unvollständig oder falsch ist, und was sonst bei den negativen Studien schief lief. Wir haben nämlich schon einiges Wissen über biochemische Reaktionen, molekularen Wechselwirkungen u.ä. All das zu vergessen, um einer Behauptung “offen”, gegenüberzustehen, ist nicht unvoreingenommen, sondern Unfug. Im Gegenteil ist der implizite Wunsch, bestehende Erkenntnisse zu vergessen, hier äußerst voreingenommen.

Das ist auch alles keine abgehobene mathematisch konstruierte Diskussion. Wir denken eigentlich alle schon so. Wenn wir ein Foto oder Film eines Autos auf der Straße sehen, wird uns das nicht groß beeindrucken. Dagegen werden wir (fast) alle beim Anfang des Films “Harry Potter und die Kammer des Schreckens” wissen, dass das fliegende Auto ziemlich sicher durch Tricktechnik zustande kam und nicht durch eine unverarbeitete Filmaufnahme. Wir bewerten Behauptungen, Aussagen und Berichte, die wir sehen, schon anhand der Plausibilität, also anhand dessen was wir schon wissen, bzw. was wir für wahr halten. Damit sollten wir nicht aufhören. Behauptungen können und müssen natürlich noch und nöcher wiederholt überprüft werden, auch unplausible Behauptungen. Aber die Beweiskraft (einzelner) positiver Ergebnisse hängt auch mit der Plausibilität zusammen, was sowohl unser “gesunde Menschenverstand” schon macht, als auch mathematisch durch Bayes Theorem nahegelegt werden kann. Wer für alles “offen” ist, ist nicht ganz dicht. Außergewöhnliche, also unplausible Behauptungen benötigen mehr als nur normale Belege. Sie benötigen außergewöhnliche Belege.

Kommentare (35)

  1. #1 Bbr
    29. September 2018

    Ein wesentlicher Punkt bei den angesprochenen medizinischen Test ist natürlich noch: Weswegen wurde er durchgeführt? Im Rahmen eines Screenings? Dann stimmt die obige Rechnung, und man muss sich noch nicht allzuviel Sorgen machen. Wurde er aber durchgeführt, weil man ein Symptom der zu suchenden Krankheit zeigte, dann sieht die a priori Wahrscheinlichkeit schon wieder anders aus.

  2. #2 Michael
    29. September 2018

    Was ich an Ihrem Blog schätze, ist das erstklassige Niveau Ihrer Überschriften. Solche Titel ließt man gern.

  3. #3 Bernd
    29. September 2018

    “Von allen 1998 positiven Test-Ergebnissen,”
    sollte sicher 1098 heißen.

  4. #4 rolak
    29. September 2018

    an Ihrem Blog

    moin Michael, so kurz nach dem Wachwerden vielleicht erst mal etwas Kaffee? Vielleicht klappen dann die Äuglein so weit auf, daß das recht weit oben prangende “Informationen zu den Autoren der Wettbewerbsartikel” ausreichend sichtbar wird. Selbstverständlich ist Deine Meinung zulässig (und imho auch zutreffend) – nur just dieser Artikel ist als Beispiel äußerst schlecht gewählt…

    sollte sicher 1098 heißen

    Sicher, Bernd, wie ja auch aus dem folgenden Bruch deutlich mehr als bruchstückhaft folgt.
    Nur – 1998 ist halt viel aktueller ;•)

  5. #5 Silava
    29. September 2018

    Der Artikel hat mir gut gefallen, ein stimmiger und gut geschriebener Beitrag. Irritierend finde ich die Überschrift, sie passt nicht zum Text.

    Wie am Anfang sehr schön beschrieben stammt ein Großteil der Verwirrung ob man das Wort “evidence” als Beweis oder als Beleg übersetzt. Strenggenommen gibt es Beweise ohnehin nur in der Mathematik. Und Belege können unterschiedliche Relevanz und Wichtigkeit haben. Das ist ein Ergebnis das gut zu meinem bisherigen Weltwissen dazupasst.

    Leider ist unser Gehirn nicht wirklich für die logisch stringente Argumentation gemacht, man kommt sehr schnell auf sehr wackeliges Terrain. Unser Gehirn ist nur sehr selten wirklich rational unterwegs. Ein sehr erhellendes Buch dazu wäre “Fallstricke: Die häufigsten Denkfehler in Alltag und Wissenschaft” von Ulrich Frey.

  6. #6 Reggid
    29. September 2018

    toller Artikel!

    aber

    In der Physik ist man da viel strenger. Hier gilt zumeist das “5-Sigma-Kriterium”

    das 5-sigma-kriterium wird aber auch nur in bestimmten bereichen der Physik angewandt.. ich kann mir nicht vorstellen dass man in vielen anderen bereichen der Physik blind die 5-sigma regel anwendet, auch wenn sie gar keinen sinn machen würde. ich weiß du hast “zumeist” geschreiben, was ja nicht immer bedeutet, aber ich denke dass 5-sigma auch innerhalb der Physik schon eher die ausnahme ist (aber ich lasse mich gerne eines besseren belehren)

    und auch innerhalb der gebiete wo sie angewandt wird, z.B. teilchenphysik wenn es um die entdeckung neuer teilchen geht, wären 5-sigma manchmal auch unsinnig hoch angesetzt (auch wenn man dann trotzdem daran festhält), da es ja hauptsächlich um den look-elsewhere-effect geht, der aber keine so große rolle spielt wenn z.B. alle Eigenschaften des gesuchten Teilchens genau vorhergesagt sind.

    (wobei das alles bezogen auf den Artikel natürlich nicht wichtig ist. ist mir nur aufgefallen)

  7. #7 Joseph Kuhn
    29. September 2018

    Eine kleine Anmerkung dazu, warum in der Medizin mit viel größeren Irrtumswahrscheinlichkeiten als in der Physik gearbeitet wird: Das ist weniger eine Frage verfügbarer Patientenzahlen als eine der Vorhersagegenauigkeit bei den zu testenden Hypothesen. In der Physik sind, weil sie inzwischen sehr präzise Gesetze hat, oft auch sehr genaue Vorhersagen möglich, bei denen schon kleinste Abweichungen interessant sind. In der Medizin gibt es solche genauen Vorhersagen meist nicht und man muss von einer großen Varianz in der Reaktion der untersuchten Systeme auf den experimentellen Faktor ausgehen.

  8. #8 Mars
    29. September 2018

    hat ein wenig gedauert, bis ich beim eigentlichen theorem anegkommen bin, aber gut geschrieben und es zeigt sich, dass unser schnelles, spontanes denken oft verkehrt liegt – das wird genau im bereich der medizin – missbraucht ? – zumindest oft falsch vermittelt.

    gibt zu denken – so oder so – um die rechenschritte gut nachzuvollziehen.
    gefällt. mir

  9. #9 UMa
    29. September 2018

    Hallo Joachim,

    selbstverständlich muss die Plausibilität einer Aussage in die Untersuchung mit einfließen.
    Dadurch kann man z.B. zwischen verschiedenen Methoden mit unterschiedlichen Falschpositiv-Raten wählen, je nach dem ob es ein Screening oder ein Test ist, bei dem schon Sypmtome vorliegen, wie Bbr schon schrieb.

    Jeder Test, nicht nur in der Medizin, sondern auch in der Physik hat eine Falschpositiv-Rate größer als 0.

    Deswegen gibt es absolute Beweise nicht, selbst nicht in der Mathematik, denn es ist nicht zu beweisen, ob nicht doch ein Fehler vorliegt, selbt wenn das nach einer Prüfung durch Andere unwahrscheinlich erscheint. Doch die Wahrscheinlichkeit ist nicht 0. (Ich lese gerade Simon Singhs ‘Fermats letzter Satz’.)

    Nicht nur Menschen können sich leicht verrechnen.
    Auch Computer können sich verrechnen, z.B. wenn Fehler im Quellcode vorliegen. Sebst bei fehlerfreiem Quellcode kann immer noch ein Bit im Speicher flippen von 0 nach 1 oder umgekehrt und das Ergebnis ist entsprechend. Um die Wahrscheinlichkeit dafür zu reduzieren gibt es Speicher mit ECC.

    Alexa Waschkasu: “Oder hängt das mit dem – Sagan wars glaube ich – Zitat zusammen, dass außergewöhnliche Behauptungen außegewöhnliche Beweise verlangen, was ich übrigens nie verstanden habe, weil entweder ich beweise etwas oder ich beweise es nicht.”

    Wer auf die ‘Idee’ kommt: “… entweder ich beweise etwas oder ich beweise es nicht.”, hat schon verloren.
    Das ist, als würde man annehmen, als ob der Medizische Test niemals einen Nicht-Betroffenen Menschen fälschlicherwise das Testergebnis zuordnen, dass sie XYZ hätten. Dann wäre es tatsächlich egal, wieviele Menschen von der Erkrankung XYZ betroffen sind. Solche Tests gibt es aber nicht. Nichteinmal in Beweisen der Mathematik, siehe oben.

    Letzlich muss ich aber zwischen Tests mit unterschiedlicher Qualität (sagen wir: 10% falschpositiv, 1% falschpositiv, 0,1% falschpositiv)
    unterscheiden können, um die Ergebnisse abeschätzen zu können. Mit “… entweder ich beweise etwas oder ich beweise es nicht.” ist diese Unterscheidung ausgeschlossen.

    Im Gegenteil, wenn ich eine Idee, eine Studie, einen Beweis, eine eigene Schlussfolgerungen, den eigen Glauben oder das eigene Weltbild für Fehlerfrei halte, obwohl es solches gar nicht gibt, bin ich verloren.
    Dann kommt es dazu, dass man eine Studie, ein Foto, eine Aussage eine Zeugen, eine Idee oder was auch immer für unumstößlich richtig hält, da es ja ein ‘Beweis’ ist, auch wenn tausend Studien, Leute etwas anderes sagen.

    Neben der Fehlerhäufigkeit der Tests ist natürlich die Plausibilität der Behauptung wichtig, bevor ich sie ernst nehmen kann. Ob im Vorgarten ein Hund, ein Bär, ein Einhorn oder ein Klingone gesichtet wurde, erfordert ganz unterscheidlich genaue Beweise. Auch weil es oft ja plausiblere Alternativen gibt.

    Vielleicht aber wurde auch das Wort ‘außergewöhnlich’ ungünstig aufgefasst.
    Außergewöhnliche Beweise sind ja nicht deswegen außergewöhnlich, weil sie besonders raffiniert, oder künstlerisch wertvoll sind, sondern weil sie eine besonders kleine Fehlerrate aufweisen, wie so bei üblichen Beweisen nicht erreicht wird.

    Vielleicht sollten man die Forderung von Carl Sagan verbessern mit:
    “Außergewöhnliche Behauptungen benötigen Beweise mit einer außergewöhnlich kleinen Irrtumsrate.”

  10. #10 Dampier
    29. September 2018

    Guter Artikel, auch wenn ich ich mit bedingten Wahrscheinlichkeiten etc. schon immer schwergetan habe. Ich denke, ich habe jetzt gerade einigermaßen verstanden, worauf es ankommt, weiß aber nicht, ob ich das in ein paar Tagen in einer Diskussion noch referieren könnte … (naja, mein Problem).

    Mich würden mal ein paar Beispiele interessieren, wo tatsächlich außergewöhnliche Behauptungen aufgestellt wurden, die dann tatsächlich durch außergewöhnliche Belege verifiziert wurden. Mir fällt da spontan zB. der Nachweis des Chicxulub-Impacts durch Alvarez & Alvarez ein, weiß nicht, ob das in die Kategorie passt …

    Gibt es da klassische Fälle, die besonders gut als Beispiel dienen können?

  11. #11 Lercherl
    29. September 2018

    Mich würden mal ein paar Beispiele interessieren, wo tatsächlich außergewöhnliche Behauptungen aufgestellt wurden, die dann tatsächlich durch außergewöhnliche Belege verifiziert wurden.

    Vielleicht die Entdeckung der Supraleitfähigkeit durch Heike Kammerlingh Onnes. Damals gab es nichts, aber absolut gar nichts, was das beobachtete Verhalten der elektrischen Leitfähigkeit nahe dem absoluten Nullpunkt hätte erklären oder auch nur plausibel machen können. An seinen Experimenten war aber letztlich nicht zu rütteln, die wurden oft und sorgfältig reproduziert. Das mögen zwar keine “außergewöhnlichen Belege” sein, aber jedenfalls sehr überzeugende, gewichtige und solide.

  12. #12 Dampier
    29. September 2018

    @Lercherl
    War das dann nicht eher eine zufällige Entdeckung, oder war das vorher postuliert und als “zu außergewöhnliche Behauptung” abgetan worden?

  13. #13 rolak
    29. September 2018

    als Beispiel?

    Jetzt, wo Du fragst, Dampier, wundert es mich: mit einem angehängten ‘wie zB bei <vollzogener Ablauf’ kämpfte der Spruch beim Zitieren doch sofort ein paar Gewichtsklassen höher.

    Als Kriterium für die Auswahl böte sich der Abstand zwischen Hypothese und ‘na gut’ an (zwischenzeitliches Vergessen ausgenommen). Dann wiederum böten sich imho Wegeners Plattentektonik (~50y) und das klassische ‘De revolutionibus orbium coelestium’³ (bis ParallaxenFriedrich Bessel) an. Doch kundige Köpfe werden diese Liste egal nach welchem exakteren Kriterium (Aufwand in %Welt-BIP, HirnschmalzStunden, <name it>) noch wesentlich erweitern können, von mir aus gerne…

    _____________
    ³ hach, issat schön, wennmer solch Krimskrams flück nachschlaje kann :•)

  14. #14 Joseph Kuhn
    29. September 2018

    @ UMa:

    Ihr Argument, dass man sich bei einem komplizierten Beweis täuschen kann, verwischt den grundsätzlichen Unterschied zwischen der Möglichkeit des Beweisens in der Mathematik (was dort auch auch der methodisch korrekte Weg ist), und der logischen Unmöglichkeit, empirische Allaussagen zu beweisen, was methodisch korrekt zum Falsifikationismus führt.

    Einen Fehler in einem Beweis kann man beseitigen, die Unmöglichkeit, eine empirische Allaussage zu beweisen, ist nicht zu beseitigen.

  15. #15 Joachim Rpken
    29. September 2018

    Vielen Dank für die doch großanteilig positive Kritik.

    Als Beispiel für unplausible Behauptungen, die positivgetestet wurden, würde ich die spezielle und allgemeine Relativitätstheorie sowie die Quantenmechanik betrachten. Diese Theorien widersprachen in vielen Punkten dem damaligen Paradigma, aber sie haben groß mehrheitlich die ernst zu nehmenden Überprüfungen reproduzierbar überstanden und überstehen auch heutige Realitäts-Checks immer wieder. Das Paradigma hat sich dahingehend geändert, dass heutzutage diese Theorien als “normal” gelten und starke Abweichungen davon als außergewöhnlich.

    Als etwas kleineres Beispiel könnte man die Existenz der sog. Sprites – eine Art von Blitzen über den Gewitterwolken – erachten. Lange Zeit hatten z.B.Piloten Angstals Verrückt abgestempelt zu werden, wenn sie von ihren Sichtungen berichteten. Zugegeben, die Belege, dass es sie gibt, sind nicht statistischer Natur, aber sie wurden mehrheitlich und unabhängig reproduziert.

  16. #16 PDP10
    29. September 2018

    @Joachim Repken:

    Als etwas kleineres Beispiel könnte man die Existenz der sog. Sprites – eine Art von Blitzen über den Gewitterwolken – erachten.

    Monsterwellen fallen mir da sofort ein – wundert mich, dass @Dampier da nicht sofort drauf gekommen ist :-). – früher Seemansgarn, heute Gegenstand aufwändiger Forschung mit Satelliten etc.

  17. #17 Lercherl
    29. September 2018

    @Dampier

    War das dann nicht eher eine zufällige Entdeckung, oder war das vorher postuliert und als “zu außergewöhnliche Behauptung” abgetan worden?

    Die Supraleitung war von niemandem postuliert worden, sie hat alle überrascht, auch Kammerlingh Onnes. Also war es eine “außergewöhnliche Behauptung”, dass der elektrische Widerstand von Leitern unter einer bestimmten Temperatur plötzlich verschwindet. Zufällig war die Entdeckung insofern, als er nicht danach gesucht hat. Allerdings ist Kammerlingh Onnes sehr systematisch vorgegangen und hat zahlreiche Eigenschaften vieler Substanzen nahe dem absoluten Nullpunkt vermessen. Also musste er wohl früher oder später darauf stoßen.

  18. #18 Dampier
    29. September 2018

    Nehmen wir mal ein Extrembeispiel, Erich von Däniken. Bei seinesgleichen ist es ja meist so, dass sie nicht nur besonders außergewöhnliche Behauptungen aufstellen, sondern ihre sogenannten Belege eben auch außergewöhnlich dünn sind. Trotzdem würde als Beweis ihrer Thesen ja ein “normaler” wissenschaftlicher Beweis ausreichen (zB. ein zweifelsohne antiker Bauplan für einen Laser oder so).

    Das heißt für mich: auch außergewöhnliche Behauptungen benötigen nur normale wissenschaftliche Beweise. Was ja auch bei Monsterwellen zB. der Fall war.

    Das Paradigma hat sich dahingehend geändert, dass heutzutage diese Theorien als “normal” gelten

    Das mag ein Grund sein, warum es schwer fällt, heute Beispiele zu finden. Weil uns das aus heutiger Sicht als ganz normale Wissenschaft erscheint …

  19. #20 Alderamin
    29. September 2018

    Noch zwei Beispiele:

    – die beschleunigte Expansion des Universums
    – kalte Fusion

    Während im ersten Fall der Effekt von zwei Teams unabhängig voneinander gefunden wurde und wiederholt bestätigt (auch dadurch, dass das somit größere Weltalter nun endlich mit dem Alter der alten Kugelsternhaufen in Einklang zu bringen war), konnte niemand die Experimente von Fleischmann und Pons reproduzieren.

  20. #21 Dampier
    29. September 2018

    Also letztlich muss ich Alexa recht geben: Ein Beweis ist ein Beweis. Eine Steigerung von “Beweis” gibt es nicht. Also kann es auch keine “außergewöhnlichen Beweise” geben.

    Hm … andererseits … vielleicht meinte Sagan das nur quantitativ, im Sinne von “außergewöhnlich gut belegt” bzw. “eine überwältigende Menge an Beweisen”.

  21. #22 Dampier
    29. September 2018

    @Florian, danke für den Hinweis. Gute Kolumne. Schade, dass der Standard so extrem mit Skripten verseucht ist & einen mit Adblocker rausschmeißen will. Deswegen lese ich da auch nicht regelmäßig.

  22. #23 PDP10
    29. September 2018

    @Dampier:

    Hm … andererseits … vielleicht meinte Sagan das nur quantitativ, im Sinne von “außergewöhnlich gut belegt” bzw. “eine überwältigende Menge an Beweisen.”

    Hat er. Googeln hilft …

    Außergewöhnliche Behauptungen erfordern außergewöhnlich starke Beweise.

    Quelle: https://de.wikiquote.org/wiki/Carl_Sagan

    So macht die Aussage IMHO auch deutlich mehr Sinn …

  23. #24 Dampier
    29. September 2018

    @PDP10 Danke für’s raussuchen. Im Original ist es allerdings wiederum nicht so eindeutig:

    What counts is not what sounds plausible, not what we would like to believe, not what one or two witnesses claim, but only what is supported by hard evidence rigorously and skeptically examined. Extraordinary claims require extraordinary evidence.

    Womit wir wieder am Anfang wären … ;]

  24. #25 HF(de)
    29. September 2018

    Sind wir nicht, Beweise gibt es in Mathe, nicht in Naturwissenschften. DeepL übersetzt “Extraordinary claims require extraordinary evidence.” mit “Außerordentliche Ansprüche erfordern außergewöhnliche Nachweise.” (Nur mal so, als Beweis sozusagen.)

  25. #26 HF(de)
    29. September 2018

    PS: und man braucht in Mathe keine “überwältigen Menge an Beweisen”. Einer reicht.

  26. #27 Dampier
    29. September 2018

    @HF(de)

    Beweise gibt es in Mathe, nicht in Naturwissenschften

    Ist mir klar. Ich war so frei, das hier nicht so eng zu sehen. Einigen wir uns auf “Belege” (es geht hier ja nicht um Mathe).

  27. #28 HF(de)
    29. September 2018

    Mit Belegen hab ich kein Probem.

  28. #29 PDP10
    29. September 2018

    @Dampier:

    Nee, wir sind eben nicht wieder am Anfang:

    “Extraordinary evidence” ist eben nicht dasselbe wie “Aussergewöhnliche Beweise”

    Evidence ist nicht = Proof. Da ist das englische ein wenig differenzierter als wir im Deutschen. (Ausser im Juristischen. Da bedeutet “evidence” tatsächlich das gleiche, was man im gleichen Fachzusammenhang als “Beweis” im deutschen bezeichnet.)

    “außergewöhnlich starke Belege” scheint mir hier die beste Übersetzung zu sein.

    @HF(de):

    Das ist genau so einer der vielen Fälle in denen DeepL dann doch versagt, weil es nunmal keinen Kontext kann. Möglich, dass DeepL hundert mal besser als GoogleTranslate ist. Das betrifft aber fast immer nur Alltagsformulierungen. Es gibt Gründe, warum es sowas wie Fachübersetzer gibt.

    Ich gehe einfach mal davon aus, dass die Leute, die damals die Synchro für “Unser Kosmos” geschrieben haben, ihre Gründe hatten das genau so zu übersetzen.

  29. #30 PDP10
    29. September 2018

    Jetzt sind wir aber böse OT :-). Dabei ist der Artikel wirklich gut!

  30. #31 HF(de)
    29. September 2018

    Jetzt wird’s kompliziert 🙂 Für mich ist “Nachweis” als Synonym für “Beleg” ok, mich störte nur der “Beweis”. Hier lesen ja auch in Zukunft noch Leute, um sich schlau zu machen. Und ich dachte, da kann ein Hinweis auf den Unterschied nicht schaden… Ich will aber nicht weiter drauf rumhacken.

  31. #32 HF(de)
    30. September 2018

    Ich werde moderiert, macht nix. Und ja, der Artikel ist gut!

  32. #33 Metalgeorge
    30. September 2018

    @Joachim
    prima Artikel

    Diese Grundlagen sollte man doch einigen Populärjournalisten mal einbläuen.

    Mir stellt sich in diesem Zusammenhang die Frage zum Negativbeweis.
    Wie liesse sich dieses Prinzip auf die Richtigkeit von Theorien anwenden.
    Wann ist eine Theorie als falsch anzusehen?
    Genügt es da nicht, nur ein zwei Beispiele zu finden, die dieser Theorie widersprechen?

  33. #34 Karl Mistelberger
    30. September 2018

    Bei: https://www.spektrum.de/magazin/methan-pflanzen-und-klimawandel/869374

    Erst Pons und Fleischmann, jetzt Keppler und Röckmann?
    08.05.2007, Dr. Karl Mistelberger, Erlangen

    Beim ersten Durchlesen des Artikels schienen mir die Befunde ganz sensationell zu sein. Am Ende hatte ich den Eindruck, dass es wohl dringend notwendig sei, den Mechanismus der Methanproduktion zu klären, zumindest aber die Produktion unter garantiert kontrollierten Bedingungen nachzuweisen, frei nach dem sinngemäß von James Randi geäußerten Satz: “Wenn jemand behauptet eine Ziege in seinem Hinterhof zu halten, glaube ich ihm sofort, behauptet er aber, ein Einhorn zu besitzen, muss er schon überzeugende Beweise haben.

    Nun ist ein gerade online veröffentlichter Versuch, die Ergebnisse von Keppler und Röckmann zu bestätigen, negativ verlaufen. Ein Team um Tom Dueck aus Wageningen begaste Pflanzen mit Kohlendioxid, das mit Kohlenstoff-13 markiert war, und fand kein C-13-haltiges Methan (New Phytologist, EarlyOnline Articles, siehe: http://www.blackwell-synergy.com/doi/pdf/10.1111/j.1469-8137.2007.02103.x)

    Nach Veröffentlichung der Arbeit von Dueck et al. habe ich den Artikel noch einmal gründlich gelesen und nach Abwägung aller Argumente würde es mich nicht mehr wundern, wenn es der im Widerspruch zu aller Lehrmeinung beträchtlichen Methanproduktion von Pflanzen nicht anders erginge als der kalten Kernfusion: Der Effekt ist im Experiment nur schwierig nachzuweisen und je genauer er untersucht wird, desto kleiner wird er, bis er schliesslich ganz verschwunden ist.

  34. #35 Adam
    Berlin
    2. Oktober 2018

    @ Joachim Rpken

    Sehr schöner Artikel!

    Inhaltlich:
    Halte ich mich komplett raus mit Kritik, da komplett ohne Ahnung, aber nun mehr aufgrund deines Beitrags. Vielen Dank!

    Form:
    Da ist meine Kritik 🙂

    Das Ding ist, ich weiß nicht, was für Anforderungen an wissenschaftliche Arbeiten gestellt werden, sicher keine geringfügigen. Bei Blogs, selbst bei einem “speziellen” Publikum, ist es aber anders. Diese wollen in erster Linie gelesen werden. Geschmökert werden! Vor allem, wenn man nicht nur ewig die gleichen Leser ansprechen will.

    Nicht jeder hat dabei die Motivation alleine durch den Inhalt. Hier helfen nicht nur genug Absätze (sind vorhanden), sondern auch kleinere Einteilungen mit mehr Zwischenüberschriften. Diese wirken wie kleine “Lese-Erfolge”.

    Man darf auch nicht vergessen, dass Lesen nicht jedermann gleichermaßen leicht fällt, zudem online (gibt Unterschiede zu Print, bezogen v.a. aufs Querlesen und räumliche Verortung, die bei Print leichter fallen, als onScreen, gab letztens iwo ne Untersuchung dazu).

    Und ein Fazit sollte wirklich ein Fazit sein – und nicht vom Volumen her ein eigener Artikel 🙂

    Wie gesagt: Kritik nur das “Äussere” betreffend, sonst Daumen hoch.