Im New Yorker dieser Woche findet sich ein interessanter Artikel von Jonah Lehrer (leider kostenpflichtig) zu einem Phänomen, das grundlegende Fragen zur wissenschaftlichen Methode stellt. Betitelt ist der Artikel mit “Die Wahrheit nutzt sich ab” (The Truth Wears Off)

Der Ex-Sciencblogskollege (vielleicht stecke ich mir damit eine etwas zu bunte Feder an den Hut, schreibt Jonah doch in einer völlig anderen Liga), welcher jetzt für Wired bloggt hat für den New Yorker den Decline Effect (Abnahmeeffekt) einen Artikel verfasst (der Post ist etwas länger, da der Artikel kostenpflichtig ist und sechs Seiten umfasst, man möge mir verzeihen und dies als Dienstleistung betrachten). Worum geht es?

Oft werden neue Entdeckungen mit Trompeten und Fanfaren begrüsst und später stellt sich dann die Katerstimmung ein. Die spezialisierte Publikationen feiern solche Durchbrüche ebenso wie die populärwissenschaftlichen Medien. “Wissenschaftler haben herausgefunden…” wir alle kennen und stürzen uns oft auf diesen Typ Artikel. Es geht hier gar aber nicht um Verzerrungen und Verkürzungen, die als Konzession an die breite Masse gemacht werden. Es geht um statistisch signifikante, solide Resultate, peer reviewed und in prestigeträchtigen wissenschaftlichen Zeitschriften veröffentlicht. Auch bei solchen Resultaten gibt es ein Phänomen, dass der Wissenschaft sorgen macht: Oft wird der Effekt bei einer Wiederholung des Experiments über die Jahre kleiner, manchmal verschwindet er ganz. Auch hier sagt uns die Statistik: Die Resultate sind ebenso solide und vertrauenswürdig wie die ursprüngliche Studie. Hat sich das Universum gegen uns verschworen?

Reproduzierbarkeit ist ein wichtiges Element in der Etablierung von wissenschaftlichen Resultaten. Sind diese nicht reproduzierbar, ist das oft ein Hinweis darauf, dass entweder die Forschenden nicht objektive genug an die Sache herangingen oder aber dass uns schlicht der Zufall ein Bein gestellt hat. Warum also häufig dieses Muster: Klares solides Resultat und dann langsame Ernüchterung beim Replizieren, manchmal bis zum Verschwinden des Resultats? Ist etwas an der wissenschaftlichen Methode falsch oder wo liegt das Problem?

Jonah Lehrer erwähnt mehrere mögliche Erklärungen. Zuerst und bestimmt von Bedeutung ist der sogenannte Publication Bias. Wissenschaftliche Zeitschriften haben eine starke Präferenz für Resultate die positiv sind. Vermutlich interessieren sich die meisten von uns für Resultate, die einen neuen Zusammenhang aufzeigen und weniger für Experimente, die zeigen, wo es keinen solchen gibt (sogenannte Null Resultate). Diese sind aber ebenso wichtig.

Dies kann aber nur einen Teil des Effektes erklären. Gemäss dem Artikel findet man den selben Effekt auch bei nicht-veröffentlichten Resultaten. Ich vermute, dass es dafür kaum Zahlen gibt. Im Artikel findet sich jedoch ein Beispiel, wo ein Forscher versucht die Nicht-Replizierbarkeit eines parapsychologischen Experiments zu reproduzieren, was ihm auch gelingt: Nach einem anfänglich positiven Resultat, verschwindet der Effekt. Das führt uns zu anderen Erklärungen.

Da wären zum Beispiel statistische Artefakten. Auch ein statistisch signifikantes Resultat kann falsch sein. Wir wissen nur mit einer bestimmten Wahrscheinlichkeit ob dieses Resultat vielleicht nicht einfach zufällig zustande gekommen ist. Es ist zwar unwahrscheinlich, aber das ist etwas anderes als unmöglich. Wenn man das Experiment oft genug wiederholt, wird ziemlich sicher über kurz oder lang einmal ein Resultat auftauchen, welches dem vorherigen widerspricht. Es ist vielleicht nicht sehr wahrscheinlich mit einem Würfel fünfmal hintereinander die selbe Zahl zu würfeln. Wenn man lange genug würfelt, wird das aber irgendwann passieren.

Ein anderes Problem könnte schlicht die selektives Berichten (selective reporting) der Forschenden sein. Man weiss was man gerne für ein Resultat hätte und das beeinflusst wie man Dinge bewertet, misst, einschätzt und codiert. Das ist nicht dasselbe wie Fälschen von Daten. Es geschieht wahrscheinlich unbewusst und auf einer sehr subtilen Ebene. Im Artikel findet sich ein Beispiel wo Studien zur Fluctuating Asymmetry (Fluktuierender Asymmetrie) statistisch auf einen solchen reporting bias untersucht wurden und tatsächlich findet man verdächtige Muster. Ein weiteres interessantes Indiz ist, wie Akupunkturstudien in China anscheinend häufiger positive Resultate produzieren als im Westen.

Das Jagen nach statistischer Signifikanz kann ein weiteres Problem sein. Weil man ein positives, statistisch signifikantes Resultat abliefern will, sucht man nach einem solchen. Es ist dann nur eine Frage der Zeit bis die Gesetze der Wahrscheinlichkeit ein solches liefern. Es handelt sich dabei aber in der Regel um ein Zufallsresultat. Man findet einen statistischen Ausreisser, nicht mehr.

Dieses Problem unter Kontrolle zu bringen ist extrem schwer. Jonah Lehrer beschreibt ein Experiment indem drei Labors die gleichen Tests an Mäusen durchführten. Man versuchte exakt die selben Bedingungen zu schaffen (bis zur Marke der Plastikhandschuhe mit denen man die Mäuse anfasste), trotzdem resultierte eine grosse Variation in den Ergebnissen. Menschen bleiben Menschen und Wahrscheinlichkeiten bleiben Wahrscheinlichkeiten.

Bevor sich nun aber jene freuen, die schon “immer wussten, dass die wissenschaftliche Methode nichts taugt”, sollten sie sich gut überlegen, was dies genau bedeutet. Die wissenschaftliche Methode hat ihre Schwächen, das leugnet niemand, der sie wirklich verstanden hat. Diese ständig auszubessern ist etwas woran die Wissenschaft arbeitet. Keinesfalls kann man daraus schliessen, das “alternative Methoden” gleichviel oder gar mehr Erkenntnisgewinn versprechen. Das Gegenteil trifft zu. Wenn man die existierenden Probleme betrachtet, sieht man schnell, dass es mehr wissenschaftliche Methodik braucht. Es sind nicht die Methoden, die nicht funktionieren, es sind die “menschlichen Störungen”, die sie behindern und deren Einfluss man reduzieren muss. Es mag alles nur eine Annäherung an die Wahrheit sein, aber es ist auf weiter Flur das Beste, das wir zur Hand haben. Jonah Lehrer schliesst seinen Artikel mit folgendem Satz:

Just because an idea is true it doesn’t mean it can be proved. And just because an idea can be proved doesn’t mean it’s true. When the experiments are done, we still have to choose what to believe.

Nur weil eine Idee wahr ist, heisst das nicht, dass sie bewiesen werden kann. Und nur weil eine Idee bewiesen werden kann, heisst das noch lange nicht, dass sie auch wahr ist. Wenn die Experimente gemacht wurden, müssen wir immer noch auswählen, was wir glauben wollen.

Dieser Satz wird bestimmt missbraucht werden von Fans irgendwelcher hahnebüchenen Theorien. Doch was Jonah Lehrer damit sagt und das soll hier nochmals festgehalten werden, ist auswählen aus wissenschaftlich korrekt produzierten, gleichwertigen Resultaten und nicht beliebiges Rosinenpicken vom Jahrmarkt der Skurilitäten. Auswählen im Wissen unserer Unzulänglichkeiten und zwar wie er scrheibt: “Nachdem die Experimente gemacht wurden”.

Kommentare (5)

  1. #1 KommentarAbo
    Dezember 10, 2010

  2. #2 Lucomo
    Dezember 10, 2010

    Erinnert mich sehr an den Effekt der “Regression zur Mitte”

    https://secure.wikimedia.org/wikipedia/de/wiki/Regression_zur_Mitte

    Es dürften die gleichen Mechanismen wirken.

    Deshalb ist eben die Definition einer als relevant zu erachtenden Effektgröße VOR Durchführung einer Studie so wichtig. Signifikanzen sind zwar wichtig, sagen aber für sich genommen dann doch nicht viel aus.

  3. #3 Sven Türpe
    Dezember 10, 2010

    Ist etwas an der wissenschaftlichen Methode falsch oder wo liegt das Problem?

    Das Problem liegt in einem Missverständnis. Veröffentlichte Resultate sind mit der Veröffentlichung weder richtig noch bereits Erkenntnisse. Veröffentlichte Resultate sind stets nur Beiträge zum kollektiven Erkenntnisgewinn, den der Wissenschaftsprozess herbeiführt. Erkenntnisse werden nur aus jenen Resultaten oder Teilen von Resultaten, die a) die Zeiten überdauern, ohne korrigiert zu werden, und b) relevant bleiben. Dass die ersten Resultate von der schließlich gewonnenen Erkenntnis abweichen und manche davon sogar noch verworfen werden müssen, ist völlig normal. Nur durch diese Korrekturmöglichkeit wird überhaupt Wissenschaft daraus. Demgegenüber sind die gepfegten Veröffentlichungsrituale zwar unter praktischen Gesichtspunkten sinnvoll und nötig, für die Wissenschaftlichkeit und den Erkenntniswert aber bedeutungslos. Deshalb kann es auch nicht darauf ankommen, ob etwas formal veröffentlicht wurde.

  4. #4 Walter Orlov
    Dezember 11, 2010

    Man weiss was man gerne für ein Resultat hätte und das beeinflusst wie man Dinge bewertet, misst, einschätzt und codiert. Das ist nicht dasselbe wie Fälschen von Daten. Es geschieht wahrscheinlich unbewusst…

    Der Autor versucht wohl die Situation zu verharmlosen… Die Anpassung geschieht nun immer bewusst. Und warum soll dies “nicht dasselbe wie Fälschen von Daten” zu sein? Ja, vielleicht ist das tatsächlich nicht “dasselbe”, weil es schon um die Verfälschung der Ergebnisse handelt, was, denke ich, noch tückischer ist. Dadurch bleibt der wirkliche Stand der Dinge weiterhin unentdeckt, auch wenn die umfangreiche Forschung bereits abgeschlossen wurde und die Sache für erledigt erklärt.

  5. #5 AndreasM
    Dezember 12, 2010

    @Walter Orlov: Daten fälschen heisst Daten absichtlich zu verändern. Der hier angesprochene Effekt ist aber gar keine Verfälschung. Es handelt sich nur um eine meist unbewusste tendenzielle Verschiebung der Ergebnisse in eine bestimmte Richtung durch die Art, wie man überhaupt zu den Ergebnissen kommt und dadurch, mit welchem Bias man sie interpretiert.
    Jede einzelne dieser Verschiebungen ist gedeckt durch Fehlerbalken u.ä. aber die Aneinanderreihung dieser Verschiebungen kann dann tatsächlich zu falschen Ergebnissen führen.