In der Süddeutschen Zeitung ist heute ein Artikel von Sebastian Herrmann über die Replikationskrise in der Psychologie. Die Psychologie ist, wie alle empirischen Wissenschaften – von der Ökonomie bis zur Biomedizin – dem Risiko ausgesetzt, dass sich Studienbefunde bei einer Überprüfung nicht bestätigen lassen. So weit, so trivial. Unter den Bedingungen eines Wissenschaftsbetriebs allerdings, der auf Publikationen auf Teufel komm raus ausgerichtet ist und in dem immer mehr Müll publiziert wird, kann das ärgerlich werden. Oder gefährlich, wie in der Biomedizin. In der Medizin gibt es daher seit geraumer Zeit Anstrengungen, die Flut von wertlosen Publikationen einzuschränken. Der Erfolg ist überschaubar.
Die Diskussion über nicht replizierbare Studien in der Psychologie ist auch nicht neu und seit Jahren häuft sich das empirische Material dazu. Sebastian Herrmann verweist in seinem Artikel auf aktuelle Ergebnisse des „Many Labs 2“ genannten Replikationsprojekts, bei dem in 100 Labors weltweit 28 psychologische Studien wiederholt wurden – und nur in 14 Fällen die Wiederholung im Sinne des ersten Versuchs ausfiel.
Nur, was bedeutet das eigentlich? Einerseits besteht seit langem Konsens darüber, dass zu viele schlechte Studien publiziert werden und auch ein ausreichender p-Wert allein noch lange kein vertrauenswürdiges Ergebnis anzeigt. Andererseits stellt sich die Frage, ob in der Psychologie, dort wo es z.B. nicht mehr um wahrnehmungspsychologische Fragen oder andere „biologienahe“ Dinge geht, vielleicht auch sehr gut gemachte Studien aus grundsätzlicheren Gründen in der Replikation scheitern können. Für den Versuch der Replikation einer Untersuchung wird gewöhnlich unterstellt, dass dem untersuchten Phänomen ein gesetzesförmiger Zusammenhang zugrunde liegt, der beim zweiten Mal nicht anders ist als beim ersten Mal. Bei der Wirksamkeit eines Krebsmedikaments beispielsweise wird man das – im Prinzip – annehmen dürfen. Aber was ist mit sozialpsychologischen Fragen? Zum Beispiel mit der Neigung, Körpergröße oder Alter als Autoritätssignale zu lesen? Oder dass Menschen in Anwesenheit anderer bei Notfällen weniger hilfsbereit sind?
Könnte es sein, dass auf der Ebene, auf der so etwas experimentell modelliert wird, gar kein kausaler Zusammenhang besteht? Dass wir hier biologisch zu einem bewussten Verhalten fähig sind (dem auf einer feiner granulierten Ebene natürlich materielle Prozesse zugrunde liegen, es geht nicht darum, einen Geist jenseits des Gehirns einzuführen)? Wenn dem so ist, hätte man es in solchen Fällen nicht mit mangelnder Replizierbarkeit aufgrund unzureichenden Studiendesigns zu tun, sondern mit einem falschen Menschenbild, das die Fähigkeit bewussten Handelns auch dort ausblendet, wo es für eine gegenstandsadäquate Forschung zwingend in Rechnung zu stellen wäre.
Selbst statistisch verlässliche Zusammenhänge zeigen bekanntlich nicht immer gesetzesförmige Zusammenhänge an. Um ein vielzitiertes Beispiel des 1995 verstorbenen Psychologen Klaus Holzkamp sinngemäß aufzugreifen: Den Zusammenhang „Wenn es regnet, zieht man eine Jacke an“ wird man replizierbar als zentrale statistische Tendenz in größeren Kollektiven immer wieder beobachten können. Aber nicht deswegen, weil Regen unmittelbar Jackenanziehen verursacht (wer sich abhärten will, macht es nicht), sondern weil es in der Regel ganz vernünftig ist, das zu tun. Es macht ersichtlich wenig Sinn, ein solches Begründungsmuster mit experimentellen Mitteln wie einen kausalen Zusammenhang zu testen. Weder vernünftige Reaktionen auf äußere Umstände noch Gewohnheiten sind einfache Kausalzusammenhänge. Das ungelöste Grundlagenproblem der Psychologie, das zwischenzeitlich immer wieder einmal erfolgreich verdrängt wird, kommt möglicherweise mit der Replikationskrise in der Psychologie wieder zum Vorschein.
Ed Yong zitiert in seinem Kommentar zu den Many Labs 2-Befunden in „The Atlantic“ den Psychologie-Professor Sanjay Srivastava von der University of Oregon mit einer dunklen Ahnung in dieser Richtung:
“‘Outside the lab, real-world phenomena can and probably do vary by context,‘ he says. ‚But within our carefully designed studies and experiments, the results are not chaotic or unpredictable. That means we can do valid social-science research.‘
The alternative would be much worse. If it turned out that people were so variable that even very close replications threw up entirely different results, ‚it would mean that we could not interpret our experiments, including the positive results, and could not count on them happening again,‘ Srivastava says. ‚That might allow us to dismiss failed replications, but it would require us to dismiss original studies, too.‘
Das wäre dann auch eine Erklärung für Sebastian Herrmanns Feststellung „Kaum eine Disziplin produziert so viele Forschungsergebnisse, die einer weiteren Überprüfung nicht standhalten, wie die Psychologie.“ Allerdings wäre seine Frage „Steckt das Fach in einer Krise?“ anders zu beantworten als mit einem hoffnungsvollen „Nicht unbedingt: Die Selbstreinigung könnte ein Vorbild für andere Wissenschaften werden“. Nur auf noch bessere experimentelle Designs und bessere Statistik zu setzen, wäre dann nämlich eine Sisyphos-Strategie. Wobei man sich seit Camus Sisyphos natürlich auch als glücklichen Menschen vorstellen kann.
Kommentare (30)