Wenn wir davon ausgehen, dass die Wiederholbarkeit wissenschaftlicher Resultate durch andere WissenschaftlerInnen der Goldstandard der wissenschaftlichen Erkenntnis ist, dann wäre wohl (wieder mal) ein dramatischer Kurseinbruch zu vermelden: Laut einem Paper in der aktuellen Ausgabe von Science konnten in einer Stichproble vom 100 publizierten psychologischen Studien nur in etwa 40 Prozent der Arbeiten die gefundenen Ergebnisse bestätigt werden konnten: Estimating the reproducibility of psychological science. Wer nun denkt, naja, Psychologie, das ist ja eh’ keine “richtige” Wissenschaft, sei daran erinnert, dass dieses Problem der Nicht-Reproduzierbarkeit von Ergebnissen in anderen Disziplinen, zum Beispiel in der Krebsforschung, noch dramatischer ausfällt, wie ich hier schon geschrieben hatte: Laut einem Beitrag in nature liegt die Fehlerquote in manchen onkologischen Studien sogar fast bei 90 Prozent…

Doch ehe wir nun die Alarmglocken über die Unzuverlässigkeit der Wissenschaft läuten (wer die hören bzw. lesen will, klicke zum Beispiel hier oder hier), lesen wir noch ganz schnell einen Satz aus dem Abstract des Science-Papers, der die Sache schon ein bisschen relativiert:

… if no bias in original results is assumed, combining original and replication results left 68% with statistically significant effects.

Also: Wenn man die (brauchbaren) Daten/Resultate aus den Original-Studien und ihren Reproduktionsversuchen kombiniert, dann lassen sich die jeweiligen beobachteten Effekte in 68 Prozent der Fälle mit statistischer Signifikanz bestätigen. Das ist schon mal weitaus weniger dramatisch und auch nicht weiter verwunderlich: Die Studienwiederholungen sind ja nichts anderes als zusätzliche Daten, und mehr Daten erlauben, nach dem common sense der Wissenschaft, auch zuverlässigere Resultate. Mit anderen Worten: Die Feststellung alleine, dass die Ergebnisse einer wissenschaftlichen Studie von einem anderen Team nicht reproduziert werden konnten, sagt erst mal nichts darüber, wer da nun daneben lag – die Originalstudie oder die Kontrollstudie.

Aber das Problem ist doch gar nicht, dass wissenschaftliche Resultate nicht reproduziert werden konnten (i.e. dass die ursprünglichen Ergebnisse also “falsch” gewesen sein könnten) – das Problem ist, dass dies offenbar gar nicht häufig genug untersucht wird. Nach ihrem Selbstverständnis beruht Wissenschaft ja auf der Falsifikation – Erkenntnisse werden immer wieder, durch neue Studien und Experimente, auf ihre Haltbarkeit getestet. Doch in der Realität ist dies längst nicht der Fall.

Und das ist eher ein institutionelles Problem der Forschungsfinanzierung und der Forschungspublikation. Wenn Forschungsgelder beantragt und Paper zur Publikation eingereicht werden, dann ist “Originalität” immer eines der obersten Kriterien: Wozu Geld für etwas ausgeben, das schon erforscht wurde, wozu teure Journalseiten für Erkenntnisse verschwenden, die bereits publiziert wurden? Sicher, wenn es um grundlegende, umwälzende – und vielleicht sogar erst mal kontroverse – Erkenntnisse geht, wie Einsteins Relativitätstheorie oder Wegeners Kontinentaldrift (um mal auf zwei historische Beispiele zurückzugreifen), dann gibt es genug Skeptiker, die diese neuen Theorien anzweifeln und widerlegen wollen. Und die dann auch damit rechnen können, dass ihre Widerlegung mindestens ebenso viel Aufmerksamkeit erringen wird wie das “Original”.

Doch welche Sensation wäre es, zu verkünden, dass man die Ergebnisse einer Studie darüber, ob und wie der Konsum süßer Getränke die Wohnortwahl von CollegestudentInnen beeinflusst, nicht zuverlässig reproduzieren konnte? Welcher Stifterverband würde dafür Geld bereitstellen, welches Journal wollte diese Nacharbeit drucken?

Doch genau das müsste eigentlich der Goldstandard sein: Jede wissenschaftliche Behauptung, jede Erkenntnis sollte auf den Prüfstand geschickt werden. Peer review sollte dies eigentlich gewährleisten, doch wahrscheinlich wird selbst im Idealfall dabei nur geprüft, ob die Methoden und Prozesse adäquat konzipiert und dokumentiert und die Resultate daher, nach wissenschaftlichen Kriterien, plausibel sind. Vielleicht sollte mit jedem bewilligten Forschungsprojekt die Forderung – gepaart mit der entsprechenden Kostendeckung – kombiniert sein, mindestens ein bereits publiziertes Projekt nachzustellen?

flattr this!

Kommentare (12)

  1. #1 BreitSide
    Beim Deich
    28. August 2015

    Guter Gedanke. Und die Begründung (auch dafür, dass es wohl nicht anders wird) kommt mir auch schlüssig vor. Leider…

    Dass alle quantitative Forschung am Menschen sehr schwierig ist, ist Dir ja auch klar. Wir sind halt nicht eine langwierig auf Uniformität gezüchtete Linie von weißen Leuten – äh, Mäusen… 😉

  2. #2 Martin Haug
    28. August 2015

    Wiederlegung durch Studienwiederholung ist nicht die einzige Möglichkeit um zu überprüfen, ob Studienergebnisse stimmen. Wenn ich mit einer Studie weiterarbeite fällt mir doch auch irgendwann auf, dass da was nicht stimmen kann.

    Zum Beispiel, wenn eine Studie zum Ergebnis kommt, dass Mädchen schlechter in Mathe sind als Jungen. Wenn ich das für die Bildungspolitik verwende, wird mir schnell auffallen, dass die Durschnittsnoten das genaue Gegenteil sagen. Da merkt man dann auch dass hier etwas nicht stimmt.

    Just my two cents.

  3. #3 Martin Haug
    28. August 2015

    Studien mit denen nicht weitergearbeitet wird, sind wissenschaftlich wahrscheinlich nicht so wichtig.
    (Was natürlich die Esos damit machen ist eine andere Baustelle)

  4. #4 rolak
    28. August 2015

    auf Uniformität gezüchtete Linie von weißen .. Mäusen

    Diese Schupos gibts doch gar nicht mehr, BreitSide.

    btt: So dringend es vieler Reproduktions- aka WiderlegungsVersuche bedarf, so schwierig scheint es zu sein, dies sexy genug zu machen. Obwohl genügend Tatendrang vorhanden war, wurde schon Anfang der 80er der Vorschlag, ‘zwischen Praktikum¹ und paper’ doch kleinen StudiGruppen irgendwelche RVersuche als SemesterÜbung aufzubürden seitens der Uni mit irgendwas im Spann von (wiebitte?, keinesfalls!) bedacht.
    Heute könnten die als ‘gut’ benoteten (also die sauberen) Arbeiten schön in einen pool á la arXiv geworfen werden…

    _____
    ¹ war Physikstudium

  5. #5 BreitSide
    Beim Deich
    29. August 2015

    Weiße Mäuse gibt´s sehr wohl noch!

    Meist vergesellschaftet mit rosa Elefanten…;-)

  6. #6 Joseph Kuhn
    29. August 2015

    “(…) die Ergebnisse einer Studie darüber, ob und wie der Konsum süßer Getränke die Wohnortwahl von CollegestudentInnen beeinflusst (…)

    Mangelnde Relevanz ist bei vielen Studien, nicht zuletzt in der akademischen Psychologie, das eigentliche Problem. Da ist es fast schon egal, ob sich die Ergebnisse reproduzieren lassen oder nicht.

    Und mindestens genauso frustrierend: wenn hunderte von Studien immer wieder den massiven Zusammenhang zwischen sozialer Lage und Gesundheit reproduzieren, der Befund aber ohne Folgen bleibt, während jeder biomedizinische Furz als grandioser Durchbruch verkauft wird – bis sich herausstellt, dass die Sache nicht reproduzierbar ist, keine klinische Relevanz hat oder …

  7. #7 ulfi
    30. August 2015

    “… if no bias in original results is assumed, combining original and replication results left 68% with statistically significant effects.”

    dann hoffe ich mal, dass sie auch die richtigen statistischen Tests gewehlt haben und die Konfidenzintervalle passend angepasst. Diese retesting auswertung sind naemlich suuuuuper tricky. Die Wahrscheinlichkeit, dass ein signifikantes Resultat durch einen neuen Datensatz nicht mehr signifikant wird, ist nemlich deutlich verschieden von “bleibt signifikant”. Das heisst, wenn wir ein p<0.05 false positive nehmen (H_0 gilt, rauschen sagt aber H_1) dann ist auch hinterher, bei der zusammenfassung der alten und neuen Daten die wahrscheinlichkeut fuer H_1 deutlich groesser als wenn man die alten Daten komplett vergisst…immerhin konditionieren wir ja auf "erstes ergebnis hat deutlichen outlier" oder aehnliches.

  8. #8 CM
    30. August 2015

    Könnte es sein, dass das Problem (von Joseph in meinen Augen richtig beschrieben) seine Ursache auch darin hat, dass zu wenige orignelle Denker Themen finden? Sprich: Die Berufungspolitik, die a) hinter Moden hinterherläuft und b) Mittelmaß fördert?

  9. #9 2xhinschauen
    30. August 2015

    Die Bemerkung von Joseph Kuhn ist so grausam wahr, dass man eigentlich gar nicht weiterdebattieren muss: Die statistische Signifikanz ist immer das Problem in vielen/allen Disziplinen, aber die mangelnde Relevanz der Ergebnisse konzentriert sich einfach in manchen Fächern.

    Bei Ulrich Berger nebenan gab es vor kurzem einen Austausch (https://scienceblogs.de/kritisch-gedacht/2014/10/31/verbreitung-von-unsinn-eine-kritik-der-kritik/) unter anderem über die “üblichen” Methoden in der psychologischen Forschung, die tief blicken lässt. Darin wurde aus berufenem Munde (Andreas Hergovich, Wien) vor zu großen(!) Stichproben gewarnt, weil dadurch auch kleine Effekte zu statistischer Signifikanz finden können, was man ja nicht wolle, das ganze gleich mit entsprechend bedeutungslosen Beispielen belegt. So, als ob es auf die Relevanz gar nicht ankäme, Hauptsache man findet in seinen Daten überhaupt irgendetwas, auch wenn man gar nicht danach gesucht hat und das Studiendesign dafür vielleicht gar nicht geeignet war. Jedenfalls liest sich das so.

    Natürlich müssen irrelevante Studienergebnisse nicht überprüft werden. Man sollte für irrelevante Fragen gleich von vornherein kein Geld ausgeben, jedenfalls kein Steuergeld.

    Die Psychologie wäre m.E. so ein Kandidat dafür, vom akademischen Fach zum Handwerk erhoben zu werden *grummel

  10. #10 Frank Wappler
    https://free.wikipedia.now
    31. August 2015

    Jürgen Schönstein schrieb (August 28, 2015):
    > Wenn wir davon ausgehen, dass die Wiederholbarkeit wissenschaftlicher Resultate durch andere WissenschaftlerInnen der Goldstandard der wissenschaftlichen Erkenntnis ist […]

    Tja, wenn das Wörtchen „wenn“ nicht wär …

    Erneut sei auf den wesentlichen Unterschied zwischen „Wiederholbarkeit“ („replicability“) und „Nachvollziehbarkeit“ („reproducibility“; „comprehensibility“) hingewiesen; vgl. Kommentare zu https://scienceblogs.de/geograffitico/2013/11/25/denken-auf-und-ueber-englisch/ .

    Tja, wenn das Wörtchen „wenn“ nicht wär …

    Erneut sei auf den wesentlichen Unterschied zwischen „Wiederholbarkeit“ („replicability“) und „Nachvollziehbarkeit“ („reproducibility“; „comprehensibility“) hingewiesen; vgl. Kommentare zu https://scienceblogs.de/geograffitico/2013/11/25/denken-auf-und-ueber-englisch/ .

    Ersteres fordert Wiederholung (Gleichheit, oder zumindest keine signifikante Ungleichheit) von Ergebniswerten in wiederholten Versuchen.

    Letzteres fordert lediglich (und unabhängig von Erwartungen oder Plausibilitätsvorstellungen) die adäquate Konzeption und Dokumentation der verschiedenen Versuche (Messgrößen, Beobachtungsdaten); so dass überhaupt beurteilt werden kann, in wie fern verschiedene Versuche wiederholte Durchführungen einer bestimmten Methodik darstellten, die entsprechenden einzelnen Ergebnisse einzeln gültig und ggf. kommensurabel sind und deren Gleichheit oder Ungleichheit überhaupt sinnvoll bewertet werden kann, unabhängig davon, ob und in wie fern sie sich dann als gleich oder ungleich herausstellen.

  11. #11 Jürgen Schönstein
    31. August 2015

    @Frank Wappler Da ist was dran: Sie wiederholen ja auch Ihre Kommentare, obwohl niemand nachvollziehen kann, was Sie eigentlich wollen. Aber im Fall der Wissenschaft sind sowohl Nachvollziehbarkeit als auch Wiederholbarkeit gefordert, und beide sind im Kern das gleiche: Wenn Versuche (beispielsweise) so umfassend und präzise beschrieben sind, dass eine mit der Materie vertraute Person allein schon beim Lesen der Beschreibung nachvollziehen kann was hier veranstaltet wurde und dann auch – im Kopf, oder auf dem Papier – nachvollziehen kann, wie die Ergebnisse zu erklären sind. Und diese sollten dann auch wiederholbar sein. Erst wenn beides möglich und gegeben ist, kann man eine wissenschaftliche Erkennnis als fundiert bezeichnen. Wenn entweder nicht nachvollziehbar ist (sowohl theoretisch als auch praktisch), was überhaupt gemacht wurde, oder wenn dies zwar möglich ist, davei aber keine stabilen oder mit dem Ausgangsversuch auch nur in Grenzen vergleichbare Resultate herauskommen, dann sind die Aussagen eben nicht belegbar.

  12. #12 Frank Wappler
    https://abc--ich.will.lesen--was.ich.schreiben.kann
    1. September 2015

    Jürgen Schönstein schrieb (#11, August 31, 2015):
    > […] Erst wenn beides möglich und gegeben ist, kann man eine wissenschaftliche Erkennnis als fundiert bezeichnen.

    Ist die Feststellung und Erklärung/Deklarierung von „Instabilität“ etwa keine „fundierte wissenschaftliche Erkenntnis“, oder nur eine geringere als die von „Stabilität“?

    Sind die einzelnen, zur Ermittlung der genannten Feststellungen notwendigen (jeweils als „gültig“ berücksichtigten) Ergebnisse jedes einzelnen Versuchs nicht auch an sich fundierte wissenschaftliche Erkenntnisse“?

    Oder sollten etwa „fundierte wissenschaftliche Erkenntnisse“ von „unfundierten“ unterschieden werden?? (Ockham behüte!)

    Der Unterschied scheint eher ein lediglich sekundärer, nämlich dass sich die „stabilen“ bzw. „belegten“ Ergebnisse wohl etwas leichter merken und mitteilen lassen, und womöglich auch zu Erwartungen Anlass geben, die sich ebenfalls etwas leichter merken lassen, bis der jeweils nächste Versuch durchgeführt und ausgewertet und als „gültig“ befunden wäre.