Ans Ende diese Überschrift sollte ich eigentlich ein Fragezeichen setzen, denn ich bin mir nicht sicher, ob es dieses Dilemma überhaupt gibt. Aber so, wie Mina Bissell vom Lawrence-Berkeley-Laboratorium in der aktuellen Ausgabe von nature das Problem schildert, hat es zumindest den Anschein, als ob es die Wissenschaft in einen Zwiespalt bringen könnte. Reproducibility: The risks of the replication drive schreibt sie dort, und das Problem, um das es dabei geht, ist an sich schnell erklärt: Mit zunehmender Spezialisierung der Forschung (und der Forschungsapparate) werde es immer schwerer, die Resultate publizierter Forschungsarbeiten zu reproduzieren.

“… it is sometimes much easier not to replicate than to replicate studies, because the techniques and reagents are sophisticated, time-consuming and difficult to master.”

Und das hat eine gewisse Plausibilität, wie beispielsweise die Suche nach dem Higgs-Boson zeigen kann: Um die Ergebnisse zu erzielen, brauchte man einen viele Milliarden Dollar teuren Teilchenbeschleuniger und die Arbeit tausender Forscher über mehrere Jahre hinweg – diesen Apparat und Aufwand kann man nicht so einfach nachbauen und wiederholen. Aber Mina Bisell geht es auch um kleinere, scheinbar eher nachvollziehbare Forschung, an Krebszellen, beispielsweise. Doch diese Zellen seien, so schreibt sie, derart delikat, dass schon kleinste Unachtsamkeiten oder eine gewisse Unerfahrenheit bei scheinbar identischem Versuchsaufbau zu anderen Resultaten führen können:

When researchers at Amgen, a pharmaceutical company in Thousand Oaks, California, failed to replicate many important studies in preclinical cancer research, they tried to contact the authors and exchange materials. They could confirm only 11% of the papers…

Elf Prozent nur … das gibt wirklich zu denken. Denn es geht hier nicht um die Behauptungen von Voodoo-Wissenschaftlern und Heimlabor-Kernfusionierern, sondern um publizierte und peer-reviewte Forschungsergebnisse.

Und Reproduzierbarkeit von Ergebnissen ist einer der wichtigsten, wenn nicht sogar die wichtigste Voraussetzung für die Gültigkeit wissenschaftlicher Ergebnisse. Was nicht reproduzierbar ist, bleibt anekdotisch – selbst wenn es noch so sensationell wäre. Ein Heilmittel gegen Krebs, das nicht herstellbar ist, ist kein Heilmittel, beispielsweise, und Resultate, die nur eine einzige Forscherin, ein einziger Forscher erzielen kann, sind von all jenen “Sensationen”, die sich dann als Irrtum (gelegentlich auch mal als Schwindel) entpuppt haben, auf Anhieb – und vielleicht sogar auf Dauer –  erst mal nicht zu unterscheiden. Sicher, echte ForscherInnen können Labortagebücher und Datenblätter vorzeigen, haben plausible Theorien anzubieten etc. Aber wenn sie an der Reproduzierbarkeit scheitern – ist es dann noch Wissenschaft in dem Sinn, dass es das Wissen der Gesellschaft vermehrt? Doch wenn andererseits nur ein gutes Zehntel der Ergebnisse (ich hoffe zwar, dass diese Zahl aus obigem Zitat nicht mal ansatzweise repräsentativ ist, greife sie aber zu Argumentationszwecken hier auf) legtitimer und seriöser wissenschaftlicher Forschung noch reproduzierbar ist, müssten wir dann nicht die Maßstäbe lockern und Reproduzierbarkeit aus dem Anforderungskatalog streichen, wenn wir uns nicht des Wertes dieser Forschung berauben lassen wollen?

Und da sehe ich nun tatsächlich ein Dilemma: Auf diese Bedingung zu verzichten, würde all den Voodoo-Zauberern ein argumentatorisches Scheunentor öffnen. Resultate, die niemand nahvollziehen kann, als Resultate gelten zu lassen, käme einer Kapitulation der Wissenschaft gleich. Aber was tun, wenn nur noch ein kleiner Bruchteil der Resultate aktueller Forschung tatsaächlich reproduziert werden kann? Wissenschaft zum Breitensport erklären, ohne die Spitzenleistungen der klügsten Köpfe? Arthur C. CLarke hat den berühmten Spruch geprägt, dass eine hinreichend fortschrittliche Technologie von Zauberei nicht mehr zu unterscheiden sei – eine entsprechend fortentwickelte Wissenschaft aber offenbar auch nicht…

Nachtrag: Aus dem kurzen Dialog mit Kommentator Stefan W. habe ich folgende Präzisierung der Frage herausgearbeitet (die Antwort ist weiterhin eine, die aus der Diskussion entspringen sollte):

Ist die Wiederholbarkeit des Experiments oder der Ergebnisse die Voraussetzung fuer Wissenschaftlichkeit? Bisher, so der Tenor von Mina Bissels Artikel in nature, waren beide Kriterien im Großen und Ganzen synonym; wenn Zweiteres bei Ersterem nicht gegeben war, durfte man von Schlamperei – sagen wir’s freundlicher: unterentwickelter Sorgfalt – seitens der Forscherinnen und Forscher ausgehen, d.h. diese Ergebnisse erfüllten eindeuting nicht die Maßstäbe des wissenschaftlichen Arbeitens. Was aber, wenn sich tatsächlich die Spezialisierungsniveaus in den Forschungsdisziplinen teilweise so stark entwickelt haetten, dass die Reviewer nicht mehr mithalten können? Das ist nicht ganz das Selbe wie schlampige Arbeit der ForscherInnen – aber wie löst man dieses Problem?

flattr this!

Kommentare (21)

  1. #1 rolak
    21. November 2013

    müssten wir dann nicht die Maßstäbe lockern

    Und damit dem Drängen von Quacks oder Lobbyisten wie Walach nachgeben? Weder bei der Methodik noch bei der Reproduzierung von papers / Studien – selbst wenn letzteres deutlich schwieriger zu erfüllen ist . Die erzielte bzw erzielbare Objektivierung ist eines der Alleinstellungs-Merkmale ordentlicher Wissenschaft – und selbst methodisch korrekteste Arbeiten sind bis zur unabhängigen Reproduktion nur mehr oder weniger plausibel, nicht mehr, nicht weniger.

  2. #2 Fermat
    21. November 2013

    Haben die in Cern nicht deshalb verschiedene Detektoren (Atlas, CMS, Alice, LHCb) damit sie das Ergebnis des einen Detektors mit dem anderen Überprüfen können? Ausserdem hoffe ich schon, daß irgendwann wieder ein noch größerer Beschleuniger gebaut wird. Damit kann man die Ergebnisse ja dann auch verifizieren.

  3. #3 Georg Hoffmann
    21. November 2013

    Ich nehme an du kennst denn groszen Economist Aufmacher zum Thema. Die Zahlen sind wirklich alarmierend, insbesondere in Pharmakologie, Medizin, Psychologie, etc.

    http://www.economist.com/news/leaders/21588069-scientific-research-has-changed-world-now-it-needs-change-itself-how-science-goes-wrong

  4. #4 Joseph Kuhn
    21. November 2013

    Zur Frage der Verlässlichkeit von Studien bzw. der Erwartbarkeit reproduzierbarer (weil zutreffender) Zusammenhänge ist auch der schon 2005 veröffentlichte Artikel von John Ioannides “Why Most Published Research Findings Are False” immer wieder lesenswert, eine Betrachtung aus dem Blickwinkel Bayesscher Statistik.

  5. #5 Stefan W.
    http://demystifikation.wordpress.com
    21. November 2013

    Die Anreize müssten sich ändern, so dass mehr geprüft wird, bzw. so dass die Widerlegung einer alten Ansicht gleich viel zu gelten habe, wie die Erzeugung einer neuen.

    Bzw. was noch nicht unabhängig reproduziert wurde gilt als nicht peer reviewed.

  6. #6 Aveneer
    21. November 2013

    Für mich liegt die/eine „Lösung“ für das Problem in Forschungsförderung. In jedem Forschungsantrag müsste die Verifizierung „einfach“ bereits inkludiert sein. „Punkt 7: Verifizierung”
    Z.B. Durch eine 2. „unabhängige“ Arbeitsgruppe oder durch eine 2. unabhängige Messmethode/Messprinzip.

    Keiner “schmeißt das Geld für eine Verifizierung” raus, wenn er nicht gezwungen wird.

  7. #7 enbeh
    21. November 2013

    Ich frage mich: ist es Zufall, dass dieser Artikel ausgerechnet in Nature erschienen ist? Journals wie Nature und Science sind auf Schlagzeilen aus. Dort zählt Novelty und Sensationalität. Die Methods Sections sind aufgrund der Kürze oft ein Witz – man hat gar nicht den Platz, die Methoden ausreichend detailliert zu erklären, dass das Experiment von anderen wiederholt werden könnte. Da kommt es diesen Journals natürlich entgegen, wenn Mina Bissell dafür plädiert, dass es auch gar nicht Aufgabe des Journals ist, für ausreichend Information zu sorgen, sondern dass die Wissenschaftler das unter sich ausmachen sollten.

  8. #8 CM
    21. November 2013

    Irgendwann und irgendwo hier habe ich das schon mal geschrieben: Es gilt zwischen Beobachtung (kann ein einmaliges Ereignis sein), Experiment und Studie zu unterscheiden:
    – Experimente in den Lebenswissenschaften sind oft schwer reproduzierbar. Das ist bedauerlich und führt zu einem Wust von (elektronischem) Papier, dem Vergessen zuzuführen. ABER: Hier setzt das Aussieben ein, denn entweder kann eine Arbeit reproduziert werden oder man kann auf den Ergebnissen aufbauen. Wenn nicht, ist das ein bedauerlicher Reibungsverlust, der allzuoft nicht diskutiert wird (in den Arbeiten) – das aber könnte die Reibungsverluste minimieren.
    – Studien, die aus welchen Gründen auch immer, eine geringe Fallzahl haben können meta-analytisch zusammengefasst werden. Solche mit meth. Schwächen können erkannt und ausgesiebt werden. Die Probleme sind hier nicht in Mathematik und Methodik zu suchen, sondern darin, dass Einzelstudien zu große, unkritische Wahrnehmung geniessen.

    Aveneer in #6 hat recht: Es ist längst Usus zu erwartende Schwierigkeiten in Arbeiten abzubilden – also warum nicht auch einfordern, dass – wo sinnvoll – die Replikation geplant wird?

    Außerdem ist das in #5 von Stefan W. angedachte Konstrukt in einigen Bereichen so ähnlich bereits Realität: Befunde (und nicht nur imputierte) in molekulargenet. Studien beispielsweise bedürfen i.d.R. der Replikation in einem alternativen Probenkollektiv, sonst wird eine Arbeit erst gar nicht akzeptiert. Das allerdings setzt einen guten Reviewprozess voraus, der den Einzelfall berücksichtigt (erlaubt die Natur des Befundes die Replikation und ist sie sinnvoll?). Und die Qualität von Reviews steht wieder auf einem ganz anderen Blatt …

  9. #9 Georg Hoffmann
    21. November 2013

    @enbeh
    “Die Methods Sections sind aufgrund der Kürze oft ein Witz”
    Das stimmt nicht. Man kann 50 Seiten und mehr in das Supplemenatry Material packen. Ebenfalls excel sheets etc zur Veroeffentlichung der Daten.

    @StefanW
    “Bzw. was noch nicht unabhängig reproduziert wurde gilt als nicht peer reviewed.”
    Na, das waere vielleicht ein bisschen zuviel des Guten. In Holland braucht ein Doktorant etwa 3 peer reviewed paper um ueberhaupt sich zur Abgabe der Arbeit einschreiben zu duerfen. Aber Ueberpruefung von Arbeiten sollte veroeffentlichbar sein als eigenstaendige Arbeit. Siehe auch den oben verlinkten Economist Artikel.

  10. #10 enbeh
    21. November 2013

    @Georg Hoffmann
    Ja, ich weiß schon, dass man beliebig viel Zeug in die Supplements verschieben kann. M.E. ist das aber keine gute Lösung, denn (1) es bleibt dabei, dass die Story wichtiger erscheint als die Methoden, wenn man die Methoden in einem “ergänzenden” Dokument runterladen muss. Methoden sollten aber keine Nebensachen sein. (2) häufig finde ich eben nicht alle relevanten Methoden, weder im Paper noch im Supplement, weil es anscheinend als OK angesehen wird, dass sich die Autoren diesbezüglich kurz fassen, solange der Rest gut aussieht.

  11. #11 Georg Hoffmann
    21. November 2013

    @enbeh
    Dann gibt es natuerlich mittlerweile auch Nature Methods
    http://www.nature.com/nmeth/archive/index.html

  12. #12 enbeh
    21. November 2013

    @Georg Hoffmann
    Ja, das ist ganz toll, dass es Nature Methods gibt, mindestens so toll wie die Supplements in Research Articles. Es ändert aber nicht meinen Standpunkt. Also nochmal: wenn ich ein Paper publiziere, in dem ich ein Ergebnis berichte, dann muss in diesem Paper auch stehen, wie ich zu diesem Ergebnis gekommen bin. Ohne die Methoden ist das Ergebnis nichts Wert. Mit dem Verweis auf Supplements, Methodenartikel oder (auch beliebt) haben-wir-früher-auch-schon-mal-so-gemacht, tut man so, als wären die Methoden nebensächlicher Kleinkram für Erbsenzähler.

  13. #13 Georg Hoffmann
    21. November 2013

    Ich kopier einfach mal den Anfang des Economist Artikel hierhin. Es war ziemlich sicher der Stein des Anstosses fuer den Artikel von Mina Bissel.

    “A SIMPLE idea underpins science: “trust, but verify”. Results should always be subject to challenge from experiment. That simple but powerful idea has generated a vast body of knowledge. Since its birth in the 17th century, modern science has changed the world beyond recognition, and overwhelmingly for the better.

    But success can breed complacency. Modern scientists are doing too much trusting and not enough verifying—to the detriment of the whole of science, and of humanity

    Too many of the findings that fill the academic ether are the result of shoddy experiments or poor analysis (see article). A rule of thumb among biotechnology venture-capitalists is that half of published research cannot be replicated. Even that may be optimistic. Last year researchers at one biotech firm, Amgen, found they could reproduce just six of 53 “landmark” studies in cancer research. Earlier, a group at Bayer, a drug company, managed to repeat just a quarter of 67 similarly important papers. A leading computer scientist frets that three-quarters of papers in his subfield are bunk. In 2000-10 roughly 80,000 patients took part in clinical trials based on research that was later retracted because of mistakes or improprieties.

    What a load of rubbish”

    Wie gesagt der Artikel lohnt sich wirklich. Auch die Erlaeuterung der statistischen Probleme a la Ioannidis (post von Joseph oben) wird diskutiert.

  14. #14 Georg Hoffmann
    21. November 2013

    @enbeh
    Das ist ja nicht so direkt mein Problem (erst theoretischer Physiker, jetzt Modellierer). Meine Frau macht Biochemie. Das sind Listen und Listen von Kochrezepten. Manchmal (alles also nur Hoerensagen von meiner Seite) gibt es gerade diesen entscheidenden Kniff um das Resultat zu erhlaten. Der wird dann bewusst verschleiert, bis es dan irgendwann kein Geheimnis mehr ist und es neue “Kniffs” gibt. Das nur nebenbei.

    Ich hab keine Probleme damit die Method Section in die Supplements zu verschieben. Vollstaendig sollen sie sein, das ist wichtig. Der Artikel selbst sollte aber noch irgendwie lesbar bleiben.

  15. #15 CM
    21. November 2013

    Georg, das ist leider manchmal so, dennoch ist Deine Beschreibung eher eine Karikatur der Biochemie. Eine Karikatur allerdings, die eher etwas mit dem Hauen & Stechen an Unis und anderen akadem. Einrichtung zu tun hat und die nicht unbegründet ist. Oft genug gibt es gute Gründe best. Dinge so und nicht anders zu tun und das gehört dokumentiert. Als ich mal ein Labor aufgebaut habe, war das auch so. Wenn Methoden von Druidenmund zu Druidenohr weitergegeben werden, kann von “Wissenschaft” jedenfalls nicht mehr uneingeschränkt die Rede sein.

  16. #16 Jürgen Schönstein
    21. November 2013

    @Stefan W. #5

    Bzw. was noch nicht unabhängig reproduziert wurde gilt als nicht peer reviewed.

    Das bezweifle ich. Nicht jeder Versuch wird tatsächlich nachgestellt und nachgebaut – reproduzierbar ist erst mal eine Frage der Dokumentation. Wenn der Reviewer nachvollziehen kann, mit welchen Methoden welche Daten innerhalb welcher Messgenauigkeiten etc. erhoben wurden, und wenn die Methode an sich wiederholbar ist, also keine geheimen Zutaten erfordert, deren Rezept “nur von Druidenmund zu Druidenohr” (Quelle: Goscinny, R. und Uderzo, A: Asterix, der Gallier, Ehapa-Verlag, Stuttgart 1960) weiter gegeben werden darf, oder sonstige magischen Eigenschaften oder Orte verlangt, dann ist das Kriterium der Reproduzierbarkeit schon prinzipiell gegeben. Es ist aber eine interessante – und vielleicht nicht ganz eindeutig geklärte – Frage, die dann auch Frau Bissells Beitrag in nature erklären würde, ob man die Wiederholbarkeit des Experiments oder der Ergebnisse zur Voraussetzung fuer Wissenschaftlichkeit macht. Bisher, so schien der Tenor ihres Artikels zu sein, waren beide Kriterien im Grossen und Ganzen synonym; wenn Zweiteres bei Ersterem nicht gegeben war, handelte es sich halt um schlampige Arbeit der Forscher (= nicht akzaptel im Sinne der Wissenschaft). Aber inzwischen, so sagt sie, seien die Spezialisierungsniveaus in den Forschungsdisziplinen teilweise so hoch, dass die Reviewer nicht mehr mithalten können. Das ist nicht ganz das Selbe wie schlampige Arbeit der ForscherInnen – aber wie löst man dieses Problem? Ich denke, ich werde diese spezifischere Frage als Nachtrag in meinen ursprünglichen Text mit einbauen …

  17. […] Jürgen Schönstein verweist auf einen Artikel, der behauptet nur 10 Prozent der wissenschaftlichen Forschungen die in einer Studie untersucht wurden sei reproduzierbar. Und zwar nicht weil die Forscher geschlampt haben, sondern weil es schlicht zu aufwändig ist die Ergebnisse zu reproduzieren. […]

  18. #18 Tantal
    22. November 2013

    Ich glaube, es gibt hier zwei verschiedene Entwicklungen, die wenig bis nichts miteinander zu tun haben.

    Auf der einen Seite stehen die wissenschaftlichen Grossprojekte wie etwa die Suche nach dem Higgs, die wegen der schieren Grösse, Komplexität sowie den damit einhergehenden Kosten niemand wiederholen kann. Allerdings sind in diese Projekte auch Tausende von Wissenschaftlern und hunderte von Institutionen involviert, so dass man getrost davon ausgehen kann, das Datensätze und Versuchsaufbauten hundertfach kontrolliert werden, bevor etwas veröffentlicht wird, und in der Regel werden Ergebnisse durch Folgeexperimente abgesichert.

    Auf der anderen Seite stehen beispielsweise die Lebenswissenschaften. Je nach Quelle ist hier nur ein kleiner Prozentsatz der Paper reproduzierbar. Die 11% halte ich für etwas zu niedrig angesetzt, aber selbst wenn man sehr optimistisch davon ausgeht, dass 50% aller Veröffentlichungen einer Überprüfung standhalten, ist immer noch die Hälfte aller dort publizierten Ergebnisse Ausschuss. Und hier halte ich das Argument von zu hoher Komplexität für vorgeschoben – es gibt eher einen Unwillen, Methoden, Assays und Zelllinien ausreichend zu validieren, die Reinheit eingesetzter Substanzen zu überprüfen etc., was dann in der Konsequenz zu Messartefakten führt, die natürlich niemand unabhängig reproduzieren kann.

    Ein Ausweg ist es die Anforderungen an Publikationen zu erhöhen hinsichtlich der erforderlichen Daten und Methodenteile, gründlicheres peer review zu betreiben als es derzeit geschieht, und in den Labors selbst bessere Validierung zu betreiben. Im Moment wird in der akademischen Forschung ein hoher Output belohnt, während die Qualität gerne vernachlässigt wird. Das Ergebniss ist junk science, die natürlich niemand reproduzieren kann.

  19. #19 Stefan W.
    http://demystifikation.wordpress.com/2013/09/20/schallendes-gelachter-II/
    22. November 2013

    @Jürgen Schönstein

    Das bezweifle ich.

    Ja, es sollte auch nicht einen Zustand beschreiben, sondern ein wünschenswertes Ziel.

    Womöglich kann man in vielen Bereichen anhand einer vollständigen Beschreibung eines Experiments nachvollziehen, dass verschiedene Fehler nicht gemacht wurden – man kann so aber nur bekannte Fehler finden. Das mögen – neben Betrug, Datenfälschung und anderen Manipulationen sein.

    Wenn andere Forscher aber die Ergebnisse nicht unabhängig verifizieren, und diese zur herrschenden Meinung werden, ist das doch heikel.

    Vielleicht kann man sagen, dass Forschungen, die niemand überprüft, ein zu kleines Auditorium an Interessierten haben, und dass Fragestellungen, die nicht nur in Nischen relevant sind, schon irgendwann überprüft werden, oder auf anderem Wege auffällt, dass etwas mit ihnen nicht stimmt, wenn es so ist.

    Ich muss aber betonen dass ich außerhalb der Wissenschaft stehe, und mir womöglich ein recht falsches Bild davon mache, was da passiert – sicherlich auch von Fach und Forschungsfrage zur nächsten unterschiedlich. Wenn man jahrelang Pflanzen züchtet und nicht mehr dabei rausspringt, als eine bekannte Aussage zu bestätigen, das verblüfft eigentlich nicht, dass das nicht gemacht wird.

    Wenn man eine Pflicht hätte, vor jeden neuen Forschung eine andere prüfen zu müssen? Würde wohl nur zu schlampiger Arbeit animieren.

  20. #20 CM
    22. November 2013

    Ja, Tantal, da hast Du recht. Wenn ich auch “100-fach kontrolliert” für sehr optimistisch halte.

    Das Problem der Review-Qualtität kommt verstärkend hinzu: Zeit, die die Reviewer nicht investieren (weil sie sie nicht haben, bzw. auch nichts dafür bekommen und nicht recht nehmen wollen) und reichlich Unbeflecktheit in der Statistik. Statistik kommt in den Lebenswissenschaften oft zum Einsatz, wird meist von extern im Kollaborationssinne eingekauft und schlägt manches Mal fehl, weil der/die externe StatistikerIn doch nur eine post mortem-Analyse macht, die im Zweifel darauf vertraut, dass die Messungen wirklich unabhängig sind – was oft nicht der Fall ist. Und die Reviewer haken auch (so gut wie) niemals nach.

    Sind wir also beim Geschäftsmodell der Verlage. Gründliches Review gibt es nämlich (in der Fläche) nicht umsonst. Der Zeitkonflikt (gutes Review vs. eigene Lehre & Forschung) ist schwer zu lösen. Geld ist deshalb nicht unbedingt eine gute Lösung. Offengestanden kenne ich keine gute Lösung. Ihr vielleicht?

  21. #21 Leugnerentlarver
    9. Dezember 2013

    Und jetzt wenden Sie bitte einmal die zu Recht geforderte Reproduzierbarkeit wissenschaftlicher Resultate auf Global Warming und Klimawandel an und dann sehen Sie sofort, auf welch tönernen Füssen die behaupteten Fakten strhen. Dort lässt sich überhaupt nichts reproduzieren, aber der Mainstream GLAUBT einfach daran!