Bei Compound Interest habe ich eine Liste von Tips gefunden, die helfen können, schlecht gemachte oder berichtete Wissenschaft und Forschung zu erkennen. Sie hat mir so gut gefallen, daß ich sie gestohlen und übersetzt habe und nun hier präsentiere. Die Liste ist nicht erschöpfend und nicht jeder erfüllte Punkt macht eine Studie oder einen Artikel unrettbar schlecht, aber die Liste ist eine gute Orientierung dafür, worauf man achten kann und sollte, wenn man Originalarbeiten, klinische Studien aber auch wissenschaftliche Berichterstattung liest.
1. Sensationalistische Überschriften
Überschriften sollen einen Leser dazu anreizen, sie zum Anlass zu nehmen oder anzuklicken, um den ganzen Artikel zu lesen. Im besten Falle stellen sie nur eine (zu) starke Vereinfachung der Ergebnisse dar, im schlimmsten Fall werden die Ergebnisse durch eine Überschrift jedoch sensationalisiert und falsch dargestellt.
2. Falsch dargestellte Ergebnisse
Presseberichte (egal ob print oder online) verzerren oder verfälschen gelegentlich die Forschungsergebnisse, die sie präsentieren, absichtlich oder unabsichtlich, jedenfalls im Bestreben, eine gute Story zu liefern. Wenn möglich sollte man daher gleich die Originalarbeit lesen, statt sich auf einen darauf basierenden Artikel zu verlassen.
3. Interessenkonflikt
Viele Firmen oder Konzerne beschäftigen Wissenschaftler, um für sie Forschung zu betreiben und die Ergebnisse zu veröffentlichen. Das allein entwertet solche Forschung aus der Industrie noch nicht, sie sollte aber immer mit der Möglichkeit eines Interessenkonflikts im Hinterkopf betrachtet werden. Ein besonders eklatantes Beispiel sind natürlich die im Interesse der Tabakindustrie verfälschten oder unterschlagenen Forschungsdaten.
Forschungsergebnisse können zudem auch aus persönlichen oder finanziellen Motiven verfälscht dargestellt werden. Man sollte daher darauf achten, ob die Zeitschrift, in der eine Originalarbeit erscheint, von den Autoren verlangt, mögliche Interessenkonflikte offenzulegen.
4. Korrelation und Kausation
Ein Klassiker: Korrelation, also das gemeinsame Auftreten von zwei Variablen, darf nicht mit einem kausalen Zusammenhang zwischen beiden, wo eines das andere verursacht, verwechselt werden. Z.B. sind die Zunahme der globalen Erwärmung und die Abnahme der Anzahl an Piraten extrem stark miteinander korreliert. Daß das Verschwinden der Piraten jedoch die globale Erwärmung verursacht, ist eher unwahrscheinlich.
5. Spekulative Sprache
Auch Spekulationen in wissenschaftlichen Artikeln sind und bleiben (nur) Spekulationen. Überall, wo „könnte“, „vielleicht“ und „hätte“ anzutreffen sind, ist Vorsicht geboten, da hier höchstwahrscheinlich keine belastbaren Belege für die gezogenen Schlüsse vorgelegt werden. Einhorntränen könnten schließlich Krebs heilen und Drachenfeuer möglicherweise den Klimawandel verursachen…
6. Zu kleine Probenanzahl
Je kleiner in einer Studie und vor allem einer klinischen Studie die Anzahl einbezogener Proben ist, desto weniger sicher kann man sich auf die Befunde der Studie verlassen. Schlußfolgerungen sollten immer in Anbetracht der untersuchten Probenanzahl (oder Stichprobengröße) erfolgen. Kleine Probenanzahlen lassen sich natürlich nicht immer vermeiden, aber Mißtrauen ist spätestens dann angebracht, wenn größere Probenanzahlen absichtlich vermieden wurden.
7. Nicht repräsentative Proben
In Studien am Menschen sollten die Probanden so gewählt werden, daß sie die spätere Zielpopulation für das, was getestet wird, auch repräsentieren. Ist das nicht der Fall, sind die Schlußfolgerungen der Studie, die sich auf die Zielpopulation beziehen, zweifelhaft. Das ist bei vielen sozio-psychologischen Studien ein Problem, deren Probanden sich häufig fast vollständig aus jungen (Psychologie-)Studenten an einer Universität rekrutieren und damit nur einen kleinen und keineswegs repräsentativen Teil der Population abbilden.
8. Keine Kontrollen
In klinischen Studien sollte es immer eine der Testgruppe in Zusammensetzung und Größe sehr ähnliche Kontrollgruppe geben, die aber im Gegensatz zur Testgruppe keine Behandlung, Substanzgabe o.ä. erhält (sondern ggf. ein Placebo) und die Ergebnisse der Testgruppe müssen dann mit denen der Kontrollgruppe verglichen werden. Die Probanden müssen dabei zufällig auf Test- oder Kontrollgruppe verteilt werden. Auch bei Laborexperimenten sollten Kontrollproben mitgeführt werden, um alle Variablen kontrollieren zu können.
9. Keine Verblindung
Um eine auch unbewusste Verzerrung oder Verschiebung der Ergebnisse zu vermeiden, sollten Teilnehmer einer Studie nicht wissen, ob sie in der Kontroll- oder Testgruppe sind. Wenn technisch und ethisch möglich, sollte auch eine Doppelverblindung erfolgen, so daß auch die Durchführenden (Ärzte, Wissenschaftler) nicht wissen, welcher Proband in welcher Gruppe ist.
10. Rosinen-Rauspicken
Hierbei werden nur Daten, auch aus anderen Studien, präsentiert, die die Schlußfolgerung der Forscher stützen und solche, die es nicht tun, werden ignoriert oder verschwiegen, z.B. wenn in einer Originalarbeit die Schlußfolgerungen nur auf einen Teil der und nicht die gesamten Ergebnisse gestützt werden.
11. Nicht reproduzierbare Ergebnisse
Eine der wichtigsten Anforderungen an ein gutes Experiment und ein guten Aufsatz darüber ist, daß das Experiment von anderen, unabhängigen Wissenschaftlern nachgemacht werden kann und der Aufsatz (= Originalarbeit) so geschrieben ist, daß er als Anleitung zum Nachmachen ausreicht, also alle notwendigen Informationen enthält und nichts verschweigt. Das gilt umso mehr, je außergewöhnlicher die Ergebnisse sind!
12. Zeitschriften und Zitierungen
Wissenschaftliche Qualitätszeitschriften veröffentlichen Artikel nur nach unabhängiger, externer Begutachtung. Leider ist selbst diese Qualitätskontrolle nicht unfehlbar und daher ist sogar bei Artikeln aus Top-Zeitschriften eine kritische Aufmerksamkeit (auf alle genannten Aspekte) angebracht. Ähnlich verhält es sich mit den Zitierungen: daß ein Artikel von anderen Artikeln oft zitiert wurde, ist kein Maß für dessen Qualität.
13.Kein „peer review“?
Das bezieht sich auf Wissenschaftsjournalismus: nur weil über eine Untersuchung oder eine Schlußfolgerung in den Medien berichtet wurde, bedeutet das nicht, daß diese auch eine unabhängige, externe Begutachtung (= peer review) durchlaufen haben. Es könnte sich z.B. um Ergebnisse handeln, die gerade erst auf einer Konferenz vorgetragen (und noch nicht publiziert) wurden, wo es kein „peer review“ gibt.
14. Keine statistische Signifikanz
Häufig streben Wissenschaftler bei der statistischen Analyse ihrer Ergebnisse einen „p-Wert“ von < 0,05 an, um damit eine „statistische Signifikanz“ ihrer Daten auf einem allgemein geforderten aber willkürlichen Niveau zu belegen. Der p-Wert korreliert mit der Wahrscheinlichkeit, daß die Ergebnisse nur ein Zufallsbefund sind (das entspricht der sog. Nullhypothese) und je kleiner der p-Wert ist, desto geringer ist die Wahrscheinlichkeit, daß man, angenommen die Nullhypothese trifft zu, bei Wiederholungen des Experiments gleich gute oder sogar bessere Ergebnisse erhält. (Anmerkung: der „p-Wert“ ist keineswegs unumstritten und wird in letzter Zeit viel kritisiert, dennoch wird er noch sehr häufig angegeben und dabei leider oft falsch verwendet und interpretiert).
15. Störende Einflüsse
Wurden alle möglichen Störfaktoren (Fachwort: “confounding variables”) berücksichtigt, die möglicherweise Einfluss auf das Ergebnis hatten?
Nachtrag 10.02.2015: Ben Goldacre hat gerade ein Buch genau zu diesem Thema geschrieben:
“I Think You’ll Find It’s a Bit More Complicated Than That” von Ben Goldacre
Kommentare (31)