Im Journal of Clinical Epidemiology wird gerade ein Streit um das Verhältnis zwischen der Praxisnähe von Studien und ihrer methodischen Stringenz ausgetragen, genauer formuliert, ob eine hohe interne Validität von Studien immer (und notwendigerweise) auf Kosten der externen Validität geht und umgekehrt.
Bei der „internen Validität“ von Studien geht es darum, inwiefern sie es durch ihr Design ermöglichen, den spezifischen Einfluss eines Faktors auf das Outcome getrennt von anderen Einflussfaktoren zu untersuchen. In pharmakologischen Studien sind RCTs der Goldstandard, weil sich Interventions- und Kontrollgruppe im Idealfall nur hinsichtlich der Intervention unterscheiden und andere Einflussfaktoren durch die Randomisierung zufällig auf die Vergleichsgruppen verteilt sind. Bei der „externen Validität“ geht es dagegen darum, inwiefern sich die in einem spezifischen Kontext gewonnenen Erkenntnisse auf andere Kontexte übertragen lassen, also wie verallgemeinerungsfähig die gefundenen Zusammenhänge sind.
RCTs sind nicht immer möglich, z.B. wenn eine Intervention aus ethischen Gründen nicht experimentell veranlasst werden soll – wir hatten gerade die Diskussion um gruppennützige Arzneimittelprüfungen an Demenzkranken, oder wenn eine zufällige Zuweisung zur Interventions- oder Kontrollgruppe aus rechtlichen Gründen nicht zulässig ist (weil die methodisch geforderte Ungleichbehandlung von Interventions- und Kontrollgruppe verboten ist), oder aus rekrutierungsorganisatorischen Gründen, z.B. weil man nicht genug Probanden bzw. Untersuchungseinheiten findet, die man randomisieren kann. Letzteres kann bei komplexen Interventionen auf Gemeindeebene oder Länderebene der Fall sein. Dann müssen Wirksamkeitsnachweise anders geführt werden.
In einem Artikel im Journal of Clinical Epidemiology (2015; 68: 1251-60) hatten Walach und Loef im letzten Jahr dafür plädiert, Studiendesigns mit geringerer interner Validität, z.B. Fallstudien, auch grundsätzlich in die Evidenzsynthese einzubeziehen und gelten zu lassen. Walach knüpft damit an seine schon früher formulierte Kritik an hierarchischen Evidenzmodellen an. Auf seiner Internetseite hat er den Artikel im Journal of Clinical Epidemiology bereits vor einiger Zeit vorgestellt. Er begründet seine Forderung, auf hierarchische Evidenzmodelle zu verzichten, damit, dass hohe interne Validität stets nur im Rahmen künstlicher Forschungskontexte, durch Abstraktion von der bunten Realität, also auf Kosten der externen Validität zu erreichen sei:
„Der Punkt unseres Argumentes ist nun: interne und externe Validität sind nicht miteinander kompatibel; sie schließen sich in gewisser Weise aus. Jede Studie, die die interne Validität erhöht, verringert die externe Validität, und umgekehrt. Es ist keine Studie denkbar, und zwar aus prinzipiellen Gründen, die beides, externe und interne Validität gemeinsam erhöht, und ich habe auch faktisch noch keine gesehen, bei der das der Fall wäre.“ (Kursivsetzungen im Original)
Dagegen wendet sich nun Jürgen Windeler, Chef des IQWIG, in einem Kommentar im Journal of Clinical Epidemiology (2016; 75: 127-28): Es gebe keine gegenläufige Hierarchie von interner und externer Validität. Viele RCTs hätten einen hohe externe Validität und umgekehrt wären z.B. Fallstudien aus einer europäischen Klinik wohl kaum relevant für das indische Gesundheitssystem (ebda. S. 128), d.h. sie haben nicht per se eine höhere externe Evidenz. Interne und externe Validität hätten vom Konzept her nichts miteinander zu tun und könnten daher auch nicht in einem reziproken Verhältnis zueinander stehen. Walach hat darauf in der gleichen Ausgabe noch einmal geantwortet (2016; 75: 128-29) und bestreitet, dass man „Inhalt“ und „Kontext“ trennen könne (und somit interne und externe Validität) und hat sich erneut dafür ausgesprochen, das ganze Spektrum an vorliegenden Studien bei der Evidenzsynthese zu nutzen.
Ich finde diesen Disput hochinteressant, weil dabei forschungslogische, forschungspraktische und grundlagentheoretische Aspekte ineinandergreifen (und durcheinandergehen). Meine vorläufige Sicht der Dinge:
1. Windeler hat Recht, wenn er sagt, RCTs hätten nicht per se eine geringe externe Validität und Fallstudien per se eine hohe. Dagegen spricht die Empirie, die Walach in seiner Replik so emphatisch mit dem Schlusssatz „we have an obligation to honor reality, not our ideas about reality“ bemüht. Dieser Satz, genau gelesen, hat es übrigens in sich: Ich möchte einmal wissen, wie man die Realität an sich, jenseits unserer Vorstellungen darüber, respektieren soll. Die Realität ist uns nur in unseren Vorstellungen gegeben, und zwar umso besser, je kontrollierter und täuschungssicherer unsere Erfahrungen sind, sprich je höher ihre interne Validität ist. Und wie hat man sich eigentlich hohe externe Validität bei fehlender oder marginaler interner Validität vorzustellen? Als science fiction, als Erzählung? Es mag ja sein, dass Fallstudien alltagsnah wirken, aber was hilft es, wenn noch so „realistisch“ beschriebene Zusammenhänge nur scheinbar bestehen?
2. Walach hat Recht, wenn er sagt, man solle Studien mit geringerer interner Validität nicht umstandslos abtun. Natürlich ist ein mäßig guter RCT nicht einfach besser als sehr gute Fallstudien oder eine große Kohortenstudie, so Walach (ebda, S. 128), aber ein mäßig guter RCT ist besser als eine mäßig gute Kohortenstudie und diese wiederum ist besser als mäßig gute Fallstudien. Eine Kohortenstudie ist schließlich auch besser als gar kein RCT oder ein manipulierter RCT. So what? Und keine Frage: Wenn Studien mit geringerer interner Validität belastbare (!) Hinweise liefern, dass Ergebnisse aus einem RCT fragwürdig sind, wird man das ernst nehmen müssen, etwa wenn solche Studien gehäuft Fallkonstellationen dokumentieren, die man im RCT nicht oder nur extrem selten sah. Aber die Antwort darauf wird dann ein neues RCT sein müssen, sonst betreibt man die Wakefieldisierung der medizinischen Forschung. Und gewiss sollte man nicht durch RCTs gut belegte Sachverhalte durch schwache Studien ständig infragestellen, deren „Ergebnisse“ dann wieder durch RCTs zu prüfen wären. Das ist Geldverschwendung.
3. Walach hat noch in einem Punkt Recht, nämlich mit seinem Hinweis darauf, dass RCTs „per definitionem ihre Studienteilnehmer als passive Empfänger therapeutischer Leistungen konzipieren“ (Zitat aus seinem Internetbeitrag). RCTs unterstellen Ursache-Wirkungszusammenhänge, darauf zielt ihr Einsatz ja auch ab. Inwiefern dieses Design angemessen ist, wenn es um Zusammenhänge geht, in denen „begründetes“ menschliches Handeln ausschlaggebend ist, welche Art Aussagen hier damit zu gewinnen sind, ist in der Tat kritisch zu diskutieren. So lange Handeln aus Gründen nicht kausal rekonstruiert werden kann, also der physikalische Reduktionismus gegenüber begründetem Handeln nicht nur als Erklärungsanspruch geltend gemacht, sondern erfolgreich durchgeführt wurde, muss hier der methodologische Diskurs offen bleiben. Aber das ist eine Grundlagendiskussion in der subjektwissenschaftlichen Psychologie, kein Argument, um beispielsweise für die Untersuchung der Wirkung (!) von Homöopathika andere Studiendesigns zu legitimieren als sie für die Untersuchung der Wirkung von Aspirin lege artis sind. Immer wenn es um „Wirkungen“ geht, ist der RCT Goldstandard, „per definitionem“, wie ich Walach an diesem Punkt zustimmen würde, auch wenn er es so vermutlich dann doch nicht gemeint hat.
Kommentare (41)