Im Journal of Clinical Epidemiology wird gerade ein Streit um das Verhältnis zwischen der Praxisnähe von Studien und ihrer methodischen Stringenz ausgetragen, genauer formuliert, ob eine hohe interne Validität von Studien immer (und notwendigerweise) auf Kosten der externen Validität geht und umgekehrt.

Bei der „internen Validität“ von Studien geht es darum, inwiefern sie es durch ihr Design ermöglichen, den spezifischen Einfluss eines Faktors auf das Outcome getrennt von anderen Einflussfaktoren zu untersuchen. In pharmakologischen Studien sind RCTs der Goldstandard, weil sich Interventions- und Kontrollgruppe im Idealfall nur hinsichtlich der Intervention unterscheiden und andere Einflussfaktoren durch die Randomisierung zufällig auf die Vergleichsgruppen verteilt sind. Bei der „externen Validität“ geht es dagegen darum, inwiefern sich die in einem spezifischen Kontext gewonnenen Erkenntnisse auf andere Kontexte übertragen lassen, also wie verallgemeinerungsfähig die gefundenen Zusammenhänge sind.

RCTs sind nicht immer möglich, z.B. wenn eine Intervention aus ethischen Gründen nicht experimentell veranlasst werden soll – wir hatten gerade die Diskussion um gruppennützige Arzneimittelprüfungen an Demenzkranken, oder wenn eine zufällige Zuweisung zur Interventions- oder Kontrollgruppe aus rechtlichen Gründen nicht zulässig ist (weil die methodisch geforderte Ungleichbehandlung von Interventions- und Kontrollgruppe verboten ist), oder aus rekrutierungsorganisatorischen Gründen, z.B. weil man nicht genug Probanden bzw. Untersuchungseinheiten findet, die man randomisieren kann. Letzteres kann bei komplexen Interventionen auf Gemeindeebene oder Länderebene der Fall sein. Dann müssen Wirksamkeitsnachweise anders geführt werden.

In einem Artikel im Journal of Clinical Epidemiology (2015; 68: 1251-60) hatten Walach und Loef im letzten Jahr dafür plädiert, Studiendesigns mit geringerer interner Validität, z.B. Fallstudien, auch grundsätzlich in die Evidenzsynthese einzubeziehen und gelten zu lassen. Walach knüpft damit an seine schon früher formulierte Kritik an hierarchischen Evidenzmodellen an. Auf seiner Internetseite hat er den Artikel im Journal of Clinical Epidemiology bereits vor einiger Zeit vorgestellt. Er begründet seine Forderung, auf hierarchische Evidenzmodelle zu verzichten, damit, dass hohe interne Validität stets nur im Rahmen künstlicher Forschungskontexte, durch Abstraktion von der bunten Realität, also auf Kosten der externen Validität zu erreichen sei:

„Der Punkt unseres Argumentes ist nun: interne und externe Validität sind nicht miteinander kompatibel; sie schließen sich in gewisser Weise aus. Jede Studie, die die interne Validität erhöht, verringert die externe Validität, und umgekehrt. Es ist keine Studie denkbar, und zwar aus prinzipiellen Gründen, die beides, externe und interne Validität gemeinsam erhöht, und ich habe auch faktisch noch keine gesehen, bei der das der Fall wäre.“ (Kursivsetzungen im Original)

Dagegen wendet sich nun Jürgen Windeler, Chef des IQWIG, in einem Kommentar im Journal of Clinical Epidemiology (2016; 75: 127-28): Es gebe keine gegenläufige Hierarchie von interner und externer Validität. Viele RCTs hätten einen hohe externe Validität und umgekehrt wären z.B. Fallstudien aus einer europäischen Klinik wohl kaum relevant für das indische Gesundheitssystem (ebda. S. 128), d.h. sie haben nicht per se eine höhere externe Evidenz. Interne und externe Validität hätten vom Konzept her nichts miteinander zu tun und könnten daher auch nicht in einem reziproken Verhältnis zueinander stehen. Walach hat darauf in der gleichen Ausgabe noch einmal geantwortet (2016; 75: 128-29) und bestreitet, dass man „Inhalt“ und „Kontext“ trennen könne (und somit interne und externe Validität) und hat sich erneut dafür ausgesprochen, das ganze Spektrum an vorliegenden Studien bei der Evidenzsynthese zu nutzen.

Ich finde diesen Disput hochinteressant, weil dabei forschungslogische, forschungspraktische und grundlagentheoretische Aspekte ineinandergreifen (und durcheinandergehen). Meine vorläufige Sicht der Dinge:

1. Windeler hat Recht, wenn er sagt, RCTs hätten nicht per se eine geringe externe Validität und Fallstudien per se eine hohe. Dagegen spricht die Empirie, die Walach in seiner Replik so emphatisch mit dem Schlusssatz „we have an obligation to honor reality, not our ideas about reality“ bemüht. Dieser Satz, genau gelesen, hat es übrigens in sich: Ich möchte einmal wissen, wie man die Realität an sich, jenseits unserer Vorstellungen darüber, respektieren soll. Die Realität ist uns nur in unseren Vorstellungen gegeben, und zwar umso besser, je kontrollierter und täuschungssicherer unsere Erfahrungen sind, sprich je höher ihre interne Validität ist. Und wie hat man sich eigentlich hohe externe Validität bei fehlender oder marginaler interner Validität vorzustellen? Als science fiction, als Erzählung? Es mag ja sein, dass Fallstudien alltagsnah wirken, aber was hilft es, wenn noch so „realistisch“ beschriebene Zusammenhänge nur scheinbar bestehen?

2. Walach hat Recht, wenn er sagt, man solle Studien mit geringerer interner Validität nicht umstandslos abtun. Natürlich ist ein mäßig guter RCT nicht einfach besser als sehr gute Fallstudien oder eine große Kohortenstudie, so Walach (ebda, S. 128), aber ein mäßig guter RCT ist besser als eine mäßig gute Kohortenstudie und diese wiederum ist besser als mäßig gute Fallstudien. Eine Kohortenstudie ist schließlich auch besser als gar kein RCT oder ein manipulierter RCT. So what? Und keine Frage: Wenn Studien mit geringerer interner Validität belastbare (!) Hinweise liefern, dass Ergebnisse aus einem RCT fragwürdig sind, wird man das ernst nehmen müssen, etwa wenn solche Studien gehäuft Fallkonstellationen dokumentieren, die man im RCT nicht oder nur extrem selten sah. Aber die Antwort darauf wird dann ein neues RCT sein müssen, sonst betreibt man die Wakefieldisierung der medizinischen Forschung. Und gewiss sollte man nicht durch RCTs gut belegte Sachverhalte durch schwache Studien ständig infragestellen, deren „Ergebnisse“ dann wieder durch RCTs zu prüfen wären. Das ist Geldverschwendung.

3. Walach hat noch in einem Punkt Recht, nämlich mit seinem Hinweis darauf, dass RCTs „per definitionem ihre Studienteilnehmer als passive Empfänger therapeutischer Leistungen konzipieren“ (Zitat aus seinem Internetbeitrag). RCTs unterstellen Ursache-Wirkungszusammenhänge, darauf zielt ihr Einsatz ja auch ab. Inwiefern dieses Design angemessen ist, wenn es um Zusammenhänge geht, in denen „begründetes“ menschliches Handeln ausschlaggebend ist, welche Art Aussagen hier damit zu gewinnen sind, ist in der Tat kritisch zu diskutieren. So lange Handeln aus Gründen nicht kausal rekonstruiert werden kann, also der physikalische Reduktionismus gegenüber begründetem Handeln nicht nur als Erklärungsanspruch geltend gemacht, sondern erfolgreich durchgeführt wurde, muss hier der methodologische Diskurs offen bleiben. Aber das ist eine Grundlagendiskussion in der subjektwissenschaftlichen Psychologie, kein Argument, um beispielsweise für die Untersuchung der Wirkung (!) von Homöopathika andere Studiendesigns zu legitimieren als sie für die Untersuchung der Wirkung von Aspirin lege artis sind. Immer wenn es um „Wirkungen“ geht, ist der RCT Goldstandard, „per definitionem“, wie ich Walach an diesem Punkt zustimmen würde, auch wenn er es so vermutlich dann doch nicht gemeint hat.

Kommentare (41)

  1. #1 Christian Weymayr
    2. Juli 2016

    Lieber Joseph,
    danke für die tolle Zusammenfassung! Das Ende möchte ich gerne kommentieren. Klar spielen bei einer medizinischen Intervention meist auch “menschliche” Faktoren eine Rolle, die das RCT schwer untersuchen kann, allein schon, weil diese Faktoren kaum zu verblinden sind. Wenn aber behauptet wird, eine Maßnahme habe eine mechanistische Wirkung, dann kann genau die als Teilaspekt der Gesamtmaßnahme isoliert untersucht werden. Wenn also in der Homöopathie behauptet wird, ein bestimmtes Mittel erziele eine spezifische Wirkungen, kann genau das untersucht werden. Das Problem ist nur, dass die a-priori-Wahrscheinlichkeit der Wirkung homöopathischer Potenzen ab D10 (selbst das stärkste Gift ist dann physiologisch nicht mehr wirksam) gleich Null ist, so dass ein RCT nur ein scheinsignifikantes Ergebnis erzielen kann, wodurch die Aussagekraft des RCTs ebenfalls gleich Null ist. Ich widerspreche Dir also, wenn Du schreibst: “Immer wenn es um „Wirkungen“ geht, ist der RCT Goldstandard, „per definitionem“”. Ich halte dagegen: Gerade bei Homöopathika ist die Aussagekraft eines RCTs kein Jota stärker als die eines Fallberichts.
    Viele Grüße Christian

    • #2 Joseph Kuhn
      2. Juli 2016

      Lass mich mit Radio Eriwan antworten: Im Prinzip hast Du recht, aber auf dem Jota Unterschied würde ich doch gerne bestehen und dass es heute nur noch ein Jota ist, d.h. dass man hier bayesianisch argumentieren kann, das wiederum verdanken wir der (experimentellen) naturwissenschaftlichen Forschung sowie den gelaufenen RCTs, die uns davon überzeugt haben, dass da nichts ist, was als “Wirkung” zu untersuchen wäre.

      • #3 Christian Weymayr
        2. Juli 2016

        … ja, das verdanken wir der naturwissenschaftlichen Forschung, die uns das Dosis-Wirkprinzip, das Fehlen eines ausreichenden Wassergedächtnisses usw. als sichere Erkenntnisse gebracht hat. Die gelaufenen RCTs haben Anhänger beider Seiten überzeugt, dass da etwas bzw. nichts ist. Methodisch konnten sie das ebenso wenig wie einen ein Foto von der Existenz bzw. Nichtexistenz eines Einhorns überzeugen kann.

        • #4 Joseph Kuhn
          2. Juli 2016

          … hm, das würde ich nicht so gegeneinander stellen, weil die Homöopathen bekanntlich auf die Widerlegung etwa des Wassergedächtnisses mit alternativen Wirkungshypothesen reagieren oder einen Blankoscheck auf noch unentdeckte Wirkungsmechanismen reklamieren. Insofern hatte die Nichtaufzeigbarkeit einer Wirkung in klinischen Studien (bzw. den darauf aufbauenden Metaanalysen) meines Erachtens durchaus ihren Wert.

          • #5 Christian Weymayr
            2. Juli 2016

            Kann ein Foto, das im Glauben, ein Einhorn einzufangen, gemacht wurde, und doch nur ein Pferd zeigt, die Nicht-Existenz von Einhörnern belegen?

          • #6 Joseph Kuhn
            2. Juli 2016

            Nein, aber es hat zumindest kein Einhorn gezeigt.

  2. […] Science-Blog Gesundheits-Check fasst Dr. Joseph Kuhn den Streit […]

  3. #8 Philippe Leick
    2. Juli 2016

    Dass sich die Gelehrten um die Interpretation von RCTs und Meta-Analysen rund um die Homöopathie so sehr streiten zeigt meines Erachtens zweierlei:

    – einerseits, dass randomisierte Studien angesichts der “naturwissenschaftlichen Unmöglichkeit” tatsächlich nicht geeignet sind, um die Homöopathie zu be- oder zu widerlegen;
    – andererseits aber auch, dass die spezifischen Effekte gar nicht so groß oder offensichtlich sein können, wie die Anhänger der Homöopathie es behaupten oder wie es nötig wäre, um sie zielgerichtet einsetzen zu können.

    Insofern stimme ich zu, dass weitere RCTs zur Homöopathie Zeit- und Geldverschwendung sind. Das liegt aber nicht nur an der bekannten und tiefgehenden Inkompatibilität zur modernen Physik, Chemie und Biologie, sondern auch daran, dass bisherige RCTs – und neben vielen dilettantischen sind auch doch einige gute gemacht worden – nichts Bemerkenswertes gefunden haben.

    In der Gesamtschau der RCTs ist auch der Trend erkennbar, dass der Effekt umso kleiner ist, je höher die Qualität der Studie ist. Das führt zu nicht enden wollendem Disput darüber, welche Studien nun in einer Meta-Analyse berücksichtigt werden sollen. Mit etwas Abstand betrachtet sollte man daraus aber schließen: Wenn es überhaupt einen Effekt gibt, ist er so klein, dass er im Rauschen dieser Methode untergeht.

    Somit zeigen gerade die bereits durchgeführten RCTs zur Homöopathie, dass weitere RCTs kaum Beweiskraft haben werden, weder in die eine noch in die andere Richtung.

    Und natürlich sind RCTs ohnehin prinzipiell nicht in der Lage, eine Wirkung auszuschließen – genau so wenig, wie physikalische Messgeräte einen Messwert von “identisch Null” beweisen können.

    • #9 Christian Weymayr
      3. Juli 2016

      Warum sollten “weitere” RCTs keine Beweiskraft haben, bisherige aber schon? Es geht den Anhängern der Homöopathie ja auch gar nicht um einen Wirkbeweis nach den Standards der EbM. Obwohl also Argumente wie Effektgröße und Reproduzierbarkeit natürlich stichhaltig sind, dringt man damit nicht durch. Denn es reicht ja schon ein Prof. an einer anerkannten Uni, und eine Publikation in einer anerkannten Fachzeitschrift, die eine prinzipielle Wirkung nicht ausschließt, um diese “Erkenntnis” als Monstranz der Wissenschaftlichkeit vor sich hertragen und die Gläubigen in Erstaunen versetzen zu können.

      • #10 Joseph Kuhn
        3. Juli 2016

        @ Christian:

        Die Homöopathen argumentieren ja gerne, auch bei manchen “schulmedizinischen” Medikamenten wisse man nicht genau, wie sie wirken, zweifle aber nicht daran, dass sie wirken und fordert gleiches Recht für die Homöopathika.

        Dem Argument kann man, finde ich, ganz pragmatisch und ohne wissenschaftstheoretisch das Verhältnis zwischen RCTs und naturwissenschaftlicher Erkenntnislage zu bemühen, damit begegnen, dass die klinische Studienlage bei den Homöopathika doch gar keine Wirkung erkennen lässt (sondern, wie Du zurecht schreibst, nur das erwartbare Zufallsrauschen mal positiver mal negativer Befunde, weshalb man sich, solange keine höchst unwahrscheinlichen revolutionären physikalischen Umwälzungen stattfinden, keine weiteren klinischen Studien zur spezifischen Wirksamkeit der Homöopathika braucht, gerne aber z.B. Studien zur homöopathiespezifischen Placebowirkung oder zur spezifischen Wirkung des Behandlungssettings Homöopathie).

        Und andersherum: Angenommen, klinische Studien zur spezifischen Wirksamkeit von Homöopathika hätten eine klare und unabweisbare Evidenz für deren Wirksamkeit gezeigt, hätte man über die Situation ernsthaft nachdenken müssen, zunächst natürlich, was bisher unbekannte Fehlerquellen in diesen Studien angeht (wie bei der berühmten Tachyonenmeldung vor einiger Zeit), dann aber auch, ob es nicht doch irgendeinen Wirkungsmechanismus geben könnte (zur Vermeidung von Missverständissen: das heißt nicht, dass damit durch RCTs die naturwissenschafliche Erkenntnislage infragestellt wäre). Dem war aber nicht so, daher ist die Evidenzlage hier ganz konsistent: Es gibt nicht nur keine naturwissenschaftlichen Erklärungsansätze dafür, dass Nichts wirkt, darüber hinaus spricht auch der naturwissenschaftliche Sachstand in einer überwältigend guten Erkenntnislast gegen die Möglichkeit einer Wirkung, und es gibt aus den klinischen Studien nicht einmal einen ernstzunehmenden Hinweis, dass hier ein besonderes Phänomen mit unerklärlichen Aspekten vorliegt.

        Sorry, ist ein wenig länger und komplizierter geworden, und hat eigentlich auch wenig mit der Walachschen These einer gegenläufigen Evidenzhierarchie zu tun (die ich wie Jürgen Windeler für falsch halte, da bringt Walach m.E. methodologische und praktische Aspekte durcheinander).

  4. #11 Jürgen Windeler
    2. Juli 2016

    Lieber Joseph Kuhn,
    inwieweit die Zusammenfassung gelungen ist, bin ich wohl befangen. Ich erlaube mir aber, auf einige Punkte einzugehen:
    1. Der „Streit“ drehte sich eigentlich um das Verhältnis von interner und externer Validität und auch das Be“streit“en einer Hierarchie bei der internen Validität. Da habe ich kein neues oder mich überzeugendes Argument vernommen.
    2. Das Argument, RCT seien „ethisch“ nicht vertretbar, ist vielfach bemüht worden, aber im Konkreten fast immer falsch. Überzeugende Ausnahmen zu benennen wäre interessant und relevant, weil man sehen würde, dass es Ausnahmen sind. Und das Spannende kommt dann: was ist das nächst beste ethisch vertretbare Design, wenn zwei Behandlungsalternativen als nicht unterschiedlich angenommen werden können. DAS sollte dann gemacht werden, nicht das siebtbeste. Die erwähnten rechtlichen Gründe gegen RCTs sind mir – ehrlich gesagt – noch nie begegnet. Die „Ungleichbehandlung“ ist auch logisch gar nicht plausibel, weil die zufällige Zuteilung (Randomisierung) ein Unwissen bzgl. der „Ungleichheit“ (equipoise) voraussetzt.
    3. Wenn intern valide Vergleiche (von denen RCTs zwar die theoretisch und empirisch beste, aber nicht die einzige Möglichkeit sind) für Aussagen zu Wirkungen, Wirksamkeit, Nutzen und Schaden von Interventionen notwendig sind, dann darf man (!) Studien mit geringer interner Validität „umstandslos abtun“, insbesondere und jedenfalls dann, wenn es bessere Studien gibt. Der Satz „Wenn Studien mit geringerer interner Validität belastbare (!) Hinweise liefern, dass Ergebnisse aus einem RCT fragwürdig sind, wird man das ernst nehmen müssen, etwa wenn solche Studien gehäuft Fallkonstellationen dokumentieren, die man im RCT nicht oder nur extrem selten sah.“ ist m.E. sehr fragwürdig: Wenn interne Validität ein zentrales Kriterium für die Qualität, Aussagekraft und damit Belastbarkeit von Studienergebnissen ist, dann können (!) Ergebnisse mit geringer interner Validität nicht belastbarer sein als solche mit hoher. Und durch Fallkonstellationen, die in dem RCT gar nicht abgebildet sind, werden offensichtlich (!) die Ergebnisse des RCT nicht fragwürdig, sondern evtl. und höchstens ihre Anwendbarkeit auf bestimmte andere Fallkonstellationen. Wenn übrigens weniger Wissenschaftsmüll in Form von schlechten Studien publiziert würde, müsste man sich um das „Abtun“ weniger Gedanken machen.
    4. „Recht“ zu haben, wenn man von niemandem bestrittene Trivialitäten ausspricht, ist nicht so schwierig. Es erstaunt mich immer wieder, als angebliches Defizit von RCTs zu lesen, sie seien für diese oder jene Frage nicht geeignet. Ich kenne niemanden, der ernsthaft behauptet, dass RCTs außer für Fragen von Wirkungen, Wirksamkeit, Nutzen und Schaden ein gut geeignetes Design wären. Ja, eine Rosenschere ist für das Schneiden von Rosen und vielleicht auch für kleine Büsche und Stauden hervorragend geeignet, den Gartenteich abzusaugen gelingt damit nur sehr schlecht. Das ist aber kein Defizit der Rosenschere, sondern das des Anwenders.
    Und schließlich noch dies: Die Fokussierung auf RCT und non-RCT verschleiert den wesentlichen Punkt: Es geht um valide Vergleiche und nicht valide Vergleiche (dass es dabei nicht wirklich dichotom zugeht, sondern es auch Graustufen gibt, will ich gerne zugestehen). Und da ist es leider so, dass non-RCTs nicht nur immanent weniger valide sind als RCT; sie sind vor allem in der überwiegenden Mehrzahl viel schlechter (weniger valide) als sie es theoretisch und praktisch sein müssten. Ein Grund ist Unkenntnis, ein anderer, sehr bedeutender: Aufwand ! Für einen belastbaren Vergleich ist ein RCT das einfachste und unaufwendigste Instrument.

  5. #12 Joseph Kuhn
    2. Juli 2016

    @ Jürgen Windeler:

    Insgesamt völlig d’accord, nur zwei Punkte sehe ich anders:

    “Das Argument, RCT seien „ethisch“ nicht vertretbar, ist vielfach bemüht worden, aber im Konkreten fast immer falsch. Überzeugende Ausnahmen zu benennen wäre interessant”

    Solche Fälle sind nicht so selten, wenn man den Bereich medizinischer Behandlungsmethoden verlässt. Beispielsweise würde ein RCT zum Nachweis, dass Passivrauchen kindliche Lungen schädigt, keine Ethikkommission passieren. Das ethisch vertretbare nächst geeignete Design sind dann eben Beobachtungsstudien, keine Interventionsstudien.

    “Die erwähnten rechtlichen Gründe gegen RCTs sind mir – ehrlich gesagt – noch nie begegnet.”

    Ein Beispiel ist die Evaluation der Gemeinsamen Deutschen Arbeitsschutzstrategie. Dass man dort als Design das “Prozessorientierte Wirkungsmonitoring” gewählt hat, hat neben praktischen Gründen auch mit rechtlichen Bedenken zu tun: Man kann Betriebe in der Art der Arbeitsschutzaufsicht nicht ohne Weiteres ungleich behandeln, siehe auch den Beitrag dazu im Sammelband “Evaluation komplexer Interventionen in der Prävention”.

    Doch noch was: Meine Formulierung “Wenn Studien mit geringerer interner Validität belastbare (!) Hinweise liefern, dass Ergebnisse aus einem RCT fragwürdig sind …” scheint mir Anlass für ein Missverständnis zu sein, aber darüber muss ich erst noch einmal nachdenken.

  6. #13 RPGNo1
    3. Juli 2016

    Mein Verständnis dessen, was in diesem Artikel diskutiert wird, ist zwar nur eingeschränkt. Trotzdem erscheint es mir als eine hochspannende Diskussion. Bitte mehr davon, ich bin gerne bereit meinen Wissenshorizont zu erweitern. 🙂
    Danke auch an Jürgern Windeler für seine ergänzenden Erläuterungen.

  7. #14 Jürgen Windeler
    3. Juli 2016

    @Joseph Kuhn
    Die beiden Gegenargumente sind wichtig und interessant, aber m.E. für die Diskussion „Sind RCT ethisch vertretbar ?“ nicht tauglich:

    Passivrauchen: Hier vermischen sich die Aspekte „Darf ich Menschen einer potentiell toxischen Situation aussetzen – wenn ich über ihre Toxizität aber noch nichts Genaues weiß ?“ (da mag die Ethik ins Spiel kommen, die aber auch prospektive non-RCT verbieten würde) und „Darf ich Menschen einer bekanntermaßen toxischen Situation aussetzen ?“ – wo Studien weder geboten noch vertretbar sind – nicht nur RCT. Die Ethik hat hier übrigens natürlich noch einen anderen Aspekt; locker formuliert: „(Wie lange) darf ich mit untauglichen Methoden an der Erkenntnis herumdoktorn, die für gefährdete Menschen von hoher Relevanz wäre“. Schlechte Forschung verhindert gute.

    Arbeitsschutz: Wenn es Gesetze gibt, darf man nicht dagegen verstoßen, weder mit RCT noch mit irgendeiner anderen Studie. Ich sehe ansonsten keinen Grund, warum man Betriebe nicht ungleich behandeln kann, vorausgesetzt (!!), dass man nicht weiß, was besser ist. Wenn man das aber weiß, braucht man weder RCT noch irgendwas anderes. Das Problem liegt aber doch woanders: Eigentlich sollte eine gesetzliche Regelung einem angemessenen Wissensstand folgen und nicht (durch die gesetzliche Festlegung) genau verhindern, das notwendige Wissen zu generieren. Eine Evaluation setzt eigentlich Wissen über den sinnvollen Weg (z.B. aus RCT) voraus.

    • #15 Joseph Kuhn
      3. Juli 2016

      @ Jürgen Windeler:

      Passivrauchen: Ja, das betrifft nicht nur RCTs, sondern jede Interventionsstudie. Aber nicht jede prospektive Studie, weil das wiederum voraussetzen würde, dass das Risiko, dem die Menschen durch bloßes Zusehen z.B in einer Kohortenstudie ausgesetzt sind, so groß ist, dass man es sofort verbieten müsste. Das ist aber gerade bei Umweltbelastungen oft nicht der Fall und eher eine politische Abwägung (z.B. zwischen Schutz und Freiheit), keine rein fachliche Risiko-Nutzenabwägung wie bei Medikamenten. Hinzu kommt, dass das Gesundheitsrisiko durch Passivrauchen, um bei diesem Beispiel zu bleiben, aufgrund der toxikologischen Sachlage zwar grundsätzlich klar ist, dass man aber über die konkreten Folgen bestimmter Expositionslagen (Schwangerschaft, Wohnung, Balkon, Auto, Gastronomie, Büros etc.) nicht immer so viel weiß, wie man wissen müsste, um regulativ zu handeln. Das Argument mit der schlechten Forschung, die einen länger am Problem herumdoktern lässt, ist gut, danke für den Hinweis.

      Arbeitsschutz: Hier ging es mir nicht um ethische Vertretbarkeit, sondern um Probleme, die eine Ungleichbehandlung der Betriebe durch die Aufsichtsbehörden rechtlich aufwerfen würde. Ob das bei der Gemeinsamen Deutschen Arbeitsschutzstrategie konkret geprüft wurde, weiß ich übrigens gar nicht. Dem letzten Satz stimme ich jedenfalls wieder zu: Große politische Präventionsstrategien sollten eigentlich auf gefestigtem Wissen beruhen (so dass eine gute Evidenzbasis die politisch wohl trotzdem notwendige Evaluation – zumindest was Wirkungsfragen angeht – methodisch auch entlasten würde).

  8. #16 2xhinschauen
    https://www.homöopedia.eu
    5. Juli 2016

    Eine hochklassige Debatte, keine Frage, und danke an alle für den engagierten Austausch. Wie RPGNo1 schon bemerkt, ist es ohne einiges Vorwissen nicht so leicht, dem Gespräch zu folgen. Ich hoffe, dass das meinige für eine Zusammenfassung aus der Laienperspektive ausreicht – sehr grob und holzschnittartig und hier und da wohl etwas flapsig formuliert, klar. Dort wo sie falsch oder irreführend ist, bitte ich um Korrektur. Ich beschränke mich auf medizinische/pharmazeutische Studien unter besonderer Berücksichtigung der Homöopathie, da diese ja auch Prof. Walach sehr am Herzen liegt.

    1. Eine einzelne Studie ist ungeachtet ihrer Qualität fürs wahre Leben fast wertlos, z.B. bei einer konkreten Therapieentscheidung oder bei Versorgungsentscheidungen.

    2. Viele Studien zu einer bestimmten Intervention sind aber sehr wohl aussagekräftig, wenn Signifikanz und Effektstärke aller Studien tendenziell in dieselbe Richtung weisen, und umso mehr, je höher die Qualität der Einzelstudien ist. Die evtl. mangelnde “externe Validität” einzelner Studien wird durch deren Vielzahl geheilt.

    3. Man soll nicht mit Annahmen arbeiten, für die man Evidenz erheben kann. Folglich waren die ersten RCTs zur Homöopathie, beginnend beim Nürnberger Kochsalzversuch (https://www.homöopedia.eu/index.php/Artikel:Nürnberger_Kochsalzversuch) durchaus wertvoll, um in Abwesenheit eines plausiblen Wirkmechanismus’ ganz im Sinne der Evidenzbasierten Medizin zu überprüfen, ob es denn trotzdem eine messbare arzneiliche Wirkung gebe.

    4. In Summe haben Dutzende solcher Studien keine eindeutige Evidenz, sondern nur Rauschen um die Nullinie herum ergeben – tendenziell waren die Ergebnisse umso näher an der Plazebogruppe, je besser Design und Durchführung der Studie waren (nachzulesen z.B. bei Dr. Norbert Aust in diversen Blogartikeln – https://www.beweisaufnahme-homoeopathie.de). Die Effektstärken z.B. bei Narkosemitteln oder Impfstoffen übertreffen die (trotz aller Nichtevidenz in geringem Umfang *möglichen*) der Globuli um Größenordnungen. Man sucht in der Medizin oder Pharmakologie aber nicht nach kaum messbaren Wirkungen, sondern nach großen, evidenten.

    5. Fehlender Wirkmechanismus *und* fehlende Wirksamkeit der Globuli sind mithin empirisch gesichtertes Wissen. Daraus folgt, dass in Abwesenheit neuer Erkenntnisse jede weitere Studie zur arzneilichen Wirksamkeit der Homöopathie Geld- und Zeitverschwendung sind (gegen die ich übrigens auch als Steuer- und Beitragszahler erhebliche Einwände habe). Anders als in vielen anderen Feldern (Krebs, Infektionskrankheiten, Demenz …) gibt es hier keinerlei “weiteren Forschungsbedarf”.

    Mein subjektiver Eindruck ist, dass Prof. Walach qualitativ gute RCTs eben wegen ihrer indifferenten Ergebnisse als anwendbares Messinstrument für die Homöopathie ablehnt (worin er sich offenbar mit Christian Weymayr einig ist ;-)) und deswegen gerne auf Anekdot… pardon Fallstudien zurückgreifen möchte, die – verständlich, aber fälschlich – gewiss ein viel positiveres Bild zeichnen. Aber dieser letzte Satz ist jetzt nur meine Auslegung.

    • #17 Joseph Kuhn
      5. Juli 2016

      Der Spamfilter spinnt gerade wieder mal, habe Ihren Kommentar nur gesehen und rausfischen können, weil er im Spamordner ganz oben war. Weiß nicht, warum er da reingeraten ist.

      Zum Thema: Worauf Walach konkret hinaus will, weiß ich nicht. Fallstudien können in mancherlei Hinsicht wertvoll sein, aber sie können, wenn es um Wirkungsforschung bei Interventionen geht, kein RCT ersetzen. Vielleicht will er einfach nur einen wissenschaftstheoretischen Nebel um die schreiende Unsinnigkeit solcher “Studien” legen, wie gerade wieder eine drüben bei den Skeptikern thematisiert wird: https://blog.gwup.net/2016/07/05/heute-schon-gelacht-die-neueste-studie-uber-homoopathie-bei-heuschnupfen/ – was ja Ihrer Auslegung entsprechen würde.

  9. #18 2xhinschauen
    https://www.homöopedia.eu
    6. Juli 2016

    Zweifelhafter Nickname, seltsamer(?) Klarname in der E-Mailadresse und zuviele (ähnliche) Links in einem Kommentar –> Spam

    Oder so…. danke fürs Retten

  10. #19 Jürgen Windeler
    6. Juli 2016

    @2xhinschauen

    Zwei kurze methodische Kommentare (die keinen Bezug zur Homöopathie haben).

    Zu 1.: „Eine einzelne Studie ist ungeachtet ihrer Qualität fürs wahre Leben fast wertlos“. Nein, das stimmt so nicht. Es sind im Gegenteil möglicherweise gerade die einzelnen wegweisenden Studien, die entscheidenden Einfluss auf die Versorgung nehmen. Beispiele sind etwa die CAST-Studie zu Antiarrhythmika aus den 1980ern und die WHI-Studie zur Hormonsubstitution, die die Versorgung sehr schnell geändert haben. Auch die UKPDS zur Diabetesbehandlung würde ich dazu zählen. Diese Studien zeichnet aber eben aus, dass sie eine hoch relevante Frage mit einer guten Methodik zu beantworten suchen, was der Bedeutung und Glaubwürdigkeit des Ergebnisses sehr zuträglich ist.

    Zu 2.: „Die evtl. mangelnde “externe Validität” einzelner Studien wird durch deren Vielzahl geheilt.“ Nein, das ist nicht richtig. Die externe Validität bezieht sich auf den Anwendungsbezug. Ob ich in der Hausarztpraxis mit 1 oder 5 oder 50 Studien an Patienten auf Intensivstationen konfrontiert werde: entscheidend ist, dass ich meine, die Ergebnisse auf meine Praxis übertragen zu können – vielleicht geht es um Medikamente gegen Übelkeit bei einer Chemotherapie – oder eben nicht. Die Zahl der Studien ist dabei nicht relevant. Anders ist es natürlich, wenn die Vielzahl auch eine Vielfalt (also Studien nicht nur auf Intensivstationen) bedeutet und dadurch die Möglichkeit besteht, auch etwas über andere Anwendungssituationen zu sagen oder die Frage der Übertragung empirisch zu untermauern.

    Besser wäre es aber natürlich, auf die Vielfalt nicht nur zu hoffen, sondern sie bewusst herbeizuführen, indem Studien eben nicht in sehr eng definierten Patientengruppen gemacht werden und so relevante Effektmodifikatoren identifiziert werden können – also Eigenschaften der Patienten oder des Settings, die die Größe der Effekte beeinflussen

  11. #20 pelacani
    6. Juli 2016

    Ich setze noch einmal hier ein.

    2. Walach hat Recht, wenn er sagt, man solle Studien mit geringerer interner Validität nicht umstandslos abtun. Natürlich ist ein mäßig guter RCT nicht einfach besser als sehr gute Fallstudien oder eine große Kohortenstudie, so Walach (ebda, S. 128)

    Ich stimme nicht zu. Jede Art von Kontrolle, und sei sie auch noch so angreifbar, ist besser als gar keine Kontrolle. Insbesondere natürlich dann, wenn ohnehin ein Effekt a priori nicht oder kaum plausibel ist.

    3. Walach hat noch in einem Punkt Recht, nämlich mit seinem Hinweis darauf, dass RCTs „per definitionem ihre Studienteilnehmer als passive Empfänger therapeutischer Leistungen konzipieren“ (Zitat aus seinem Internetbeitrag). RCTs unterstellen Ursache-Wirkungszusammenhänge, darauf zielt ihr Einsatz ja auch ab. Inwiefern dieses Design angemessen ist, wenn es um Zusammenhänge geht, in denen „begründetes“ menschliches Handeln ausschlaggebend ist, welche Art Aussagen hier damit zu gewinnen sind, ist in der Tat kritisch zu diskutieren.

    Eine Intervention, bei der “‘begründetes’ menschliches Handeln ausschlaggebend” in diesem Sinne ist, wäre z. B. die Psychotherapie, die nicht “blind” möglich ist. Niemand aber wird auf die Idee kommen, ein Design wie in einer Medikamentenprüfung zu verlangen. Aber das ist banal, und insofern hat Walach eben nicht recht, falls das als globaler Einwand gegen RCT’s gemeint ist (und soweit ich Walach kenne, ist das so gemeint).

    • #21 Joseph Kuhn
      7. Juli 2016

      “Jede Art von Kontrolle, und sei sie auch noch so angreifbar, ist besser als gar keine Kontrolle”

      Ihr Argument liegt letztlich auf der Linie meines Satzes, eine Kohortenstudie besser ist als kein RCT. Insofern haben Sie mit Ihrem Satz natürlich recht, die Frage ist nur, ob sehr kleine oder schlecht gemachte oder bewusst manipulierte RCTs (Stichwort Pharmaindustrie) darunter zu subsummieren wären. Aber man kommt hier auf eine Ebene, in der man sich darüber streitet, welche Art von Studienrubbish mehr stinkt. Letztlich geht es ja nur um die Frage, ob Walach ein gutes Argument gegen die Evidenzhierarchie hat. Das ist nicht der Fall.

  12. #22 pelacani
    7. Juli 2016

    Walach schreibt:

    But what if a good case series contradicts the results of a moderately good trial? Or a large cohort study contradicts a well conducted but very selective trial? In that case, the hierarchy and its application in all kinds of review and guideline panels would still favor the results of the trial. Our plea was to stop thinking about methodology in terms of a hierarchy.

    Aber was meint er denn nun konkret damit? Hat er mal ein Beispiel? Im nächsten Satz heißt es:

    we provided a series of arguments why

    Da hat er z. B. die GERAC-Akupunktur-Studien bemüht und sich verwundert, warum eine Placebo-Therapie so viel wirksamer gewesen sei als die “proven active therapy”. Ich finde das überhaupt nicht verwunderlich – man muss sich nur mal überlegen, worin diese Standardtherapie (nicht “proven”, sondern nur Standard) bestanden haben kann. Ich liefere also mal ein anderes Beispiel. Eine placobokontrollierte Homöopathiestudie (wenn das auch ein Oxymoron ist) sollte unbeachtet bleiben, weil es eine Kohortenstudie von Frau Prof. Witt gibt, die unvergleichlich und unverglichen zeigt, dass Homöopathie „wirkt“.

    Was er in seinem Matrix-Text vorbringt, ist im Wesentlichen das, was sonst auch immer gegen RCT’s vorgebracht wird; nur die Terminologie ist leicht modernisiert. Kontrollierte Studien galten 150 Jahre lang als „neumodisch“, und seit 20 Jahren versucht man, sie für „altmodisch“ zu erklären. In Wahrheit ist es nicht die zu geringe Aussagefähigkeit der randomisierten Studie, sondern ihre Überzeugungskraft, ihre Potenz zur Scheidung der Fiktion von der Realität, wegen welcher sie angegriffen wird.

  13. #23 rolak
    7. Juli 2016

    worin diese Standardtherapie .. bestanden haben kann

    Generell ist es mir nicht bekannt, pelacani, doch als ich dem beim (auch Akupunktur-) Orthopäden aushängenden Aufruf zur GERAC-Teilnahme nachkommen wollte, wurde mir beschieden, daß dies nur ginge, wenn man medikamentös austherapiert sei. Was nicht der Fall ist, da nur die nebenwirkungsstärkere Normaltherapie durch eine besser verträglichere ersetzt wurde.

    Das heißt, die “proven active therapy” ist jeweils eine Behandlung gewesen, von der im Vorhinein auch dem Patienten bekannt war, daß sie bestenfalls kaum wirkt. Ne Steilvorlage für die beiden PlaceboGruppen.

  14. #24 2xhinschauen
    8. Juli 2016

    @Jürgen Windeler #19
    Die Beispiele für besonders wirkmächtige Einzelstudien kannte ich natürlich nicht, und Sie haben das ja auch gleich für nicht verallgemeinerbar erklärt. Ich hatte nicht grundsätzlich unrecht, aber auf diese Art Richtigstellung und Ergänzung hatte ich gehofft. Danke für die Mühe.

    Bei Nr 2 war mein Statement wohl zu grob oder zu homöopathiespezifisch – viele Studien zu verschiedenen Aspekten und Kontexten ergeben eher so etwas wie ein Lagebild als eine konkrete Handreichung in einer konkreten Entscheidungssituation.

    Mir erscheint als weiteres Fazit, dass man die Sinnhaftigkeit von Studientypen u.ä. Fragen offenbar nicht allgemeingültig beantworten kann. Es wurde im Thread versucht, erntete aber immer und sofort Widerspruch.

    • #25 Joseph Kuhn
      8. Juli 2016

      @ 2xhinschauen

      “Mir erscheint als weiteres Fazit, dass man die Sinnhaftigkeit von Studientypen u.ä. Fragen offenbar nicht allgemeingültig beantworten kann.”

      Auch die Sinnhaftigkeit einer Addition kann man nicht allgemeingültig beantworten. Es kommt immer darauf, worum es konkret geht. Wenn es um die Evidenzhierarchie von Studiendesigns in der Wirkungsforschung geht, kann man ganz allgemeingültig sagen, dass ein (vernünftiger) RCT immer verlässlicher ist als Fallstudien. Ein RCT ist das Design mit der besten Kontrolle von Kontextfaktoren. Dem widerspricht nicht, dass ein RCT so unzureichend angelegt sein kein (z.B. zu kurze Beobachtungszeit für Langzeiteffekte), dass Fallstudien per se nichts mehr bedeuten, aber wie oben schon gesagt, was immer gute Fallstudien dann zum Nachdenken aufgeben, macht zur Sicherung Studien einer höheren Evidenzklasse, im Idealfall einen RCT, notwendig.

  15. #26 Jürgen Windeler
    9. Juli 2016

    Man kann die Sinnhaftigkeit von Studientypen für bestimmte Fragen sehr gut allgemeingültig beantworten. Wenn man sich für die Häufigkeit von Erkrankungen interessiert, sind eben andere Studientypen gefragt (und gelten innerhalb dieser möglichen Studientypen wiederum bestimmte Qualitätsanforderungen und “Hierarchien”) als wenn man sich für die Genauigkeit diagnostischer Tests oder eben “Wirkungen” (Wirksamkeit, Nutzen, Schaden) von Maßnahmen interessiert. Das enthebt aber nicht von der Bewertung jeder einzelnen Studie im Hinblick darauf, ob sie gut genug gemacht wurde, um die gestellte Frage zu beantworten.

    Im Übrigen liegt zwischen RCT und Fallstudien ein weites Feld. Wenn es um Nutzen geht, ist dabei immer zu fragen und zu bewerten, ob ein Studientyp (ein Design) einen aussagefähigen Vergleich ermöglicht. Und wenn Publikationen über Ergebnisse aus Registern (derzeitiges Dauerthema) – sogar aus sehr guten aus Schweden – mit dem Satz enden, dass “die Ergebnisse nun durch RCT bestätigt werden müssen”, dann enthält diese Aussage eben auch eine solche Bewertung – und eigentlich auch die Selbstkritik: “Hätte ich gleich einen RCT gemacht, wäre ich jetzt schon schlauer”.

  16. #27 Joseph Kuhn
    9. Juli 2016

    Ich denke, die Geschichte mit der Evidenzhierarchie bei Studien zur Wirkung von Arzneimitteln sollte jetzt mehr oder weniger klar sein.

    Komplizierter wird es, wenn man sich mit der Frage beschäftigt, was die Übertragung dieses Schemas z.B. auf die Psychotherapieforschung bedeutet. Psychotherapie soll den Menschen ja befähigen, mit seiner Situation angemessen, d.h. nach subjektiv guten Gründen, umzugehen. Sie soll ihn dabei unterstützen, wieder zum (potentiell) bewusst handelnden Subjekt seiner Lebensgeschichte zu werden. Freud hat das für die Psychoanalyse (von der man ansonsten halten mag, was mal will) mit dem Satz “Wo Es ist, soll Ich werden” auf den Begriff gebracht. An die Stelle des unbewusst getriebenen Verhaltens soll bewusstes Handeln treten. Auch jenseits der Psychoanalyse hat Psychotherapie immer einen Aspekt von Befreiung, z.B. von Zwängen, Wahnideen, Ängsten etc., die ein situationsangemessenes Handeln beeinträchtigen und “bedingt” erscheinen lassen.

    Geht es bei dieser Ermächtigung des Menschen um eine “Wirkung” von Psychoherapie? Oder ist der Begriff der “Wirkung” hier nur noch metaphorischer Natur? Und kann in der Psychotherapie der Behandlungserfolg überhaupt “objektiv”, d.h. ohne Bezug auf die Sichtweise des Subjekt bestimmt werden? Und was bedeutet das für RCTs etwa zur “Wirkung” der kognitiven Verhaltenstherapie bei einer Phobie? Oder bedeutet dieser philosophische Untergrund für die Psychotherapieforschung erst einmal gar nichts, weil natürlich auch hier gilt, dass jedes Studiendesign unterhalb eines RCT nur noch mehr Unwägbarkeiten ins Spiel bringt, also ganz unabhängig davon, ob man hier im strengen Sinne von einer “Wirkung” der Psychotherapie sprechen kann, andere Studiendesigns, die Zusammenhänge mit statistischen Methoden verallgemeinern, schlechter sind? Der letzte Satz deutet an, dass es auch andere Formen der Verallgemeinerung gibt, die vielleicht besser zu Begründungszusammenhängen passen, während das RCT ideal für Bedingungszusammenhänge ist, aber das führt, wie oben im Blogbeitrag schon gesagt, in Grundlagenfragen der subjektwissenschaftlichen Psychologie – und zu Fragen, auf die ich auch keine wirklich guten Antworten habe.

    Im Blogbeitrag habe ich dazu auf das Buch “Grundlegung der Psychologie” von Klaus Holzkamp verlinkt, ein harter Brocken, aber die methodologische Reflexionsschärfe dort zum Thema begründetes versus bedingtes Handeln ist in der Psychologie wohl nach wie vor unübertroffen. Damit man das nicht als Frage eines “Schulenstreits” in der Psychologie beiseite schiebt, sei hier ergänzend auf einen Text von Jürgen Kriz “Methodologische Aspekte von ‘Wissenschaftlichkeit’ in der Psychotherapieforschung” verlinkt, Jürgen Kriz kommt aus einer ganz anderen “Ecke” der Psychologie wie Klaus Holzkamp.

  17. #28 pelacani
    10. Juli 2016

    @Joseph Kuhn, #27

    Komplizierter wird es, wenn man sich mit der Frage beschäftigt, was die Übertragung dieses Schemas z.B. auf die Psychotherapieforschung bedeutet. Psychotherapie soll den Menschen ja befähigen, mit seiner Situation angemessen, d.h. nach subjektiv guten Gründen, umzugehen. Sie soll ihn dabei unterstützen, wieder zum (potentiell) bewusst handelnden Subjekt seiner Lebensgeschichte zu werden.

    Mir ist jetzt nicht so ganz klar, ob Hilfestellung bei der Selbstverwirklichung zu Lasten der Solidargemeinschaft finanziert werden soll. Psychotherapie soll dazu führen, dass der Skalenwert auf der Hamilton-Depressions-Skala nach 12 Wochen signifikant stärker gegenüber einer anders behandelten Kontrollgruppe abnimmt. ;-). Je weiter man sich von solcherart Zielen entfernt, um so nebulöser wird die Angelegenheit.

    • #29 Joseph Kuhn
      10. Juli 2016

      “Mir ist jetzt nicht so ganz klar, ob Hilfestellung bei der Selbstverwirklichung zu Lasten der Solidargemeinschaft finanziert werden soll.”

      Sicher nicht, und kassenfinanzierte Psychotherapie hat mit “Selbstverwirklichung zu Lasten der Solidargemeinschaft” in der Regel auch nichts zu tun, siehe § 12 SGB V. Das klingt mit Verlaub etwas nach uninformiertem Vorurteil. Wenn ein Zugführer nach einem Unfall nicht mehr fahren kann, weil er Panikattacken hat, wenn ein Kind aufgrund eines Waschzwangs seine Hände kaputtgewaschen hat, wenn jemand aufgrund einer schweren Depression selbst einfachste Alltagsaktivitäten nicht mehr verrichten kann oder wenn jemand alkoholabhängig ist, dann klingt das mit der “Selbstverwirklichung zu Lasten der Solidargemeinschaft” doch reichlich unpassend. In all diesen Fällen geht es darum, dass Menschen wieder handlungsfähig werden, Autonomie gegenüber dem gewinnen, was sie scheinbar im Griff hat.

      Hamiltonskala: Das mag im Falle einer Depression eine Beurteilungshilfe sein, aber meinen Sie nicht, dass bei solchen Störungsbildern letztlich doch das subjektive Befinden der Patienten entscheidend ist (zumal diese Skala ja ohnehin vor allem das subjektive Befinden abfragt)?

      Nichtsdestotrotz: Wenn ein Therapieverfahren in einem Kontrollgruppendesign seine Überlegenheit in der Depressionsbehandlung zeigt und das klinische Bild der Patienten den Ergebnissen der Hamiltonskala nicht aus irgendwelchen Gründen widerspricht, dann würde ich diesem Therapieverfahren natürlich mehr zutrauen als seiner Alternative. Was sonst. Ich will ja nicht bestreiten, dass ein RCT hier Erkenntnisgewinn bringt, ich frage mich nur, ob er hier auf der gleichen Ursache-Wirkungs-Grundlage funktioniert wie bei der Arzneimittelprüfung und finde, dass zu schnelle Antworten bei dem Thema nicht hilfreich sind.

  18. #30 pelacani
    11. Juli 2016

    “Mir ist jetzt nicht so ganz klar, ob Hilfestellung bei der Selbstverwirklichung zu Lasten der Solidargemeinschaft finanziert werden soll.”

    Das klingt mit Verlaub etwas nach uninformiertem Vorurteil. Wenn ein Zugführer nach einem Unfall nicht mehr fahren kann, weil er Panikattacken hat […] Hamiltonskala: Das mag im Falle einer Depression eine Beurteilungshilfe sein, aber meinen Sie nicht, dass bei solchen Störungsbildern letztlich doch das subjektive Befinden der Patienten entscheidend ist (zumal diese Skala ja ohnehin vor allem das subjektive Befinden abfragt)?

    Ich habe das Gefühl, missverstanden zu werden. Es geht darum, dass dieses subjektive Befinden in irgendeiner Weise operationalisiert werden muss. Anders ist keine Evaluation, die den Namen verdient, möglich. Die Operationalisierung kann auf verschiedenen Ebenen erfolgen, bis hin zum SF-36 oder zur Zahl der Arbeitsunfähigkeitstage. Einzige Bedingung ist, die Skalen oder sonstige Parameter müssen validiert werden. Ich habe mit der Bemerkung “Selbstverwirklichung” bewusst überzeichnet, aber ich fände es schon interessant zu erfahren, wie man ein Konzept wie “wieder zum (potentiell) bewusst handelnden Subjekt seiner Lebensgeschichte zu werden” in eine überprüfbare Aussage transformiert. Freud ist da wenig hilfreich: gerade das älteste der Psychotherapieverfahren hat die größten Schwierigkeiten mit dem Wirksamkeitsnachweis. Ich sage nicht, dass Metaphysik sinnlos ist, aber sie ist – hier – protowissenschaftlich. Und wenn die HAMD den Therapie-Erfolg nicht abbildet, dann muss man sich überlegen, warum nicht. Dann müssen bessere Messinstrumente her.

    ich frage mich nur, ob er hier auf der gleichen Ursache-Wirkungs-Grundlage funktioniert wie bei der Arzneimittelprüfung und finde, dass zu schnelle Antworten bei dem Thema nicht hilfreich sind.

    Um es noch weiter zuzuspitzen: das sagen die Psychoanalytiker auch. 😉

    • #31 Joseph Kuhn
      11. Juli 2016

      @ pelacani:

      “dass dieses subjektive Befinden in irgendeiner Weise operationalisiert werden muss”

      Ja, irgendwie muss der Pudding an die Wand. Wenn die Patienten konkrete Fähigkeiten, die sie wiedererlangen möchten, als Therapieziele verfolgen, z.B. aus dem Haus gehen können, mit der U-Bahn fahren können etc. ist das die ideale Operationalisierung. Wobei man vorsichtig sein muss, dass man nicht psychische Gesundheit einfach auf das “Funktionieren” im Alltag reduziert, so wichtig das ist.

      “Arbeitsunfähigkeitstage”

      Ein Mosaikstein im Bild. Wären sie das Maß der Dinge, würde es uns psychisch immer schlechter gehen, denn die AU-Tage infolge psychischer Störungen steigen seit mindestens 20 Jahren kontinuierlich an. Die Häufigkeit psychischer Störungen nimmt aber insgesamt wohl nicht zu.

      “die Skalen oder sonstige Parameter müssen validiert werden”

      Da fangen die Probleme an. Wie validiert man das subjektive Empfinden, oder Wahrnehmungen, wenn konkrete Alltagsfähigkeiten nicht deutlich beeinträchtigt sind? Der Begriff “Messinstrument” suggieriert da eine Objektivität, die der Sachverhalt nicht ohne Weiteres hergibt, auch nicht, wenn man es mit dem SF 36 angeht. Manche Sachverhalte lassen sich nicht ohne oder gar “gegen” die Patienten validieren, sondern nur mit ihnen. Das gilt dann auch dafür, was “eine überprüfbare Aussage” ist und wie man sie überprüft. Im Prinzip kann man den SF 36 als Stütze für die Befragten sehen, sich über ihre Situation unter verschiedenen wichtigen Gesichtspunkten Gedanken zu machen. Gegen ihren Willen in sie hineinsehen kann man auch mit dem SF 36 nicht.

      “Ich sage nicht, dass Metaphysik sinnlos ist, aber sie ist – hier – protowissenschaftlich.”

      Das mag sein, aber darüber nachzudenken, ob ein Verfahren gegenstandsadäquat ist, ist die Voraussetzung jeder weiteren Untersuchung. Es macht keinen Sinn, mit einer Waage die Helligkeit einer Lampe zu untersuchen und es macht keinen Sinn, in einem Reiz-Reaktions-Schema begründetes Handeln zu untersuchen. Dazu gibt es in der Experimentalpsychologie lange Debatten, ein schönes Buch dazu war vor langer Zeit mal mit dem trefflichen Titel “Die gute Versuchsperson denkt nicht” überschrieben.

      “das sagen die Psychoanalytiker auch”

      Dann haben sie hier mal recht. Dass sich die Erde um die Sonne dreht, glaube ich auch einem Homöopathen.

  19. #32 pelacani
    11. Juli 2016

    ich frage mich nur, ob er hier auf der gleichen Ursache-Wirkungs-Grundlage funktioniert wie bei der Arzneimittelprüfung und finde, dass zu schnelle Antworten bei dem Thema nicht hilfreich sind.

    Um es noch weiter zuzuspitzen: das sagen die Psychoanalytiker auch.

    Dann haben sie hier mal recht.

    Haben sie nicht. Ich zitiere mal aus Cord Benecke, “Forum der Psychoanalyse”, 2014:

    Die aus der psychoanalytischen Wissenskultur abgeleiteten Schlussfolgerungen in Bezug auf eine grundsätzliche Nichtpassung zwischen empirischer Wirksamkeitsforschung und Psychoanalyse ist nach Ansicht des Autors nicht haltbar […]

    Der Artikel ist relativ ausführlich und wurde auch ausführlich diskutiert, aber ich entsinne mich keiner überzeugenden Einwände. Oder eine andere Diskussion, sehr viel kürzer, aber dafür auch sehr viel schärfer, im Nervenarzt. Im Schlusswort dieser Diskussion wird deutlich, dass natürlich auch Meta-Analysen von Verhaltenstherapie nicht über alle Zweifel erhaben sind. So ist sie nun einmal, die Wissenschaft. Rief schreibt zu guter Letzt (Nervenarzt 2013;84:392-4):

    Für die Psychotherapie hat die Aussage von Klaus Grawe noch wenig an Aktualität verloren: Anstatt die Seele einer Therapierichtung zu verschreiben, brauchen wir selbstkritisches und professionelles Analysieren von qualitativ hochwertigen Studien.

    Aber hier steht: Studien. Ich vermute, dass wir uns darauf einigen können.

  20. #33 zimtspinne
    11. Juli 2016

    Wenn ich mir so die Widerstände der Klienten äh Patienten anschaue, wenn es um drohende Wegnahme ihres Analytikers geht, dann frage ich mich nicht nur nach der Wirksamkeit solcher Endlostherapien sondern auch nach ihren Nebenwirkungen….. (Stichwort Abhängigkeit)
    https://www.psychotherapiepraxis.at/pt-forum/viewtopic.php?f=55&t=25371&sid=1562070260d7f39f050807dd69a52146

  21. #34 Joseph Kuhn
    11. Juli 2016

    @ pelacani:

    Auf “Studien” kann man sich immer einigen, ebenso auf “qualitativ hochwertig”. Die Frage ist, ob damit für unseren kleinen Disput etwas gewonnen ist. Ich denke nein.

    Ich verstehe eigentlich auch gar nicht, was Sie an dem Freudzitat auszusetzen haben. Haben Sie Angst, sich mit Psychoanalyse anzustecken, wenn Sie den Satz “Wo Es ist, soll Ich werden” stehen lassen? Das ist eine unbegründete Angst, ich finde, den Satz kann man, wenn man “Es” und “Ich” nicht psychoanalytisch fasst, sondern so wie ich oben, aus jeder erdenklichen Therapierichtung annehmen. Da ist noch nichts aus der “psychoanalytischen Wissenskultur” abgeleitet, Cord Benecke hin oder her.

    @ zimtspinne:

    Was hat das mit dem Thema zu tun? Wir können gerne mal einen Blog zur Kritik an der Psychoanalyse machen, da hätte ich einiges vorzubringen. Aber der Bezug zum Thema hier fehlt.

  22. #35 pelacani
    11. Juli 2016

    Ich verstehe eigentlich auch gar nicht, was Sie an dem Freudzitat auszusetzen haben.

    Wir drehen uns im Kreis. Es ist nicht operationalisierbar; sagte ich wohl schon. Oder wissen Sie ein Studiendesign, mit dem es prüfbar wäre? Wenn Sie keines wissen, dann ist Ihr Satz

    Auf “Studien” kann man sich immer einigen, ebenso auf “qualitativ hochwertig”.

    wohl nicht ganz ernst gemeint.

    • #36 Joseph Kuhn
      11. Juli 2016

      Wir drehen uns in der Tat im Kreis, aber das macht erst mal nichts, dann kann man das Thema und seinen Tanzpartner aus unterschiedlichen Perspektiven betrachten. Meine Position ist, dass man darüber nachdenken muss, ob man, wenn es um den Teil der Psyche geht, bei dem begründetes Handeln zentral ist, von Ursache-Wirkungs-Zusammenhängen sprechen kann, und falls nein, ob das etwas für RCTs in der Psychotherapieforchung bedeutet oder nicht. Ob die Theoreme der Psychoanalyse “operationalisierbar” sind, ist mir in dem Kontext völlig egal (OT: dazu nach wie vor lesenswert: Adolf Grünbaum (Hg.) Kritische Betrachtungen zur Psychoanalyse. Springer 1991).

      Noch zwei Anmerkungen dazu:
      1. Aus der Sicht der evidenzbasierten Medizin in der Form, wie sie an der Arzneimittelprüfung entwickelt wurde, ist es gar nicht nötig, die Theoreme der Psychoanalyse zu operationalisieren. Die Diagnose muss gesichert sein und das, was als Outcome gilt, muss klar sein. Was in der Black Box “Psychoanalyse”, ist aus dieser Sicht völlig egal. EBM fragt nicht nach der Wirkungsweise eines Verfahrens, sondern nur nach der Wirksamkeit.
      2. Schauen Sie mal, wie viel Prozent der durchgeführten Psychotherapien heutzutage überhaupt noch Psychoanalysen sind, der Anteil ist überschaubar.

  23. #37 pelacani
    11. Juli 2016

    Meine Position ist, dass man darüber nachdenken muss, ob man, wenn es um den Teil der Psyche geht, bei dem begründetes Handeln zentral ist, von Ursache-Wirkungs-Zusammenhängen sprechen kann, und falls nein, ob das etwas für RCTs in der Psychotherapieforchung bedeutet oder nicht. Ob die Theoreme der Psychoanalyse “operationalisierbar” sind, ist mir in dem Kontext völlig egal

    Dann bleibt für mich offen, was konkret mit dieser Formulierung gemeint sein könnte, und inwieweit das Walach recht gibt (das war unser Ausgangspunkt).

    Ich sag’s noch mal anders. Ferdinand von Schirach schreibt in einem seiner Bücher, dass die Staatsanwaltschaft überhaupt nicht an den Motiven für Straftaten interessiert ist, sondern einzig an Indizien und materiellen Beweisen (oder so ähnlich). Über Motive lässt sich trefflich spekulieren. Wie sagten Sie eben (#31)? “Gegen ihren Willen in sie hineinsehen kann man […] nicht” – völlig richtig. Indizien müssen genügen. Auch in der Psychotherapieforschung. Ihren beiden Anmerkungen (die übrigens dem eben zitierten Satz zu widersprechen scheinen) kann ich ohne Probleme zustimmen. Mit einer kleinen Einschränkung: Der vermutete Wirkmechanismus oder die antizipierte Wirkung sollte wenigstens ansatzweise plausibel sein, ansonsten wäre die Gefahr zu groß, den Aufwand in den Sand zu setzen.

    • #38 Joseph Kuhn
      11. Juli 2016

      @ pelacani:

      “inwieweit das Walach recht gibt”

      Gar nicht. Lesen Sie es oben im Blog noch mal nach, meine Argumentation nimmt nach dem rhetorischen Einstieg eine Wendung.

      “Der vermutete Wirkmechanismus oder die antizipierte Wirkung sollte wenigstens ansatzweise plausibel sein, ansonsten wäre die Gefahr zu groß, den Aufwand in den Sand zu setzen.”

      Ja, soweit würde ich dem “Scientabilitätsargument” von Christian Weymayer folgen – und es so weiterführen, dass man natürlich auch schauen muss, ob es überhaupt um einen “Wirkungsmechanismus” geht oder nicht, d.h. ob man sich auf einer organismischen Ebene bewegt oder auf der Ebene begründeten Handelns. Wobei ich mir wie gesagt nicht klar darüber bin, was das für die Interpretation von RCTs bedeutet. Ein paar Gedanken dazu habe ich mir vor einiger Zeit schon einmal im Zusammenhang mit dem “Komplexitätsargument” gemacht (für “komplexe” Interventionen seien RCTs nicht geeignet), das Walach ja jetzt auch wieder bemüht:
      https://scienceblogs.de/gesundheits-check/2014/03/18/evidenzbasierung-evaluierbarkeit-komplexitaet/ Sobald ich weiß, dass 42 die Antwort ist, melde ich mich wieder.

  24. #39 pelacani
    12. Juli 2016

    Gar nicht. Lesen Sie es oben im Blog noch mal nach,

    Dann entschuldige ich mich für die Umstände, die Ihnen meine Unaufmerksamkeit bereitet hat. 🙂

    • #40 Joseph Kuhn
      12. Juli 2016

      Kein Thema. Danke für die Anregungen zum Nachdenken.

  25. […] schreibt, ganz zu schweigen. Auch den Streit zwischen Jürgen Windeler und Harald Walach, den wir hier vor kurzem kommentiert haben, kann man als Frage danach verstehen, wie man nutzlose Forschung vermeidet und ob dabei ein […]