Bevor die Diskussion zu unserem Holopathie-Artikel von einem Troll gekapert wurde, bot sie einige interessante Einblicke in die strategische Diskursführung der Holopathie. Deren Erfinder und Vermarkter Dr. Christian Steiner und Klaus Dillinger meldeten sich per Kommentar und versuchten wortreich, ihr Voodoo-Gerät und die darauf basierende Methode zu verteidigen. Dabei tauchten krasse Unterschiede in der Interpretation der Daten auf, die Dr. Heike Larcher in ihrer Dissertation erarbeitet hatte. Die Firma Quint-Systeme stellte den Volltext dieser Dissertation unserem Mitdiskutanten Philippe Leick zur Verfügung. Er hat die Daten ausführlich studiert und seine Ergebnisse im folgenden Gastbeitrag zusammengefasst.
Dr. Philippe Leick ist promovierter Physiker mit den Schwerpunkten Laserphysik und Quantenoptik. Er ist außerdem GWUP-Mitglied und hat zu der bei Homöopathen mit einem Hang zu Quantenmystik äußerst beliebten “schwachen Quantentheorie” publiziert – unter anderem auch in der Zeitschrift “Homeopathy”.
Eine intensive Beschäftigung mit alternativer Wissenschaft oder
alternativer Medizin kann einen natürlichen Hang zum Zynismus ganz
entschieden verstärken.
Zu nicht unerheblichen Teilen resultiert dies aus der Lektüre
entsprechender Literatur. Man darf sich einfach nicht darauf verlassen,
dass in einer zitierten Arbeit auch wirklich das steht, was der Autor
einem weismachen möchte. Die Diskussionen um die Holopathie in diesem
Blog liefern dafür ein vorzügliches Beispiel. Unter anderem geht es
dabei um die Dissertation von Heike Larcher, die getestet hat, ob die
Holopathie bei der Behandlung von chronischer Polyarthritis einem Placebo überlegen ist.
Im Abstract dieser Arbeit heißt es u.a.:
Hinsichtlich des Hauptzielkriteriums DAS28 zeigten sich weder zwischen
noch innerhalb der beiden Behandlungsgruppen [echte und
Placebo-Holopathie] signifikante Unterschiede.
Als Skeptiker hätte man nun – trotz einiger Relativierungen im gleichen
Abstract – denken können, dass der Fall damit erledigt sei. Aber die
Erfinder der Holopathie, der Arzt Dr. Christian Steiner und der
Informatiker Klaus Dillinger, hielten in ihren Kommentaren dagegen:
Klaus Dillinger:
(1)
Unsere erste Studie hat bekanntlich – trotz gewisser methodischer
Schwächen (zu kleines Sample, zu schwer klassifizierbare Indikation,
Probleme mit der Patientencompliance) – klare statistische Hinweise auf
einen kausalen Wirkungszusammenhang gezeigt.(2)
Weiters gab es in der Vorstudie durchaus statistisch signifikante
Unterschiede zwischen Placebo und Verum, die einen Wirkungszusammenhang
und weitere Studien nahelegen.
Christian Steiner:
(3)
Ich gebe gerne zu, dass die Studie nicht ganz das ist, was wir uns
erhofft haben, aber hier wie Hr. Berger von einem “absoluten Effekt
Null” zu schreiben, halte ich – gelinde gesagt – für eine Frechheit.
Es bleibt einem also nichts anderes übrig, als die Originalquelle
aufzuspüren und nachzulesen, wie die Studie durchgeführt wurde und zu
welchen Ergebnissen sie denn nun gekommen ist. Die Recherche wurde mir
von der Firma Quint-Systeme,
die mir die Dissertation freundlicherweise zur Verfügung gestellt hat,
erheblich erleichtert.
Das Studiendesign war im Prinzip relativ simpel. Insgesamt 21
freiwillige Teilnehmer wurden der Placebo- (N=7) bzw. der Verumgruppe
(N=14) zugelost. Das Placebo bestand aus einer vom Hersteller
deaktivierten “Quint-Station” 315. Der
Zustand der Studienteilnehmer wurde anhand einer Reihe von Indikatoren
für Arthritis (DAS28, DAS44, Ritchie Articular Index (RAI),…), der
Bewertung der behandelnden Ärzte, von den Teilnehmern auszufüllenden
Fragebögen sowie Laboranalysen am Anfang und am Ende der Studie sowie
bei zwei Zwischenvisiten bewertet.
Am Studiendesign ist nichts auszusetzen. Dass am Anfang der Studie der
Zustand der 7 Mitglieder (6 Patienten im Krankheitsstadium II, nur 1 im
schlimmeren Stadium III) der Placebogruppe eher besser war als der
Zustand der Mitglieder der Verumgruppe (jeweils 7 in Stadium II bzw.
III), ist aufgrund der geringen Teilnehmerzahl nicht ungewöhnlich, muss
aber natürlich bei der späteren Auswertung berücksichtigt werden.
Die Studienergebnisse zeigen ein ziemlich einheitliches Bild. Bei
keinem der untersuchten Kriterien gibt es statistisch signifikante Unterschiede
zwischen Placebo- und Verumgruppe. Innerhalb beider Gruppen kommt es,
im Großen und Ganzen, während der Studie zu einer Verbesserung des
Zustands der Teilnehmer. Dabei schwankt das Bild recht stark, je nach
Kriterium sind die Unterschiede mal größer, mal kleiner, treten zu
unterschiedlichen Zeitpunkten auf etc… Ziemlich genau das, was man
erwarten kann, wenn es zwischen Verum und Placebo keinen Unterschied in
der Wirkung gibt, und die beobachteten Verbesserungen auf bekannte
Effekte wie Placebo, Regression zum Mittelwert etc. zurückzuführen
sind.
Besondere Kenntnisse in Statistik sind m.E. nicht notwendig, um zu
dieser Schlussfolgerung zu kommen – die graphische Darstellung der
Ergebnisse ist völlig ausreichend, um festzustellen, dass alle Effekte
in beiden Gruppen die gleiche Größenordnung haben.
An einem Beispiel möchte ich zeigen, wie diese Ergebnisse zu den unterschiedlichen Einschätzungen führen.
Dr. Christian Steiner zitiert folgende Passage:
“Zitat Dissertation Dr. H. Larchner [sic!]: „In der
Verumgruppe wurde für den DAS 44 eine signifikante Verbesserung
festgestellt (p=0,006), wobei das Ausmaß dieser Veränderung um einen
Wert von 0,47 beim Vergleich von V1 zu V3 unter den Kriterien für eine
Besserung – laut EULAR in Höhe von 0,6 – blieb.
Beim Vergleich der Werte zwischen Therapiebeginn und Therapieende ergab
sich in
der Verumgruppe eine Reduktion der Zahl der schmerzempfindlichen
Gelenke
um 21,1%, eine Besserung des Ritchie Articular Index um 30% (p=0,011)
sowie
eine Reduktion der Zahl der geschwollenen Gelenke um 24,6% (p=0,004).
Auch hinsichtlich der von den Patienten berichteten Morgensteifigkeit
zeigte sich in
der Verumgruppe eine Verbesserung von 56 Minuten (Mittelwert) zu
Therapiebeginn
auf 36 Minuten 3 Wochen nach Therapieende (Besserung um 36%; p=0,028).
Des weiteren ergab sich für die Verumgruppe eine Verbesserung für die
ärztliche
Einschätzung der Krankheitsaktivität (um 23,3%; p=0,003) sowie des
Befindens
des Patienten (um 16%; p=0,02).”
Schauen wir uns zuerst die Zusammenfassung bezüglich des Kriteriums DAS44 an.
Im zugehörigen Kapitel (7.2.2, s. 73) schreibt Heike Larcher:
Bezüglich
des DAS 44 zeigte sich zwischen den Gruppen (Verum/Placebo) zu keinem
der Untersuchungszeitpunkte ein signifikanter Unterschied.
Weiter geht es mit
Innerhalb der Verumgruppe wies der Friedman-Test
eine signifikante Veränderung (p=0.004), die auch nach der
Bonferroni-Korrektur (p=0.004×12=0.048) noch signifikant war. […]
Innerhalb der Placebo-Gruppe ergaben sich keine statistischen
Auffälligkeiten.
Diese Aussage überrascht etwas, denn der Mittelwert von DAS 44 nimmt
bei Verum zwischen der ersten und der dritten Visite von 3.41 auf 2.97
Punkte ab (Differenz: 0.47), bei Placebo von 3.10 auf 2.68 (Differenz
0.42). Zwischen der dritten und der vierten Visite nehmen die Werte in
beiden Gruppen wieder leicht zu, d.h. der Zustand der Patienten
verschlechtert sich wieder (bezogen nur auf DAS 44).
Die gleiche Abnahme des DAS 44 Mittelwertes kann in der Verum-Gruppe
(gerade so) statistisch signifikant sein, in der Placebo-Gruppe aber nicht mehr –
weil die Verumgruppe doppelt so groß war, die Schwankung also nicht so
leicht durch bloßen Zufall zustande kommen kann. Es will niemand diese
Verbesserung wegdiskutieren – ich vermute, dass wir hier den
Placebo-Effekt gesehen haben oder eine Regression zum Mittelwert – es
soll aber daran erinnert werden, dass der Test nicht darin besteht, ob
eine statistisch signifikante Besserung des Zustands eintritt, sondern ob das
Verum statistisch signifikant größere Effekte erzielt als das Placebo.
Ich verzichte hier auf eine detaillierte Diskussion der Ergebnisse der anderen Kriterien. Für kein einziges konnte ein statistisch signifikanter Unterschied zwischen den Gruppen festgestellt werden. Mit einer Ausnahme (Diskussion, Kapitel 8, S. 105):
“Bei Vergleich der Verum mit der Placebo-Gruppe zeigte sich
nur bei Visite 2 (2 Wochen nach Therapiebeginn) ein signifikanter
Unterschied, der die körperliche Leistungsfähigkeit, bewertet durch die
Patienten, betraf. Diese Beobachtung war durch den Umstand bedingt,
dass in der Verumgruppe im Vergleich zu Visite 1 eine Verschlechterung
und in der Placebogruppe eine Verbesserung eingetreten war.”
Pflichtbewusst wird erwähnt, dass dieser Befund als Hinweis auf eine “Erstverschlimmerung” gedeutet werden kann.
Auch in der weiteren Diskussion ist offensichtlich, dass die
Autorin bemüht ist, die für die Holopathie ernüchternden Ergebnisse
besser darzustellen, als sie sind. Dabei folgt die Argumentation meist
dem Muster, das wir beim Kriterium DAS 44 schon gesehen haben: Es wird
gezeigt, dass es in der Verumgruppe zu einer statistisch signifikanten – d.h. nicht zufälligen
– Verbesserung des Zustands der Patienten gekommen ist – verbunden mit
dem Hinweis, dass die Befunde in der Placebogruppe unauffällig waren,
selbst wenn dort eine ähnliche Besserung beobachtet wurde. Weiter
diskutiert wird dies in der Arbeit nicht. Ich vermute, dass es daran
liegt, dass die Placebogruppe kleiner war, es also weniger unwahrscheinlich ist, dass deren Besserung durch Zufall erklärt werden
kann.
Doch darum geht es in einer solchen Studie gar nicht: es soll
weder das Placebo noch das Verum gegen den Zufall verglichen werden –
schließlich ist bekannt, dass Placebo-Effekte keine Zufallsprodukte
sind! Es soll gezeigt werden, ob das Verum und das Placebo sich
voneinander statistisch signifikant unterscheiden. Und hier muss ich Ulrich Berger
Recht geben: die Ergebnisse der Studie lassen sich am einfachsten als
“absoluten Null-Effekt” deuten.
Für die weitere Diskussion soll nicht unerwähnt bleiben, dass die
Behandlungen mit der niedrigsten Intensitätsstufe der Quint-Station
durchgeführt wurden. Auch eine Austestung der Patienten und
anschließende Erstellung eines individuellen Behandlungsplans hat nicht
stattgefunden – dafür wäre das Modell Quint-Station 515 erforderlich
gewesen. Technische Gründe, die eine randomisierte und
placebokontrollierte Doppelblindstudie mit individualisierter
Holopathie erschweren würden, scheint es nicht zu geben. Ob es gute
Argumente gegen
die Durchführung einer weiteren, größeren Studie gibt, ist eine
interessante Frage – schließlich ist die Wahrscheinlichkeit, dass dabei
etwas Interessantes herauskommt, nach dem heutigen Stand der
Wissenschaft ziemlich gering. Und schließlich hat es schon eine Studie
mit negativem Ausgang gegeben. Aber die Freiheit der Forschung ist ein
hohes Gut. Wenn also ein anerkannter und kompetenter Wissenschaftler
bereit ist, eine solche Studie durchzuführen, und wenn die
Herstellerfirma bereit ist, die Kosten zu tragen – warum nicht?
Kommentare (102)