An einem Beispiel möchte ich zeigen, wie diese Ergebnisse zu den unterschiedlichen Einschätzungen führen.
Dr. Christian Steiner zitiert folgende Passage:
“Zitat Dissertation Dr. H. Larchner [sic!]: „In der
Verumgruppe wurde für den DAS 44 eine signifikante Verbesserung
festgestellt (p=0,006), wobei das Ausmaß dieser Veränderung um einen
Wert von 0,47 beim Vergleich von V1 zu V3 unter den Kriterien für eine
Besserung – laut EULAR in Höhe von 0,6 – blieb.
Beim Vergleich der Werte zwischen Therapiebeginn und Therapieende ergab
sich in
der Verumgruppe eine Reduktion der Zahl der schmerzempfindlichen
Gelenke
um 21,1%, eine Besserung des Ritchie Articular Index um 30% (p=0,011)
sowie
eine Reduktion der Zahl der geschwollenen Gelenke um 24,6% (p=0,004).
Auch hinsichtlich der von den Patienten berichteten Morgensteifigkeit
zeigte sich in
der Verumgruppe eine Verbesserung von 56 Minuten (Mittelwert) zu
Therapiebeginn
auf 36 Minuten 3 Wochen nach Therapieende (Besserung um 36%; p=0,028).
Des weiteren ergab sich für die Verumgruppe eine Verbesserung für die
ärztliche
Einschätzung der Krankheitsaktivität (um 23,3%; p=0,003) sowie des
Befindens
des Patienten (um 16%; p=0,02).”
Schauen wir uns zuerst die Zusammenfassung bezüglich des Kriteriums DAS44 an.
Im zugehörigen Kapitel (7.2.2, s. 73) schreibt Heike Larcher:
Bezüglich
des DAS 44 zeigte sich zwischen den Gruppen (Verum/Placebo) zu keinem
der Untersuchungszeitpunkte ein signifikanter Unterschied.
Weiter geht es mit
Innerhalb der Verumgruppe wies der Friedman-Test
eine signifikante Veränderung (p=0.004), die auch nach der
Bonferroni-Korrektur (p=0.004×12=0.048) noch signifikant war. […]
Innerhalb der Placebo-Gruppe ergaben sich keine statistischen
Auffälligkeiten.
Diese Aussage überrascht etwas, denn der Mittelwert von DAS 44 nimmt
bei Verum zwischen der ersten und der dritten Visite von 3.41 auf 2.97
Punkte ab (Differenz: 0.47), bei Placebo von 3.10 auf 2.68 (Differenz
0.42). Zwischen der dritten und der vierten Visite nehmen die Werte in
beiden Gruppen wieder leicht zu, d.h. der Zustand der Patienten
verschlechtert sich wieder (bezogen nur auf DAS 44).
Die gleiche Abnahme des DAS 44 Mittelwertes kann in der Verum-Gruppe
(gerade so) statistisch signifikant sein, in der Placebo-Gruppe aber nicht mehr –
weil die Verumgruppe doppelt so groß war, die Schwankung also nicht so
leicht durch bloßen Zufall zustande kommen kann. Es will niemand diese
Verbesserung wegdiskutieren – ich vermute, dass wir hier den
Placebo-Effekt gesehen haben oder eine Regression zum Mittelwert – es
soll aber daran erinnert werden, dass der Test nicht darin besteht, ob
eine statistisch signifikante Besserung des Zustands eintritt, sondern ob das
Verum statistisch signifikant größere Effekte erzielt als das Placebo.
Ich verzichte hier auf eine detaillierte Diskussion der Ergebnisse der anderen Kriterien. Für kein einziges konnte ein statistisch signifikanter Unterschied zwischen den Gruppen festgestellt werden. Mit einer Ausnahme (Diskussion, Kapitel 8, S. 105):
“Bei Vergleich der Verum mit der Placebo-Gruppe zeigte sich
nur bei Visite 2 (2 Wochen nach Therapiebeginn) ein signifikanter
Unterschied, der die körperliche Leistungsfähigkeit, bewertet durch die
Patienten, betraf. Diese Beobachtung war durch den Umstand bedingt,
dass in der Verumgruppe im Vergleich zu Visite 1 eine Verschlechterung
und in der Placebogruppe eine Verbesserung eingetreten war.”
Pflichtbewusst wird erwähnt, dass dieser Befund als Hinweis auf eine “Erstverschlimmerung” gedeutet werden kann.
Auch in der weiteren Diskussion ist offensichtlich, dass die
Autorin bemüht ist, die für die Holopathie ernüchternden Ergebnisse
besser darzustellen, als sie sind. Dabei folgt die Argumentation meist
dem Muster, das wir beim Kriterium DAS 44 schon gesehen haben: Es wird
gezeigt, dass es in der Verumgruppe zu einer statistisch signifikanten – d.h. nicht zufälligen
– Verbesserung des Zustands der Patienten gekommen ist – verbunden mit
dem Hinweis, dass die Befunde in der Placebogruppe unauffällig waren,
selbst wenn dort eine ähnliche Besserung beobachtet wurde. Weiter
diskutiert wird dies in der Arbeit nicht. Ich vermute, dass es daran
liegt, dass die Placebogruppe kleiner war, es also weniger unwahrscheinlich ist, dass deren Besserung durch Zufall erklärt werden
kann.
Kommentare (102)