Was bisher geschah:
Anfang Februar machte Florian Freistetter uns in einem ausführlichen und lesenswerten Beitrag auf ein ungewöhnliches Forschungsgebiet aufmerksam, dem sich das Europäische Zentrum für Umweltmedizin (EZU) verschrieben hat: Die Radiästhesie, also das Wünschelrutengehen. Florian bezeichnete die Forschung am EZU als pseudowissenschaftlich und wunderte sich darüber, dass ein solches Institut als Teil der NÖ Landesakademie mit öffentlichen Mitteln unterstützt wird. Das EZU vermittelt “seriöse” Rutengeher an Privatpersonen, die für € 150,- ihre Wohnung auf “Störzonen” untersuchen lassen wollen.
Wenig später meldete sich Dr. Engelbert Dechant, EZU-Leiter und Ko-Autor der EZU-Wünschelrutenstudie bei Florian. Seine Entgegnung wurde von Florian Anfang März online gestellt und kommentiert. Dr. Dechant trifft in seiner Replik folgende Aussage (Hervorhebung UB):
“Am Beginn jeder seriösen Forschungsarbeit steht auch heute noch immer
die exakt dokumentierte Beobachtung und Dokumentation. Seit Übernahme
des EZU habe ich neben der Ausweitung der Forschungsgebiete genau diese
wissenschaftliche Ausrichtung für den Bereich Radiaesthesie
vorangetrieben. Deshalb haben wir an den Beginn der Studie für die NÖ
Wohnbauforschung die Qualitätssicherung der Rutengeher gestellt. Der
genaue Ablauf ist publiziert und kann auf unserer Homepage
nachvollzogen werden. Damit ist gleichzeitig ein starkes Argument für
das Phänomen an sich erbracht worden.”
Auf der Suche nach den “starken Argumenten” habe ich die hier als Beleg angeführte Wünschelrutenstudie des EZU im Detail studiert. Die Resultate sind erschreckend.
Die 65-seitige Langfassung der Studie besteht aus zwei Teilen. Im ersten Teil werden sechs Vorversuche dokumentiert, deren angeblicher Erfolg dann den Hauptteil der Studie legitimiert, bei dem Rutengeher die Schlafräume von Versuchspersonen ausmuteten und “geopathogene” Zonen aufspürten. Aus diesen Daten wurde eine Art epidemiologische Fall-Kontroll-Studie gebastelt, die ein angeblich erhöhtes Riskio für Krebs und Herz-Kreislauf-Erkrankungen beim Schlaf auf “Störzonen” ergab. Die Hauptstudie ist methodisch äußerst mangelhaft, was erklärt, warum sie seit Fertigstellung nirgendwo publiziert wurde. Es besteht der Verdacht, dass nicht “Störzonen” zu Krankheiten führen, sondern umgekehrt. In diesem Beitrag möchte ich allerdings im Detail nur auf die Vorversuche eingehen, deren Ergebnis für die Interpretation der in der Hauptstudie erhobenen Daten entscheidend ist.
Die vom EZU durchgeführte Hauptstudie ist nämlich von vornherein nur dann sinnvoll, wenn eine ausreichende Validität und Reliabilität der Rutengeher-Untersuchungen vorliegt. Die Vorversuche waren dazu konzipiert, dies zu prüfen.
Laut Studienautoren waren die Vorversuche erfolgreich und die Hauptstudie dadurch legitimiert. Meine eigenen Schlussfolgerungen sind diese:
1. Die in den Vorversuchen erhaltenen Daten sind teilweise unbrauchbar.
2. Die statistische Analyse der Daten ist so schwer mangelhaft, dass die Resultate komplett verfälscht und ins Gegenteil verkehrt sind.
3. Wertet man den brauchbaren Anteil der Daten korrekt aus, so deuten sämtliche Resultate darauf hin, dass das Rutengehen zur Auffindung von die Gesundheit beeinträchtigenden Zonen eine nicht valide Methode ist.
4. Die Ergebnisse der Hauptstudie des EZU sind damit wertlos.
Hier die Details (Achtung: Grundkenntnisse in Statistik notwendig):
(1) Vorversuche 1 & 2: Übereinstimmung zwischen Rutengehern
1.1 Interrater-Reliabilität
In
den ersten beiden Vorversuchen ging es um die sogenannte
Interrater-Reliabilität, also um die “Übereinstimmung zwischen
verschiedenen Bewertern” innerhalb einer Gruppe von Rutengehern. Die
Fragestellung ist dabei die folgende: Liefern verschiedene Rutengeher
bei der Mutung von “Störzonen” auch tendenziell dieselben Ergebnisse?
Zu beachten ist, dass eine etwaige Übereinstimmung noch gar
nichts über die Validität der Mutungen aussagt. Wenn also etwa bei drei
Rutengehern übereinstimmend die Rute an einem bestimmten Platz
ausschlägt, dann heißt das noch lange nicht, dass es dort tatsächlich
“Erdstrahlen” oder eine “geopathogene Zone” gibt. Es könnte z.B. sein,
dass die Rute (via Erwartungshaltung und Ideomotoreffekt) dort
ausschlägt, weil alle Rutengeher erwarten, dass sie an diesem Platz
ausschlagen “müsste” – etwa über einem verdächtigen “Krebsbett”. Eine
hohe Interrater-Reliabilität ist also keineswegs eine hinreichende,
aber natürlich eine notwendige Voraussetzung, um das Rutengehen als
Testmethode einsetzen zu können.
1.2 Cohens Kappa
Im Falle
der EZU-Studie wählte man folgendes Vorgehen: Sieben Rutengeher mussten
einen 5m mal 10m großen Raum muten und in einer Planskizze jene Stellen
markieren, an denen sie eine “Störzone” orteten. Laut EZU durften die
Rutengeher untereinander nicht kommunizieren. Die Markierungen wurden
in eine Datenmatrix eingetragen und per Software wurde daraus die
Interrater-Reliabilität zwischen je zwei Rutengehern ermittelt. Das Maß
für diese Übereinstimmung ist eine Zahl, die sich Cohens Kappa nennt.
Sie ähnelt einem Korrelationskoeffizienten und liegt immer zwischen -1
und +1. Ein Kappa von +1 bedeutet perfekte Übereinstimmung der zwei
Rutengeher, ein Kappa von -1 bedeutet perfekte Anti-Übereinstimmung
(der eine Rutengeher sieht genau dort Störzonen, wo der zweite keine
sieht, und umgekehrt) und ein Kappa von 0 bedeutet Unabhängigkeit, wie
sie etwa bei reinen Zufallsergebnissen zu erwarten wäre.
Was für ein
Kappa wäre zu erwarten, wenn zwei “renommierte” Rutengeher unabhängig
voneinander einen Raum muten? Aus Sicht der Rutengeher natürlich ein
positives und jedenfalls ein relativ hohes.
Die sieben Rutengeher der
EZU-Studie erlauben 21 paarweise Vergleiche und damit 21 Kappa-Werte,
die samt Standardabweichung, 95%-Konfidenzintervall und p-Wert (für
Kappa = 0 als Nullhypothese) in Tabelle 02 der Studie zu finden sind. Der Median
der Kappa-Werte beträgt 0,047.
1.3 Statistische Signifikanz?
Auf
den ersten Blick bedeutet das, dass es zwischen den sieben Rutengehern
so gut wie überhaupt keine Übereinstimmung gibt. Betrachtet man die
Tabelle genauer, so sieht man allerdings, dass von den 21 Kappa-Werten
immerhin acht auf dem üblichen 5%-Niveau statistisch signifikant sind,
also p-Werte von < 0,05 haben. (Zwei dieser acht signifikanten
Ergebnisse sind erstaunlicherweise signifikant negativ.) Diese
Resultate verdienen besondere Beachtung. Zuerst einmal fällt auf, dass
die Tabelle offenbar von Hand eingetragen wurde. Z.B. sollte der
Kappa-Wert des Paares (2,6) statt -0,1884 nur -0,1084 betragen, wie
sich aus der Symmetrie des Konfidenzintervalls ergibt. Offensichtlich
handelt es sich um einen Übertragungsfehler; die p-Werte bleiben davon
unberührt. Nur: Die p-Werte stimmen mit den Konfidenzintervallen nicht
überein.
Zu erkennen ist das daran, dass die p-Werte der Paare
(2,5), (2,6) und (2,7) im Bereich von 0,021-0,029 liegen und folglich,
da < 0,05, als signifikant ausgewiesen sind.
Die
95%-Konfidenzintervalle enthalten aber in allen drei Fällen den Wert 0,
was bedeutet, dass die Nullhypothese auf dem 5%-Niveau nicht abgelehnt
werden kann. Da die Konfidenzintervalle korrekt aussehen (Mittelwert
plus/minus das 1,96-fache der Standardabweichung), liegt der Verdacht
nahe, dass die p-Werte falsch berechnet wurden und um etwa den Faktor 2
zu klein sind.
Auch nach dieser Korrektur bleiben allerdings
signifikante Abweichungen bestehen. Bedeutet das, dass es zwischen
manchen Paaren von Rutengehern Übereinstimmungen gibt, die nicht durch
Zufall erklärt werden können? Hier stoßen wir auf ein weiteres Problem,
das in der EZU-Studie in keinster Weise berücksichtigt wurde: Das
Problem des multiplen Testens.
1.4 Multiples Testen
Angenommen,
die Nullhypothese ist gültig, die “wahren” Kappa-Werte sind also alle
gleich 0. Die Wahrscheinlichkeit, einen alpha-Fehler zu begehen,
die Nullhypothese also zu Unrecht abzulehnen, beträgt 5%, da das
Signifikanzniveau so festgelegt wurde. Zu beachten ist allerdings, dass
dies gilt, wenn genau ein Test, also genau ein Paarvergleich
durchgeführt wird. Hier haben wir aber nicht einen, sondern ganze 21
Tests durchgeführt, da jeder der sieben Rutengeher mit jedem anderen
paarweise verglichen wurde. Wie groß ist nun die Wahrscheinlichkeit,
dass trotz gültiger Nullhypothese mindestens ein scheinbar
signifikantes Resultat gefunden wird? Das ist die
Gegenwahrscheinlichkeit dazu, dass kein positives Resultat gefunden
wird, also 1 – 0,95^21. Laut Taschenrechner sind das ganze 66%!
Bei
einer so großen Zahl von Tests irgendwo einen p-Wert von unter 0,05 zu
erhalten, sagt also rein gar nichts aus. Das Problem des multiplen
Testens ist kein Geheimtipp unter Statistikern, sondern eines der
bekanntesten Probleme bei klinischen Studien mit mehreren Endpunkten.
Wenn es nicht berücksichtigt wird, so ist das ein deutliches
Warnzeichen, da es oft einen Hinweis darauf gibt, dass man Signifikanz
erzwingen wollte.
Es gibt natürlich Verfahren, um dieses Problem
zu lösen. Eines davon ist die sogenannte Bonferroni-Korrektur, die im
wesentlichen verlangt, dass das Signifikanzniveau durch die Anzahl der
Tests dividiert wird. Führt man 21 Tests durch, so ersetzt man das 5%
Niveau also durch ein 0,24% Niveau. Ein positives Resultat liegt somit
vor, wenn man einen p-Wert findet, der kleiner als 0,0024 ist. Wendet
man die Bonferroni-Korrektur auf Tabelle 02 an, so bleiben genau drei
statistisch auffällige Übereinstimmungen über: Die Rutengeher 1, 2 und
3 weisen eine nicht überaus hohe, aber doch kaum durch Zufall zu
erklärende Übereinstimmung in der Ortung von “Störzonen” auf. Gibt es dafür eine Erklärung, die ohne “Erdstrahlen” auskommt? Die EZU-Studie selbst liefert dafür einen interessanten
Hinweis:
Mit dem zweiten
Vorversuch verhält es sich wie mit dem ersten. Von acht Rutengehern war
für einen kein Kappa berechenbar, da er den gesamten Raum als eine
einzige riesige Störzone klassifizierte. Nach Bonferroni-Korrektur
bleiben von den anfänglich elf signifikanten Resultaten genau drei
übrig. Eines dieser drei ist ein statistisch signifikant negatives
Kappa von -0,25 zwischen Rutengeher 4 und 5. Signifikant positiv sind
die Paare (2,4) und (4,6). Allerdings bezieht sich die Übereinstimmung
zwischen 2 und 4 offenbar auf eine andere Gruppe von “Störzonen” als
die zwischen 4 und 6, denn zwischen 2 und 6 findet sich keine
signifikante Übereinstimmung (p = 0,13).
Was soll man davon
halten? Ignorieren wir für den Moment die Hinweise darauf, dass es
möglicherweise bewusste oder unbewusste Absprachen innerhalb einer
gemeinsam angereisten Gruppe von Rutengehern gab. In Summe haben wir
dann bei den ersten beiden Vorversuchen 5 signifikant positive
Übereinstimmungen bei 49 Paarvergleichen. Eine wohlwollende Folgerung aus diesen
Daten wäre also:
Lässt man einen Wohnraum durch zwei “renommierte”
Rutengeher unabhängig voneinander untersuchen, so liegt die
Wahrscheinlichkeit bei etwa 90%, dass man KEINE auch nur halbwegs
übereinstimmenden Resultate erhält. Und falls doch, dann gibt es wegen
der fehlenden Validität keine Anhaltspunkte dafür, dass die gefundenen
“Störzonen” irgendeinen Menschen tatsächlich stören.
(2) Vorversuche 3 & 4: Validierung des Rutengehens
Die Hypothese des EZU ist, dass eine “geopathogene” Zone auf das vegetative Nervensystem der Probanden einwirken würde, ohne dass diese es bewusst wahrnehmen. Dies sollte sich in Stressreaktionen des Körpers bemerkbar machen, die gemessen werden können. Vermehrter Stress bewirkt eine erhöhte Schweißdrüsenaktivität, was den Hautwiderstand herabsetzt. Ebenso sollte eine erhöhte Körpertemperatur und eine erhöhte Pulsfrequenz nachweisbar sein.
2.1 Messung des Hautleitwerts
Im
Vorversuch 3 wurde an 14 Testpersonen die Hautleitfähigkeit gemessen
(skin conductance level, SCL: Kehrwert des ohmschen Hautwiderstands,
eigentlich Hautleitwert). Dies geschah an je einem “neutralen” und
einem “geopathogenen” Platz, die von fünf Rutengehern zuvor gemeinsam
bestimmt wurden. Die Probanden und die Studienleitung waren dabei
verblindet, wussten also nicht, welcher Platz welcher war. Auf beiden
Plätzen wurden dabei sowohl in der ersten als auch in der achten Minute
Messungen vorgenommen, in der Annahme, dass die Auswirkungen der
“Erdstrahlen” sich erst im Laufe von einigen Minuten auf die gemessenen
Parameter auswirken würden.
Vergleichen wir die mittlere SCL der
14 Probanden in der achten Minute: Auf dem neutralen Platz betrug sie
12,59 Mikrosiemens mit einer Standardabweichung von 6,61. Auf dem
“geopathogenen” Platz waren es 14,14 Mikrosiemens mit einer
Standardabweichung von 8,13. Die beiden Mittelwerte differieren also um
kaum ein Fünftel der Standardabweichung. Intuitiv würde man schätzen, dass das bei 14 Probanden keinesfalls einen statistisch
signifikanten Unterschied ausmachen kann, wir es hier also mit einem
klassischen Nullresultat zu tun haben. Um diese Einschätzung konkret zu
machen, bedarf es eines statistischen Tests. Was die EZU-Studie nun tut, ist völlig absurd. Sie schafft es, bei diesem einfachen Test gleich zwei schwere Fehler einzubauen!
Erster Fehler: Sie verwendet den falschen Test. Laut EZU-Studie wurde zum Vergleich der Daten der Mann-Whitney-U-Test verwendet. Damit testet man, ob zwei unabhängige
Stichproben aus derselben Verteilung stammen. Im vorliegenden Fall sind
die beiden Stichproben aber natürlich nicht unabhängig, sondern gepaart. Man hätte also einen Wilcoxon-Vorzeichen-Rang-Test durchführen müssen.
Zweiter Fehler: Sie rechnet mit einem um den Faktor 700 (!) überhöhten Stichprobenumfang.
Aus Tabelle 07 der Studie ist ersichtlich, dass für den Stichprobenumfang N = 9830
gesetzt wurde:
Warum? Des Rätsels Lösung: Die SCL-Werte wurden durch
ein elektronisches Gerät gemessen, das bei jeder Person 15mal pro
Sekunde den Hautleitwert bestimmte. Da die Messung bei jeder Person
über etwas weniger als eine Minute durchgeführt wurde, erhielt man also
pro Person etwa 700 Einzelmesswerte. Anstatt nun für jede Person über diese
Einzelmesswerte zu mitteln und damit einen mittleren Hautleitwert pro Person zu
erhalten, wurden offenbar alle je 700 Einzelmesswerte aller 14 Personen in
einen Topf geworfen, was die absurde Zahl von N = 9830 ergibt. Eine
Konsequenz daraus ist, dass jeder statistische Test einen
hochsignifikanten Mittelwertsunterschied anzeigt, weil die Software nun
“glaubt”, dass auf jedem Platz 9830 Testpersonen gemessen wurden!
2.2 Temperatur- und Pulsfrequenzmessung
Im Vorversuch
4 wurde – wieder an 14 Probanden – neben der SCL auch die periphere
Temperatur und die Pulsfrequenz gemessen und die auf dem “neutralen”
und dem “geopathogenen” Platz erhaltenen Mittelwerte verglichen. Der Versuch krankt an denselben Fehlern wie der vorangegangene. Da die
Abtastrate des Messgeräts hier sogar 20 Hz (in der Studie 20 Hz/Sek
genannt) beträgt, rechnete man statt mit N = 14 mit N = 16943.
Resultat: Die winzigen Unterschiede in den Mittelwerten werden sofort
zu hochsignifkanten Abweichungen erklärt. Dass das an der extrem hohen “Anzahl der Datenzeilen”
liegt, verschweigen die Studienautoren dabei nicht einmal. Auf die
Idee, die offensichtliche Korrektur durchzuführen, kommen sie anscheinend nicht. Das ist umso verwunderlicher, als einer der Studienautoren an einer Fachhochschule einen Statistik-Grundkurs unterrichtet.
(3) Vorversuche 5 & 6: EAV-Messungen
3.1: Elektroakupunktur nach Voll (EAV)
Der fünfte Vorversuch demonstriert eine erstaunliche Naivität in der Studienplanung. Obwohl ausreichend bekannt ist, dass die Elektroakupunktur nach Voll (EAV) ein einfach zu manipulierendes Voodoo-Verfahren
ist, wurde diese Messung des Hautwiderstands an eingebildeten
Akupunkturpunkten in völliger Ernsthaftigkeit durchgeführt. Wie üblich
geschah dies auf einem “neutralen” und einem “geopathogenen” Platz. Da
die ersten Resultate nicht wie erwünscht ausfielen,
wurde noch während der Versuchsreihe das Protokoll geändert. Danach stellten sich plötzlich dramatische
Unterschiede ein.
Man muss den
EZU-Autoren hier zugute halten, dass sie sich der Ernsthaftigkeit dieser
Probleme zumindest im Nachhinein bewusst wurden und die EAV-Messung für den später stattfindenden Hauptversuch nicht mehr zum Einsatz kommen ließen.
3.2 EAV-Messung ohne Experimentator-Verblindung
Der sechste und letzte Vorversuch liefert ebenfalls keine neuen Erkenntnisse. Hier
wurde im wesentlichen der vierte Vorversuch mit dem fünften verknüpft.
Fehler wurden keine korrigiert: Der falsche Test wurde ebenso wieder
verwendet wie der überhöhte Stichprobenumfang. Die EAV-Messungen wurden
von Beginn an nur einfach-verblindet durchgeführt, was zu “schönen”, aber wertlosen Daten führte. Bei den biometrischen Messungen wurde mit N = 15652 Messwerten gerechnet. Sämtliche
Mittelwertdifferenzen sind minimal, aber aufgrund des mehr als
tausendfach überhöhten Stichprobenumfangs fälschlicherweise als
hochsignifikant ausgewiesen. Leider weisen die Mittelwert-Unterschiede beim Hautleitwert außerdem in die
“falsche” Richtung, der “geopathogene” Platz war demnach eher entspannend.
Dass sich die Pulsfrequenz eines Menschen nicht mit einer Abtastrate von 20 Hz bestimmen lässt, sollte eigentlich durch Einsatz elementarer Logik erkennbar sein. Wenn ein elektronisches Messgerät wie hier der “Physiorecorder der Firma Schuhfried”
vorgibt, genau das trotzdem zu tun, dann darf man sich nicht wundern,
wenn man für einen gesunden, auf einem “neutralen” Platz sitzenden
Probanden eine angebliche Pulsfrequenz von 197 erhält. Zumindest das haben die Studienautoren richtig erkannt.
(4) Fazit
Die mittlere Interrater-Reliabilität ist bestenfalls als minimal zu bezeichnen. Ein Paar von Rutengehern weist sogar einen signifikant negativen Kappa-Wert auf. Die wenigen statistisch signifikanten positiven Übereinstimmungen sind schwach und durch deutliche Hinweise auf mangelhafte Verblindung der Rutengeher erklärbar.
Die Validierung des Rutengehens ist gescheitert. Die mittleren Hautleitwerte unterscheiden sich nur minimal, und die Richtung der Differenz ist bei den zwei Versuchen unterschiedlich. Die Temperatur-Messungen ergeben einen minimalen und insignifikanten Unterschied. Die EAV-Messungen und die Messungen der Pulsfrequenz sind selbst aus Sicht des EZU unbrauchbar.
Es ist offensichtlich, dass die Studienautoren in statistischen Belangen Inkompetenz demonstriert haben. Offen bleibt, ob die scheinbar positiven Resultate nicht teilweise auch auf bewusste Irreführung zurückzuführen sind. Die Titelfrage möchte ich aber vorläufig im Sinne von Hanlon’s razor beantworten.
Kommentare (52)