Das Problem der „Multiple Comparisons“

Über das Nutzungsverhalten wurde eine Vielzahl an Parametern erhoben und 13 davon schließlich ausgewertet:

Use of hands-free set, Total daily talking time, Prefer using wire phone at work, Prefer using wire phone at home, Talking in places with low telecommunication, Work in a place with no telecommunication, Cell phone off while sleeping, Cell phone at a distance while sleeping, Cell phone at a distance while charging, Cell phone charging while staying in the room, Talking while charging phone, Cell phone distance from the groin, Use of wireless earphones

Im Text der Studie werden noch weitere Angaben genannt, die abgefragt wurden, etwa die Anzahl der benutzten Geräte, Dauer des Ladevorgangs oder Jahre des Handybesitzes. Wegen der geringen Stichprobengröße konnten diese allerdings nicht analysiert werden. Die Spermienqualität wurde anhand von vier Parametern nach WHO-Kriterien bewertet: Volumen, Konzentration, Motilität und Morphologie. Auch hier konnte ein Parameter nicht bewertet werden, da nur ein Teilnehmer eine veränderte Morphologie aufwies.

In einer univariaten Analyse wurden Zusammenhänge zwischen je einem Parameter zur Handynutzung und einem zur Spermienqualität entweder mit einem Chi-Quadrat-Vierfeldertest oder einem t-Test untersucht. Insgesamt wurden also 13 mal 3 = 39 Hypothesen auf dem Datensatz von 80 Patienten getestet.

Dieses Vorgehen erinnert stark an die Scheinstudie zur Schokoladen-Diät, bei der mit demselben statistischen Trick gearbeitet wurde: Werden nur genug Parameter untersucht, wird irgendwann ein statistisch signifikantes Resultat dabei sein. Ein solches Studiendesign ist ein Patentrezept für falsch-positive Ergebnisse.

Bei einem statistischen Test kann man den Fehler begehen, einen Zusammenhang zwischen zwei Merkmalen anzunehmen, obwohl gar keiner besteht (Alpha-Fehler). Für einen einzelnen Test wird meist ein Signifikanzniveau von 5 % verwendet, das heißt der Test ist so gestaltet, dass die Wahrscheinlichkeit für einen solchen Irrtum 5 % beträgt. Bei einem von 20 Tests werden wir also ein signifikantes Ergebnis erhalten, das auf zufälligen Schwankungen beruht.

Durch multiples Testen von verschiedenen Hypothesen auf derselben Stichprobe erhöht sich diese Wahrscheinlichkeit. Man spricht hier von einer Alphafehler-Kumulierung. Bei angenommener Unabhängigkeit und einem Signifikanzniveau von 5 % beträgt die Wahrscheinlichkeit, ein falsch-positives Ergebnis zu erhalten, Bei angenommener Unabhängigkeit und einem Signifikanzniveau von 5 % beträgt die Wahrscheinlichkeit, ein falsch-positives Ergebnis zu erhalten: P(mind. ein falsch-positives Ergebnis) = 1 – 0,95^n.

Für die israelische Studie mit 39 getesteten Hypothesen beträgt dieser Wert ansehnliche 86,5 %. Die Studienautoren selbst sehen das Ganze nicht so eng:

The main strength of the current study is the detailed information on many characteristics of cell phone usage. (…) This wide spectrum of usage aspects is, in our opinion, one of the unique merits of the work.

Signifikante Ergebnisse bei unplausiblen Merkmalen

Statistisch signifikante Einzelergebnisse erhielten die Forscher beim moderaten Rauchen (p = 0,021), bei einer täglichen Gesprächszeit von über 1 Stunde (p = 0,04) sowie beim Telefonieren während des Ladevorgangs (p = 0,02), jeweils nur in Bezug auf die Spermienkonzentration. Rauchen ist ein bekannter Risikofaktor, bei den anderen beiden signifikanten Ergebnissen hingegen deutet vieles darauf hin, dass es sich um statistische Artefakte handelt. Diese beiden Parameter sind nicht gerade die plausibelsten, wenn es um die Schädigung von Samenzellen geht. Wie soll sich eine geringfügige Erwärmung des Ohrs auf die Spermienproduktion auswirken? Nachvollziehbarer wäre etwa Telefonieren mit Freisprecheinrichtung bei eingestecktem Handy, wenn es sich also in der „Gefahrenzone“ befindet und sendet. Warum es – abgesehen von einem defekten Ladekabel – schädlich sein soll zu telefonieren, während das Handy lädt, bleibt fraglich. (Die Autoren vermuten „emittierte Energie der externen Stromquelle“ sowie eine höhere Sendeleistung, weil das Gerät nicht Energie sparen braucht.) Wenn man viel telefoniert, sein Handy öfters lädt und selbst dann noch telefonieren muss, ist das vielleicht eher ein Hinweis auf einen stressigen Alltag als auf einen Einfluss des Mobilfunks. Den Probanden wurden zwar Fragen zum Lebensstil gestellt, ein Stresslevel wurde jedoch nicht ermittelt.

1 / 2 / 3

Kommentare (11)

  1. #1 MartinN
    25. Februar 2016

    Wenn das mit der Strahlung stimmen würde, dann hätte jeder hier ein Problem. Denn Versicherer würden von heute auf morgen sofort den Versicherungsschutz beenden….Bisher ist die Schädlichkeit von Handystrahlen nicht bewiesen.

  2. #2 noch'n Flo
    Schoggiland
    25. Februar 2016

    @ MartinN:

    Denn Versicherer würden von heute auf morgen sofort den Versicherungsschutz beenden…

    Nicht nur das – in den USA mit ihrem sehr speziellen Produkthaftungsrecht hätte es schon vor Jahren Sammelklagen mit Forderungen nach hunderten Milliarden Dollar gegen die Handyhersteller gegeben. Kein einigermassen geschäftstüchtiger Anwalt würde sich eine solche Chance entgehen lassen.

  3. #3 WolfgangM
    25. Februar 2016

    als Fernsehapparate aufgekommen sind, ist die Geburtenrate zurückgegangen. Und als die Mobiltelefone aufgekommen sind, wurde mehr telefoniert und die Geburtenrate geht weiter zurück. Und wenn Jugendliche pro Monat ca 3000 SMS verschicken, geht ja auch viel Zeit drauf.
    So gesehen senken Mobiltelefone wahrscheinlich schon die Geburtenrate- keine Zeit mehr für Sex.

  4. #4 MX
    25. Februar 2016

    Reißerisches Thema, schwache Studie, starke Medienresonanz – das Übliche. Daher zu Recht der Hinweis auf die Schoko-Joke-Studie.

  5. #5 Daniel Kürner
    25. Februar 2016

    Ich sehe gerade, dass eine Formel fehlt!
    Bei angenommener Unabhängigkeit und einem Signifikanzniveau von 5 % beträgt die Wahrscheinlichkeit, ein falsch-positives Ergebnis zu erhalten:
    P(mind.1 falsch-positives Ergebnis) = 1-(0.95)^n

  6. #7 Karl Mistelberger
    25. Februar 2016

    “A huge range of science projects are done with multiple regression analysis. The results are often somewhere between meaningless and quite damaging.

    I hope that in the future, if I’m successful in communicating with people about this, that there’ll be a kind of upfront warning in New York Times articles: These data are based on multiple regression analysis. This would be a sign that you probably shouldn’t read the article because you’re quite likely to get non-information or misinformation.”

    Mehr: https://edge.org/conversation/richard_nisbett-the-crusade-against-multiple-regression-analysis

  7. #8 Wer finanziert sowas?
    14. März 2016

    Wollte einmal eine Dissertation darüber schreiben, dass Computerviren für Kleinkinder ungefährlich sind. Leider hat niemand die Forschungsarbeit finanziert und es gab auch noch kein Studium zur IT-Medizin. Ich hatte auch keine Kontakte zur Szene um einen Hype darüber loszutreten.

  8. #9 Bullet
    14. März 2016

    Nennt man wohl “Pech”.

  9. #10 Pech
    15. März 2016

    Ja, danke

  10. #11 Bullet
    16. März 2016

    Gern.