In vielen Wissenschaften, so auch in den Gesundheitswissenschaften, ist der p-Wert ein statistisches Universalwerkzeug. Man entscheidet damit darüber, ob da etwas ist oder nicht.

Kurz zur Rekapitulation: Der p-Wert bezeichnet bekanntlich die Wahrscheinlichkeit, mit der beim Testen einer Hypothese, z.B. dass ein Medikament wirkt, ein bestimmtes Messergebnis zustande kommt, obwohl die Hypothese nicht zutrifft und nur der Zufall am Werk ist. Dass da nichts ist außer Zufall nennt man „Nullhypothese“, sie will man ablehnen. Als Konvention gilt für die Bewertung des Ergebnisses in den Gesundheitswissenschaften häufig das 5 %-Niveau als Schwellenwert: Ist der p-Wert kleiner als 5 %, geht man davon aus, dass das Ergebnis als Zufallsergebnis hinreichend unwahrscheinlich ist, die Nullhypothese abgelehnt werden kann und wohl ein Effekt vorliegt. Den seltenen Fall, dass man einen Effekt annimmt, obwohl doch keiner da war, nennt man „Fehler 1. Art“. Manchmal testet man auch auf dem 1 %-Niveau, wenn man vorsichtiger sein will. Diese Schwellenwerte sind die berühmten „Signifikanzniveaus“, um die es in Sätzen wie „das ist statistisch signifikant“ geht.

P-Wert

In den Gesundheitswissenschaften hat man es in der Regel nicht mit strengen naturwissenschaftlichen Gesetzen zu tun, die exakte Vorhersagen ermöglichen. Stattdessen unterstellt man, dass sich hier „Gesetze“ als zentrale Tendenzen in einem Nebel von zufälligen Störeffekten zeigen. Ob das wissenschaftstheoretisch für alle Sachverhalte angemessen ist, sei einmal dahingestellt, ich will an dieser Stelle nur die „Denke“ dabei verdeutlichen. Da man also mit vergleichsweise großen Streuungen rechnet, haben sich das 5 %-Niveau bzw. das 1 %-Niveau in den Gesundheitswissenschaften bewährt – leider sind deswegen auch die meisten Studien falsch.

Das klingt natürlich reichlich paradox, aber so ist die Sachlage nun mal. Die wissenschaftliche Fachliteratur ist voll von statistisch signifikanten Ergebnissen, die in den Müll gehören. In einer Welt, in der wie wild alles Mögliche untersucht wird und Hypothesen getestet werden, was das Zeug hält, ist der an sich seltene Fall eines Ergebnisses, das als Zufallsergebnis nur in weniger als 5 % oder 1 % der Fälle zu erwarten war, leider an der Tagesordnung. Dagegen hilft kein p-Wert.

Die Krux mit dem p-Wert wird seit langem diskutiert, sehr schön z.B. in dem Bestseller „Der Hund, der Eier legt“ von Hans-Peter Beck-Bornholdt und Hans-Hermann Dubben. Aber so richtig etwas Besseres, als nicht blind auf die Vertrauenswahrscheinlichkeit zu vertrauen, ist noch keinem eingefallen.

Buchtitel Dubben

In der Physik hat man es öfter mit Gesetzen zu tun, die sehr exakte Vorhersagen ermöglichen und bei denen man das Signal aus dem statistischen Rauschen der Messergebnisse mit viel niedrigeren p-Werten herausfischen kann. In der Physik arbeitet man z.B. oft mit einem Signifikanzniveau von 5 Sigma, das entspricht einer Schwelle für den p-Wert von 3×10-7, d.h. ein Ergebnis soll durch Zufall nicht öfter als einmal in etwa 3,5 Millionen Fällen auftreten.

In der aktuellen Ausgabe 12/2017 des Laborjournals hat nun Ulrich Dirnagl, Professor an der Berliner Charité, genau diese für die Gesundheitswissenschaften geradezu unvorstellbaren Signifikanzniveaus benutzt, um zu zeigen, dass man sich selbst darauf nicht blind verlassen kann. 2011 ging ein Experiment am CERN durch die Medien, demzufolge Neutrinos schneller waren als das Licht. Die Ergebnisse waren statistisch signifikant auf dem genannten hohen Niveau. Den Physikern war aber klar, dass sie mit der Überwindung der Lichtgeschwindigkeit als Schranke für die Geschwindigkeit von materiellen Teilchen die in tausenden von Experimenten bestätigten Grundlagen der Physik nach Einstein revolutionieren würden und dass es daher wahrscheinlicher war, dass an der Sache irgendetwas nicht stimmt. So war es dann ja auch, ein Kabel war locker. Das Ergebnis kam in dem Fall also aufgrund eines systematischen Fehlers zustande, ein echter Effekt, aber nicht der, der die Physik revolutioniert hätte. Das Vorwissen, wie unwahrscheinlich der gemessene Effekt ist und dass man daher der Vertrauenswahrscheinlichkeit in dem Fall nicht einfach vertrauen durfte, führt zur Bayesschen Statistik, aber das ist eine andere Geschichte.

Neben dem „Fehler 1. Art“, also der fälschlichen Ablehnung der Nullhypothese, gibt es auch einen „Fehler 2. Art“, nämlich dass man die Nullhypothese nicht ablehnt, obwohl sie falsch ist, also einen tatsächlich existierenden Effekt übersieht. Streng genommen ist die Nichtablehnung der Nullhypothese kein „Fehler“, weil sie nicht als Annahme der Nullhypothese interpretiert werden darf. Sonst würde man die Nullhypothese umso leichter annehmen können, je strenger das Signifikanzniveau ist (weil damit ihre Ablehnung immer unwahrscheinlicher wird). Der „Fehler 2. Art“ verweist vielmehr auf Probleme der „Power“ einer Studie, also der Stichprobengröße, aber auch das ist eine andere Geschichte. Dirnagl führt in seinem Kommentar aus der Physik ein aktuelles Beispiel dafür an, dass man auch bei wiederholtem Fehlschlag eines Nachweises gut beraten sein kann, weiter zu suchen – wenn es gute Gründe dafür gibt: So wurden nach langer vergeblicher Mühe die Gravitationswellen gefunden.

Der p-Wert erspart also sicher nicht das Denken und er liefert auch sicher nicht automatisch verlässliche Ergebnisse. Die Big Data-Euphorie wird sich daran noch so manche blutige Nase holen. Abschließend sei noch der Bogen zu einem Dauerthema hier geschlagen, der Homöopathie. Für die einen ist sie ein Verstoß gegen alles, was die Naturwissenschaft an gut bestätigtem Wissen aufgehäuft hat und daher nicht „scientabel“, wie es Christian Weymayr einmal formuliert hat. Auch gelegentliche statistisch signifikante Befunde in epidemiologischen Studien stellen angesichts der minimalen a priori-Wahrscheinlichkeit für einen Effekt keinen Beleg für ihre Wirksamkeit dar. Der Fall Überlichtgeschwindigkeit also. Für die anderen muss sie wirksam sein, weil Hahnemann dafür bürgt, auch wenn man bis heute nichts wirklich nachweisen konnte. Der Fall Gravitationswellen. Und manchmal versinkt alles irgendwo dazwischen, wie bei der Frage, ob Fischkonsum einen Effekt auf die PISA-Ergebnisse hat. Drum prüfe, bevor man sich mit seiner Meinung bindet, ob sich nicht eine bessere findet.

Kommentare (24)

  1. #1 Tigermaz
    16. Dezember 2017

    Wie immer gilt: Trau keiner Statistik, die du nicht selber gefälscht hast!

    Und die “Rohdaten” einer Studie wären häufig viel interessanter als deren “Interpretation”, man könnte nämlich häufig auch andere Schlüsse aus den Daten herauslesen. Nur wieso sollte man denn zu einem anderen Ergebnis kommen wollen, wenn man die eigene These signifikant bestätigen kann?

  2. #2 Joseph Kuhn
    16. Dezember 2017

    @ Tigermaz:

    “Wie immer gilt: Trau keiner Statistik, die du nicht selber gefälscht hast!”

    Wie immer gilt: Trau keinem Deiner Gedanken, den Du nicht verstanden hast.

  3. #3 Karl Mistelberger
    16. Dezember 2017

    Statistisch signifikante P-Werte sind bestenfalls ein Anfangsverdacht. Sie allein begründen so gut wie nichts. Ansonsten soll man aber auch nicht zu viel voraussetzen:

    “I’m happy to admit it when I am wrong, because it means I have learned something. In this case, there were several lessons: don’t assume that tables are correct or that researchers know how to add, don’t assume that peer reviewers and editors will identify obvious errors.”

    https://sciencebasedmedicine.org/i-was-wrong-about-protandim/

  4. #4 RainerO
    16. Dezember 2017

    Wie immer gilt: Trau keiner Statistik, die du nicht selber gefälscht hast!

    Das hat noch nie gegolten. Leute, die dieses (fälschlicherweise Churchill zugeschrieben) Zitat verwenden, zeigen nur, dass sie Statistik nicht verstanden haben. Meist kommt der Spruch auch von denjenigen, die stolz darauf sind, in Mathematik immer schon schlecht gewesen zu sein.
    Ich bin alles andere als ein Statistik-Profi, aber so abfällig würde ich mich niemals über dieses mächtige Werkzeug äußern.

  5. #5 CM
    17. Dezember 2017

    Sehr schöner Beitrag. Erlaube mir einen kleinen Nachtrag, Joseph:

    Der Aspekt der Alphafehler-Kumulierung, also das Problem, dass wer viele (gleichförmige) Tests durchführt, irgendwann auf statistisches Gold stoßen wird (einen ausreichend kleinen p-Wert, den es jubelnd zu publizieren gilt) klingt ja an. Unerwähnt bleiben zwei Standardmittel zur Heilung: U.a. die GWAS-Community pocht beispielsweise auf Replikate, möglichst schon in der Erstpublikation erwähnt, also darauf eine zweite Stichprobe zu erheben, möglichst aus einer anderen (Teil-)population. Es gibt andere Felder in denen ähnlich gearbeitet wird, wieder andere Diziplinen könnten sich “‘ne Scheibe abschneiden”.

    Mindestens aber sollten Studienautoren eine Anpassung des α-Niveaus durchführen – also bei multiplen Tests vorsichtiger sein. Das geschieht auch. Leider gibt es schwarze Schafe, die lieber Stratifikation durch multiple Publikationen betreiben: Wer mehrere Teilstudien publiziert, kommt um umfangreiche Anpassungen pro Studie herum. Hier sind die Reviewer gefordert, aber das ist ein weites Feld …

    Und dann sind da noch Meta-Analysen. Theoretisch ein sehr gutes Mittel gegen schlechte Studien. In der Praxis laufen die aber auch auf Pferdefüssen, da längst nicht alle Ergebnisse publiziert sind (“gute” Ergebnisse im Sinne der Autoren also angereichert scheinen) und MA-Autoren auch nicht jeden (statistischen) Fehler erfassen können.

    Jede dieser Maßnahmen kennt ein großes “ABER”, aber die Krux ist ja, dass Medizin- und Bio-Studierende an den meisten Unis nicht mal sensibilisiert werden – und dann eher Bonmots, wie das eingangs der Kommentare zitierte, bringen. Immerhin, die Verpflichtung zur stat. Beratung an den meisten Medizinfakultäten, verhindert mittlerweile auch einigen Wildwuchs.

    • #6 Joseph Kuhn
      17. Dezember 2017

      @ CM:

      Danke für die Ergänzung. Korrekturen für multiples Testen in der gleichen Stichprobe (Bonferroni etc.) oder die Kumulation von Effektgrößen bei inhaltlich hinreichend ähnlichen Studien (Metaanalysen) sind in der Tat hilfreiche Werkzeuge, wenn der entsprechende formale Studienzusammenhang gegeben ist. Für die “wissenschaftliche Gesamtproduktion” gibt es leider kein Patentrezept.

      Nur nebenbei, fällt mir gerade beim Stichwort multiples Testen ein: Krebsregister werden oft auf vermutete oder tatsächliche regionale Erhöhungen der Krebsrate angesprochen, z.B. auf Gemeindeebene. Bayern hat ca. 2000 Gemeinden. Unterstelle ich also, dass ein Signifikanztest eigentlich 2000 Gemeinden testet, wären auf dem 5 %-Niveau ca. 100 statistisch signifikante Erhöhungen zu erwarten, die gleichwohl zufallsbedingt sind. Mit Bonferroni kommt man hier nicht weiter, weil der Korrekturfaktor unklar ist (2000 potentielle Tests für die Anzahl der Gemeinden in Bayern, 11000 potentielle Tests für die Anzahl der Gemeinden in Deutschland …?). Statistiker haben dafür bestimmt auch eine Lösung, ich will sie gar nicht wissen, sie wird kompliziert sein.

  6. #7 rolak
    17. Dezember 2017

    auf Pferdefüssen

    Das klingt aber ziemlich stabil, trittsicher und belastbar, CM.

  7. #8 bom.tmp
    17. Dezember 2017

    Joseph Kuhn,
    das mit der Nullhypothese ist ja äußerst scharfsinnig, und für mich als Einsteiger geradezu genial.
    Könnte man also formulieren, dass die Trennschärfe der menschlichen Urteilskraft bei +- 2,5 % liegt.
    Mit Trennschärfe meine ich , dass bei der Wahl zwischen 2 Möglichkeiten , und die Wahrscheinlichkeit sich für die eine oder die andere Möglichkeiten zu entscheiden bei 50 % liegt, die Trennschärfe am höchsten ist.
    Wenn sich 99 % für das eine Argument entscheiden und 1 % für das andere, dann ist die Trennschärfe des Arguments am geringsten.
    (Ich versuche gerade eine Korrelation zwischen ihrer Logik und meiner herzustellen)

  8. #9 bom.tmp
    17. Dezember 2017

    Nachtrag JK,
    es muss heißen die Trennschärfe des Argumentes.
    Wenn also in einer Umfrage gefragt wird, mögen Sie Tiere?
    Dann kann man davon ausgehen, dass 90 % von vornherein die Frage bejahen werden.
    Die Trennschärfe dieses Satzes beträgt dann nur noch 10%.

  9. #10 Joseph Kuhn
    17. Dezember 2017

    @ bom.tmp:

    “Ich versuche gerade eine Korrelation zwischen ihrer Logik und meiner herzustellen”

    Aha. Ich habe nicht so viel Erfahrung mit Tiefenhermeneutik und kann Ihnen dabei leider nicht helfen.

  10. #11 2xhinschauen
    https://www.homöopedia.eu
    17. Dezember 2017

    Danke für den Link zur Homöopedia, Herr Kuhn. Auch zur Signifkanz haben wir einen Artikel, der zudem die ganzen Manipulationsmöglichkeiten ausleuchtet.

    https://www.xn--homopedia-27a.eu/index.php/Artikel:Statistische_Signifikanz

    Unberücksichtigt in der Debatte um die Signifikanz bleibt meist die Effektgröße, die in der Praxis wichtiger ist, wie Stephan Schleim auf Telepolis gerade am Beispiel der psychiatrischen Forschung herausgearbeitet hat.

    https://www.heise.de/tp/features/Mehr-ueber-Ursachen-von-Depressionen-3918688.html

    Mein Lieblingsbeispiel sind da immer Narkosemittel, bei denen man auf molekularer Ebene vielfach nicht so genau weiß, wie sie funktionieren. Aber der Effekt ist umwerfend. Nur falls mal wieder jemand mit “signifikanten” Studien zur Homöopathie herumwedelt.

    Übrigens war die Effektgröße bei den überlichtschnellen Neutrinos ebeno winzig wie bei den Gravitationswellen. Gutes Beispiel also für die Sinnhaftigkeit der Apriori-Wahrscheinlichkeit.

    Wenn da nur nicht der entsprechende Bias wäre. Ach warum muss das alles nur so kompliziert sein….

  11. #12 knorke
    17. Dezember 2017

    Ich glaube das Problem ist allzuoft, dass Statistik hinterher retten soll, was in der Operationalisierung vorher verbockt wurde. Nehmen wir nur diese Studien, die irgendwelche Gesundheitseffekte oder Krankheitseffekte bei bestimmten Lebensweisen nachweisen wollen. Da werden 500 Kovariate berücksichtigt, und trotzdem kann man nicht davon ausgehen, überhaupt annähernd alle infragekommenden identifiziert zu haben, geschweige denn erhoben. Klar, dass das plötzlich alles mögliche signifikant wird. Das problem ist leider auch, dass man vieles von dem, was man so untersucht, nicht wirklich experiementell untersuchen kann. D.h. Manches vielleicht schon, bezahlt bloß keiner. Und manch anderes geht erst gar nicht, sei es aus ethischen Gründen oder aus schlicht Physikalischen. (So können wir alle ja nicht verhindern, dass wir altern, und somit bestimmte within-subject untersuchungen dadurch gebiased sind).
    Diese sigma-Geschichte aus der Physik kommt mir auch nicht wie eine gute Lösung vor. Ich kenne mich auf dem Gebiet nicht aus, aber dort wird, wenn ich nicht irre, ein Riesenhaufen einzelergeignisse untersucht. Bei solchen Stichprobengrößen kann man mit normalen Alpha-Levels daher nichts anfangen, somit müssen die das zwingend so machen, aber das Grundproblem bleibt. Die Physiker haben aber den Vorteil, idR. sehr gut dokumentierte Experimentalanordnungen zu haben, die teils am selben Gerät von anderen Personengruppen reproduziert werden können. Das hat den Vorteil, dass die false-positives durch weitere negatives erkannt werden können.
    Die Medizin hat aber auch einen Vorteil: Ob ein Medikament wirkt oder nicht hat nicht nur mit Signifikanz zu tun, sondern auch mit Relevanz. d.h. viele an sich statistisch signififkante Effekte sind nicht relevant, weil sie z.B. bedeuten, dass das Medikament zwar hilft, aber nicht gut genug. Nicht genug dann vielleicht nicht verglichen mit dem Placebo, sondern mit einem bereits etablierten medikament, dessen Effektgröße man daher bereits kennt. Die Physik muss dagegen froh sein, überhaupt den gewollten Effekt beobachten zu können. Wie stark der Effekt ist, ist wahrscheinlich erstmal nachrangig, alldiweil, es geht ja um prinzipielle Erkenntnis.
    Im Kern gilt, was Du auch schon geschrieben hast: Wehret der Alphafehlergläubigkeit. Und: Tuste Scheiße rein, kriegste Scheiße raus.

  12. #13 knorke
    17. Dezember 2017

    P.S. “Traue keiner Statistik die du nicht selbst gefällscht hast” ist wirklich der dümmste Satz den es zu diesem Thema gibt. Und er wird immer nur von Statistiktroglodyten ins Feld geführt. In einem Bullshit-Bingo würde es auf 2/3 der verfügbaren Felder stehen.

  13. #14 wereatheist
    17. Dezember 2017

    Laut der englischen Wikiquote-Seite zu Churchill könnte das Falschzitat aus Goebbels Propagandamaschine stammen…

  14. #15 2xhinschauen
    17. Dezember 2017

    >> Traue keiner Statistik…

    Gaanz ruhig. Wie so oft im Leben, weicht die volktümliche Bedeutung dieses Worts von der fachlichen ab. Der Volksmund, der diesen Satz zitiert, meint seine eigene Wortbedeutung. Da muss sich kein Statistikscheininhaber angegriffen fühlen.

    Im übrigen – wie oft wird der Satz fälschlicherweise auf gefälscht betont statt auf selbst? Was will man da noch erwidern?

  15. #16 Tigermaz
    17. Dezember 2017

    Wenn man eine These hat, dann kann man sehr oft die Daten so erheben, dass die These damit bestätigt wird. Wenn sich eine neutrale Person ohne Kenntnis der der Datenerhebung zugrundeliegende These die Daten anschaut, könnte man oft auch zu völlig anderen Ergebnissen kommen, einfach nur weil die Daten aus einem anderen Blickwinkel betrachtet werden.

    Und da kann eben auch mal ein völlig gegenteiliges Ergebnis dabei herauskommen. Beispiel? Das Glas ist halbvoll vs. das Glas ist halbleer. Bei genau dem gleichen Messwert völlig gegenteilige Ergebnisse. Deshalb geht es darum, wer die Daten interpretiert und somit die Statistik “gefälscht” hat. Und nur wenn man die Daten selbst interpretiert hat weiß man was hinter der Statistik steck!

    • #17 Joseph Kuhn
      17. Dezember 2017

      @ Tigermaz:

      Oft genug ist das so, darum gibt es immer verfeinertere Studienprotokolle, Standards für die Dokumentation von Studien usw. Das führt trotz aller Probleme insgesamt dazu, dass es wissenschaftlichen Fortschritt gibt und eben nicht nur der, der eine Studie durchführt, auch wissen kann, was die Ergebnisse bedeuten. Wäre es anders, wäre Wissenschaft unmöglich.

  16. #18 Adent
    18. Dezember 2017

    @bom.tmp

    Wenn also in einer Umfrage gefragt wird, mögen Sie Tiere?
    Dann kann man davon ausgehen, dass 90 % von vornherein die Frage bejahen werden.

    Ich denke es gibt schon mehr als 10% Vegetarier…

  17. #19 Gerhard K
    Zwickau
    18. Dezember 2017

    >> Trau keiner Statistik …
    Ersetze “gefälscht” mit “bearbeitet” und der Spruch macht Sinn.
    Eine unbearbeitete Statistik ist völlig sinnlos. Man muss ja zumindest prüfen, ob die Rohdaten wirkliche Daten sind. Auch in der Physik kann ich nicht die Rohdaten direkt verarbeiten, ich kann nur Messergebnisse verarbeiten.
    Wo hört Bearbeitung auf und fängt Fälschung an? Zum Beispiel, wenn ich entscheiden muss, ob ich einen Messwert, der 5 Sigma von den anderen entfernt ist, als offensichtlichen Fehler verwerfe oder trotz begründeter Zweifel mit einfließen lasse?
    Die Ergebnisse von statistischen Auswertungen sollten nur von denen für irgendwelche Entscheidungen genutzt werden, die wirklich verstehen, wie es zu diesen Ergebnissen gekommen ist.
    Aber diese Freiheit kann sich nicht jeder leisten.

  18. #20 RainerO
    19. Dezember 2017

    @ Adent

    Ich denke es gibt schon mehr als 10% Vegetarier…

    In Deutschland/Österreich jedenfalls nicht*). Das sieht vielleicht nur so aus, weil die religiös Verblendeten unter denen am lautesten schreien.
    Außerdem kann man auch als sich normal Ernährender Tiere mögen.

    *) (2017 waren es in Deutschland 5,7%, die sich als Vegetarier bezeichneten, oder weitgehend fleischlos lebten)

  19. #21 RainerO
    19. Dezember 2017

    @ Adent
    Inzwischen ist die Intention deines Beitrags auch bei mir durchgesickert… :-\
    Sorry für die lange Leitung.

  20. #22 bom.tmp
    20. Dezember 2017

    Adent,
    bei dir muss man ja um die Ecke denken können.
    RainerO,
    mit welchen Test kann man herausfinden, wer verblendet ist, oder nicht?
    Meiner Meinung nach können so einen Test nur Menschen durchführen, die selbst ein wenig verblendet sind.

    Fröhliche Weihnachten

  21. #23 Basilios
    Freezing
    20. Dezember 2017

    @bom.tmp
    Du hast also eine Meinung. Das ist schön und auch Dein gutes Recht!

    Mich würde interessieren, wie Du zu dieser Meinung gekommen bist? Warum glaubst Du, daß das so sei?

  22. […] besteht seit langem Konsens darüber, dass zu viele schlechte Studien publiziert werden und auch ein ausreichender p-Wert allein noch lange kein vertrauenswürdiges Ergebnis anzeigt. Andererseits stellt sich die Frage, ob in der Psychologie, dort wo es z.B. nicht mehr um […]