Wissenschaftler gegen Statistische Signifikanz

Von Thilo / 23. März 2019 / 42 Kommentare

Mehr als 800 Wissenschaftler haben einen Brandbrief gegen die Verwendung des Begriffs „Statistische Signifikanz“ unterschrieben: „Scientists rise up against statistical significance“ (Nature). Worum geht es?

Zunächst: eigentlich geht es nicht gegen statistische Signifikanz, sondern gegen die Verwendung des Begriffes „statistisch nicht signifikant“, sobald irgendwelche Schwellen des p-Wertes überschritten werden.

Let’s be clear about what must stop: we should never conclude there is ‘no difference’ or ‘no association’ just because a P value is larger than a threshold such as 0.05 or, equivalently, because a confidence interval includes zero. Neither should we conclude that two studies conflict because one had a statistically significant result and the other did not. These errors waste research efforts and misinform policy decisions.

Die Autoren veranschaulichen das Problem mit dem Beispiel eines Forschungsprojekts zu den Nebenwirkungen entzündundshemmender Medikamente.
Weil ihre Ergebnisse statistisch nicht signifikant waren, kam eine Gruppe von Forschern zu dem Schluss, dass die Medikamentenexposition nicht mit neu auftretendem Vorhofflimmern (der häufigsten Störung des Herzrhythmus) in Verbindung gebracht werden könne und dass die Ergebnisse ihrer Studie im Gegensatz zu den Ergebnissen einer früheren Studie mit statistisch signifikantem Ergebnis stünden.
Die tatsächlichen Daten sind wie folgt. Das Risiko für Vorhofflimmern ist bei den dem Medikament ausgesetzten Patienten um 20% höher gewesen. Die Forscher hatten ein Konfidenzniveau von 95%, worin alles von einem 3% höheren Risiko bis zu einem 48% höheren Risiko enthalten war. Damit kamen sie dann auf einen p-Wert, der über der Schranke 0.05 lag.
Die frühere Studie hatte das selbe um 20% erhöhte Risiko gefunden, sie hatte aber ein Konfidenzintervall von 9% bis 33% angesetzt und hatte einfach nur wegen dieser präziseren Annahme einen sehr viel kleineren p-Wert erhalten.
Die neue Studie zeigte also nichts anderes als die ältere, sie kam nur wegen eines anderen Ansatzes für das Konfidenzintervall zu einem entgegengesetzten Ergebnis bzgl. der statistischen Signifikanz. Das ist offensichtlich absurd.

Kommentare (42)

#1 bote19
23. März 2019

Um das Problem vollständig beschreiben zu können, muss man Statistik studiert haben.
Mir als Laie kommt der Unterschied zwischen der Signifikanz und dem P-Wert so vor, wie wenn man von der Steigerung der Steigerung bei Mieten spricht.
wenn die Mieten von einem Jahr zum nächsten jeweils um 20 % steigen, dann ist die Steigerung der Steigerung 0 %.
#2 Joseph Kuhn
23. März 2019

@ bote19:

Man muss nicht Statistik studiert haben, aber man muss sich bemühen, zu verstehen, was da steht, manche schauen auch bei Wikipedia nach.

Mit der Signifikanz und dem p-Wert verhält es sich nicht wie mit der ” Steigerung der Steigerung bei Mieten”. Das Signifikanzniveau ist schlicht ein Schwellenwert für den p-Wert.

In vielen statistischen Tests will man die Vermutung, dass ein Ergebnis durch Zufall zustande kam (“Nullhypothese”), mit hinreichender Sicherheit ablehnen. In der Medizin akzeptiert man als Schwellenwert oft 5 % Irrtumswahrscheinlichkeit. In der Physik sind es Dimensionen weniger. Ist der p-Wert kleiner als 5 %, gilt ein Ergebnis als signifikant. Fertig.

Die Kritik am leichtfertigen Umgang mit p-Werten ist alt, notwendig und kann nicht oft genug wiederholt werden.
#3 bote19
24. März 2019

Joseph Kuhn
Danke für den Erklärungsversuch.
So wie ich es verstehe, ist das Problem das Signifikanzniveau. Würden Sie Russisches Roulette spielen, wenn im Magazin mit 100 Patronen , 95 Platzpatronen sind, aber 5 scharfe Patronen?
(Problem umgedreht)
Die Nullhypothese für scharfe Patronen wäre doch erst erreicht, bei 100 Platzpatronen.
Was sagt jetzt der P-Wert aus ? (Falls Sie eine Anwort geben, bitte ein konkretes Beispiel !)
Alle Erklärungen bei Wikipedia sind unverständlich für Laien.
#4 Ulrich Berger
24. März 2019

@ bote:

Ein Yogi behauptet, er habe nach jahrelanger Meditation die Fähigkeit erlangt, die Ergebnisse von Münzwürfen durch Gedankenkraft zu beeinflussen, und zwar so, dass öfter Zahl als Kopf kommt. Sie wollen ihn testen und werfen 100mal eine Münze, während er sich konzentriert. Wieviele Male muss Zahl kommen, damit Sie seine Behauptung akzeptieren? (Wir nehmen an, dass Manipulation, Täuschung etc. ausgeschlossen ist.)

52mal Zahl dürfte Sie nicht wirklich von den telekinetischen Fähigkeiten des Yogi überzeugen, denn auch wenn er rein gar nichts kann, besteht eine Chance von etwa 38%, dass mindestens 52mal Kopf kommt. Bei 70mal Zahl steht Ihnen wahrscheinlich der Mund offen. Zu Recht, denn die Chance, dass nur durch Zufall mindestens 70mal Zahl kommt, beträgt weniger als 0,004%.

Diese Wahrscheinlichkeit, dass rein zufällig mindestens die beobachtete Anzahl von Zahl-Würfen kommt, also diese 38% bei 52mal bzw. diese 0,004% bei 70mal, das ist der p-Wert. Und die Wahrscheinlichkeitsschranke, ab der Sie akzeptieren, dass der Yogi den Münzwurf beeinflussen kann, ist Ihr Signifikanzniveau. In klinischen Studien wählt man meistens 5% als Signifikanzniveau. Wenn Sie dies auch bei Ihrem Yogi tun, dann sagen Sie also: Wenn die Anzahl von Zahl-Würfen so groß ist, dass man nur in 5% der Fälle rein zufällig mindestens so viele Zahl-Würfe bekommen würde, dann glaube ich ihm, dass er diese Fähigkeit besitzt. Kürzer formuliert heißt das einfach: Wenn mein p-Wert kleiner ist als 5%, dann glaube ich ihm.

In dem Fall würden Sie dem Yogi glauben, wenn Sie 59 oder mehr Zahl-Würfe produzieren, denn der p-Wert des Resultats 59 liegt bei etwa 4%, also unter Ihrem Signifikanniveau von 5%. Dieses Ergebnis ist “statistisch signifikant”. Bei lediglich 58mal Zahl wäre der p-Wert etwa 7%, also über Ihrer Signifikanzschranke, und das Ergebnis des Versuchs damit nicht statistisch signifikant.
#5 PDP10
24. März 2019

@Joseph Kuhn:

In der Physik sind es Dimensionen weniger.

Die Physiker sagen dazu “Größenordnungen”. Mit “Dimensionen” meinen die was ganz anderes 😉
#6 PDP10
24. März 2019

@bote19:

Alle Erklärungen bei Wikipedia sind unverständlich für Laien.

Das ist leider wahr. Nicht mal ich verstehe den Artikel über den P-Wert in der Tiefe (und das sage ich, obwohl ich vor vielen Jahren, als ich noch selber Student war andere Studenten unterrichtet habe im Durchführen von Experimenten nebst Dokumentation, elementarer Statistik und einfacher Fehlerrechnung).

Leider trifft das auf viele Artikel aus der deutschen Wikipedia zu solchen Themen und auch Mathematik oder Physik ganz allgemein zu. Die englische Wikipedia ist da Lichtjahre besser …

Hier ist ein Artikel auf Spektrum.de der möglicherweise Licht ins Dunkel bringen kann:

https://www.spektrum.de/news/statistik-wenn-forscher-durch-den-signifikanztest-fallen/1224727

Recht lang und nicht einfach zu lesen aber auch für Laien verständlich IMHO.
#7 Thilo
24. März 2019

Die Statistik-Artikel in der de-WP sind oft sehr schlecht. (Wobei der Artikel über den p-Wert da definitiv noch zu den besseren gehört.) Das wird sich freilich nur ändern, wenn sich Freiwillige finden, die die Artikel überarbeiten.
#8 PDP10
24. März 2019

@Ulrich Berger:

Das ist im großen und ganzem sehr schön erklärt … (ausser, dass du natürlich dem Laien nicht erklärst, wie du auf die genauen Wahrscheinlichkeitswerte kommst .. 🙂 ) … egal.

Aber …

Bei lediglich 58mal Zahl wäre der p-Wert etwa 7%, also über Ihrer Signifikanzschranke, und das Ergebnis des Versuchs damit nicht statistisch signifikant.

Da wirds dann eben albern. Als jemand, der mal Physik studiert hat, stellen sich mir da schon die Nackenhaare auf.
Was wenn man den Versuch mit 100 Yogis wiederholt und in 50% der Fälle 58 mal Zahl und in den anderen 50% 59 mal Zahl bekommt?

Ist das Ergebnis dann insgesamt “signifikant” oder nicht?

Platt gesagt, habe ich bei diesem P-Wert-gehuber schon immer das merkwürdige Gefühl gehabt, dass mich da jemand verarschen will … und ich habe wirklich, wirklich versucht, dass zu verstehen …
#9 CM
24. März 2019

Nicht unbedeutend ist aber auch der Hintergrund zu den unterschiedlichen Größenordnungen der Signifikanzniveaus in den versch. Fächern: Das ist trivial, aber angesichts der oft mitschwingenden akademischen Hybris (“Mein Fach ist das Bessere.”), eben nicht unwichtig. In der Medizin sind die Stichproben oft klein, gerade im Zusammenhang mit Grundlagenforschung / seltenen Erkrankungen / Pilotstudien / der Konkurrenzsituation / der Notwendigkeit zu Stratifizieren (wir Menschen sind halt unterschiedlich) geschuldet / etc..

Im Übrigen finde ich, hat sich in den letzten Jahren viel getan: Das Bewußtsein für die Problematik und um p-Werte wurde geschärft, Rat der Statistiker wird häufiger freiwillig gesucht, mancherorts gibt es die Pflicht diesen einzuholen.

PS @PDP10 – Korrekturen, um die Kumulierung der alpha-Fehler zu vermeiden sind ebenfalls in den Lebenswissenschaften nicht unüblich. Manchmal sind die praktischen Implikationen nicht unerheblich und man kann sich dennoch Gedanken darüber machen, welches Signifikanzniveau sinnvoll ist. Andererseits stellt sich die Frage, wie detailreich in einem solchen Thread zu argumentieren / erklären ist, auf das *alle* pot. Kommentatoren zufrieden sind ;-).
#10 Joseph Kuhn
24. März 2019

@ PDP10:

Größenordnungen/Dimensionen: alter Rechthaber 😉

@ bote19:

Schöner als Ulrich Berger hätte ich es nicht erklären können. Offen ist nur die Frage, ob Ulrich Bergers plötzliches Erscheinen zufällig ist oder nicht. Da hilft kein p-Wert.

Was Ihre 5 scharfen Patronen unter 100 angeht: Das hat so erst mal nichts mit dem 5%-Signifikanzniveau zu tun. Damit konstruieren Sie ein Urnenmodell “Ziehen ohne Zurücklegen”. Jetzt kommt es darauf an, welches zufällige Ereignis damit erzeugt werden soll, daran lassen sich dann Wahrscheinlichkeitsbetrachtungen anschließen. Wenn Sie viel Gück haben (oder ist’s doch mehr?), erklärt es Ihnen Ulrich Berger noch mal besser.

@ CM:

Was die verschiedenen Signifikanzniveaus in verschiedenen Wissenschaften angeht, hier ein Hinweis: https://scienceblogs.de/gesundheits-check/2017/12/16/der-p-wert-hat-bewaehrung/
#11 Joseph Kuhn
24. März 2019

@ CM, noch was:

Danke für den Link, interessanter Artikel.
#12 bote19
24. März 2019

Ulrich Berger,
da sieht man mal wieder , dass ein Yogi am Sonntagmorgen zur Erleuchtung beiträgt.
Wenn ich das richtig verstanden habe, dann ist der P-Wert ein Wahrscheinlichkeitswert.
Und da dieser Wert sich nicht linear den 100 % nähert, sind solche großen Sprünge zwischen 58 und 59 möglich.
Hängt das damit zusammen, dass die Wahrscheinlichkeiten eine Gausssche Normalverteilungskurve bilden wobei der Hochpunkt die 1oo % darstellen ?
Oder noch einfacher formuliert wie addieren sich (wachsen) Wahrscheinlichkeiten ? (Formel erwünscht)
#13 Thilo
24. März 2019

https://www.sueddeutsche.de/wissen/statistik-p-wert-signifikanz-hypothese-nullhypothese-1.4375636!amp
#14 Thilo
24. März 2019

Und ein fünf Jahre alter Artikel: https://www.zeit.de/2014/01/statisitk-wissenschaft-signifikanz
#15 MartinB
24. März 2019

@PDP
“Was wenn man den Versuch mit 100 Yogis wiederholt und in 50% der Fälle 58 mal Zahl und in den anderen 50% 59 mal Zahl bekommt?”
Dann hat man effektiv 10000 Versuche gemacht und das Signifikanzniveau ist ein anderes – da landest du dann sicherlich deutlich unter p kleiner 0.05.

Die Absurdität kommt nicht durch das statistische Verfahren zu Stande, sondern dadurch, dass man die 0.05 als eine absolute Grenze setzt, alles drüber ist pfui, alles drunter ist hui.
- #16 Ulrich Berger
  Mauerbach
  24. März 2019
  
  Bei den 100 Yogis kommt es darauf an, was die Nullhypothese ist. Alle können es? Mindestens einer kann es? Aber so ein Ergebnis aus nur 58ern und 59ern ist sowieso äußerst dubios…
#17 bote19
24. März 2019

Thilo,
Sie als Mathematiker können doch sicher sagen, ob sich die die Häufigkeit bei Kopf/Zahl Ereignissen als e-Funktion darstellen lässt.
Rein gefühlsmäßig ergibt sich doch die Nichtlinearität der Wahrscheinlichkeit durch die Stichproben. Wenn ich bei 100 Tabletten 10 Placebos habe und eine Stichprobe mache, dann beträgt die Wahrscheinlichkeit ein Placebo zu erwischen 10 %. Wenn ich eine zweite Stichprobe mache steigt die Wahrscheinlichkeit nicht auf 20 % , sondern weniger, weil ich ja wieder das gleiche Placebo erwischen kann. Rein gefühlsmäßig tippe ich mal auf 27,1 Stichproben , um genau 10 Placebos zu erwischen ??
#18 Markus Falk
Wien
24. März 2019

Leider ist die Grafik falsch. Die eingefärbte Fläche entspricht dem Signifikanzniveau und nicht dem p-Wert.

Zudem wissen die wenigsten was dieser Wert überhaupt besagt. Viele glauben 1-p sei die Wahrscheinlichkeit oder Zuverlässigkeit dafür, dass das Ergebnis stimmt. Leider ist diese Wahrscheinlichkeit aber fast immer unbekannt.
#19 MartinB
24. März 2019

@PDP
Sorry, hatte falsch gelesen (dass man 100 mal wiederholt) – das Prinzip bleibt aber gleich.
#20 Joseph Kuhn
24. März 2019

@ Markus Falk:

“Die eingefärbte Fläche entspricht dem Signifikanzniveau”

Warum? Auf der x-Achse sind doch gar keine Schwellenwerte angegeben.
- #21 Markus Falk
  Wien
  24. März 2019
  
  Da die Fläche links und rechts sonst gar keinen Sinn macht. Der kritische Wert kann sich nur links oder rechts befinden. Die Zugehörige Fläche unterhalb dieses Wertes oder eben darüber ist dann der p-Wert.
  Im Bild ist das Signifikanzniveau bei einem zweiseitigen Test eingezeichnet, jeweils alpha/2 einmal links und einmal rechts.
  - #22 Markus Falk
    Wien
    24. März 2019
    
    Sry, jetzt patze ich sogar selbst. Nicht den kritischen Wert, sondern den Wert der Test-Statistik meinte ich.
#23 knorke
24. März 2019

Ich glaube ich habe das konkrete Beispiel im Text nicht so ganz verstanden. Die haben beide mit dem 95er Konfi gearbeitet, aber der eine hatte den größeren Effekt gemessen und es wurde dadruch signifikant? Oder war die Efektsträke vergleichbar, aber die Power bei der Wiedeholung schlechter? Das hätte man doch in dem Artikel reporten können bzw. müssen, bevor man konträrare Ergebnisse postuliert.
Es fällt mir schwer zu verstehen, dass Leute, die empirisch arbeiten mit “absence of significance” Probleme haben. Zumal normalerweise doch als Erstes – seien wir mal ehrlich – geguckt werden würde, ob man die Hypothese nicht noch retten kann.
Immerhin, wenn man jetzt ne Ahnung hat, wie groß der Effekt ist, kann man sich vielleicht beim nächsten Mal bei der Versuchsplanung besser vorbereiten.

Ich gebe JK Recht: Ein uraltes Problem, anscheinend lohnt es sich, nicht nur Studenten im 5 Semester damit zu malträtieren.

Die Sachen aus dem Artikel “Die Signifikanz hat Bewährung” (oder wie der hieß), ist mir persönlich allerdings wichtiger, denn da pressierts direkt im System des Wisschenschaftsbetriebs (publish or perish – Hypothesen mit ein paar Zahlentricks zu retten sodass man was veröffentlichungswertes hat, s.o., gehört da sicherlich auch dazu).

Zu Physik und Signifikanzen: Ich vermute mal das Problem ist, dass die Physik nach extrem kleinen Effekten in einer extrem großen Zahl von Ereignissen sucht, und daher so niedrige Alpha-Fehler toleriert? Vermutlich sind viele Störgrößen besser quantifizierbar?

Den Luxus hat weder die Medizin, noch die Gesellschaftswissenschaften, jedenfalls oftmals. Zumal viele Effekte deutlich größer sein dürften, als in der Physik. Vor allem Effekte in der Medizin MÜSSEN zwangsläufig größer sein, ich bin nicht sicher dass es viel Sinn hätte, ein Medikament zuzulassen, dessen Effekt nur um 0,00001% besser ist als ein Placebo, selbst wenn man das mit hoher statistischer Sicherheit nachweisen könnte dass das so ist.
#24 Joseph Kuhn
24. März 2019

@ Markus Falk:

Danke, bin runter vom Schlauch.
- #25 Markus Falk
  Wien
  25. März 2019
  
  Hatte eigentlich nur auf Fehler hingewiesen aber nichts erklärt.
  
  Der Nature Artikel zeigt das Problem nur auf, erklärt aber nichts.
  
  Das verwendete Beispiel zeigt, dass durch eine zu geringe Power sehr schnell Fehlschlüsse entstehen, wenn man bei einem nicht signifikanten Ergebnis die Nullhypothese annimmt.
  
  Studie 1 Chao: n=6318 RR = 1.2, 95% CI 0.97-1.48, p = 0.091
  Studie 2 Schmidt: n=288 299 RR = 1.2, 95% CI 1.09-1.33, p = 0.0003
#26 Joseph Kuhn
24. März 2019

@ knorke:

“ich bin nicht sicher dass es viel Sinn hätte, ein Medikament zuzulassen, dessen Effekt nur um 0,00001% besser ist als ein Placebo, selbst wenn man das mit hoher statistischer Sicherheit nachweisen könnte dass das so ist

Naja, es könnte z.B. ein anderes Nebenwirkungsprofil haben und dadurch für bestimmte Patientengruppen hilfreich sein. Aber Sie sprechen natürlich einen wichtigen Punkt an: Statistische Signifikanz und klinische Relevanz sind zwei paar Stiefel.
#27 M
Bolivien
25. März 2019

Das Grundproblem ist, dass auf alles mit orthodoxer Statistik geworfen wird, weil man nur die in Schule und Studium lernt.
Die hat zwar ihre Daseinsberechtigung, aber eigentlich ist das universellere Handwerkszeug die Bayes-Statistik. Da kann man dann auch durchgehend mit Verteilungen arbeiten und muss nicht alles auf 1 Wert eindampfen.
#28 Karl Mistelberger
mistelberger.net
25. März 2019

> Die Autoren veranschaulichen das Problem mit dem Beispiel eines Forschungsprojekts zu den Nebenwirkungen entzündungshemmender Medikamente.

Neben dem p-Wert spielen auch noch andere Faktoren eine Rolle:

Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials
#29 Dr. Webbaer
25. März 2019

In den Naturwissenschaften wird die sicherlich dort viel zu weiche sog. Statistische Signifikanz, die ja immer diese 5 % meint, bzw. die übrigen 95 %, lol, als vi-iel zu weich angesehen, wobei diese sog. Signifikanz (“Zeichensetzung”) für sozial bemühtes Personal womöglich genügen kann, im Weichen.

Naturwissenschaftlich ist man auf der Sigma-Schiene, sozusagen, vgl. auch bspw. hiermit :

-> https://de.wikipedia.org/wiki/Six_Sigma#Erwarteter_Fehleranteil_beim_Six-Sigma-Level (“Six-Sigma” sozusagen auch als Qualitätsziel in Teilen der Wirtschaft)

MFG
Dr. Webbaer (der jetzt hier nicht alles durchgelesen hat, womöglich nur redundant war)
#30 Dr. Webbaer
25. März 2019

Ergänzend, hier ist es vielleicht in der bekannten Online-Enzylopädie auf den Punkt gebracht, auf die Schnelle so beigebracht, von Dr. Webbaer, und womöglich allgemeinverständlich :

-> https://de.wikipedia.org/wiki/Statistische_Signifikanz#Irrtumswahrscheinlichkeit_und_Signifikanzniveau (‘Eine heuristische Motivation des Wertes 5 % ist wie folgt: Eine normalverteilte Zufallsgröße nimmt nur mit einer Wahrscheinlichkeit von kleiner oder gleich (≤) 5 % einen Wert an, der sich vom Erwartungswert um mehr als die 1,96-fache Standardabweichung unterscheidet:’ + ‘So wurde zum Beispiel für den Nachweis der Existenz des Higgs-Bosons ein sehr viel strengeres Kriterium von 5 Standardabweichungen (entsprechend einem p-Wert von 1 in 3.5 Millionen) angewendet.’)

MFG
Wb
#31 bote19
25. März 2019

Dr. W.
der Professor, der die Existenz des Higgs-Bosons bekanntgab, räumte selbstkritisch ein, dass der Versuch keinen Beweis für das Boson liefert, sondern nur eine indirekter Beweis ist, dass das Boson nicht nicht existiert.

Das allgemeine Problem statistischer Wahrscheinlicheiten ist, dass die Anzahl der Versuche zu niedrig ist. Bei Versuchspersonen sollte die Stichprobe absolut mindestens 2000 Personen betreffen.
Profokative Anmerkung: 800 Wissenschaftler sind nicht repräsentativ für die Wissenschaft.
#32 Dr. Webbaer
25. März 2019

Es geht hier um die sog, Empirische Varianz, die zentral ist, wenn sich naturwissenschaftlich i.p. sog. Statistischer Signifikanz bemüht wird und natürlich (“geboren”, auch “weltlich”) auf der bereits o.g. “Sigma-Ebene” bemüht wird, wenn herausgefunden werden soll, ob ein (gemessenes, gerne auch x-fach) Ereignis der soz. natürlichen Varianz der (Natur-)Welt zugeordnet werden soll oder sinnhafterweise besonderer Gesetzgebung der Natur, hier sind auch sog. Naturgesetze gemeint, festgestellt werden soll darf bis soll, im Sinne von David Hume, von erkennenden Subjekten; hier sind gerade auch Naturwissenschaftler gemeint.

—
Das Falsifikationsprinzip ist hier naturwissenschaftlich ohnehin anzuwenden, der von Ihnen gemeinte “Prof” folgt hier nur der Maßgabe, dass naturwissenschaftliche Theoretisierung nie zu verifizieren, sondern nur zu falsifizieren ist.

Wobei auch empirisch nicht passende Datenlage diese Theoretisierung nicht gänzlich als im Negativen abgehandelt sehen darf.
Denn andere messen zukünftig womöglich passender.

MFG
Dr. Webbaer
#33 Dr. Webbaer
25. März 2019

Und die Wahrscheinlichkeitsschranke, ab der Sie akzeptieren, dass der Yogi den Münzwurf beeinflussen kann, ist Ihr Signifikanzniveau. [Herr Dr. Ulrich Berger]

In etwa so, im Naturwissenschaftlichen ist es aber soz. noch schlimmer, denn es wird ja soz. “nur” auf “Münzwürfe” geguckt, deren Messung ausschnittsartig, näherungsweise und interessengebunden, seitens der erkennenden Subjekte immer auch politisch (verkürzt das Gesellschaftliche meinend) veranstaltet sind.

Jeder erfasst bestenfalls ‘ausschnittsartig, näherungsweise und interessengebunden’.

Ein Wunder, dass die szientifische Methode funktioniert und Anwendungen erlaubt!
Sozusagen, aus bestimmter Sicht dann doch wieder nicht. [1]

MFG
Dr. Webbaer

[1]
Also, dass es kein ‘Wunder’ ist, Dr. W will an dieser Stelle abär nicht näher erklären.
#34 Dr. Webbaer
25. März 2019

*
festgestellt werden [kann] darf bis soll
#35 bote19
25. März 2019

Dr. W.
Die empirische Signifikanz und die empirische Varianz, sind also mit einer Unsicherheit von 5 % vorbelastet. Das ist einfach so pragmatisch festgelegt worden.
Das Falsifikationsprinzip kann nicht angelegt werden, Falsifikation gibt es nur im konkreten Fall, nicht in einer statistischen Stichprobe (mal provokativ angemerkt).
Was den Münzwurf betrifft, das haben Sie richtig erkannt, die Grenze zwischen wahrscheinlich glaubhaft und wahrscheinlich unglaubhaft ist kulturell bedingt.
Ich hatte beim Pokern mal 4 Asse und hatte alles gesetzt. Meine Frau hatte eine Straße und ich habe alles verloren.
Seitdem bin ich vorsichtig mit Wahrscheinlichkeiten.
#36 Dr. Webbaer
25. März 2019

@ Kommentatorenfreund ‘bote19’ :

Halten Sie sich gerne als sozusagen komplett Ahnungsloser hier gerne heraus, danke.

Die zentrale und das Wesen des Empirismus, wie Skeptizismus bestimmende Aussage stand in den Kommentaren #29 + #30 (aktuell), sie kann kaum angegriffen werden.

MFG
Dr- Webbaer
#37 bote19
25. März 2019

Dr. W.
es gab mal das Tal der Ahnungslosen, damit war Dresden gemeint, die konnten kein Westfernsehen bekommen. Trotzdem kann man sie menschlich dafür nicht abqualifizieren.
Hier steht der P-Wert auf dem Prüfstand. Den kann man kritisieren, wenn man es mit der Trennschärfe übertreibt.
Als wissenschaftliches beispiel, worum es hier geht.
Die Automobilindustrie gibt bei der Lautstärke für KFZs
70 dB an, für ein anderes Modell 73 dB. Der ahnungslose Kunde sagt sich , das ist nicht viel. Was er nicht weiß, die dB – Skala ist eine logarithmische Skala, wobei 3 dB einer Verdoppelung der Schallenergie beträgt.
Bei einer exponentialen Darstellung, der Gaussschen Glockenkurve, ist es genau umgekehrt. Da verändern sich die Prozentangaben exponentiell, und es liegt nur eine kleine Veränderung vor.
Und daher rührt das Misstrauen an der Statistik. Einmal werden logaritmische Zusammenhänge dargestellt, dann wieder exponentiale. Ohne mathematisches Vorwissen kann man das schlecht kritisieren.
Deswegen mein Einwand die Wahrheitsfindung betreffend, Klarheit und Durchblick schaffen nur absolute Zahlen
#38 Kai
26. März 2019

Dr. Med…..
Als ich mich im Studium mit Statistik, Regressionen, Konfidenzintervallen usw. herumschlug, hat ein Teil meiner Freunde gerade seine Doktorarbeit in Medizin geschrieben.
Oft innerhalb weniger Wochen wurden ein paar Daten ausgewertet. Diese Auswertungen waren oft die jämmerlichste niveauloseste Statistik, die mir untergekommen war.
Nichts gegen diese Freunde. Alles gute Ärzte inzwischen. Aber wissenschaftl. fundiert mit Statistik arbeiten, … besser nicht.
#39 Dr. Webbaer
26. März 2019

‘Wissenschaftlich fundiert’ ist mit sog. Signifikanzniveau (Herr Dr. Ulrich Berger war so freundlich dieses Fachwort in diese kleine Debatte einzuführen) zu arbeiten, denn ansonsten läge die Abkehr von Ratio vor, im schlimmsten Fall “Schamanismus”.
Auch derart vorzugehen bleibt ein “hartes Brot”, fürwahr.

MFG
Dr. Webbaer
#40 Karl Mistelberger
mistelberger.net
28. März 2019

Das Thema wurde auch hier aufgegriffen:

https://sciencebasedmedicine.org/statistical-significance-and-toxicity/

Im diesem Artikel wird auf ein besonderes Schmankerl verwiesen:

False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant

In this article, we accomplish two things. First, we show that despite empirical psychologists’ nominal endorsement of a low rate of false-positive findings (≤ .05), flexibility in data collection, analysis, and reporting dramatically increases actual false-positive rates. In many cases, a researcher is more likely to falsely find evidence that an effect exists than to correctly find evidence that it does not. We present computer simulations and a pair of actual experiments that demonstrate how unacceptably easy it is to accumulate (and report) statistically significant evidence for a false hypothesis. Second, we suggest a simple, low-cost, and straightforwardly effective disclosure-based solution to this problem. The solution involves six concrete requirements for authors and four guidelines for reviewers, all of which impose a minimal burden on the publication process.
#41 Dr. Webbaer
28. März 2019

@ Herr Dr. Mistelberger :

Second, we suggest a simple, low-cost, and straightforwardly effective disclosure-based solution to this problem.

Es bleibt unklar, wie dort, wo sozusagen naturgemäß kleine Datenproben vorliegen, mit mehr als der sog. Statistischen Signifikanz, die die “5%” meint, gearbeitet werden kann.
#42 M
Bolivien
6. April 2019

Wie schon erwähnt könnte man einfach das richtoge Handwerkszeug benutzen, die Bayes-Statistik, und hätte dann mit diesem ominösen Signifikanzniveau nix mehr zu tun. Aber anscheinend kriegt man die orthodoxe Statistik nicht aus euren Köpfen.