Man macht ein Experiment, ob Studenten, die lauter sprechen oder schreien, bessere Zensuren schreiben. Man hat danach gewisse Meßwerte und fragt, ob diese die Nullhypothese widerlegen. (Die Nullhypothese besagt, dass es den vermuteten Zusammenhang nicht gibt.) Der p-Wert ist bei gegebenen Meßwerten die statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen Werte bekommen würde. Ist der p-Wert sehr niedrig, dann lassen sich die erhaltenen Meßwerte jedenfalls nicht statistisch erklären, sondern müssen einen inhaltlichen Grund haben. Ein niedriger p-Wert spricht also dafür, dass die Nullhypothese falsch ist.

Bei xkcd wird nun einfach dieselbe Messung mehrmals wiederholt. Die Studenten schreien jedesmal annähernd gleich laut. (Und die Zensuren bleiben die gleichen, weil nur die Stimmprobe wiederholt wird.) Obwohl man immer noch dieselben Meßwerte hat, wird der p-Wert durch die Wiederholung geringer, die Nullhypothese also scheinbar widerlegt.

Kommentare (76)

  1. #1 Rob
    Oberland
    27. Oktober 2021

    Das erinnert mich an einen Artikel über die sog. “Datenanreicherung”, noch lange vor dem Internet. Die Methode basierte auf einem Experiment zur menschlichen Hörschwelle, in dem Probanden kurzen Tönen mit unterschiedlicher Lautstärke ausgesetzt wurden. Die Idee nun: Wenn ein Proband einen Ton hörte, dann hätte er ihn auch gehört, wenn er noch lauter gewesen wäre. Hörte ein Proband den Ton dagegen nicht, hätte er ihn natürlich auch nicht gehört, wenn er noch leiser gewesen wäre. Also wurden einfach entsprechende Datenpunkte ergänzt und schon war die Grenze sehr viel schärfer.

    Das war natürlich nicht ernst gemeint sondern sollte nur zeigen, wie man mit vermeintlichen logischen Annahmen Daten manipulieren kann.

  2. #2 knorke
    27. Oktober 2021

    Wenn ich das richtig sehe kritisiert der Comic weniger den p-Wert als eher schlechte Empirie – oder blinde p-Wert Gläubigkeit.

  3. #3 Jan
    Saarland
    27. Oktober 2021

    also die Definition des P-Wertes hier ist falsch.

    Der p-Wert macht keine Aussage darüber, ob eine (Null)Hypothese stimmt oder nicht. Das ist eine wichtige aber nicht zu ignorierende Feinheit.

    Die Definition ist eben NICHT darauf bezogen ob etwas stimmt oder nicht, sondern darauf, dass bei gegebener geltender Nullhypothese die ergebenen Messwerte – oder extremere Messwerte gemessen werden.

    Hier kann man diskutieren ob dies eine Art Glaubwürdigkeit oder ein Maß für Zufälligkeit ist – aber mit Sicherheit sagt der P-Wert nicht aus, ob eine Nullhypothese stimmt oder nicht. Es sagt noch nichtmal etwas über die Wahrscheinlichkeit einer Richtigkeit aus, da diese völlig davon abhängt, wie die Nullhypothese formuliert ist, und ob diese überhaupt stimmen kann.

    Ohne Kenntnis des Umfeldes und von Vorwahrscheinlichkeiten ist die Aussagekraft des p-Wertes gering.

  4. #4 Thilo
    27. Oktober 2021

    Ich habe das mal umformuliert. Hoffe, das ist so in Ordnung.

  5. #5 Fluffy
    Berlin
    27. Oktober 2021

    Versteh’ nicht was daran falsch sein soll.
    Student A hat dreimal sein Staatsexamen mit 75 Punkten bei 87 db gemacht usw
    Das verstärkt doch die Hypothese, bzw bestätigt dem Zusammenhang

  6. #6 Joseph Kuhn
    27. Oktober 2021

    @ Thilo:

    “Hoffe, das ist so in Ordnung.”

    Noch nicht ganz, siehe den Kommentar von “Jan”.

    Jetzt:

    “Der p-Wert ist bei gegebenen Meßwerten die statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen Werte bekommen würde.”

    Besser:

    “Der p-Wert ist die mit einem bestimmten Testverfahren gewonnene statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen oder extremere Werte bekommen würde.”

  7. #7 The One
    27. Oktober 2021

    Mich wundert, daß noch niemand auf die Idee gekommen ist, den Begriff p (Wert) und seine Beziehung zur Signifikanz und der Stichprobengröße in die Diskussion einzubringen.
    Niemand mit hinreichenden Sachverstand würde das tun. Die Abhängigkeiten sind bekannt, ihr Verständnis aber offensichtlich nicht. Es lebe die Dummheit und Ignoranz … wer über Statistik redet, sollte wenigstens ihre Basics verstehen yk 😉

  8. #8 Karl Mistelberger
    mistelberger.net
    27. Oktober 2021

    > #6 Joseph Kuhn, 27. Oktober 2021
    > “Der p-Wert ist die mit einem bestimmten Testverfahren gewonnene statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen oder extremere Werte bekommen würde.”

    Es gibt noch einiges mehr zu sagen:

    ASA Statement on Statistical Significance and P-Values
    Ronald L. Wasserstein

    1. Introduction

    Underpinning many published scientific conclusions is the concept of “statistical significance,” typically assessed with an index called the p-value. While the p-value can be a useful statistical measure, it is commonly misused and misinterpreted. This has led to some scientific journals discouraging the use of p-values, and some scientists and statisticians recommending their abandonment, with some arguments essentially unchanged since p-values were first introduced.

    5. Conclusion

    Good statistical practice, as an essential component of good scientific practice, emphasizes principles of good study design and conduct, a variety of numerical and graphical summaries of data, understanding of the phenomenon under study, interpretation of results in context, complete reporting and proper logical and quantitative understanding of what data summaries mean. No single index should substitute for scientific reasoning.

    https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108

  9. #9 rank zero
    27. Oktober 2021

    Wenn ich richtig sehe, ist hier bisher noch gar nicht benannt worden, dass die Wiederholung durch dieselben Personen nicht so ganz unabhängige Ereignisse sind – das könnte mathematisch auch eine gewisse Relevanz haben…

  10. #10 Joseph Kuhn
    27. Oktober 2021

    @ Karl Mistelberger:

    “Es gibt noch einiges mehr zu sagen”

    Das ist zweifellos richtig. Mir ist allerdings nicht ganz klar, was Sie mir damit sagen wollen. Falls Sie auf die Rolle von p-Werten und Signifikanzniveaus für die Theorienbildung hinauswollen: Das ist in der Tat ein wichtiges Thema, u.a. im Zusammenhang mit der Replikationskrise in manchen Wissenschaften. Ein paar Assoziationen dazu siehe hier: https://scienceblogs.de/gesundheits-check/2017/12/16/der-p-wert-hat-bewaehrung/

    @ rank zero:

    Ja, das hat Relevanz und man könnte anhand des Cartoons von xkcd gut ins Thema verbundene Stichproben einsteigen, aber das mögen Thilo oder andere vom Fach machen, ich will als Statistik-Fußgänger mein Fehlerkonto nicht unnötig überziehen. 😉

  11. #11 Fluffy
    27. Oktober 2021

    Die Punkte in den Diagrammen sind {x,y} Wertepaare.
    Ein nochmaliges Schreien erzeugt ein neues {x} 1er- Tupel. Wie stellt man das in einem (x,y)-Diagramm dar?

    Das xkcd-Comic stellt ja eigentlich einen Witz dar.
    Vielleicht sollte die Aufgabe hier lauten:
    Erklär den Witz!

  12. #12 hwied
    27. Oktober 2021

    Nach mehrmaligem Lesen , was eine Nullhypothese ist und der p-Wert, bin ich mir unsicher, ob ich das richtig verstanden habe.
    Beispiel: ein Lehrer stellt 8 Aufgaben , wobei im multiple choice Verfahren für jede Aufgabe 4 Lösungen angegeben sind. Der Schüler muss nur die richtige Lösung ankreuzen.
    1. Die Nullhypothese besagt: Es gibt keinen Zusammenhang zwischen der Anzahl der richtigen Lösungen und dem Können des Schülers.
    2. Der p-Wert beträgt 0,25 , weil ein Viertel der Lösungen durch Raten erreicht werden kann.

    Liege ich damit richtig ? Und wenn jetzt der Schüler gar keine richtige Lösung hat, dann ist die Nullhypothese falsch ? Es gibt also einen Zusammenhang von richtig gelösten Aufgaben und der Leistungsfähigkeit des Schülers. Aber erst bei mehr als 2 gelösten Aufgaben ist eine Benotung möglich.

  13. #13 Kai
    27. Oktober 2021

    @hwied: Nein. Der pvalue ist nicht 0.25 und es gibt auch keinen p-value wenn du nur eine Nullhypothese hast aber keine Arbeitshypothese hast. Die Nullhypothese basiert erstmal auf einem Modell. Ein Modell erzeugt Ausgaben mit bestimmten Wahrscheinlichkeiten. Das heißt: jeder möglichen Ausgabe (1/8 Aufgaben richtig, 2/8 Aufgaben richtig …, 8/8 Aufgaben richtig) weist das Modell eine Wahrscheinlichkeit zu. Wenn sie raten, handelt es sich um eine Binomialverteilung, deren Wahrscheinlichkeit sie mit (n über k) * p^k * (1-p)^(n-k) ausrechnen (p ist die Wahrscheinlichkeit, die richtige Antwort zu erraten, n ist die Anzahl der Aufgaben, k ist die Anzahl der richtigen Lösungen, (n über k) ist die Anzahl aller möglichen Folgen von richtigen und falschen Antworten). Mit der Formel können sie also ausrechnen:
    0 / 8 Punkten hat nach Nullmodell die Wahrscheinlichkeit 3/4^8 = ~0.1
    1 / 8 Punkten hat nach Nullmodell die Wahrscheinlichkeit (8 über 1) * (1/4)^1 * (3/4)^7 = ~0.27
    2/8 Punkten hat Wahrscheinlichkeit (8 über 2) * (1/4)^2 * (3/4)^6 = ~0.31
    3/8 Punkten hat Wahrscheinlichkeit (8 über 3) * (1/4)**3 * (3/4)**5 = ~0.21

    Insgesamt ergeben sich die Wahrscheinlichkeiten für 0 bis 8 richtige Antworten nach Nullmodell als: [0.1001129150390625, 0.2669677734375, 0.31146240234375, 0.2076416015625, 0.086517333984375, 0.0230712890625, 0.00384521484375, 0.0003662109375, 1.52587890625e-05]

    Wenn jetzt ein Schüler einen solchen Test schreibt und zum Beispiel 5 richtige Antworten hat. Dann und erst dann kannst du einen p-value bestimmen mit der zugehörigen Nullhypothese: die Beobachtung “mindestens 5 richtige Antworten”, lässt sich mit dem Nullmodell erklären. Hierfür addierst du einfach die Wahrscheinlichkeiten des Nullmodellls für 5, 6, 7 und 8 richtige Antworten auf und erhälst den p-value 0.004. Das bedeutet: die Wahrscheinlichkeit, 5 oder mehr richtige Antworten einfach nur durch Raten zu bekommen, liegt bei 0.4%. Damit würdest du diese Nullhypothese in der Regel ablehnen (zu unwahrscheinlich).

    Warum “5 oder mehr” und nicht einfach nur “5”? Stell dir vor du würdest nicht 8, sondern eine Milliarden Fragen stellen (oder sogar unendlich viele!). Dann wäre die Wahrscheinlichkeit für eine bestimmte Anzahl richtiger Lösung (z.B. 560,000) extrem gering. Darum muss man bei Wahrscheinlichkeiten in der Regel integrieren (oft rechnen man ja mit unendlichen Lösungsräumen, da ist die Wahrscheinlichkeit einzelner Lösungen gleich 0).

  14. #14 hwied
    27. Oktober 2021

    Kai,
    das hatte ich befürchtet. Oh, mein Gott, wie erklärt man das dem Schüler.
    Fazit: Multiple Choice is out.
    Was ist jetzt die Arbeitshypothese ?

  15. #15 Kai
    27. Oktober 2021

    Sie wollen wissen ob der Schüler bei seinem Test einfach nur geraten hat, oder ob er wirklich gelernt hat. Intuitiv sollte ja klar sein: je mehr richtige Antworten der Schüler hat, desto wahrscheinlicher ist es, dass er gelernt hat. Je weniger richtige Antworten, desto wahrscheinlicher, dass er nur geraten hat. Man könnte sich also vorstellen, dass es einen Grenzwert gibt, ab dem man dem Schüler glaubt. Aber wo liegt der Grenzwert? Bei mehr als zwei richtigen Antworten? Bei 4 richtigen Antworten? Erst ab 6 richtigen Antworten? Das zu entscheiden ist gar nicht so einfach, auch weil man mit seiner Intuition schnell daneben liegen kann. Beispiel: Würde ich immer raten, hätte ich im MITTELWERT stets 2 Antworten richtig. das bedeutet im Umkehrschluss aber nicht, dass ich bei mehr als zwei richtigen Antworten höchstwahrscheinlich nicht geraten habe.

    Die Idee des p-values ist nun, die Zahl der richtigen Antworten in einen neuen “Wert” zu überführen, der statistische Aussagekraft hat. Eben den p-value, der sagt, wie wahrscheinlich ein solches Ergebnis zufällig zustande gekommen wäre. Sie können jetzt die Zahl der richtigen Antworten umrechnen:
    0 Antworten => p-value = 1.000
    1 Antworten => p-value = 0.900
    2 Antworten => p-value = 0.633
    3 Antworten => p-value = 0.321
    4 Antworten => p-value = 0.114
    5 Antworten => p-value = 0.027
    6 Antworten => p-value = 0.004
    7 Antworten => p-value = 0.0004
    8 Antworten => p-value = 0.00002

    Wie Sie sehen, löst der p-value das ursprüngliche Problem nur unzureichend: Wir wissen immer noch nicht, ab WANN wir dem Schüler trauen sollen. Wir müssen immer noch wilkürlich einen Grenzwert festlegen. Was der p-value uns aber liefert: Erstens können wir den Grenzwert erklären (es ist die Wahrscheinlichkeit, mit der der Schüler ein solches oder besseres Ergebnis zufällig zustande bekommen hätte). Zweitens: Der Grenzwert ist über verschiedene Fragestellungen hinweg vergleichbar. Egal wie viele Antworten oder Antwortmöglichkeiten sie in ihrem Test haben, der p-value hat immer die selbe Aussagekraft. Statt sich also bei jedem Test für einen neuen Grenzwert zu entscheiden, können sie sich ein mal für einen bestimmten p-value Grenzwert entscheiden und den dann beibehalten. Das führt z.B. dazu, dass in der Medizin oft die magische Zahl “p-value <= 0.05" verwendet wird und gern so getan wird, als sei das irgendeine Naturkonstante. Es ist aber erstmal nur ein wilkürlicher Grenzwert. Andere Disziplinen (z.B. die Physik) verwenden völlig andere Grenzwerte.

    Was ebenfalls ein Problem ist: der p-value hängt davon ab, welches Nullmodell sie verwenden. Würde ich keine Binomialverteilung verwenden sondern etwas anderes, würde ich auch andere Wahrscheinlichkeiten herausbekommen. Bei komplexen Fragestellungen ist aber nicht immer klar, was das richtige Modell ist. Darauf bezieht sich auch der Comic oben: Es werden einfach neue Messpunkte reingemacht um den p-value zu verbessern. Dabei übersehen die Akteure, dass ihr Nullmodell gar nicht mehr zulässig ist, weil die neuen Messpunkte nicht mehr unabhängig sind. Bei abhängen Messpunkten müsste man ein anderes Nullmodell zugrunde legen und würde dann auch wieder andere p-values bekommen.

  16. #16 Jolly
    27. Oktober 2021

    @hwied

    Es soll einen Fall gegeben haben, da hat ein Schüler von 20 Fragen bei keiner einzigen die richtige Lösung angekreuzt. Der Lehrer hat die Arbeit mit Note 4, also ausreichend, bewertet.

    Er hat das damit begründet, wenn der Schüler geraten hätte, dann hätte er sehr wahrscheinlich einen Treffer gelandet (im Schnitt sogar mehr). Der Schüler hat also nicht geraten, er muss was gewusst haben.

  17. #17 BBr
    Niedersachsen
    28. Oktober 2021

    @Rob, #1: Der Fehler ist hier, wie so oft, binäres Denken. D.h. man geht davon aus, dass der Proband den Ton entweder hört oder nicht. Das ist wahrscheinlich aber falsch. Es gibt vermutlich einen Übergangsbereich, indem der Proband den Ton nur mit einer gewissen Wahrscheinlichkeit hört. Damit ist dann die Annahme falsch, dass er einen etwas lauteren Ton auf jeden Fall hört.

    Ein schönes Beispiel für einen Trugschluss durch binäres Denken brachte C.F. v. Weizäcker: Erfahrungsgemäß bekommt man in einen vollen Koffer immer noch ein zusätzliches Taschentuch rein, wenn man nur genug quetscht. Dann folgt aber durch vollständige Induktion, dass unendliche viele Taschentücher in den Koffer passen, was ganz offensichtlich falsch ist. Auch hier ist wieder der Fehler die binäre Annahme “Koffer geht zu oder nicht”. Ab einem gewissen Füllstand besteht nur noch eine Wahrscheinlichkeit, dass man den Koffer zu bekommt. Es kann durchaus sein, dass man einen geschlossenen Koffer öffnet, ein Taschentuch entnimmt, und ihn anschließen nicht wieder zu bekommt.

  18. #18 hwied
    28. Oktober 2021

    Jolly,
    sehr gut, jetzt kommt der Humor ins Spiel
    Später mehr! Wer weiß denn sowas kommt gerade.

  19. #19 Fluffy
    28. Oktober 2021

    @bbr #17
    Das ist jetzt aber quantenmechanischer Humbug a la Schrödingers Katze. Der Koffer befindet sich in einem Überlagerungszstand offen geschlossen. Mit so einem Koffer bin ich noch nie in den Urlaub gefahren.
    Außerdem lautete die Ausgangsfrage: Wieviele Taschentücher gehen in einen Koffer?
    Unendlich viele, eins geht immer noch rein.

    Und das ist durch und durch logisch.

  20. #20 Fluffy
    28. Oktober 2021

    @Kai
    Eine sehr gute und verständliche Erklärung der Aufgabe:
    Wie groß ist die Wahrscheinlichkeit, dass ein Student 5 von 8 Fragen richtig rät?

    Aber,wie man sieht, kommen hier weder die Wörter p-Wert noch Signifikanz vor.
    Was bedeutet nun das Ergebnis? Zu 99.73% hat er nicht geraten? Irgendwie auch nicht intuitiv.
    Also stellen wir mal eine fortgeschrittenere Nachfolgefrage: Wieviele der Antworten hat der Student gewusst und wieviele geraten?
    7 gewusst und eine geraten geht übrigens nicht, weil drei Antworten sind ja falsch.

    P. S.
    Und hier die Expertenfrage:
    Wie groß ist die Wahrscheinlichkeit, dass der Student beschissen hat?
    So eine Frage ist von Relevanz beim Einsatz von KI-Systememen zur präventiven Bekämpfung von Kriminalität.

  21. #21 hwied
    28. Oktober 2021

    Kai,
    wann kann man dem Schüler trauen nicht zu raten ?
    Vorüberlegung: Wir legen Grenzen fest.

    Wenn wir Affen die Aufgaben lösen lassen, dann bekommen wir die reinen Wahrscheinlichkeiten.
    ¼ der Lösungen ist immer richtig. Bei einer Aufgabe.
    1/16 der Lösungen ist immer richtig bei zwei Aufgaben.
    1/64 der Lösungen sind immer richtig bei drei Aufgaben
    1/256 der Lösungen sind immer richtig bei 4 Aufgaben.
    Die Wahrscheinlichkeit ,, dass der Affe alle 4 Aufgaben richtig löst beträgt 1/256.
    Bei 5 Aufgaben sind das1/ 1024
    Bei 6 Aufgaben sind das 1/4096
    Bei 7 Aufgaben sind das 1/16384
    Bei 8 Aufgaben sind das 1/65536

    Jetzt das andere Extrem, wir nehmen Autisten. Der probiert nicht. Dessen Wahrscheinlichkeiten ergeben sich aus langjähriger Statistik.
    5% Lösen 1 Aufgaben
    10 % lösen 2 Aufgaben
    15% lösen 3 Aufgaben
    20 % lösen 4 Aufgaben
    20% lösen 5 Aufgaben
    15 % lösen 6 Aufgaben
    10 % lösen 7 Aufgaben
    5 % lösen 8 Aufgaben.

    Der normale Mensch ist eine Mischung aus Affe und Autist. Wir brauchen also nur die Wahrscheinlichkeiten zu addieren.

    8 Aufgaben richtig glöst = 5 % + 1/65536 = 5 %
    7 Aufgaben richtig gelöst = 10 % + 1/16384 = 10 %
    6 Aufgaben richtig gelöst = 15 % + 1/4096 = 15 %
    5 Aufgaben richtig gelöst = 20 % + 1/1024 = 20 %
    4 Aufgaben richtig gelöst = 20 % + 1/256 = 20 %
    3 Aufgaben richtig gelöst = 15 % + 1/64 = 16 %
    2 Aufgaben richtig gelöst = 10 % + 1/16 = 16 %
    1 Aufgabe richtig gelöst = 5% + 25 % = 30 %

    Anmerkung : 0 Aufgaben zu lösen ist schon wieder unwahrscheinlich.

    Offensichtlich wird der Einfluss des Ratens bei 2 richtigen Lösungen.
    Deshalb bleibe ich bei einem p-Wert von 0,25.

  22. #22 Karl Mistelberger
    mistelberger.net
    28. Oktober 2021

    > #21 hwied, 28. Oktober 2021
    > Der normale Mensch ist eine Mischung aus Affe und Autist. Wir brauchen also nur die Wahrscheinlichkeiten zu addieren.

    Nö. Das ist eine abwegige Annahme. Die Realität ist ganz anders:

    https://scienceblogs.de/gesundheits-check/2020/07/10/von-trump-lernen-teil-17-such-dir-einen-suendenbock-wenn-du-wirklich-grossen-mist-gebaut-hast/#comment-98850

  23. #23 BBr
    Niedersachsen
    28. Oktober 2021

    @Fluffy, #19. Was soll das mit Schroedingers Katze zu tun haben, außer das Wahrscheinlichkeiten darin vorkommen? Du weiß nicht, ob Du den Koffer zu bekommst, bevor Du es versucht hast. Aber das ist ein rein klassisches Problem, und Du reist natürlich nur mit einem geschlossenen Koffer. Oder gar nicht, wenn Du den Koffer bei dem Versuch zerstörst.

  24. #24 Fluffy
    28. Oktober 2021

    @Bbr #23
    Was verstehst du unter binär?
    Entweder der Koffer geht zu oder er geht nicht zu.
    Aber vielleicht gefällt dir ja Hilberts Hotel.
    Ein Gast kommt zum Hotel, sagt der Portier zu ihm, tut mir leid, alle Zimmer sind belegt.
    Sagt der Gast, kein Problem, lassen jeden Gast ein Zimmer weiter ziehen, dann ist das erste wieder frei.

    Ein Taschentuch geht immer noch rein.

  25. #25 Fluffy
    28. Oktober 2021

    Ich habe #21 nicht durchgelesen.
    Meine Nullhypothese lautet, dort steht Nonsens.
    Wer kennt den dazu gehörigen p-Wert?

  26. #26 The One
    28. Oktober 2021

    @ Fluffy 25
    Für Sozialwissenschaften ein Klares 0,5 bis 0,6, für viele andere Realwissenschaften mit erheblichen mehr formalen, ähm logischen, Anspruch 0,001 😉

  27. #27 Karl Mistelberger
    mistelberger.net
    28. Oktober 2021

    Der Autor schwurbelt:

    Man macht ein Experiment, ob Studenten, die lauter sprechen oder schreien, bessere Zensuren schreiben. Man hat danach gewisse Meßwerte und fragt, ob diese die Nullhypothese widerlegen. (Die Nullhypothese besagt, dass es den vermuteten Zusammenhang nicht gibt.) Der p-Wert ist bei gegebenen Meßwerten die statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen Werte bekommen würde. Ist der p-Wert sehr niedrig, dann lassen sich die erhaltenen Meßwerte jedenfalls nicht statistisch erklären, sondern müssen einen inhaltlichen Grund haben. Ein niedriger p-Wert spricht also dafür, dass die Nullhypothese falsch ist.

    Wie lautet die Nullhypothese konkret?

  28. #28 hwied
    28. Oktober 2021

    Fluffy #25
    Danke für dein Vertrauen.
    Zur Erinnerung: “Nullhypothese Definition. Die Nullhypothese (i.d.R. mit H 0 sprich “H Null” bezeichnet) bei einem Hypothesentest ist die Hypothese bzw. Behauptung, die man eigentlich widerlegen bzw. verwerfen möchte.”

  29. #29 hwied
    28. Oktober 2021

    Karl Mistelberger
    “Hans Rosling stellte empirisch fest, dass auffallend viele Exemplare von Homo sapiens sapiens bei Multiple Choice Tests schlechter abschnitten als der Durchschnitt von Pan troglodytes verus.”
    Danke schön für diesen Hinweis, da muss ich doch meine Theorie tatsächlich neu überdenken.

  30. #30 Daniel Holland
    München
    28. Oktober 2021

    @Fluffy: Nicht ganz. Ein Taschentuch geht nicht unbedingt immer rein. Bei jedem Schliessvorgang gibt es eine Wahrscheinlichkeit das der Schliessmechanismus beschädigt wird oder der Koffer an irgendeiner Stelle aufbricht oder platzt. Oder das die Person die versucht ihn zu schliessen nicht die Kraft hat genug Druck auszuüben um den Inhalt zu komprimieren. Je voller der Koffer wird, um so höher wird der Druck der auf den Inhalt und Bestandteile des Kofers ausgeübt wird. Es gibt natürlich immer eine kleine Wahrscheinlichkeit das es doch noch passt. Ab einer bestimmten Anzahl Taschentücher, nähert sich aber die Wahrscheinlichkeit den Koffer zu beschädigen oder den Inhalt nicht ausreichend komprimieren zu können gegen 1. Zu sagen 1 weiteres passt immer ist daher kaum zu halten.

  31. #31 Kai
    28. Oktober 2021

    Wenn wir Affen die Aufgaben lösen lassen, dann bekommen wir die reinen Wahrscheinlichkeiten.
    ¼ der Lösungen ist immer richtig. Bei einer Aufgabe.
    1/16 der Lösungen ist immer richtig bei zwei Aufgaben.

    Der erste Teil ihrer Überlegung ist korrekt: Ein p-value entspricht der erwarteten Anzahl an Fällen, in denen ein “Affe” (also ein randomisierter Algorithmus ;)) ein genauso gutes oder besseres Ergebnis liefert wie ein Mensch. Wenn sie also den p-value für “4 richtige Antworten” wissen wollen, können sie einen Affen (oder Computer) eine Milliarden Mal den Test randomisiert ausfüllen lassen und zählen dann einfach nur, wie oft er 4 oder mehr Antworten richtig hat. Das geteilt durch die Anzahl der Versuche ergibt exakt den p-value. Diese Art der Berechnung ist vielleicht intuitiver?

    Der zweite Teil ihrer Überlegung ist aber falsch. Die Wahrscheinlichkeit, bei 8 Aufgaben 2 korrekt zu beantworten ist tatsächlich größer als 1/(4*4). Das können Sie auch ganz leicht selbst nachprüfen: wenn sie alle Möglichkeiten aufsummieren muss ja wieder 100% rauskommen.

    Ansonsten ist natürlich richtig, dass beim Raten mit höchster Wahrscheinlichkeit 2 Lösungen richtig sind. Das heißt im Umkehrschluss aber eben nicht, dass man bei 2 Lösungen mit höchster Wahrscheinlichkeit geraten hat. Und mit dem p-value hat das erst recht nichts zu tun.

    Ihre Intuition die Ergebnisse des Affen und des, öhm, Autisten, aufzuaddieren hat aber durchaus einen wahren Gedanken: Ganz oft sind p-values viel zu optimistisch, weil man einen messbaren Effekt gegen völligen Zufall vergleicht. Klassisches Beispiel ist die Biologie, wenn man wissen will ob zwei genetische Sequenzen (evolutionär) ähnlich sind. Hier bekommt man oft völlig absurde p-values, denn selbst die Gene zwischen Mensch und Weinbergschnecke sind ähnlicher als der Vergleich Mensch gegen Zufallssequenz. Aber das wissen die Biologen, deshalb verwenden sie auch andere Grenzwerte als “p-value <= 0.05 ist akzeptiert".

  32. #32 hwied
    28. Oktober 2021

    # 21 neu
    wir haben einen Affen, der bei 8 Fragen je 4 Möglichkeiten hat. also insgesamt 8 x 4 Möglichkeiten.
    Bei jeder Frage beträgt die Wahrscheinlichkeit, dass sie richtig ist 1 /32.
    Das ergibt 8 mal 1/ 32 oder 1/4
    Die Chance des Affen= 1/4 von 8 Fragen, also 2 Antworten richtig zu haben, nur durch Zufall.

    Beim Menschen , sieht die Verteilung so aus.
    0 richtige Antworten = 5 %
    1 richtige Antworten = 5 %
    2 richtige Antworten = 10 %
    3 richtige Antworten = 10 %
    4 richtige Antworten = 20 %
    5 richtige Antworten = 20 %
    6 richtige Antworten = 15 %
    7 richtige Antworten = 10 %
    8 richtige Antworten = 5 %
    Beim Menschen haben 90 % mindestens 2 Aufgaben gelöst, beim Affen sind es nur 25 %.
    Herr Mistelberger, für eine gute Schulklasse trifft ihre Behauptung nicht zu.
    Für eine Gruppe innerhalb einer Partei könnte es aber sein, dass sie maximal nur 2 Fragen richtig lösen, was auf einen Anteil von 20 % kommt.

  33. #33 hwied
    28. Oktober 2021

    Hallo Kai,
    wie sieht es mit # 32 aus ? Bin ich jetzt näher an der Wirklichkeit.?
    Der p-Wert, der ist mir noch nicht ganz klar .
    Wie bringe ich den bei #32 unter ?

  34. #34 Kai
    29. Oktober 2021

    Ihre Rechnung stimmt einfach nicht. Ich kann auch nicht wirklich sagen, wo da der Fehler liegt, weil sie in meinen Augen auch nirgends Sinn macht. Ich glaube ihr Denkfehler ist weiterhin, dass sie den Mittelwert (jede Aufgabe ist zu 25% richtig, also hab ich bei 8 Aufgaben 2 richtige) irgendwie als Wahrscheinlichkeit interpretieren. Das ist er aber nicht. Der Mittelwert sagt nur aus, wie viele richtige Antworten ihre Affen im Mittel haben, wenn man sie oft genug raten lässt. Der p-value für einen bestimmten Wert X sagt aus, wie oft die Affen beim raten gleich oder besser sind als dieser Wert X. Das hat aber nichts mit dem Mittelwert zu tun. Wenn sie also den p-value für “5 richtige antworten” haben wollen, dann lassen Sie die Affen immer und immer wieder raten und zählen wie oft dabei 5 oder mehr richtige Lösungen rauskommen. Sie können dafür auch ein Computerprogramm schreiben:

    1. Setze Anzahl Erfolge auf 0
    2. Wiederhole 1000 000 Mal:
    2.1 Ziehe 8 Zufallszahlen zwischen 0 und 1
    2.2 Wenn 5 oder mehr Zahlen kleiner gleich 0.25 sind, dann erhöhe Anzahl Erfolge um 1
    3. Ende Wiederholung
    4. Dividiere Anzahl Erfolge durch 1000 000

    Das ergibt den p-value.

    Das Gleiche können sie quasi auch für jedes andere Problem machen. Meist ist es aber unpraktisch, den p-value auf diese aufwendige Art zu berechnen.

  35. #35 Karl Mistelberger
    mistelberger.net
    29. Oktober 2021

    > #32 hwied, 28. Oktober 2021
    > Herr Mistelberger, für eine gute Schulklasse trifft ihre Behauptung nicht zu.

    Ich behaupte nichts. Ich verweise auf https://www.gapminder.org/studies/european-health-misconception-study-2019/

    Gapminder asked nine fact questions to the general public in three countries: Germany, the United Kingdom, and France. We tested their knowledge on HIV infections, obesity in children, measles vaccinations, smoking, child deaths, alcohol consumption, depression, life expectancy, and suicide rates.

    Average score 1.9 of 9 possible. 10% score better than random.

  36. #36 Fluffy
    29. Oktober 2021

    @Daniel Holland #30
    Es gäbe da noch einige Denkmöglichkeiten.
    Zum Beispiel hat niemand gesagt, wie groß der Koffer ist.. Wäre er zum Beispiel unendlich groß, unterteile ich ihn in nummerierte Fächer, packe in jedes ein Taschentuch, und der Koffer ist voll. Soll jetzt noch ein Taschen rein, verschiebe ich jedes Taschentuch ins nächsthöhere Fach und habe dann wieder Platz.

    Es geht aber was auch mit endlichen Koffern. Taschentücher können ja unterschiedlich groß sein.
    Ich packe erst ein Taschentuch der Größe 1/2 rein, dann eins der Größe 1/4, dann 1/8 usw.
    Und noch eins passt immer noch rein.

  37. #37 Fluffy
    29. Oktober 2021

    @Kai #34

    Kann man das Programm auch mit Excel schreiben?

    Glaubst du, dass #32 absichtlich so formuliert wurde, um dich zu veralbern?

  38. #38 hwied
    29. Oktober 2021

    Kai,
    wichtig ist doch bo solchen Aufgaben, dass man die Problematik durchdenkt. Das habe ich gemacht.

    Jetzt mal vereinfacht. Ich rede von einem Affen, in Wirklichkeit sind es unendlich viele-

    1. Frage 1/32 richtig 31/32 falsch
    2. Frage 1/28 richttig 27/28 falsch
    3. Frage 1/24 richtig 23 /24 falsch
    4. Frage 1/20 richtig 19/20 falsch
    5. Frage 1/16 richtig 15/16 falsch
    6. Frage 1/12 richtig 11/12 falsch
    7. Frage 1/8 richtig 7/8 falsch
    8. Frage ¼ richtig ¾ falsch
    Wenn wir jetzt addieren , dann haben wir 8 richtige Möglichkeiten und 136 falsche Möglichkeiten.
    Wir hatten also 136 falsche Möglichkeitne und 8 richtige Möglichkeiten,
    Zusammen = 144 Möglichkeiten.
    Davon 8 richtige = 8/144 = 0,055
    Das müsste die Wahrscheinlichkeit sein, dass der Affe 8 mal richtig antwortet.
    (ohne Gewähr)

  39. #39 Fluffy
    29. Oktober 2021

    @Kai #34
    Kann man das Programm auch mit Excel schreiben?

    Glaubst du, dass #32 absichtlich so formuliert wurde, um dich zu veralbern verarschen?

  40. #40 hwied
    29. Oktober 2021

    Kai zu #13
    Vielen Dank für die ausführliche Rechnung.
    Ich habe dazu noch nicht geantwortet, weil sie auf die Schnelle dicht zu durchschauen ist. Wenn ich sie verstanden hätte, dann hätte ich auch schon gewusst , was ein p-Wert ist. Das hängt ja miteinander zusammen.
    Ich verstehe, das so. Der p-Wert stellt die Grenze dar, wo die Zufälligkeit aufhört und der kausale Zusammenhang bestimmend wird.
    Jetzt zu der Aufgabe mit der Lautstärke und der Intelligenz.
    Dazu braucht es ja eine gewisse Anzahl von Probanden. ich schätze mal mindestens 10, wenn man eine Aussage machen will.
    Und wenn es einen Zusammenhang gibt, dann müsste der ein Quotient sein aus Intellienz/Lautstärke oder umgekehrt Lautstärke /Intelligenz. Ist dieser Quotient dann der p-Wert ?

  41. #41 Jolly
    29. Oktober 2021

    @hwied

    ein Quotient [.] aus Intellienz/Lautstärke oder umgekehrt Lautstärke /Intelligenz. Ist dieser Quotient dann der p-Wert ?

    Das eine ist der Intelligenzquotient (IQ). Hoffe, das hilft.

  42. #42 Dr. Webbaer
    29. Oktober 2021

    Es kann vielleicht i.p. Erzeugung sog. Evidenz beispielhaft so verbildlicht werden :

    Es wird “nullhypothetisch” angenommen, dass ein geworfener sechsseitiger Würfel gleichverteilt alle seiner Seiten trifft, sozusagen ideal ist.

    Dann kommt (beispielsweise) in etwa so heraus, eine möglichst große Datenbasis meinend :

    -> https://dilbert.com/strip/2001-10-25 (dann wohl einen neunseitigen Würfel meinend, lol)

    So dass die vergleichsweise angelegte mathematische, statistische Wahrscheinlichkeit einen sehr kleinen Wert zeigt für derartige Ergebnisfolge, so dass dann die Komplementärhypothese (“Würfel nicht ideal!”) als sehr vermutlich zutreffend (nicht aber als wahr!) angenommen werden kann.


    Bonuskommentar,
    Dies hier :

    Es soll einen Fall gegeben haben, da hat ein Schüler von 20 Fragen bei keiner einzigen die richtige Lösung angekreuzt. Der Lehrer hat die Arbeit mit Note 4, also ausreichend, bewertet.

    Er hat das damit begründet, wenn der Schüler geraten hätte, dann hätte er sehr wahrscheinlich einen Treffer gelandet (im Schnitt sogar mehr). Der Schüler hat also nicht geraten, er muss was gewusst haben. [Kommentatorenfreund “Jolly | Joker”]

    … war grundsätzlich korrekt eingeschätzt, auch wenn die Größe der Datenprobe (20) “nicht ganz passte”, ist es so grundsätzlich möglich auch “Wissen” nachzuweisen, dann verweigertes, wenn eine Person bei derartigen Tests statistisch zu oft falsch liegt.


    In Spielen wird insofern – der Spieltheorie folgend – schlechtmöglichstes Spiel nicht etwa an
    fortlaufend sehr schlechten Spielentscheidungen (denn dafür müsste ein Spieler eben doch gut sein, um so entscheiden, also finden zu können) festgemacht, sondern an rein zufällig (erscheinenden) Spielzügen.

    Mit freundlichen Grüßen
    Dr. W

  43. #43 Dr. Webbaer
    29. Oktober 2021

    Die hier gemeinte “Nullhypothese” besagt, dass es einen Zusammenhang zwischen X und Y sozusagen gibt, der dann die Natur meinend (!) experimentell getestet wird, wobei den in der sog. Nullhypothese genannten Bedingungen folgend es (manchmal) immer unwahrscheinlicher wird, dass den hypothetisch genannten Bedingungen folgend so experimentell (in großer Zahl) erzeugte, festgestellte Ergebniswerte entstehen konnten :

    im falsifikationistischen Sinne.

    So dass dann sozusagen gesprungen werden darf und die sogenannte Nullhypothese abgelehnt.


    ‘Verifizieren’ geht (heutzutage) leider gar nicht (mehr), die Europäische Aufklärung und der ihr folgende Skeptizismus haben also auch naturwissenschaftlich sozusagen gewonnen.

    Mit freundlichen Grüßen
    Dr. Webbaer (der’s mal so auf die Schnelle und auf Allgemeinverständlichkeit bedacht so geschrieben hat, gerne auch korrigiert werden darf)

  44. #44 Dr. Webbaer
    29. Oktober 2021

    PS :
    ‘Die Nullhypothese besagt, dass es den vermuteten Zusammenhang nicht gibt.’ [Artikeltext, Thilo] – negativ also.

    Dr. W geht gerne noch kurz auf das sogenannte Comic ein :
    -> https://i1.wp.com/scienceblogs.de/mathlog/files/2021/10/77A8415B-452F-467A-AC88-BB5C39F67242.png


    Aha, hier lag also sozusagen Nihilismus vor, no problemo hier,
    sicherlich war da irgendetwas sarkastisch lustig gemeint, Dr. W schmunzelt hier ein wenig mit, sicherlich ist das hier skizzierte, insbesondere auch von : Dr. Webbaer, falsifikationistische Vorhaben sozusagen ein heißes Eisen,
    manchen fremd.

    Mit freundlichen Grüßen
    Dr. Webbaer

  45. #45 Dr. Webbaer
    30. Oktober 2021

    Dies hier ordnet Dr. Webbaer wie folgt ein :

    Der p-Wert ist bei gegebenen Meßwerten die statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen Werte bekommen würde. [Thilo]

    Der p-Wert ist die mit einem bestimmten Testverfahren gewonnene statistische Wahrscheinlichkeit, dass man bei zutreffender Nullhypothese die gemessenen oder extremere Werte bekommen würde. [Ein Anderer]

    (A), das Erstzitierte, kann sozusagen richtig sein : Testverfahren legt eine Hypothesenbildung nicht an.

    Es ist streng genommen auch so, dass es im Hypothesen-Testing darum geht Unwahrscheinlichkeit [1[ in ihrer Möglichkeit erst zu schaffen, eine Hypothese schert sich nicht darum, idealerweise, wenn sie nicht so antizipiert, was sie also nicht tun muss bis sollte.

    MFG
    WB

    [1]
    Der Begriff der Wahrscheinlichkeit ist a bisserl irreführend, weltlich scheint zwar aus bestimmten Versuchsergebnisse Wahrheit durchzudringen und Anteiliges derart, doch ist es so, dass naturwissenschaftlicher Versuch darauf konzentriert ist nicht empirisch Adäquates nachzuweisen und )(noch) empirisch Adäquates zu berwerben zu sichen, Dr. W ist hier nah bei Bas van Fraassen.
    Versus Wahrheit.

  46. #46 Dr. Webbaer
    30. Oktober 2021

    *
    Hypothesenbildung legt ein Testverfahren nicht an […]

    (Opi W wird womöglich ein wenig ungeduldig und müde.)

    Ansonsten müsste alles stimmen, Dr. W schaltet sich nun einstweilen aus.

  47. #47 Dr. Webbaer
    30. Oktober 2021

    *
    ein [bestimmtes] Testverfahren

  48. #48 hwied
    30. Oktober 2021

    Jolly,
    Deine Antwort fällt in die Kategorie : Eine dumme Frage ergibt stets eine dumme Antwort.
    Dabei war meine Frage nicht dumm gemeint, sondern provokativ, um eine Antwort zu bekommen.
    Natürlich ist der Quotient nicht p.
    Aber er ist die Voraussetzung für eine Normalverteilung, die dann wiederum mit p aufgemimpt werden kann.
    Übrigens, wie hoch ist die Wahrscheinlichkeit, dass du konstruktiv wirst, und wie hoch ist dein p ?

  49. #49 Dr. Webbaer
    30. Oktober 2021

    Jungs wie bspw. Thilo, Kommentatorenfreund “Jolly / Joker”, auch “Dr. Huhn” leiden halt an einem unzureichende Horizont und derartige Folge meinend.

    Das falsifikanionistische Verfahren ist eigentlich ganz einfach :

    Es gilt empirisch, empiristisch sozusagen herauszuarbeiten, was nicht ist.

    Mit freundlichen Grüßen
    Dr, Webbaer

  50. #50 Joseph Kuhn
    30. Oktober 2021

    @ Webbär:

    Ihre Kommentare beweisen die Abstammung des Menschen vom Affen. In Ihrem Fall durch anhaltende mentale Nähe.

  51. #51 hwied
    30. Oktober 2021

    Anmerkungen zum Verifizieren und Falsizifieren.
    Im tatsächlichen Leben , im Gegensatz zur Naturwissenschaft wird bei zwischenmenschlichen Beziehungen nur verifiziert. Die Frau zeigt sich von ihrer Schokoladenseite und der Mann beweist seine Potenz monetär. und biologisch. Wenn falsifiziert wird, dann ist es schon zu spät, dann kommt es zur Scheidung.
    J.Kuhn
    mentale Nähe ist immer vorzuziehen, fast unverzichtbar.
    Dr. W.
    “‘Verifizieren’ geht (heutzutage) leider gar nicht (mehr), die Europäische Aufklärung und der ihr folgende Skeptizismus haben also auch naturwissenschaftlich sozusagen gewonnen.”

    Bleiben Sie optimistisch, der gute Glaube an etwas ist wichtiger als ein guter Skeptizismus.

  52. #52 Jolly
    30. Oktober 2021

    @Dr. Webbaer

    Es gilt empirisch, empiristisch sozusagen herauszuarbeiten, was nicht ist.

    Ist das wirklich so, ist das verifiziert?

  53. #53 hwied
    30. Oktober 2021

    Jolly,
    jetzt sind wir wieder bei dem alten philosophischen Problem: Kann man über etwas sprechen, was es nicht gibt.
    Ich denke mal ja, unsere Sprache erlaubt das. Es gibt sogar Personen, sehr bekannt , die es nie gab, Jack Doe z.B. oder den Herr Mustermann.
    Aber jetzt zumThema, den Intelligenzquotienten.
    Das ist ja ein Wert, der sich an einem Durchschnittswert orientiert. Ich glaube die Norm liegt bei 100.
    Unter 70 wird es kritisch für die betroffene Person.
    Mich würde interessieren, wie man den p-Wert für den IQ definieren würde und wozu man ihn braucht.

  54. #54 hwied
    30. Oktober 2021

    Dr. webbaer, #49
    Was es nicht gibt, das nennt man im Englischen fiction.
    In der Literatur ist das eine eigene Gattung.
    Wollen Sie ernsthaft behaupten, Ideen, Phantasien, Ethik gibt es nicht. ?
    Die Menschen führen Kriege wegen verschiedener Ideologien.
    Das wäre ja Steinzeitmaterialismus.

  55. #55 Jolly
    30. Oktober 2021

    @hwied

    Was es nicht gibt, das nennt man im Englischen fiction.

    Ja fiction gibt es. Es gibt also etwas, was es nicht gibt. Alles Weitere kann man daraus logisch ableiten.

  56. #56 hwied
    30. Oktober 2021

    Jolly.
    es hat einen Grund , dass man zwischen Naturwissenschaft und Geisteswissenschaft unterscheidet.
    die Naturwissenshaft beschäftigt sich mit dem Materiellen, dem was es physikalisch betrachtet gibt.
    die Geisteswissenschaft beschäftigt sich mit dem Geist, dem “Gedachten”. Ob es das gibt, das spaltet die Gesellschaft.
    Im Hintergrund steht St. Popper mit der Behauptung, nur die Falsifikation ist akzeptabel.

    und jetzt die Gretchenfrage an dich : Gibt es den p-Wert ? Gibt es die Mathematik ? Und wenn es sie gibt, in welchem eingeengten Spielraum ?
    Gerade habe ich über die Poincaré -Vermutung gelesen mit der Quintessenz, der Raum hat keine Oberfläche.
    Und um es auf die Spitze zu treiben, das bedeutet, die Oberfläche ist nur gedacht. Also sie gibt es nicht wirklich.

  57. #57 hwied
    30. Oktober 2021

    Nachtrag: mit diesem Satz reihst du dich in die Reihe der Paradoxen ein : “Es gibt also etwas, was es nicht gibt”.
    Damit lasse ich es jetzt bewenden.

  58. #58 Dr. Webbaer
    30. Oktober 2021

    Es ist halt so, dass bei der naturwissenschaftlichen Verifikation (recht spät, wie einige finden) erkannt worden ist, dass erkennende Subjekte “nur” etwas meinen, Theorien (“Sichten”) bilden, die immer falsch (besser : empirisch inadäquat) sein können, dieses Vorhaben sozusagen ins Leere geht.

    Und dann die szientifische Methode eben “trocken” angepasst worden ist und in der Folge die empirische Inadäquatheit (von Theorie) gesucht wird, dem Falsifikationismus folgend.

    Wenn mit Hilfe der Wahrscheinlichkeitstheorie sogenannte Nullhypothesen sozusagen gejagt werden, dann um sie empirisch, mit (u.a. experimentell generierten) Daten anzugreifen und falls es dann sehr unwahrscheinlich erscheint, dass Daten und Hypothese zusammenpassen, bei einem geeignetem Signifikanzniveau, das gerne auch deutlich kleiner als 5 % sein darf (nur in den Sozialwissenschaften wird gerne mit den bekannten 5 % gearbeitet), wird die komplementäre Hypothese dann als wahrscheinlich zutreffend erkannt bzw. es wird so gesetzt.

    Eigentlich recht pfiffig (wie alternativlos), oder?

    Mit freundlichen Grüßen
    Dr. Webbaer (der auch die Nachricht von “Dr. Huhn” bemerkt hat, sie scheint recht nett zu sein – derartige Gegenrede “Es gilt empirisch, empiristisch sozusagen herauszuarbeiten, was nicht ist. [Dr. Webbaer]” + “Ist das wirklich so, ist das verifiziert? [Kommentatorenfreund “Jolly | Joker]” scheint Dr. Webbaer dagegen unpassend, sie war abär wohl nicht ernst gemeint, also : no problemo hier, eine methodologische Setzung liegt vor, die selbst nicht wie gemeint bearbeitet werden kann)

  59. #59 Dr. Webbaer
    30. Oktober 2021

    @ Kommentatorenfreund ‘hwied’ und hierzu kurz :

    [D]ie Naturwissenshaft beschäftigt sich mit dem Materiellen, dem was es physikalisch betrachtet gibt.
    [D]ie Geisteswissenschaft beschäftigt sich mit dem Geist, dem “Gedachten”. Ob es das gibt, das spaltet die Gesellschaft.
    Im Hintergrund steht St. [Karl? – Frage : Dr. Webbaer] Popper mit der Behauptung, nur die Falsifikation ist akzeptabel. [Ihre Nachricht]

    Die Naturwissenschaft beschäftigt sich wie beschrieben mit der Naturwelt, die Geisteswissenschaft mit der Geisteswelt, beide Welten sind (anzunehmenderweise oder hoffentlich) sinnhaft gebildet.
    Sir Popper bezog sich mit seinem Falsifikationismus auf die Naturwelt und deren Beforschung.
    Er liegt wohl richtig, es wird ihm sozusagen ja auch naturwissenschaftlich gefolgt, die Wahrscheinlichkeitstheorie ist so naturwissenschaftlich sehr wichtig geworden.

    Mit freundlichen Grüßen
    Dr. Webbaer

  60. #60 Dr. Webbaer
    30. Oktober 2021

    Bonuskommentar @ Kommentatorenfreund ‘hwied’ zu :

    Wollen Sie ernsthaft behaupten, Ideen, Phantasien, Ethik gibt es nicht. ?
    […]
    Gibt es den p-Wert ? Gibt es die Mathematik ? Und wenn es sie gibt, in welchem eingeengten Spielraum ? [Ihre Fragen]

    In der Naturwelt gibt es wie gemeint nicht, in der Geisteswelt liegen, wie nicht wenige meinen, aber nicht alle, sinnhaft gebildete Konstrukte vor, die es dann auch in der Geisteswelt dann sozusagen gibt.

    Die Trennung der Schichten ist wichtig, die der beiden Welten, die sogenannte Drei-Welten-Lehre wird hier abgelehnt, Sir Popper hatte es auch damit, sie scheint nicht notwendig und auch nicht sonderlich interessant zu sein, einigen zumindest.
    Philosophisch erlaubt ist es die Existenz von sozusagen n Welten zu fordern.

  61. #61 Dr. Webbaer
    31. Oktober 2021

    Bonuskommentar zum primären Inhalt, danke Thilo :

    Man macht ein Experiment, ob Studenten, die lauter sprechen oder schreien, bessere Zensuren schreiben.
    […]
    Obwohl man immer noch dieselben Meßwerte hat, wird der p-Wert durch die Wiederholung geringer, die Nullhypothese also scheinbar widerlegt. [Artikeltext]

    Also der Gag, lol, ist u.a. auch von “rank zero” und “Fluffy” erkannt worden, Dr. W schreibt abär doch gerne noch mal aus, dass Datenbasen nicht dadurch größer werden, dass einzelne (gleiche) Datensätze mehrfach in sie einfließen.

    Allerdings bleibt a bisserl unklar, ob erneuter Versuch das Gleiche meint, wie bereits erfolgter.

    In den Naturwissenschaften (auch in der Wirtschaft übrigens) ist es schon so, abweichend von dieser (wohl fälschlich) Albert Einstein zugeschriebenen (und dann nicht sonderlich “hellen”) Aussage ‘Die Definition von Wahnsinn ist, immer wieder das Gleiche zu tun und andere Ergebnisse zu erwarten.’, dass Versuch, unter (möglichst) gleichen Versuchsbedingungen oft wiederholt wird, vgl. auch hiermit :

    -> https://de.wikipedia.org/wiki/Six_Sigma

    … um anderes Ergebnis zu erwarten.

    Mit freundlichen Grüßen
    Dr. Webbaer (der eigentlich gar nicht so-o dull ist, wie er manchmal, nicht selten also, tut)

  62. #62 Dr. Webbaer
    31. Oktober 2021

    Gerne im dankenswerterweise bereit gestellten Primärtext korrigieren, Thilo, danke :

    Eine Nullhypothese besagt, ‘dass es einen Zusammenhang zwischen X und Y gibt’ [Selbstzitat, Quelle : dieses Kommentariat], versus ‘Die Nullhypothese besagt, dass es den vermuteten Zusammenhang nicht gibt.’ [Artikeltext], es ist nicht möglich wie vorgeschlagen wenig Spezifiertes, Unspezifiertes sozusagen, einem Hypothesentest zu unterwerfen.

    Die Nullhypothese, die das dankenswerterweise bereit gestellte Cartoon offensichtlich meint, ist ein Zusammenhang zwischen Examensnoten von Probanden und tonal möglicher, höchstmöglicher sozusagen Äußerung (“Schreien”) derselben Probanden.

    Wobei derart i.p. Versuchsdesign noch ein wenig ausgebaut werden könnte, korrekt, auch i.p. Hypothesen-Testbarkeit.

    Wie gemeinte sogenannte Nullhypothesen besagen also nie, dass es etwas nicht gibt.

    Sicherlich konnte Dr. Webbaer in diesem Kommentariat ein wenig festlaufen. [1]

    Mit freundlichen Grüßen
    Dr. Webbaer (der nochmals, im Abgang nun begriffen, dem werten hiesigen Inhaltegeber, auch u.a. “Dr. Huhn” für “Zaunpfähle” dankt)

    [1]
    Sinnspruch :
    Bist Du auf Dullness gelaufen, versuche noch duller zu werden! (Um so inhaltlich vielleicht noch bestmöglich etwas herauszuquetschen, abär auch im sozusagen nackten kompetitiven Sinne, um sozusagen noch duller zu werden, als es andere bereits sind)

  63. #63 hwied
    31. Oktober 2021

    Kommentatorfreund Dr. W.
    Die Drei-Welten-Lehre ist selbsterklärend und wenn man sie als Arbeitshypothese benutzt auch sinnvoll.
    Ob die Welt tatsächlich so strukturiert ist, das bleibt zweitrangig. Nachtrag: Mit St. Popper (kleiner Spaß) war natürlich Karl Popper gemeint. Und wenn der auch die Drei-Welten-Lehre unterstützt hat, dann zeigt es , wie pragmatisch Popper war.

    Was jetzt den Versuch mit der Stimmkraft angeht, das Ergebnis ist logisch. Eine starke Lunge belüftet (durchblutet) auch gut das Hirn.
    Andererseits gilt die Erkenntnis, dass die Körperkraft im umgekehrten Verhältnis zur Intelligenz steht. Nicht , weil der Starke dümmer wäre, sondern weil er weniger auf sein Denkvermögen vertrauen muss. Er löst seine Probleme mit dem Bizeps.

  64. #64 Dr. Webbaer
    31. Oktober 2021

    Mal ganz unter uns verraten, Kommentatorenfreund ‘hwied’, Dr. W hat sich viele Jahre nicht besonders für die Philosophie interessiert, er will an dieser Stelle nicht auf die von Ihnen nicht selten gesetzten Tiefpunkte eingehen, aber “Sir Popper” (“Saint Popper” – denkbarerweise Ihre beigebrachte Abbreviation übersetzend), Karl Popper ginge ebenfalls, hat viele Gags mit Scharlatanen der Philosophie beigebracht, auch u.a. Heidegger meinend, Popper leistete wissenschaftsheoretisch, erkenntnistheoretisch und auch moralphilosophisch, Dr. W will an dieser Stelle nicht breit erklären.
    MFG
    WB

  65. #65 Dr. Webbaer
    31. Oktober 2021

    Dr. W mag auch bspw, Arendt oder Butler oder Soros nicht, es geht hier nicht um Herkunft und Dr. W mag zwar Juden (ohne benevolent x-istisch zu werden), hat viele kennengelernt, ist abär keiner.
    Dies nur als sozusagen Disclaimer, heutzutage, wenn im Sinne von sog. Identitätspolitik geforscht und, lol, gefolgt wird, will Dr. W mit derartiger Angabe nicht sparsam bleiben.
    MFG
    WB (der sich abär nun wirklich ausklinken wird, danke, es war schön)

  66. #66 trichter
    31. Oktober 2021

    Sorry, wenn ich mich da täusche, aber wenn ich 3 Subjekte 100 mal sample, sind die Messwerte dann überhaupt unabhängig?
    Müsste man da nicht noch den Zufallseffekt (Student über viele Messungen) mitmodellieren?
    Also nicht grade~loudness, sondern grade~loudness + (1|student).
    Und dann ist das auch mit der p-wert berechnung anders.
    Was anderes wären 300 Subjekte je einmal gesampled. Aber so macht der Cartoon irgendwie keinen Sinn.

  67. #67 hwied
    31. Oktober 2021

    trichter
    früher hat man gesagt, erst ab 2000 Probanden wird die Statistik aussagekräftig.
    Und die Gerade, die den Quotienten von Intelligenz zur Lautstärke darstellt, die gibt es sicher auch nicht.
    Und p mit 0,037 wie ist der begründet ?

  68. #68 trichter
    1. November 2021

    Ich verstehe den Cartoon anscheinend nicht so richtig.
    Man hat also einen Datensatz mit so wenig Wertepaaren, daß der vermutete Zusammenhang nicht bestätigt werden kann, da bei so wenigen Freiheitsgraden der Zusammenhang schon sehr linear sein muss, um signifikant zu werden.

    Also Massname erhöht man die Anzahl an X-Werten, ordnet diesen aber immer den gleichen Y-Wert zu? Das impliziert die Streuung der X-Werte bei konstantem Y (Panel 3).
    Das würde halt niemand so machen – man müsste die Studenten nach jedem Schlachtruf die Klausur noch mal schreiben lassen – das macht aber keinen Sinn, weil diese die Klausur dann schon kennen, die Y-Werte also nicht mehr unabhängig sind, sondern mit sich selbst korrelieren. Das kann man dann aber nicht ohne weiteres modellieren.

    Aber selbst wenn es so gemacht werden würde, wie beschrieben, vergessen die Modellierer, daß die Studenten selbst ungemessene Variabilität aufweisen. Vielleicht kann nicht jeder Studierende gleich laut schreien, was man messen müsste, um dann zu einer “relativer Lautstärke” zu kommen.
    Wenn man das nicht will/kann, muss man den Studierenden einen Zufallsfaktor zuordnen. Diese Modelle sind dann aber auch entsprechend zu formulieren. Man spricht dabei von gemischten Modellen (engl. mixed models) bei wiederholten Messungen am gleichen Subjekt (engl. “repeated measures”).
    Dabei werden die P Werte aber anders berechnet.

    Wer R hat, kann sich folgenden Code mal anschauen:

    options(scipen = 999)

    outcome <- c(1.0, 1.1, 1.5, 2.0, 2.5) # die ergebnisse
    pred <- c(112,84,98, 90, 68) #die Lautstärken

    plot(pred, outcome) #vermuteter linearer zusammenhang
    summary(lm(outcome~pred)) # leider nicht signifikant

    outcome <- rep(outcome, 3) # wir lassen jeden Studierenden drei mal schreien
    pred <- c(pred, pred+1, pred-1) # hier die sich leicht ändernden dezibelwerte

    plot(pred, outcome)
    summary(lm(outcome~pred)) ##voila: signifikant!

    subj <- as.factor(rep(LETTERS[1:5],3)) # jetzt werden studierende als Zufallsfaktor interpretiert
    df <- data.frame(pred, outcome, subj) #

    if (!require("nlme")) install.packages("nlme")
    library("nlme")

    summary(lme(outcome~pred, random = ~ 1|subj, data=df )) ###siehe da, der p-wert ist nun nicht mehr <0.05

    Ich bin kein ausgebildeter Statistiker, kann sein, daß ich komplett daneben liege, glaube das aber ehrlich gesagt nicht. Bei wiederholten Messungen am gleichen Objekt modelliert man die ungemessene Variabilität mit; das müsste eigentlich Standard sein. Man würde niemals so vorgehen wie im Cartoon.
    Mich wundert aber, daß das noch niemand angesprochen hat.

  69. #69 Dr. W
    2. November 2021

    Sorry, wenn ich mich da täusche, aber wenn ich 3 Subjekte 100 mal sample, sind die Messwerte dann überhaupt unabhängig?

    Vielleicht nicht, irgendwo hier war wohl der denkmöglicherweise (im Cartoon angestrebte) Gag, mit dem nicht sonderlich warm gefunden werden muss, wie einige finden oder fanden.

  70. #70 Dr. Webbaer
    2. November 2021

    PS:
    Redundante Erfassung hier das Fachwort, es ist möglich – Doppelerfassung und so, Dr. W, der sich hier bestmöglich indolent mit kommentarischer Nachricht beworben hat, dankenswerterweise von Thilo, den der Schreiber dieser Zeilen sehr ernst nimmt und schätzt, manchmal wirft Thilo auch sozusagen einen strafenden Blick auf ihn, Dr. W hat sich in seinem Zettelkasten so notiert, dass sich eine Sachlage, die ein sog. Faktum (hier steckt auch das ‘facere’ drinnen) oder Tatsache (hier steckt das Erfassen von Tat auf Sache drinnen, ‘Faktum’ und ‘Tatsache’ sind bedeutungsgleich, nur anderssprachig, wissen viele nicht), beizeiten wie beschrieben ergeben kann …

    … wobei Dr. W vom Fach ist.

    MFG
    WB

  71. #71 hwied
    3. November 2021

    Dr. W.
    Ihre Kommentare sind nützlich, weil sie auf sprachliche Feinheiten hinauslaufen.
    Aber, noch feiner, was als fact angesehen wird muss nicht zwangsäufig wahr sein. Und das Erfassen von “Tatsachen” ist nicht gleichzusetzen mit den Tatsachen selbst.
    darum geht es ja in dem cartoon oben. “We need more data”
    Das ist ja auch das Drama im Journalismus, wenn etwas mindestens 5 mal wiederholt wird, dann wird es von der Öffentlichkeit für wahr gehalten.
    Und wie es die Ironie so will, wir haben hier im blog genau 15 Mitkommentatoren. die reichen nicht aus um eine Meinung zu verifizieren. (kleiner Spaß)

  72. #72 Dr. Webbaer
    4. November 2021

    Fakten werden gemacht, Tatsachen werden getätigt, die Sprache ist hier überraschend klar, es darf ihr sozusagen zugehört werden.
    Datenerfassung ist insofern ein Riesenthema in der IT, es kann auch alternative Fakten geben, bspw. bei Gericht sehr unterschiedliche Zeugenaussagen oder im Unternehmen andere Daten in unterschiedlichen Abteilungen, die das selbe meinen (müssten), sich leider leider unterscheiden, wenn bspw. die Vertragsverwaltung (etwas) andere Daten hat als die Buchhaltung, was vorkommt.
    In etwa so wie (außerhalb der “Tautologie”, die Formalwissenschaften sind gemeint) Theorien ausschnittsartig (jede physikalische Theorie hat einen Geltungsbereich), näherungsweise und an Interessen (!) gebunden erfolgen, das erkennende Subjekt hat Interessen, ist es mit der Datenerfassung, die ebenso ausschnittsartig, näherungsweise und an Interessen (!) gebunden erfolgt.
    (Irgendeine US-amerikanische Politikerin hat mal vor einigen Jahren von “alternativen Daten” geredet, da war in der Presse was los – “Wie kann das sein und warum überhaupt und wie doof ist die denn?” – lol, derartige Einschätzung bleibt abär möglich. – Über Fakten kann natürlich schlecht gestritten werden, es geht abär.)

    Mit freundlichen Grüßen
    Dr. Webbaer

  73. #73 Frank Wappler
    4. November 2021

    Dr. Webbaer schrieb (4. November 2021):
    > Fakten werden gemacht […]

    Sofern durch den zeitgenössischen Sprachgebrauch hinsichtlich damit verbundener Tätigkeiten brauchbare Assoziationen nahegelegt sind, lässt sich daraufhin unterscheiden

    (1): woraus Fakten gemacht werden (bzw.: wie etwas genannt wird, woraus ggf. ein Faktum gemacht werden könnte);

    und

    (2): womit (aus dafür Geeignetem) Fakten gemacht werden (bzw.: wie die Werkzeuge oder Mittel konkret genannt werden, die zum Machen von Fakten zu benutzen sind).

    > […] jede physikalische Theorie hat einen Geltungsbereich […]

    Jede konkrete Festsetzung, dass “daraus damit” Fakten zu machen sind, schließt alle konkreten Feststellungen ein

    – “woraus damit keine” Fakten zu machen sind, und

    – “womit daraus keine” Fakten zu machen sind.

    p.s.
    Sofern die Beschäftigung mit diesen (und weiterführenden, oder vorausgehenden) Themen und Fragen als “Wissenschaft” gelten kann (pace hartgesottenen Falsifikationisten) — handelt es sich dabei um eine “Formalwissenschaft” ?

  74. #74 Dr. Webbaer
    6. November 2021

    Naturwissenschaftliche Fakten werden vom erkennenden Subjekt sozusagen in Zusammenarbeit mit der Natur in sogenannten Messungen gemacht oder getätigt, dies ist gut, die szientifische Methode funktioniert, sie erlaubt letztlich als ihre Krönung sozusagen Anwendungen, was als Qualitätsbeweis genügen muss, auch als Vertrauensbeweis [1], wobei allerdings am Ausschnitssartigen, Näherungsweisen und am an Interessen Gebundenen bei derartigen Maßnahmen nicht vorbei gekommen werden kann.

    Das erkennende Subjekt darf Instrumente oder nackt sozusagen seine Sinnesorgane für den gemeinten Zweck einsetzen.

    Der Rest Ihrer Nachricht, Herr Dr. Frank Wappler, war für Dr. Webbaer zu hoch, Old Webbie bleibt ja gerne auch möglichst sparsam, in der Sache, von seiner Geschwätzigkeit, die idR primär Unterhaltungszwecken dient, einmal abgesehen.

    Im konstruktivistischen Sinne ist die (skeptizistische) szientifische Methode,aus diesseitiger Sicht sozusagen extra einleuchtend, sie hat ja auch sozusagen gewonnen.

    Mit freundlichen Grüßen
    Dr. Webbaer

    [1]
    Metaphysisch wird insofern von einer nicht “magischen” Naturwelt ausgegangen, so die “Rolle des Beobachters” sparsam bleibt, was falsch sein könnte.

  75. #75 Dr. Webbaer
    6. November 2021

    Bonuskommentar hierzu, Dr.. W ist gerade gut gelaunt :

    […] jede physikalische Theorie hat einen Geltungsbereich […]
    [Dr. Webbaer, sein Zitat]

    Jede konkrete Festsetzung, dass “daraus damit” Fakten zu machen sind, schließt alle konkreten Feststellungen ein

    – “woraus damit keine” Fakten zu machen sind, und

    – “womit daraus keine” Fakten zu machen sind. [Ihre Nachricht]


    Es gilt den Veranstaltungscharakter” [1] i.p. Suche nach Erkenntnis anzunehmen.

    Sicherlich liegt derart eine (nicht von allen gesuchte Verabredung vor, Sie selbst sind ja Autist, Dr, W ist in der Lage sich so auseinander zu setzen), er ist besser, nuhhn, vergleichsweise nur.
    Teilweise.

    Sie sind da schon genau gut dran, aus diesseitiger Sicht.

    Was möglich ist und sein könnte, ist eine Veranstaltung für Sie (anderen) Seins.
    Stellen Sie sich hier eine wie auch immer gemeinte Zwiebelförmigkeit von Welt vor.

    Mit freundlichen Grüßen
    Dr. Webbaer

    [1]
    Dr W würde so Alle eigentlich so diskontieren wollen, abgesehen von Ausnahmen.
    (Denkbarerweise sozusagen autistisch.)

  76. #76 Dr. Webbaer
    6. November 2021

    Es gibt hier sog. Reziprozität,
    vgl .mit :

    Ihre Kommentare sind nützlich, weil sie auf sprachliche Feinheiten hinauslaufen.
    Aber, noch feiner, was als fact angesehen wird muss nicht zwangs[l]äufig wahr sein. Und das Erfassen von “Tatsachen” ist nicht gleichzusetzen mit den Tatsachen selbst [Kommmenatorenfreund ‘hwied”]

    Mit freundlichen Grüßen
    Dr. Webbbaer