Die Annahme der Chi-Quadrat-Verteilung für X2 gilt nur dann als realistisch, wenn alle erwarteten Häufigkeiten mindestens 5 betragen. In seiner 1924 erschienenen Arbeit „On a distribution yielding the error functions of several well known statistics“ stellte Fisher neben Pearsons Chi-Quadrat-Test und Gossets t-Test einen neuen Signifikanztest vor, der anders als die anderen Tests auch bei sehr niedrigen Fallzahlen funktionieren sollte. Um den Zusammenhang zweier Eigenschaften zu testen, verglich er die beobachteten Anzahlen a,b,c,d für die vier möglichen Kombinationen der zwei Eigenschaften mit denen, die man bei Unabhängigkeit der beiden Eigenschaften zu vorgegebenen Werten von a+b,c+d,a+c,b+d bekommen müßte.
Im Falle der Unabhängigkeit der beiden Eigenschaften bewies er, dass man dann eine hypergeometrische Verteilung bekommen müsse, also z.B. P(H_a=a) = \frac{ {M_{hyp} \choose a}  {N_{hyp} - M_{hyp} \choose n_{hyp} - a} }{ {N_{hyp} \choose n_{hyp}} } = \frac{ {a+c \choose a} {b+d \choose b} }{ {n \choose a+b } }.
Um einen Zusammenhang der beiden Eigenschaften zu beweisen, sollte die Abweichung der beobachteten Häufigkeiten von der hypergeometrischen Verteilung ein gewisses Signifikanzniveau überschreiten. Er postulierte (durchaus umstritten) ein Signifikanzniveau von 5%, oberhalb dessen ein signifikanter Zusammenhang der beiden Eigenschaften anzunehmen sei. Auf diese Zahl kam er, weil eine signifikante Abweichung seiner Meinung nach doppelt so groß sein sollte wie die Standardabweichung, was er auf die Normalverteilung anwandte.
Der Test kann auf mehr als zwei Eigenschaften erweitert werden. Obwohl er für alle Testgrößen funktioniert, wird er in der Praxis vor allem bei kleinen Größen angewandt. Neben dem t-Test und dem Chi-Quadrat-Test ist er einer der meistverwendeten Tests geblieben. Kritik an statistischen Tests gibt es aber immer wieder, weil von ihnen auch durchaus existierende Zusammenhänge als statistisch nicht signifikant verworfen werden können.

Bild: https://commons.wikimedia.org/wiki/File:Youngronaldfisher2.JPG#mw-jump-to-license

1 / 2

Kommentare (6)

  1. #1 user unknown
    https://demystifikation.wordpress.com/2020/04/30/16-masken-4-4/
    1. Mai 2020

    Kann man den Satz

    ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen

    mit einem anschaulichen Beispiel, wie dem Urnenbeispiel illustrieren?
    Geht das zwischen 2 Gruppen? Was ist die Varianz zwischen 2 Gruppen?
    Angenommen ich habe die zwei Gruppen A und B.
    Für A messe ich 1 und 3, für B 2 und 4.
    Der Durchschnitt für A ist 2, für B 3, für (A+B) 2,5.
    Die mittlere Abweichung für A und B ist je 1.

    Für die Menge A+B ist die mittlere Abweichung 5/4.

    Kann man damit was anfangen?

  2. #2 Thilo
    1. Mai 2020

    Grundsätzlich geht es auch für zwei Gruppen (klassisches Beispiel:Placebo und Medikament an je eine Gruppe verabreicht), wobei der Punkt bei der Varianzanalyse schon war, auch mehrere Gruppen behandeln zu können, nicht nur zwei Gruppen wie bei den vorherigen Tests.

    Im Beispiel ist die Abweichung der Gruppenmittel vom Gesamtmittel je 0,5, also halb so groß wie die Abweichung der einzelnen Beobachtungen vom Gruppenmittel. Das spricht nicht sehr überzeugend für die Nullhypothese (die Einteilung in unterschiedliche Gruppen). Den von Fisher verwendeten F-Wert kann man mit der Formel aus https://wikis.fu-berlin.de/pages/viewpage.action?pageId=689209609 berechnen, er soll möglichst nahe an Null sein. Letzteres ist natürlich interpretierbar. Im Beispiel bekomme ich aber F=0,75, was jedenfalls schon ziemlich weit weg von Null ist,

  3. #3 Karl Mistelberger
    mistelberger.net
    1. Mai 2020

    Statistik hat fantastische Anwendungen:

    The p-hackers toolkit

    The extent to which p-hacking can manufacture false positive results or exaggerate otherwise insignificant results is limited only by the P-hacker’s persistence and imagination. The results of p-hacking are much more consequential than simply padding an investigator’s resume or accelerating an academic promotion. Research resources are limited. There is not enough funding, laboratory space, investigator time, patients to participate in clinical trials, etc to investigate every hypothesis. P-hacked data leads to the misappropriation of resources to follow leads that appear promising, but ultimately cannot be replicated by investigators doing responsible research and appropriate analysis.

  4. #4 Karl Mistelberger
    mistelberger.net
    1. Mai 2020

    Nachtrag:

    When was the last time you heard a seminar speaker claim there was ‘no difference’ between two groups because the difference was ‘statistically non-significant’?

    If your experience matches ours, there’s a good chance that this happened at the last talk you attended. We hope that at least someone in the audience was perplexed if, as frequently happens, a plot or table showed that there actually was a difference.

    How do statistics so often lead scientists to deny differences that those not educated in statistics can plainly see? For several generations, researchers have been warned that a statistically non-significant result does not ‘prove’ the null hypothesis (the hypothesis that there is no difference between groups or no effect of a treatment on some measured outcome). Nor do statistically significant results ‘prove’ some other hypothesis. Such misconceptions have famously warped the literature with overstated claims and, less famously, led to claims of conflicts between studies where none exists.

    https://www.nature.com/articles/d41586-019-00857-9

  5. #5 user unknown
    https://demystifikation.wordpress.com/
    1. Mai 2020

    Danke, Thilo, jetzt weiß ich, was ich rechnen muss.

    Mit der Interpretation, da werde ich (hoffentlich) ein Progrämmchen schreiben, um mit den Werten zu spielen und den Effekt zu sehen/verstehen.

  6. […] Thue-Siegel Das Lokal-Global-Prinzip Der Banachsche FixpunktsatzDie Lefschetzsche Fixpunktformel Der Fisher-Test Die Hauptsätze der Werteverteilungstheorie Der Satz von Peter-Weyl Das Artinsche […]