Mathematische Statistik wurde im späten 19. und frühen 20. Jahrhundert von Anwendern als Methodenlehre entwickelt. Im klassenbewußten England waren dabei Arbeiten zur Rassenlehre, Eugenik und Vererbung von Hochbegabungen eine wesentliche Triebkraft. Mathematisch lag der Schwerpunkt auf Verfahren, die auf bestimmte Klassen von Verteilungen (charakterisiert durch einen endlich-dimensionalen Parameter) zugeschnitten sind.

Sir Francis Galton, der als Begründer der Eugenik gilt, war auch ein Pionier im Gebrauch der Gaußschen Normalverteilung und führte Begriffe wie Standardabweichung, Regression und Korrelationskoeffizient ein. Sein Freund Karl Pearson, der als Begründer der Biometrie gilt, gab diesen Ansätzen in einer von 1893 bis 1904 erarbeiteten 18-teiligen Artikelserie „Mathematical contributions to the theory of evolution“ eine mathematische Form. Er wurde 1911 auf einen von Galton gestifteten Lehrstuhl in London berufen, wo er das weltweit erste Statistik-Department einer Universität aufbaute.

Von Pearson stammt auch der Chi-Quadrat-Test. Bei diesem geht es um die Überprüfung einer Nullhypothese durch Messungen. (Diese Nullhypothese kann zum Beispiel die Wirkungslosigkeit eines Medikaments sein oder die Normalverteilung der ersten Ziffern einer Menge von Zahlen.) Die Abweichung der beobachteten Häufigkeiten Nj von den gemäß Nullhypothese erwarteten Häufigkeiten nj wird durch X^2=\sum_{j=1}^k \frac{(N_j-n_j)^2}{n_j} gemessen. Nach Pearson soll X2 gemäß der unten abgebildeten Chi-Quadrat-Verteilung mit k-1 Freiheitsgraden – der Summe Z12+…+Zk-12 quadrierter unabhängiger normalverteilter Zufallsvariablen, d.h. jedes Zi hat eine Gaußsche Normalverteilung N(0,1) mit Mittelwert 0 und Varianz 1 – verteilt sein. Damit kann man dann zu einem Signifikanzniveau α berechnen, ab welchem kritischen Wert von X2 die Überschreitungswahrscheinlichkeit unterhalb des Signifikanzniveaus liegt; ab diesem Wert sollte die Nullhypothese abgelehnt werden.

Auch in den Agrarwissenschaften gab es Statistiker. William Gosset, der an der Dubliner Guinness-Brauerei arbeitete, stellte fest, dass der Mittelwert \overline{X} von k+1 normalverteilten Größen mit Erwartungwert μ nicht normalverteilt ist, sondern dass die Größe t(k)=\frac{\overline{X}-\mu}{S/\sqrt{k+1}} (wobei S^2=\frac{1}{k}\Sigma_{i=1}^{k+1}(X_i-\overline{X})^2 die Stichprobenvarianz ist) der unten abgebildeten Verteilung t(k) genügt, die besonders für kleine k weniger schmal als die Normalverteilung ist. Damit entwickelte er 1908 einen Test, mit dem überprüft werden kann, ob sich Mittelwerte zweier Stichproben bedeutend unterscheiden. (Eine typische Anwendung ist heute der Vergleich von Patientengruppen, die ein Medikament oder ein Plazebo bekommen haben.) Weil die Brauerei keine Publikation von Betriebsgeheimnissen erlaubte, veröffentlichte er unter dem Pseudonym “Student”; die Verteilung der Differenz des Mittelwerts einer Stichprobe zum wahren Mittelwert einer normalverteilten Grundgesamtheit wurde deshalb unter dem Namen “studentsche t-Verteilung” bekannt.

Die Entwicklung der mathematischen Statistik wurde dann aber vor allem das Werk von Ronald Fisher. Der hatte schon als 21-jähriger 1911 in Cambridge die Eugenische Gesellschaft gegründet und die Position vertreten, dass die oberen Klassen Anreize für eine höhere Kinderzahl erhalten sollten. Seine Arbeiten über Fehler in astronomischen Berechnungen zusammen mit seinem Interesse an Genetik führten zu seiner Beschäftigung mit Statistik. Beschäftigt war er seit 1919 an der Rothamsted Experimental Station, dem größten Agrarforschungsinstitut Großbritanniens, wo er über Jahre große Datenmengen sammeln und für Studien verwenden konnte.
In einer 1918 veröffentlichten Arbeit „The Correlation between Relatives on the Supposition of Mendelian Inheritance“ hatte er das statistische Verfahren der Varianzanalyse eingeführt: um zu ermitteln, ob eine gewählte Gruppeneinteilung sinnvoll ist, wird berechnet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. In den folgenden Jahren lieferte er bedeutende Beiträge zur statistischen Versuchsplanung und postulierte verschiedene schätztheoretische Konzepte, darunter die entgegengesetzten Begriffe „Suffizienz“ und „Verteilungsfreiheit“ sowie die Fisher-Information, die für eine von einem Parameter θ abhängende Familie von Zufallsvariablen Xθ den Informationsgehalt der Zufallsvariablen – also welche Informationen über θ man aus Xθ gewinnen kann – quantitativ mißt.

Seit 1912 hatte er an der Methode der größten Plausibilität gearbeitet, die er in ihrer endgültigen Form 1922 veröffentlichte. Der Ansatz war, eine von einem Parameter abhängige Wahrscheinlichkeitsverteilung zu betrachten und dann diejenige auszuwählen, für die die Wahrscheinlichkeit, die tatsächlich beobachteten Ergebnisse zu erhalten, am höchsten ist. (Diese Methode war schon vor hundert Jahren bei Gauß vorgekommen und auch Edgeworth, ein irischer Ökonom und Oxford-Professor hatte sie verwendet. Große Verbreitung erlangte sie aber erst durch Fisher.) Ein elementares Beispiel: wenn man aus einer Urne mit 8 Kugeln viermal eine Kugel zieht und drei davon rot sind, kann man unter der Annahme einer Binomialverteilung zum Parameter p davon ausgehen, dass die Wahrscheinlichkeit für das beobachtete Ereignis p3(1-p) ist. Diese wird maximal für p=0.75, womit 6 die plausibelste Parameterzahl für die Anzahl roter Kugeln ist. Natürlich läßt sich dieses Prinzip auch auf kompliziertere Verteilungen anwenden. Fishers Ansatz lösten die bisherigen, auf dem Satz von Bayes aufbauenden, Methoden der “inversen Wahrscheinlichkeitsrechnung” ab.

Die Annahme der Chi-Quadrat-Verteilung für X2 gilt nur dann als realistisch, wenn alle erwarteten Häufigkeiten mindestens 5 betragen. In seiner 1924 erschienenen Arbeit „On a distribution yielding the error functions of several well known statistics“ stellte Fisher neben Pearsons Chi-Quadrat-Test und Gossets t-Test einen neuen Signifikanztest vor, der anders als die anderen Tests auch bei sehr niedrigen Fallzahlen funktionieren sollte. Um den Zusammenhang zweier Eigenschaften zu testen, verglich er die beobachteten Anzahlen a,b,c,d für die vier möglichen Kombinationen der zwei Eigenschaften mit denen, die man bei Unabhängigkeit der beiden Eigenschaften zu vorgegebenen Werten von a+b,c+d,a+c,b+d bekommen müßte.
Im Falle der Unabhängigkeit der beiden Eigenschaften bewies er, dass man dann eine hypergeometrische Verteilung bekommen müsse, also z.B. P(H_a=a) = \frac{ {M_{hyp} \choose a}  {N_{hyp} - M_{hyp} \choose n_{hyp} - a} }{ {N_{hyp} \choose n_{hyp}} } = \frac{ {a+c \choose a} {b+d \choose b} }{ {n \choose a+b } }.
Um einen Zusammenhang der beiden Eigenschaften zu beweisen, sollte die Abweichung der beobachteten Häufigkeiten von der hypergeometrischen Verteilung ein gewisses Signifikanzniveau überschreiten. Er postulierte (durchaus umstritten) ein Signifikanzniveau von 5%, oberhalb dessen ein signifikanter Zusammenhang der beiden Eigenschaften anzunehmen sei. Auf diese Zahl kam er, weil eine signifikante Abweichung seiner Meinung nach doppelt so groß sein sollte wie die Standardabweichung, was er auf die Normalverteilung anwandte.
Der Test kann auf mehr als zwei Eigenschaften erweitert werden. Obwohl er für alle Testgrößen funktioniert, wird er in der Praxis vor allem bei kleinen Größen angewandt. Neben dem t-Test und dem Chi-Quadrat-Test ist er einer der meistverwendeten Tests geblieben. Kritik an statistischen Tests gibt es aber immer wieder, weil von ihnen auch durchaus existierende Zusammenhänge als statistisch nicht signifikant verworfen werden können.

Bild: https://commons.wikimedia.org/wiki/File:Youngronaldfisher2.JPG#mw-jump-to-license

Kommentare (6)

  1. #1 user unknown
    https://demystifikation.wordpress.com/2020/04/30/16-masken-4-4/
    1. Mai 2020

    Kann man den Satz

    ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen

    mit einem anschaulichen Beispiel, wie dem Urnenbeispiel illustrieren?
    Geht das zwischen 2 Gruppen? Was ist die Varianz zwischen 2 Gruppen?
    Angenommen ich habe die zwei Gruppen A und B.
    Für A messe ich 1 und 3, für B 2 und 4.
    Der Durchschnitt für A ist 2, für B 3, für (A+B) 2,5.
    Die mittlere Abweichung für A und B ist je 1.

    Für die Menge A+B ist die mittlere Abweichung 5/4.

    Kann man damit was anfangen?

  2. #2 Thilo
    1. Mai 2020

    Grundsätzlich geht es auch für zwei Gruppen (klassisches Beispiel:Placebo und Medikament an je eine Gruppe verabreicht), wobei der Punkt bei der Varianzanalyse schon war, auch mehrere Gruppen behandeln zu können, nicht nur zwei Gruppen wie bei den vorherigen Tests.

    Im Beispiel ist die Abweichung der Gruppenmittel vom Gesamtmittel je 0,5, also halb so groß wie die Abweichung der einzelnen Beobachtungen vom Gruppenmittel. Das spricht nicht sehr überzeugend für die Nullhypothese (die Einteilung in unterschiedliche Gruppen). Den von Fisher verwendeten F-Wert kann man mit der Formel aus https://wikis.fu-berlin.de/pages/viewpage.action?pageId=689209609 berechnen, er soll möglichst nahe an Null sein. Letzteres ist natürlich interpretierbar. Im Beispiel bekomme ich aber F=0,75, was jedenfalls schon ziemlich weit weg von Null ist,

  3. #3 Karl Mistelberger
    mistelberger.net
    1. Mai 2020

    Statistik hat fantastische Anwendungen:

    The p-hackers toolkit

    The extent to which p-hacking can manufacture false positive results or exaggerate otherwise insignificant results is limited only by the P-hacker’s persistence and imagination. The results of p-hacking are much more consequential than simply padding an investigator’s resume or accelerating an academic promotion. Research resources are limited. There is not enough funding, laboratory space, investigator time, patients to participate in clinical trials, etc to investigate every hypothesis. P-hacked data leads to the misappropriation of resources to follow leads that appear promising, but ultimately cannot be replicated by investigators doing responsible research and appropriate analysis.

  4. #4 Karl Mistelberger
    mistelberger.net
    1. Mai 2020

    Nachtrag:

    When was the last time you heard a seminar speaker claim there was ‘no difference’ between two groups because the difference was ‘statistically non-significant’?

    If your experience matches ours, there’s a good chance that this happened at the last talk you attended. We hope that at least someone in the audience was perplexed if, as frequently happens, a plot or table showed that there actually was a difference.

    How do statistics so often lead scientists to deny differences that those not educated in statistics can plainly see? For several generations, researchers have been warned that a statistically non-significant result does not ‘prove’ the null hypothesis (the hypothesis that there is no difference between groups or no effect of a treatment on some measured outcome). Nor do statistically significant results ‘prove’ some other hypothesis. Such misconceptions have famously warped the literature with overstated claims and, less famously, led to claims of conflicts between studies where none exists.

    https://www.nature.com/articles/d41586-019-00857-9

  5. #5 user unknown
    https://demystifikation.wordpress.com/
    1. Mai 2020

    Danke, Thilo, jetzt weiß ich, was ich rechnen muss.

    Mit der Interpretation, da werde ich (hoffentlich) ein Progrämmchen schreiben, um mit den Werten zu spielen und den Effekt zu sehen/verstehen.

  6. […] Thue-Siegel Das Lokal-Global-Prinzip Der Banachsche FixpunktsatzDie Lefschetzsche Fixpunktformel Der Fisher-Test Die Hauptsätze der Werteverteilungstheorie Der Satz von Peter-Weyl Das Artinsche […]