Mathematische Statistik wurde im späten 19. und frühen 20. Jahrhundert von Anwendern als Methodenlehre entwickelt. Im klassenbewußten England waren dabei Arbeiten zur Rassenlehre, Eugenik und Vererbung von Hochbegabungen eine wesentliche Triebkraft. Mathematisch lag der Schwerpunkt auf Verfahren, die auf bestimmte Klassen von Verteilungen (charakterisiert durch einen endlich-dimensionalen Parameter) zugeschnitten sind.
Sir Francis Galton, der als Begründer der Eugenik gilt, war auch ein Pionier im Gebrauch der Gaußschen Normalverteilung und führte Begriffe wie Standardabweichung, Regression und Korrelationskoeffizient ein. Sein Freund Karl Pearson, der als Begründer der Biometrie gilt, gab diesen Ansätzen in einer von 1893 bis 1904 erarbeiteten 18-teiligen Artikelserie „Mathematical contributions to the theory of evolution“ eine mathematische Form. Er wurde 1911 auf einen von Galton gestifteten Lehrstuhl in London berufen, wo er das weltweit erste Statistik-Department einer Universität aufbaute.
Von Pearson stammt auch der Chi-Quadrat-Test. Bei diesem geht es um die Überprüfung einer Nullhypothese durch Messungen. (Diese Nullhypothese kann zum Beispiel die Wirkungslosigkeit eines Medikaments sein oder die Normalverteilung der ersten Ziffern einer Menge von Zahlen.) Die Abweichung der beobachteten Häufigkeiten Nj von den gemäß Nullhypothese erwarteten Häufigkeiten nj wird durch gemessen. Nach Pearson soll X2 gemäß der unten abgebildeten Chi-Quadrat-Verteilung mit k-1 Freiheitsgraden – der Summe Z12+…+Zk-12 quadrierter unabhängiger normalverteilter Zufallsvariablen, d.h. jedes Zi hat eine Gaußsche Normalverteilung N(0,1) mit Mittelwert 0 und Varianz 1 – verteilt sein. Damit kann man dann zu einem Signifikanzniveau α berechnen, ab welchem kritischen Wert von X2 die Überschreitungswahrscheinlichkeit unterhalb des Signifikanzniveaus liegt; ab diesem Wert sollte die Nullhypothese abgelehnt werden.
Auch in den Agrarwissenschaften gab es Statistiker. William Gosset, der an der Dubliner Guinness-Brauerei arbeitete, stellte fest, dass der Mittelwert von k+1 normalverteilten Größen mit Erwartungwert μ nicht normalverteilt ist, sondern dass die Größe
(wobei
die Stichprobenvarianz ist) der unten abgebildeten Verteilung t(k) genügt, die besonders für kleine k weniger schmal als die Normalverteilung ist. Damit entwickelte er 1908 einen Test, mit dem überprüft werden kann, ob sich Mittelwerte zweier Stichproben bedeutend unterscheiden. (Eine typische Anwendung ist heute der Vergleich von Patientengruppen, die ein Medikament oder ein Plazebo bekommen haben.) Weil die Brauerei keine Publikation von Betriebsgeheimnissen erlaubte, veröffentlichte er unter dem Pseudonym “Student”; die Verteilung der Differenz des Mittelwerts einer Stichprobe zum wahren Mittelwert einer normalverteilten Grundgesamtheit wurde deshalb unter dem Namen “studentsche t-Verteilung” bekannt.
Die Entwicklung der mathematischen Statistik wurde dann aber vor allem das Werk von Ronald Fisher. Der hatte schon als 21-jähriger 1911 in Cambridge die Eugenische Gesellschaft gegründet und die Position vertreten, dass die oberen Klassen Anreize für eine höhere Kinderzahl erhalten sollten. Seine Arbeiten über Fehler in astronomischen Berechnungen zusammen mit seinem Interesse an Genetik führten zu seiner Beschäftigung mit Statistik. Beschäftigt war er seit 1919 an der Rothamsted Experimental Station, dem größten Agrarforschungsinstitut Großbritanniens, wo er über Jahre große Datenmengen sammeln und für Studien verwenden konnte.
In einer 1918 veröffentlichten Arbeit „The Correlation between Relatives on the Supposition of Mendelian Inheritance“ hatte er das statistische Verfahren der Varianzanalyse eingeführt: um zu ermitteln, ob eine gewählte Gruppeneinteilung sinnvoll ist, wird berechnet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. In den folgenden Jahren lieferte er bedeutende Beiträge zur statistischen Versuchsplanung und postulierte verschiedene schätztheoretische Konzepte, darunter die entgegengesetzten Begriffe „Suffizienz“ und „Verteilungsfreiheit“ sowie die Fisher-Information, die für eine von einem Parameter θ abhängende Familie von Zufallsvariablen Xθ den Informationsgehalt der Zufallsvariablen – also welche Informationen über θ man aus Xθ gewinnen kann – quantitativ mißt.
Seit 1912 hatte er an der Methode der größten Plausibilität gearbeitet, die er in ihrer endgültigen Form 1922 veröffentlichte. Der Ansatz war, eine von einem Parameter abhängige Wahrscheinlichkeitsverteilung zu betrachten und dann diejenige auszuwählen, für die die Wahrscheinlichkeit, die tatsächlich beobachteten Ergebnisse zu erhalten, am höchsten ist. (Diese Methode war schon vor hundert Jahren bei Gauß vorgekommen und auch Edgeworth, ein irischer Ökonom und Oxford-Professor hatte sie verwendet. Große Verbreitung erlangte sie aber erst durch Fisher.) Ein elementares Beispiel: wenn man aus einer Urne mit 8 Kugeln viermal eine Kugel zieht und drei davon rot sind, kann man unter der Annahme einer Binomialverteilung zum Parameter p davon ausgehen, dass die Wahrscheinlichkeit für das beobachtete Ereignis p3(1-p) ist. Diese wird maximal für p=0.75, womit 6 die plausibelste Parameterzahl für die Anzahl roter Kugeln ist. Natürlich läßt sich dieses Prinzip auch auf kompliziertere Verteilungen anwenden. Fishers Ansatz lösten die bisherigen, auf dem Satz von Bayes aufbauenden, Methoden der “inversen Wahrscheinlichkeitsrechnung” ab.
Die Annahme der Chi-Quadrat-Verteilung für X2 gilt nur dann als realistisch, wenn alle erwarteten Häufigkeiten mindestens 5 betragen. In seiner 1924 erschienenen Arbeit „On a distribution yielding the error functions of several well known statistics“ stellte Fisher neben Pearsons Chi-Quadrat-Test und Gossets t-Test einen neuen Signifikanztest vor, der anders als die anderen Tests auch bei sehr niedrigen Fallzahlen funktionieren sollte. Um den Zusammenhang zweier Eigenschaften zu testen, verglich er die beobachteten Anzahlen a,b,c,d für die vier möglichen Kombinationen der zwei Eigenschaften mit denen, die man bei Unabhängigkeit der beiden Eigenschaften zu vorgegebenen Werten von a+b,c+d,a+c,b+d bekommen müßte.
Im Falle der Unabhängigkeit der beiden Eigenschaften bewies er, dass man dann eine hypergeometrische Verteilung bekommen müsse, also z.B. .
Um einen Zusammenhang der beiden Eigenschaften zu beweisen, sollte die Abweichung der beobachteten Häufigkeiten von der hypergeometrischen Verteilung ein gewisses Signifikanzniveau überschreiten. Er postulierte (durchaus umstritten) ein Signifikanzniveau von 5%, oberhalb dessen ein signifikanter Zusammenhang der beiden Eigenschaften anzunehmen sei. Auf diese Zahl kam er, weil eine signifikante Abweichung seiner Meinung nach doppelt so groß sein sollte wie die Standardabweichung, was er auf die Normalverteilung anwandte.
Der Test kann auf mehr als zwei Eigenschaften erweitert werden. Obwohl er für alle Testgrößen funktioniert, wird er in der Praxis vor allem bei kleinen Größen angewandt. Neben dem t-Test und dem Chi-Quadrat-Test ist er einer der meistverwendeten Tests geblieben. Kritik an statistischen Tests gibt es aber immer wieder, weil von ihnen auch durchaus existierende Zusammenhänge als statistisch nicht signifikant verworfen werden können.
Bild: https://commons.wikimedia.org/wiki/File:Youngronaldfisher2.JPG#mw-jump-to-license
Kommentare (6)