Mit statistischen Tests soll eine Nullhypothese H0 (etwa: ein Medikament wirkt nicht besser als ein Placebo) getestet werden. Man hat eine Menge X von möglichen Ereignissen, die durch den Test zerlegen werden soll in zwei Teilmengen: den Verwerfungsbereich A – wo die Nullhypothese abgelehnt wird – und dessen Komplement, wo die Nullhypothese als bestätigt gilt.
Das Ergebnis des Tests wird natürlich nicht immer damit übereinstimmen, ob die Nullhypothese tatsächlich zutrifft oder nicht. Als Fehler 1. Art bezeichnet man die fehlerhafte Ablehnung der Nullhypothese, als (weniger schwerwiegenden) Fehler 2. Art die fehlerhafte Annahme der Nullhypothese. Die Wahrscheinlichkeit für einen Fehler erster Art soll einen gegebenen Wert α nicht überschreiten. Gleichzeitig hätte man gern eine möglichst kleine Wahrscheinlichkeit für einen Fehler 2. Art.
In den 1920er Jahren gab es schon eine Reihe etablierter statistischer Tests wie den Chi-Quadrat-Test, den t-Test und vor allem den Fisher-Test. Jerzy Neyman war seit 1928 Leiter eines Biometric Laboratory am Nencki Institute für experimentelle Biologie in Warschau. Mit einem Rockefeller-Stipendium war er in London bei Karl Pearson und in Paris bei Émile Borel gewesen. In London hatte er Pearson’s Sohn Egon kennnengelernt und mit diesem seitdem zahlreiche gemeinsame Arbeiten über das Testen von Hypothesen geschrieben. Ihre 1933 in den Philosophical Transactions of the Royal Society of London veröffentlichte Arbeit „On the Problem of the Most Efficient Tests of Statistical Hypotheses“ klärte zumindest theoretisch die Frage, welches der optimale Test ist.
Sie gingen davon aus, dass die Nullhypothese P0 und die Alternativhypothese P1 der unbekannten Wahrscheinlichkeitsverteilung P jeweils stetige Wahrscheinlichkeitsverteilungen sein sollten, also gegeben durch Dichtefunktionen f0 bzw. f1 auf einem Rd. Getestet werden soll die Nullhypothese P=P0 gegen die Alternative P=P1. Ein Testergebnis ist natürlich um so besser (mit Blick auf das Verwerfen der Nullhypothese), wenn f1(x) deutlich größer als f0(x), der „likelihood quotient“
also möglichst groß ist.
Für den Verwerfungsbereich A, wo die Nullhypothese abgelehnt wird, soll P0(A) ≤ α für ein vorgegebenes (kleines) α gelten – das entspricht der Wahrscheinlichkeit, dass die Nullhypothese fälschlich abgelehnt wird. Neyman und Pearson bewiesen, dass es unter den diese Ungleichung erfüllenden Tests tatsächlich einen gibt, der P1(Ac) minimiert – das entspricht der Wahrscheinlichkeit, dass die Alternativhypothese fälschlich abgelehnt, die Nullhypothese also fälschlich angenommen wird. Sie bewiesen nämlich, dass es einen Schwellwert γ gibt mit . Für dieses γ betrachten sie dann den durch den Verwerfungsbereich
definierten Test und erhalten, dass dieser optimal ist.
Ein Test ist also genau dann optimal, wenn es neben P0(A)= α noch ein γ gibt, so dass f1/f0 ≤ γ fast überall auf A und f1/f0 ≥ γ fast überall auf Ac gelten.
Die Konstante γ und damit der Test – der jetzt einfach darin besteht zu überprüfen, ob für die gemessenen Werte die Ungleichung f1(x)/f0(x) ≥ γ gilt – lassen sich berechnen. In der Praxis werden aber meist Hybride aus dem Fisher-Test und dem optimalen Neyman-Pearson-Test verwendet.
Der Beweis des Neyman-Pearson-Lemmas funktioniert bemerkenswerterweise nur für stetige (und nicht für diskrete) Wahrscheinlichkeitsverteilungen.
Es war lange unklar gewesen, ob die Wahrscheinlichkeitstheorie nicht eher als eine der Physik oder Philosophie zuzuordnende empirische Wissenschaft anzusehen sei. In seiner berühmten Rede auf dem Pariser Weltkongreß 1900 hatte Hilbert die Axiomatisierung der Wahrscheinlichkeitstheorie als Teil der Axiomatisierung der Physik behandelt. Bis in die 1920er Jahren, als Mathematiker bereits Gesetze der großen Zahlen und verschiedene zentrale Grenzwertsätze mit anspruchsvollen analytischen Methoden bewiesen hatten, wurde die Wahrscheinlichkeitstheorie oft noch als keine mathematische Disziplin angesehen.
Richard von Mises hatte das ändern wollen: in einer 1919 erschienenen Arbeit “Grundlagen der Wahrscheinlichkeitsrechnung” unternahm er den Versuch, den Wahrscheinlichkeitsbegriff als Grenzwert von relativen Häufigkeiten axiomatisch zu entwickeln.
Für einfache Beispiele wie die Wahrscheinlichkeit beim Münzwurf konvergiert die relative Häufigkeit natürlich gegen die Wahrscheinlichkeit im Sinne von Laplace – und zwar auch dann, wenn man beispielsweise nur jeden zweiten oder jeden dritten Münzwurf betrachtet. Anders sieht es bei Sterbewahrscheinlichkeiten aus. Der Grenzwert der relativen Häufigkeiten wird nicht für jede Teilmenge derselbe sein: die 40-jährigen haben eine andere Sterbewahrscheinlichkeit als die 70-jährigen. Die Sterbewahrscheinlichkeit ist nur dann wohldefiniert, wenn man ein Kollektiv aus Mitgliedern mit völlig gleichen Voraussetzungen betrachtet. Diese Unterteilung der Grundgesamtheit in Kollektive war das Postulat, mit dem von Mises das zirkuläre des frequentistischen Wahrscheinlichkeitsbegriffs (wie ihn die mathematischen Statistiker verwandten) umgehen wollte.
In mathematischer Sprache betrachtete von Mises eine Folge (ei) von “Elementen” ei, wobei jeweils dem Element ei ein Wert xi=(xi,1,…,xi,k) im Rk als “Merkmal” zugeordnet ist. Die Folge heißt “Kollektiv”, wenn für jede Teilmenge A des Merkmalsraums Rk die relative Häufigkeit der zu A gehörenden xi konvergiert (gegen die “Wahrscheinlichkeit” von A innerhalb des Kollektivs), und wenn für disjunkte Mengen A,B gilt: streicht man alle ei für die xi weder zu A noch B gehört, so sollen die Grenzwerte der relativen Häufigkeiten existieren und im Verhältnis gleich sein zum Verhältnis der ursprünglichen Wahrscheinlichkeiten (“Regellosigkeit der Zuordnung”). Weiter postulierte er Bedingungen für bedingte Wahrscheinlichkeiten und für Addition und Multiplikation von Wahrscheinlichkeiten.
Kommentare (7)