Theorema Magnum MCMXXXIII: das Fundamentallemma der mathematischen Statistik – Mathlog

StartseiteMathlog

Von Thilo / 2. Juli 2020 / 7 Kommentare

Mit statistischen Tests soll eine Nullhypothese H₀ (etwa: ein Medikament wirkt nicht besser als ein Placebo) getestet werden. Man hat eine Menge X von möglichen Ereignissen, die durch den Test zerlegen werden soll in zwei Teilmengen: den Verwerfungsbereich A – wo die Nullhypothese abgelehnt wird – und dessen Komplement, wo die Nullhypothese als bestätigt gilt.
Das Ergebnis des Tests wird natürlich nicht immer damit übereinstimmen, ob die Nullhypothese tatsächlich zutrifft oder nicht. Als Fehler 1. Art bezeichnet man die fehlerhafte Ablehnung der Nullhypothese, als (weniger schwerwiegenden) Fehler 2. Art die fehlerhafte Annahme der Nullhypothese. Die Wahrscheinlichkeit für einen Fehler erster Art soll einen gegebenen Wert α nicht überschreiten. Gleichzeitig hätte man gern eine möglichst kleine Wahrscheinlichkeit für einen Fehler 2. Art.

In den 1920er Jahren gab es schon eine Reihe etablierter statistischer Tests wie den Chi-Quadrat-Test, den t-Test und vor allem den Fisher-Test. Jerzy Neyman war seit 1928 Leiter eines Biometric Laboratory am Nencki Institute für experimentelle Biologie in Warschau. Mit einem Rockefeller-Stipendium war er in London bei Karl Pearson und in Paris bei Émile Borel gewesen. In London hatte er Pearson’s Sohn Egon kennnengelernt und mit diesem seitdem zahlreiche gemeinsame Arbeiten über das Testen von Hypothesen geschrieben. Ihre 1933 in den Philosophical Transactions of the Royal Society of London veröffentlichte Arbeit „On the Problem of the Most Efficient Tests of Statistical Hypotheses“ klärte zumindest theoretisch die Frage, welches der optimale Test ist.
Sie gingen davon aus, dass die Nullhypothese P₀ und die Alternativhypothese P₁ der unbekannten Wahrscheinlichkeitsverteilung P jeweils stetige Wahrscheinlichkeitsverteilungen sein sollten, also gegeben durch Dichtefunktionen f₀ bzw. f₁ auf einem R^d. Getestet werden soll die Nullhypothese P=P₀ gegen die Alternative P=P₁. Ein Testergebnis ist natürlich um so besser (mit Blick auf das Verwerfen der Nullhypothese), wenn f₁(x) deutlich größer als f₀(x), der „likelihood quotient“ also möglichst groß ist.
Für den Verwerfungsbereich A, wo die Nullhypothese abgelehnt wird, soll P₀(A) ≤ α für ein vorgegebenes (kleines) α gelten – das entspricht der Wahrscheinlichkeit, dass die Nullhypothese fälschlich abgelehnt wird. Neyman und Pearson bewiesen, dass es unter den diese Ungleichung erfüllenden Tests tatsächlich einen gibt, der P₁(A^c) minimiert – das entspricht der Wahrscheinlichkeit, dass die Alternativhypothese fälschlich abgelehnt, die Nullhypothese also fälschlich angenommen wird. Sie bewiesen nämlich, dass es einen Schwellwert γ gibt mit . Für dieses γ betrachten sie dann den durch den Verwerfungsbereich definierten Test und erhalten, dass dieser optimal ist.
Ein Test ist also genau dann optimal, wenn es neben P₀(A)= α noch ein γ gibt, so dass f₁/f₀ ≤ γ fast überall auf A und f₁/f₀ ≥ γ fast überall auf A^c gelten.
Die Konstante γ und damit der Test – der jetzt einfach darin besteht zu überprüfen, ob für die gemessenen Werte die Ungleichung f₁(x)/f₀(x) ≥ γ gilt – lassen sich berechnen. In der Praxis werden aber meist Hybride aus dem Fisher-Test und dem optimalen Neyman-Pearson-Test verwendet.
Der Beweis des Neyman-Pearson-Lemmas funktioniert bemerkenswerterweise nur für stetige (und nicht für diskrete) Wahrscheinlichkeitsverteilungen.

Es war lange unklar gewesen, ob die Wahrscheinlichkeitstheorie nicht eher als eine der Physik oder Philosophie zuzuordnende empirische Wissenschaft anzusehen sei. In seiner berühmten Rede auf dem Pariser Weltkongreß 1900 hatte Hilbert die Axiomatisierung der Wahrscheinlichkeitstheorie als Teil der Axiomatisierung der Physik behandelt. Bis in die 1920er Jahren, als Mathematiker bereits Gesetze der großen Zahlen und verschiedene zentrale Grenzwertsätze mit anspruchsvollen analytischen Methoden bewiesen hatten, wurde die Wahrscheinlichkeitstheorie oft noch als keine mathematische Disziplin angesehen.

Richard von Mises hatte das ändern wollen: in einer 1919 erschienenen Arbeit “Grundlagen der Wahrscheinlichkeitsrechnung” unternahm er den Versuch, den Wahrscheinlichkeitsbegriff als Grenzwert von relativen Häufigkeiten axiomatisch zu entwickeln.
Für einfache Beispiele wie die Wahrscheinlichkeit beim Münzwurf konvergiert die relative Häufigkeit natürlich gegen die Wahrscheinlichkeit im Sinne von Laplace – und zwar auch dann, wenn man beispielsweise nur jeden zweiten oder jeden dritten Münzwurf betrachtet. Anders sieht es bei Sterbewahrscheinlichkeiten aus. Der Grenzwert der relativen Häufigkeiten wird nicht für jede Teilmenge derselbe sein: die 40-jährigen haben eine andere Sterbewahrscheinlichkeit als die 70-jährigen. Die Sterbewahrscheinlichkeit ist nur dann wohldefiniert, wenn man ein Kollektiv aus Mitgliedern mit völlig gleichen Voraussetzungen betrachtet. Diese Unterteilung der Grundgesamtheit in Kollektive war das Postulat, mit dem von Mises das zirkuläre des frequentistischen Wahrscheinlichkeitsbegriffs (wie ihn die mathematischen Statistiker verwandten) umgehen wollte.
In mathematischer Sprache betrachtete von Mises eine Folge (e_i) von “Elementen” e_i, wobei jeweils dem Element e_i ein Wert x_i=(x_i,1,…,x_i,k) im R^k als “Merkmal” zugeordnet ist. Die Folge heißt “Kollektiv”, wenn für jede Teilmenge A des Merkmalsraums R^k die relative Häufigkeit der zu A gehörenden x_i konvergiert (gegen die “Wahrscheinlichkeit” von A innerhalb des Kollektivs), und wenn für disjunkte Mengen A,B gilt: streicht man alle e_i für die x_i weder zu A noch B gehört, so sollen die Grenzwerte der relativen Häufigkeiten existieren und im Verhältnis gleich sein zum Verhältnis der ursprünglichen Wahrscheinlichkeiten (“Regellosigkeit der Zuordnung”). Weiter postulierte er Bedingungen für bedingte Wahrscheinlichkeiten und für Addition und Multiplikation von Wahrscheinlichkeiten.

Hausdorff wies darauf hin, dass selbst für meßbare Mengen die relativen Häufigkeiten nicht konvergieren müssen und dass die behauptete Sigma-Additivität nicht gilt. In der über Jahre polemisch geführten Debatte wurde moniert, dass von Mises so allgemeine Auswahlen zugelassen habe, dass seinen Forderungen im Allgemeinen nicht genügt werden könne. (Das ist in Analogie zur Existenz nicht-meßbarer Mengen.) Da er nicht sagte, wie die Schwierigkeit zu beheben sei, blieb der Vorwurf der Inkonsistenz des Kollektivbegriffs zunächst unausgeräumt. Ein Kritiker argumentierte, von Mises‘ Definition sei so, als ob man eine Folge von kleiner werdenden Kreideflecken an die Tafel malen und einen Punkt als Limes dieser Folge definieren wolle. Es gab aber (gerade in der mathematischen Statistik) auch vehemente Unterstützer seines Zugangs, darunter auch Neyman. Von vielen Mathematikern wurde Mises‘ Ansatz jedoch als ein empirischer, naturwissenschaftlicher Ansatz angesehen – nicht als ein Axiomensystem, mit dem Mathematiker arbeiten könnten.
In den 1930er Jahren versuchte dann noch Erhard Tornier, eine natürlichere Definition von Wahrscheinlichkeiten zum Laufen zu bringen. Von der Kollektivtheorie inspiriert wollte er eine Häufigkeitstheorie entwickeln. Er ließ das Regellosigkeitsaxiom weg, das aber gerade deterministische Folgen hatte ausschließen sollen. Eine Folge von Folgen war für ihn ein Häufigkeitsmodell, wenn für alle in geeignetem Sinne innen und außen durch Zylinderfolgen approximierbaren Mengen die Häufigkeit konvergiert. Schon das Beispiel eines einzelnen Münzwurfs, wo alle Folgen die Länge 1 haben und beispielsweise das abwechselnde Werfen von 0 und 1 ein Modell wäre, zeigt die Problematik dieses Ansatzes.

Dementgegen war der maßtheoretische Ansatz zur Wahrscheinlichkeitstheorie schon in Hausdorffs grundlegendem Lehrbuch zur mengentheoretischen Topologie angedeutet worden und in den 1920er Jahren arbeiteten zahlreiche Mathematiker mit Wahrscheinlichkeiten wie mit Maßen. (Als erste Arbeit, die Maße im Sinne einer geometrischen Wahrscheinlichkeitstheorie verwendet, würde man später Filip Lundbergs Dissertation von 1903 über Versicherungsmathematik identifizieren, die freilich als völlig unverständlich galt. Émile Borel hatte 1909 den Begriff normaler Zahlen mit einem wahrscheinlichkeitstheoretischen Ansatz untersucht und bewiesen, dass die nicht-normalen Zahlen eine Nullmenge bilden. Zu jener Zeit hatte Borel solche Interpretationen aber noch als reine Bezeichnungsfragen abgetan und nicht als eigentliche Bedeutung von Wahrscheinlichkeit.) Umgekehrt enthielten die Arbeiten der Lemberger funktionalanalytischen Schule regelmäßig eine wahrscheinlichkeitstheoretische Interpretation maßtheoretischer Resultate.
Aber es gab keine Standardreferenz, keine allgemein als verbindlich angesehene Definition von Wahrscheinlichkeiten. Diese besorgte erst 1933 Kolmogorow mit seinem Lehrbuch “Grundbegriffe der Wahrscheinlichkeitsrechnung”, in dessen Vorwort es hieß: “Der diesen allgemeinen Gesichtspunkten entsprechende Aufbau der Wahrscheinlichkeitsrechnung war in den betreffenden Kreisen seit einiger Zeit geläufig; es fehlte jedoch eine vollständige und von überflüssigen Komplikationen freie Darstellung des ganzen Systems.”

Der Kontext mathematischer Wahrscheinlichkeiten ist gemäß dieser Definition ein Wahrscheinlichkeitsraum, bestehend aus einer Menge, einer σ-Algebra von Teilmengen und einem Wahrscheinlichkeitsmaß. Die Mengen entsprechen Ereignissen in der Realwelt, die Punkte entsprechen Elementarereignissen, einzelnen (möglichen) Beobachtungen. Zufallsvariablen entsprechen Funktionen von realen Beobachtungen.
Der Idee, dass eine Zufallsvariable einfach nur eine meßbare Funktion ohne weitere Konnotation ist, standen viele Wahrscheinlichkeitstheoretiker skeptisch gegenüber. Kolportiert wurde die Frage eines prominenten Statistikers, ob orthogonale Zufallsvariablen mit Mittel Null notwendig unabhängig sind (wie unter der zusätzlichen Annahme einer bivariaten Gaußverteilung) und dessen Überraschung ob des einfachen Beispiels Sinus und Kosinus.

Tatsächlich brauchte es einige Zeit, bis Kolmogorows Ansatz allgemein akzeptiert wurde. Vor allem das mit seinem Ansatz bessere Verständnis von Grenzwertsätzen spielte dabei eine Rolle.
Willy Feller, mit dem Tornier in Kiel zusammengearbeitet hatte, und für dessen Entlassung als Dozent Tornier gleich nach der Machtergreifung sorgte, begann in der Emigration, sich mit Wahrscheinlichkeitstheorie zu beschäftigen. Ursprünglich bei Courant über transzendente Kurven promoviert, war seine erste „Arbeit“ zur neuen Wahrscheinlichkeitstheorie ein Review zu Kolmogorows Buch: „The calculus of probabilities is constructed axiomatically, with no gaps and in the greatest generality, and for the first time systematically integrated, fully and naturally, with abstract measure theory. The axiom system is certainly the simplest imaginable. … The great generality is noteworthy; probabilities in infinite dimensional spaces of arbitrary cardinality are dealt with. … The presentation is very precise, but rather terse, directed to the reader who is not unfamiliar with the material. Measure theory is assumed.“
In Kopenhagen, wo er ab 1934 arbeitete, schrieb Feller dann eine Arbeit, in der er den mathematischen Inhalt und die Bedeutung der “beiden wichtigsten Grenzwertsätze der modernen Wahrscheinlichkeitstheorie” aufklärte, nämlich des zentralen Grenzwertsatzes und des von Kolmogorow bewiesenen Gesetz des iterierten Logarithmus, einer ursprünglich von Hardy und Littlewood bei Arbeiten über die Approximierbarkeit irrationaler Zahlen aufgestellten Vermutung. Für den von Lindenberg 1920 bewiesenen zentralen Grenzwertsatz fand er eine andere hinreichende Bedingung. (Unabhängig fand solche Bedingungen auch Paul Lévy, damals führender Wahrscheinlichkeitstheoretiker in Paris.) Diese und andere Arbeiten wie eben auch das in der Sprache der Maßtheorie formulierte Fundamentallemma der mathematischen Statistik – dessen einfacher Beweis nur im stetigen Fall funktionierte – überzeugten die Mathematiker, dass der maßtheoretische Ansatz zur Wahrscheinlichkeitstheorie der richtige sei.
Später in den USA verfaßte Feller 1950 ein zweibändiges Werk Introduction to Probability Theory and its Applications, das für lange Zeit das populärste Lehrbuch der Wahrscheinlichkeitstheorie wurde: es faßte eine zweihundertjährige Entwicklung zusammen und benutzte kaum über die Oberschule hinausgehende Techniken. Etwa gleichzeitig entstand mit Paul Halmos’ Lehrbuch die erste im Westen erschienene Darstellung der Maßtheorie, angepaßt an die Bedürfnisse von Vorlesungen in Wahrscheinlichkeitstheorie und ohne technische Subtilitäten.
Auch wenn es gerade in Frankreich und den USA noch Wahrscheinlichkeitstheoretiker gab, die den maßtheoretischen Ansatz als gegen die Intuition ansahen, waren die von Kolmogorow eingeführten Axiome spätestens in den 1950er Jahren “das” Axiomensystem der Wahrscheinlichkeitstheorie geworden. Man überließ es nun den Philosophen, seine Beziehung zur Realität zu diskutieren.

Bild: https://errorstatistics.com/2017/04/18/jerzy-neyman-and-les-miserables-citations-statistical-theater-in-honor-of-his-birthday-2/

Kommentare (7)

#1 Frank Wappler
2. Juli 2020

Thilo schrieb (2. Juli 2020):
> […] 1933 Kolmogorow mit seinem Lehrbuch “Grundbegriffe der Wahrscheinlichkeitsrechnung” […]
> Der Kontext mathematischer Wahrscheinlichkeiten ist gemäß dieser Definition ein Wahrscheinlichkeitsraum, bestehend aus einer Menge, einer σ-Algebra von Teilmengen und einem Wahrscheinlichkeitsmaß. Die Mengen entsprechen Ereignissen in der Realwelt, die Punkte entsprechen Elementarereignissen, einzelnen (möglichen) Beobachtungen.

Da das Wort “Ereignis” zumindest in bestimmten Teilgebieten der Physik für einen ganz bestimmten Begriff benutzt wird (nämlich auch “Koinzidenz” genannt, jeweils identifiziert dadurch “wer daran zusammen teilnahm” und “was dabei jeweils von einem dieser Teilnehmer wahrgenommen wurde”), möchte ich gegenüberstellen:

Die Menge, aus der jeweils ein Wahrscheinlichkeitsraum besteht, entspricht einer Menge von Ergebnissen von (denkbaren) Messungen in der Realwelt; seine einzelnen Elemente nennt man Ergebnis (oder auch “Messwert”), jeweils ermittelt aus gegebenen Beobachtungsdaten (eines Versuchs).

> Zufallsvariablen entsprechen Funktionen von realen Beobachtungen.

Entsprechend werden Zufallsvariablen als Funktionen von Ergebnissen bzw. von Ergebnismengen (“auf einem Maßraum”) aufgefasst.

p.s.
ScienceBlogs-Kommentar-HTML-Test:

“A<sup>0</sup> wird dargestellt als: “A0”.
#2 Fluffy
2. Juli 2020

Ignorieren Sie #1
#3 Frank Wappler
https://You.know.Jerry...I.don-t.know...sometimes...I-d.like.to...you.know...edit.with.ScienceLogs.just.like...you.know...we.might.edit.with... well...whatever...
3. Juli 2020

Thilo schrieb (2. Juli 2020):
> […] 1933 Kolmogorow mit seinem Lehrbuch “Grundbegriffe der Wahrscheinlichkeitsrechnung” […]
> Der Kontext mathematischer Wahrscheinlichkeiten ist gemäß dieser Definition ein Wahrscheinlichkeitsraum, bestehend aus einer Menge, einer σ-Algebra von Teilmengen und einem Wahrscheinlichkeitsmaß. Die Mengen entsprechen Ereignissen in der Realwelt, die Punkte entsprechen Elementarereignissen, […]

Dieser Gebrauch des Wortes “Ereignis” ist offenbar spezifisch in der Wahrscheinlichkeitstheorie, und damit verschieden von, oder sogar inkompatibel mit, der Bedeutung dieses Wortes in der Alltagssprache oder in bestimmten anderen Wissenschaften. (Insbesondere besteht eine definierte Beziehung solcher “Ereignisse” zu (einzelnen, oder gewissen Mengen von) “Ergebnissen”; die offensichtlich durch ein Wort benannt sind, das in Alltagssprache und bestimmten anderen Wissenschaften ebenfalls Verwendung findet.)

Um (zumindest) die Definitions- und Argumentations- bzw. Beweis-Strukturen (Kalküle) der oben beschriebenen Wahrscheinlichkeitsrechnung dennoch auch für Lebens- bzw. Wissenschaftsbereiche zu erschließen, die die Worte “Ereignis” bzw. “Ergebnis” schon begrifflich belegt haben (wobei insbesondere zwischen deren “Ereignissen” und “Ergebnissen” nicht unbedingt eine entsprechende Beziehung besteht wie die genannte Beziehung zwischen “Ereignissen” der Wahrscheinlichkeitstheorie und “Ergebnissen” der Stochastik), um die betreffenden Kalkül-Anwendungen dafür überhaupt konsistent verbalisieren zu können, bietet es sich an, insbesondere das Wort “Ereignis” in der zitierten Formulierung je nach Anwendungsfall geeignet zu ersetzen (und diese Formulierung dadurch zu erläutern) — etwa:

Die Mengen eines Wahrscheinlichkeitsraumes entsprechen Krankheitsbildern, die Punkte einzelnen Befunden.

oder

Die Mengen eines Wahrscheinlichkeitsraumes entsprechen Teilmengen des Wertebereiches eines Messoperators, die Punkte einzelnen Messwerten.

oder

Die Mengen eines Wahrscheinlichkeitsraumes besagen z.B., welche Hände deines Gegenspielers dein Blatt schlagen würden, die Punkte entsprechen bestimmten einzelnen solchen Händen.
#4 Karl-Heinz
3. Juli 2020

Danke für den interessanten Artikel.
Wird aber einige Zeit benötigen, bis ich ihn durchgelesen und vollständig verstanden habe. 😉
#5 Fluffy
4. Juli 2020

#3
Anzahl der Zeichen mit Wiederholung: 2345
Anzahl der Zeichen ohne Wiederholung: 52
(Leerzeichen und Zeilenumbrüche zusammengefasst)

Dynamische Entropie : ……S = 4.39 (bit)
Maximal mögliche Entropie: S = 5.70 (bit)
#6 Frank Wappler
The Main Event, 2001
4. Juli 2020

Fluffy schrieb (#5, 4. Juli 2020):
> #3
> Anzahl der Zeichen mit Wiederholung: 2345
> Anzahl der Zeichen ohne Wiederholung: 52
> (Leerzeichen und Zeilenumbrüche zusammengefasst) […]

Fleißig, fleißig, Fluffy!

Kommentar #3 enthält allerdings u.a. ganze (sogar für manche Tools erkennbare) Zeichenketten, die auf dieser Webseite auch außerhalb von Kommentar #3 auftreten.
Und sogar ganze Zeichenketten, die außerhalb jedes Kommentars auf dieser Webseite auftreten.

Zähle doch (bitte) mal die Zeichen (mit bzw. ohne Wiederholung) auf dieser Webseite, die zu gar keinem Kommentar gehören!

p.s. —
(Entfällt. (It’s just too much … fluff …)).
#7 Theorema Magnum – Mathlog
26. August 2021

[…] Existenz unendlich vieler Geodätischer Der Ergodensatz Der Satz von Brauer-Hasse-Noether Das Fundamentallemma der mathematischen Statistik Pontrjagin-Dualität Der Satz von Tichonow Der Einbettungssatz von Whitney Der Satz von Winogradow […]