Das Gesetz der großen Zahlen ist ein empirisches Naturgesetz: relative Häufigkeiten stabilisieren sich mit wachsender Zahl von Versuchen.
Mathematisch kann man das auf verschiedene Weise formalisieren. Man hat eine Folge von Zufallsvariablen Xn mit Erwartungswerten E(Xn) und betrachtet die zentrierten Mittelwerte . Eine mögliche Formulierung ist das schwache Gesetz der großen Zahlen: für jedes positive ε verschwindet die Wahrscheinlichkeit
. (Man spricht von „Konvergenz in Wahrscheinlichkeit“.) Eine andere Formulierung ist das starke Gesetz der großen Zahlen
. (Man spricht von „fast sicherer Konvergenz“.) Wie die Namensgebung nahelegt, folgt das schwache aus dem starken Gesetz der großen Zahlen.
Für Bernoulli-Prozesse (Zufallsvariablen Xn, die jeweils mit Wahrscheinlichkeit p den Wert 1 und mit Wahrscheinlichkeit 1-p den Wert 0 annehmen) hatte schon Jakob I Bernoulli das schwache Gesetz der großen Zahlen formuliert und mathematisch bewiesen: hier ist der Erwartungswert p und die mittlere Abweichung „konvergiert in Wahrscheinlichkeit“ gegen Null.
Im 19. Jahrhundert bewies Pafnuti Tschebyscheff die nach ihm benannte Ungleichung, aus der das schwache Gesetz der großen Zahlen allgemein für unabhängig identisch verteilte Zufallsvariablen (mit endlichem Erwartungswert und endlicher Varianz) folgt.
Émile Borel befaßte sich 1909 mit der Frage, ob die Ziffern einer zufällig gewählten reellen Zahl gleichverteilt sind. Diese zahlentheoretische Frage untersuchte er mit einem wahrscheinlichkeitstheoretischen (oder aus damaliger Sicht maßtheoretischen, denn eine Axiomatik der Wahrscheinlichkeit unendlicher Mengen hatte man noch nicht) Ansatz. In heutiger Sprache modellierte er das Vorkommen einer bestimmten Ziffer durch eine Zufallsvariable Xn, die für jedes n mit Wahrscheinlichkeit 1/10 den Wert 1 und mit Wahrscheinlichkeit 9/10 den Wert 0 annimmt.
Der Erwartungswert dieser Zufallsvariablen ist natürlich 1/10. Man erwartet dann, dass sich die relative Häufigkeit der Ziffer 1 bei zunehmender Ziffernzahl bei 1/10 stabilisiert. Das schwache Gesetz der großen Zahlen beantwortet aber noch nicht die Frage, ob die Ziffern einer reellen Zahlen mit Wahrscheinlichkeit 1 jeweils mit Häufigkeit 1/10 vorkommen. Dafür benötigte Borel das starke Gesetz der großen Zahlen, das er für dieses Problem erstmals formulierte und für Bernoulli-verteilte Zufallsvariablen bewies.
Borel bewies dieses Gesetz als Anwendung des später als Borel-Cantelli-Lemma bezeichneten 0-1-Gesetzes: für eine Folge unabhängiger Ereignisse An ist die Wahrscheinlichkeit, dass An unendlich oft eintritt, Null oder Eins, je nachdem, ob die Summe der P(An) konvergiert und divergiert. (Wenn die An alle identisch verteilt sind, dann folgt aus P(An)>0 natürlich Divergenz der Reihe und das Ereignis muß unendlich oft eintreten. Das wird gerne damit veranschaulicht, dass ein Affe, der unendlich lange, zufällig auf einer Schreibmaschine tippt, irgendwann alle Bücher in der Nationalbibliothek Frankreichs getippt haben wird.)
Im Beispiel, dass das Ereignis An das Vorkommen einer bestimmten Ziffer an der n-ten Nachkommastelle einer zufälligen reellen Zahl aus dem Interall [0,1] ist, gilt P(An)=1/10 und diese konstante Reihe divergiert natürlich. Das Borel-Cantelli-Lemma gibt also zunächst, dass diese Ziffer mit Wahrscheinlichkeit 1 unendlich oft vorkommt. Mit Hilfe geeigneter Abschätzungen folgt aus dem Borel-Cantelli-Lemma aber sogar das starke Gesetz der großen Zahlen, also die Gleichverteilung der Ziffern mit Wahrscheinlichkeit 1.
Wahrscheinlichkeiten von Ereignissen mit unendlich vielen Möglichkeiten waren zu jener Zeit noch nicht definiert, aber hier ging es ja um das Maß einer Zahlenmenge (einer Teilmenge des Intervalls [0,1]), also ein per se maßtheoretisches Problem. Die Wahrscheinlichkeit, dass An unendlich oft 1 ist, läßt sich formulieren durch . Die Wahrscheinlichkeit, dass nur endlich viele 1 vorkommen, entsprechend durch
.
Für Borels zahlentheoretisches Problem benötigt man die schwerere Richtung des Borel-Cantelli-Lemmas: aus Divergenz der Reihe folgt . Diese Richtung bewies Borel, indem er die Bernoulli-Verteilung durch die Normal-Approximation annäherte bzw. mit dieser Approximation rechnete, als ob sie die exakte Verteilung wäre. Mit dieser Approximation begründete er dann
, wobei er aber noch Beweise wichtiger Zwischenschritte ausließ. Einen mathematisch vollständigen Beweis gab erst einige Jahre später Felix Hausdorff im Schlußkapitel seines Hauptwerks „Grundzüge der Mengenlehre“. Sein Beweis war eine Ausarbeitung von Borels Ansatz, heutige Beweise benutzen nicht die Normal-Approximation, sondern die Ungleichung
. Aus der Divergenz der Reihe folgt
für jedes m und damit also auch
, äquivalent
für jedes m, mithin
. Hausdorff machte im Schlußkapitel seines Buches auch eine kurze Bemerkung über die Bedeutung der Maßtheorie für die Wahrscheinlichkeitsrechnung, wie sie dann zwanzig Jahre später von Andrei Kolmogorow als Axiomensystem formuliert wurde. Er gab auch eine explizite Abschätzung für die Konvergenzgeschwindigkeit, diese wurde dann noch von Hardy-Littlewood verbessert.
Die andere Richtung des Borel-Cantelli-Lemmas wurde erst später von Cantelli bewiesen, hat aber einen sehr elementaren (implizit schon bei Hausdorff vorkommenden) Beweis: wenn die Summe der P(An) gegen einen endlichen Wert konvergiert, dann ist und damit erst recht
.
Aus Borels starkem Gesetz folgt natürlich auch noch einmal das schon von Bernoulli bewiesene schwache Gesetz der großen Zahlen für Bernoulli-Verteilungen. Für die allgemeine Version des von Tschebyscheff als Folgerung aus dem zentralen Grenzwertsatz - also im Wesentlichen der Tschebyscheff-Ungleichung - bewiesene schwache Gesetz der großen Zahlen, kannte man damals schon verschiedene hinreichende Bedingungen, die aber alle die Unabhängigkeit der Zufallsvariablen An benötigten.
In Rußland war die Frage nach notwendigen Voraussetzungen im Gesetz der großen Zahlen in diesen Jahren ein Thema grundsätzlicher Auseinandersetzungen zwischen Moskauer und Petersburger Mathematikern. Moskauer Mathematiker meinten, dass die Stabilisierung von relativen Häufigkeiten beispielsweise in der Kriminalstatistik beweise, dass die zugrundeliegenden Entscheidungen aus freiem Willen und unabhängig voneinander getroffen wurden. Diesen „freien Willen“, den sie mit der Unabhängigkeit zufälliger Erscheinungen gleichsetzten, sahen sie als als eine conditio sine qua non für statististische Gesetze des Alltagslebens an. Pawel Nekrasow versuchte in zwei Arbeiten die Unabhängigkeit der Zufallsgrößen als notwendige Bedingung für das schwache Gesetz der großen Zahlen zu begründen. Tschebyscheffs ehemaliger Schüler A. A. Markov in St. Petersburg widersprach vehement. Er fand in diesem Zusammenhang die später nach ihm benannten Markov-Ketten: Folgen von Zufallsvariablen, die nicht voneinander unabhängig sind, aber trotzdem dem schwachen Gesetz der großen Zahlen genügen. Damit bewies er, dass Unabhängigkeit der Variablen keine notwendige Bedingung für das Gesetz der großen Zahlen ist. Um dies auch empirisch zu untermauern, zählte Markov in aufwendiger Arbeit die Buchstabensequenzen in Werken der russischen Literatur - das sollte noch einmal zeigen, dass das Gesetz der großen Zahlen auch für abhängige Zufallsvariablen gelten kann.
Bild: https://commons.wikimedia.org/wiki/File:Emile_Borel-1932.jpg
Kommentare (4)