Einen veritablen Skandal hat Gowers’s Weblog aufgedeckt: von den vierzehn seit 2000 gekürten Trägern der Fieldsmedaille gehören sieben zur selben Gruppe, nämlich zur Gruppe der Menschen, deren Vor- und Nachname mit demselben Buchstaben beginnt. (Es handelt sich um Laurent Lafforgue, Vladimir Voevodsky, Terence Tao, Wendelin Werner, Stanislav Smirnov, Artur Avila und Maryam Mirzakhani.) Unbestätigten Berichten zufolge sollen vor Beginn des ICM Millionen von Dollar bei chinesischen Wettanbietern auf ebendiesen Ausgang gesetzt worden sein 🙂
Versuchen wir einmal zu berechnen, wie unwahrscheinlich das zufällige Eintreten eines solchen Ereignisses ist. Die Wahrscheinlichkeit für übereinstimmende Anfangsbuchstaben bei Vor- und Nachnamen ist in erster Näherung 1/26, also 3,85 %. In Wirklichkeit ist sie etwas größer, weil nicht alle Buchstaben gleich wahrscheinlich sind. Wenn wir einmal die Buchstabenhäufigkeit der englischen Sprache zugrundelegen (eigentlich müßte man ja die jeweiligen Muttersprachen verwenden, bzw. deren Transkriptionen ins Englische, und eigentlich müßte man nur die Häufigkeit der Anfangsbuchstaben berücksichtigen und auch nur die bei Eigennamen, möglichst noch getrennt nach Vor- und Nachnamen), dann ergibt sich die Wahrscheinlichkeit
,
wobei p1,…,p26 die relative Häufigkeiten der 26 Buchstaben sind, und mit den Werten aus der Tabelle berechnet man
,
also immerhin eine Wahrscheinlichkeit von 6,55 % für übereinstimmende Anfangsbuchstaben.
Wie wahrscheinlich ist nun ein Ergebnis von 50%? Man kann das “Auswürfeln der Übereinstimmung der Anfangsbuchstaben” (nicht zu verwechseln mit dem Auswürfeln der Anfangsbuchstaben) als Werfen eines Würfels ansehen, von dessen Seiten 6,55% mit derselben Farbe versehen sind. (Sagen wir: ein Würfel mit 10000 Seiten, von denen 655 weiß und die restlichen 9345 Seiten Schwarz gefärbt sind.) Das Auswürfeln wird dann durch eine diskrete Gleichverteilung beschrieben und deren Standardabweichung berechnet sich nach einer bekannten Formel, in unserem Fall erhält man einfach
.
Aus dem Wikipedia-Artikel zur Normalverteilung lernen wir:
* Im Intervall der Abweichung vom Mittelwert sind 68,27 % aller Messwerte zu finden,
* Im Intervall der Abweichung vom Mittelwert sind 95,45 % aller Messwerte zu finden,
* Im Intervall der Abweichung vom Mittelwert sind 99,73 % aller Messwerte zu finden.
Für das “Auswürfeln der Übereinstimmung der Anfangsbuchstaben” heißt das: in 68,27% der “Würfe” wird man einen Anteil übereinstimmender Anfangsbuchstaben an der Gesamtmenge im Intervall [0.0043,0.1267] haben. In 95,45% der “Würfe” hat man einen Anteil im Intervall [0,0.1888] und in 99,73% der “Würfe” einen Anteil im Intervall [0,0.25].
Heißt: selbst die Wahrscheinlichkeit für einen 25-Prozent-Anteil der Gleichbuchstabigen unter den Preisträgern liegt nur bei 0,27%. Die Chance für einen 50-Prozent-Anteil sollte man besser gar nicht erst auszurechnen versuchen, sie wird jenseits jeder Wahrscheinlichkeit liegen.
Ich versuche es trotzdem mal, zum Glück gibt es Tabellen für die Wahrscheinlichkeit von Konfidenzintervallen.
Die Abweichung 0.5-0.0655=0.4345 ist das 6,63-fache der Standardabweichung und die Wahrscheinlichkeit für einen Wert außerhalb dieses Konfidenzintervalls beträgt weniger als 0,000 000 01%, also nicht einmal 1 zu 10 Milliarden. Man hat also eine Wahrscheinlichkeit von weniger als 1 zu 10 Milliarden dafür, dass die Hälfte (oder mehr) der Mitglieder einer Gruppe zu den Gleichbuchstabigen gehören. Es kann sich folglich nur um Betrug handeln oder um einen schwer erklärbaren Bias des Fieldsmedaillen-Komitees 🙂
Nachtrag: mein Ansatz mit der Normalverteilung für das “Auswürfeln der Übereinstimmung der Anfangsbuchstaben” war wohl doch nicht so gut, bei Gowers kommt man jetzt auf eine Wahrscheinlichkeit von etwa 1 zu 10000. (Immer noch sehr verdächtig.)
Kommentare (15)