Der Fieldsmedaillenbetrug

Von Thilo / 30. August 2014 / 15 Kommentare

Einen veritablen Skandal hat Gowers’s Weblog aufgedeckt: von den vierzehn seit 2000 gekürten Trägern der Fieldsmedaille gehören sieben zur selben Gruppe, nämlich zur Gruppe der Menschen, deren Vor- und Nachname mit demselben Buchstaben beginnt. (Es handelt sich um Laurent Lafforgue, Vladimir Voevodsky, Terence Tao, Wendelin Werner, Stanislav Smirnov, Artur Avila und Maryam Mirzakhani.) Unbestätigten Berichten zufolge sollen vor Beginn des ICM Millionen von Dollar bei chinesischen Wettanbietern auf ebendiesen Ausgang gesetzt worden sein 🙂

Versuchen wir einmal zu berechnen, wie unwahrscheinlich das zufällige Eintreten eines solchen Ereignisses ist. Die Wahrscheinlichkeit für übereinstimmende Anfangsbuchstaben bei Vor- und Nachnamen ist in erster Näherung 1/26, also 3,85 %. In Wirklichkeit ist sie etwas größer, weil nicht alle Buchstaben gleich wahrscheinlich sind. Wenn wir einmal die Buchstabenhäufigkeit der englischen Sprache zugrundelegen (eigentlich müßte man ja die jeweiligen Muttersprachen verwenden, bzw. deren Transkriptionen ins Englische, und eigentlich müßte man nur die Häufigkeit der Anfangsbuchstaben berücksichtigen und auch nur die bei Eigennamen, möglichst noch getrennt nach Vor- und Nachnamen), dann ergibt sich die Wahrscheinlichkeit
,
wobei p₁,…,p₂₆ die relative Häufigkeiten der 26 Buchstaben sind, und mit den Werten aus der Tabelle berechnet man
,
also immerhin eine Wahrscheinlichkeit von 6,55 % für übereinstimmende Anfangsbuchstaben.

Wie wahrscheinlich ist nun ein Ergebnis von 50%? Man kann das “Auswürfeln der Übereinstimmung der Anfangsbuchstaben” (nicht zu verwechseln mit dem Auswürfeln der Anfangsbuchstaben) als Werfen eines Würfels ansehen, von dessen Seiten 6,55% mit derselben Farbe versehen sind. (Sagen wir: ein Würfel mit 10000 Seiten, von denen 655 weiß und die restlichen 9345 Seiten Schwarz gefärbt sind.) Das Auswürfeln wird dann durch eine diskrete Gleichverteilung beschrieben und deren Standardabweichung berechnet sich nach einer bekannten Formel, in unserem Fall erhält man einfach
.

Aus dem Wikipedia-Artikel zur Normalverteilung lernen wir:
* Im Intervall der Abweichung vom Mittelwert sind 68,27 % aller Messwerte zu finden,
* Im Intervall der Abweichung vom Mittelwert sind 95,45 % aller Messwerte zu finden,
* Im Intervall der Abweichung vom Mittelwert sind 99,73 % aller Messwerte zu finden.
Für das “Auswürfeln der Übereinstimmung der Anfangsbuchstaben” heißt das: in 68,27% der “Würfe” wird man einen Anteil übereinstimmender Anfangsbuchstaben an der Gesamtmenge im Intervall [0.0043,0.1267] haben. In 95,45% der “Würfe” hat man einen Anteil im Intervall [0,0.1888] und in 99,73% der “Würfe” einen Anteil im Intervall [0,0.25].

Heißt: selbst die Wahrscheinlichkeit für einen 25-Prozent-Anteil der Gleichbuchstabigen unter den Preisträgern liegt nur bei 0,27%. Die Chance für einen 50-Prozent-Anteil sollte man besser gar nicht erst auszurechnen versuchen, sie wird jenseits jeder Wahrscheinlichkeit liegen.

Ich versuche es trotzdem mal, zum Glück gibt es Tabellen für die Wahrscheinlichkeit von Konfidenzintervallen.

Die Abweichung 0.5-0.0655=0.4345 ist das 6,63-fache der Standardabweichung und die Wahrscheinlichkeit für einen Wert außerhalb dieses Konfidenzintervalls beträgt weniger als 0,000 000 01%, also nicht einmal 1 zu 10 Milliarden. Man hat also eine Wahrscheinlichkeit von weniger als 1 zu 10 Milliarden dafür, dass die Hälfte (oder mehr) der Mitglieder einer Gruppe zu den Gleichbuchstabigen gehören. Es kann sich folglich nur um Betrug handeln oder um einen schwer erklärbaren Bias des Fieldsmedaillen-Komitees 🙂

Nachtrag: mein Ansatz mit der Normalverteilung für das “Auswürfeln der Übereinstimmung der Anfangsbuchstaben” war wohl doch nicht so gut, bei Gowers kommt man jetzt auf eine Wahrscheinlichkeit von etwa 1 zu 10000. (Immer noch sehr verdächtig.)

Kommentare (15)

#1 rolak
30. August 2014

Hab ich doch sowas geahnt – das erklärt nun endlich und unzweifelhaft, warum mir diese Ehre trotz der überragenden Fähigkeiten beim Erbsenzählen unverschämterweise verweigert worden ist.
Mathemafia…
#2 Philipp
30. August 2014

Die Wahl des Vornamens durch die Eltern ist (abgesehen von der Verteilung der verfügbaren Namen) sicherlich alles andere als gleichverteilt.

Vielleicht haben “Nerd-Eltern”, die ihre Kinder besonders in Richtung der Mathematik/Naturwissenschaften fördern, auch ein deutlich höheres Faible für alliterierende Initialen…
#3 Peter
30. August 2014

Wer würfelt die Vornamen seines Kindes aus? Aliterationen klingen gut.
#4 Peter
30. August 2014

https://www.urbia.de/archiv/forum/th-4316000/alliterationen-beim-namen-wie-steht-ihr-dazu.html
#5 Hobbes
30. August 2014

Eine recht witzige Zahlenspielerei.

Aber ich bin mit den 6,5% auch nicht ganz einverstanden. Die Häufigkeit der Buchstaben ist ja nicht die Selbe wie die der Anfangsbuchstaben bei Namen.
Ich kenne außerdem Eltern die so ein schaden haben das sie Ihrem Sohn 4 Vornamen mit alle den selben Anfangsbuchstaben gegeben haben. Noch schlimmer hat es einen Peter getroffen dessen Zweitname mit e Drittname mit t, Viertname wieder mit e und Nachname mit R beginnt.
Ich kann verstehen wenn diese Kinder ihre Mathehausaufgaben einem Familiennachmittag vorziehen.
#6 kereng
Hamburg
30. August 2014

Dieselbe Alliteraten-Verschwörung veranstaltet offenbar die Vortragsreihe “Skeptics in the Pub” in Hamburg, die mit Patrick Pricken und Holm Hümmler begann, was ja weit über dieselben Anfangsbuchstaben bei Vor- und Nachnamen hinausgeht.
#7 Whit3N0ise
31. August 2014

Nachdem ich die üblichen Abstract-Services der Mathematiker nicht kenne, hab ich einfach das erstbeste genommen, daß Google ausgespuckt hat (zbmath.org). Von 651688 Autorennamen waren 640805 direkt brauchbar, die übrigen musste ich wegen unpassender Formatierung bzw Codierung verwerfen. Rausgekommnen ist das hier:
https://oi58.tinypic.com/1624ln9.jpg
#8 Whit3N0ise
31. August 2014

Hoppla, ich hab grad bemerkt, dass die Achsenbeschriftungen verkehrt rum sind, Nachname ist auf X, Vorname auf der Y-Achse.
#9 RG
Ingolstadt
31. August 2014

Da ist doch nicht die berechnete Wahrscheinlichkeit relevant, sondern die in der Bevölkerung beobachtete. Eltern suchen Vornamen auch nach dem Klang aus.

Übrigens kommen mir Namen wie Marietta Slomka, Claus Kleber, Gundula Gausa gekünstelt vor. Aber die heißen wohl wirklich so.
#10 Thilo
31. August 2014

Auch wenn manche hier das Gegenteil behaupten glaube ich nicht, dass Alliterationen bei Namen besonders häufig sind. In meiner Schulklasse zum Beispiel gab es niemanden, bei dem die Anfangsbuchstaben des Vor-und Nachnamens übereinstimmten, in meinem Institut sind es 3 von 56 Mitarbeitern, aus meinen früheren Arbeitsgruppen in Deutschland fällt mir auch niemand ein. Und vor dem Jahr 2000 waren es 3 von 42 Preisträgern der Fieldsmedaille, die übereinstimmende Anfangsbuchstaben im Namen hatten (Kodaira, Smale und Hironaka).
#11 Stefan Wagner
https://demystifikation.wordpress.com/2014/08/31/freiheit-statt-angst-fsa14-teil-ii/
1. September 2014

Hat man keine Liste von Kandidaten? Mir scheint das die beste Grundgesamtheit, auch wenn Alliterationen in Gesamtbevölkerungen eine gewisse Näherung darstellen.

Frühere Preisträger könnten aderen Moden unterlegen haben. Auch könnten sich Nationen, die im Fach aufschließen, ändern, und je nach Nation können Namensverteilungen sehr unterschiedlich sein und Alliterationsmoden ebenfalls.

Daneben sollte man die Preisträgerliste mit anderen Preisträgern vergleichen, um zu sehen, ob vieleicht Jurys generell zur Allitertaionsdiskriminierung neigen.
#12 AndreasMa
1. September 2014

Wenn man hier Wahrscheinlichkeiten berechnet, darf man nicht vergessen, dass “Fieldsmedaillenträger seit 2000” eine Selektion ist und auch das Muster “Gleicher Anfangsbuchstabe Vor-/Nachname”. Man hätte stattdessen andere Preise oder andere Zeiträume oder andere Muster wählen können und hat diese Entscheidung wahrscheinlich erst nach Anschauen der Datenreihen getroffen.
Wie groß ist die Wahrscheinlichkeit, in den potentiell betrachteten Daten keine aus menschlicher Sicht mit Bias behaftet erscheinenden Muster zu finden?
#13 Whit3N0ise
1. September 2014

Schnitt der alliterativen Initialen aus dem selben Sample wie oben: https://i58.tinypic.com/k1fajl.png

Der integrale Anteil am Sample ist 6.32% und damit für mich nah genug um 6.55% als Abschätzung zu akzeptieren.
#14 crazyx
9. September 2014

Also – mit der Normalverteilung zu arbeiten funktioniert bei Namen aber mal GAR nicht.
Im Deutschen beispielweise machen E N I A T D über 50% aller Buchstaben aus – aber nur 21 der 100 häufigsten Vor- und nur 6 (!) der 100 häufigsten Nachnamen beginnen mit diesen Buchstaben.
Die Buchstaben H K M S W machen 18% aller Buchstaben aus, aber 33 der 100 häufigsten Vornamen und ganze 58 (!) der 100 häufigsten Nachnamen beginnen mit einem dieser 5 Buchstaben.
Machen Vokale in der deutschen Sprache fast 40% aller Buchstaben aus, findet man sie bei den gerade 18 der 100 häufigsten Namen und läppischen 4 der 100 häufigsten Nachnamen.
(ich habe übrigens darauf verzichtet, die Namen auch noch zu gewichten – von “Peter” auf Platz 1 gibt es auch noch 11mal so viele wie von “Ingo” auf Platz 100…)

Da aber Namen halt eben NICHT zufällig verteilt, sondern gezielt ausgesucht werden, bräuchte man da tatsächlich noch ganz andere Daten.
Laut einer (nicht repräsentativen) Umfrage auf Eltern.de sind 70% der Teilnehmer Alliterationen bei Namen grundsätzlich aufgeschlossen.
Insgesamt findet man zu diesem Thema aber (zumindest mal auf rasch) echt nicht allzu viel im Netz…
#15 Harleaquin
24. Oktober 2014

Interessant.
Um mal einen Verleich zu haben, habe ich mir mal 81764 Patientennamen aus unserer Datenbank angesehen. Hier das Ergebnis:

{A: 133, B: 324, C: 32, D: 67, E: 192, F: 72, G: 295, H: 756, I: 10, J: 58, K: 442, L: 79, M: 612, N: 22, O: 6, P: 73, Q: 0, R: 378, S: 557, T: 29, U: 10, V: 10, W: 265, X: 0, Y: 0, Z: 3 }

Summe: 4425
bei 81764 Namen => ca. 5.4% alle Patienten haben gleichen Anfangsbuchstaben bei Vor- und Nachname.