Titelbild

Die Mordrate in Derry ist sechsmal so hoch wie in jeder anderen Stadt Neuenglands vergleichbarer Größe… Pro Jahr verschwinden durchschnittlich 40 bis 60 Kinder, die nie gefunden werden. Bei den meisten handelt es sich um Teenager, und die offizielle Version lautet, dass sie von zu Hause weglaufen. Vielleicht sind einige Ausreißer darunter. Einige…”

Die Neuverfilmung von Stephen Kings Klassiker ES rettet dieses Jahr im Alleingang den Kinosommer, und hat auch bei uns Autoren einen bleibenden Eindruck hinterlassen. Da im Film und im Buch sehr genaue Daten zu den Morden angegeben werden, wollen wir schauen, ob sie statistischen Untersuchungen standhalten.

Durch seine akribischen Recherchen in der Stadtbibliothek findet Ben Hanscom (im Buch ist es Mike Hanlon) heraus, dass es in Derry eine ungewöhnlich hohe Mordrate mit 40-60 Morden pro Jahr gibt. Besonders heraus stechen allerdings bestimmte Mordraten, die sich in einem etwa 27-jährigen Zyklus wiederholen zu scheinen. Dabei ermittelt Ben die folgenden Daten:

Tabelle

Später erzählen die Kinder sich gegenseitig von den seltsamen Begegnungen, bei denen ihnen ein Grauen, oft in der Form eines Clowns, begegnet ist und sie angegriffen hat. Die Kinder vermuten daraufhin, dass es einen Zusammenhang zwischen den Morden und diesem Clown gibt. Da Ben die Mordraten von 1900 bis 1984 gesammelt hat, (der Bericht über die Mordraten aus Derry wurde im Buch 1985 tatsächlich verfasst und wird auch im neuen Film erwähnt) kann er die folgende Grafik erstellen:

Grafik

Verschwundene Kinder in Derry von 1900 bis 1984. Die roten Ballons geben die Daten in den Jahren 1906, 1930 und 1958 an.

Auf den ersten Blick sieht es sehr eindeutig aus, dass die drei Jahre 1906, 1930 und 1958 wirklich besonders sind und im Zusammenhang mit dem seltsamen Clown stehen könnten. Aber wie können die Kinder sich wirklich sicher sein??? Das Argument “Das sieht man doch” ist ungefähr so überzeugend wie: “Vegetarier sind doof. Die essen meinem Essen das Essen weg”. Die Anzahl der Morde schwankt ja in jedem Jahr und es könnte durchaus sein, dass die Zahlen in den entsprechenden Jahren zur normalen Fluktuation gehören und man gar keinen Clown braucht um das zu erklären (das würde Buch und Film allerdings etwas Spannung nehmen).

Glücklicherweise bietet die Statistik Abhilfe. Man kann nämlich testen ob die Werte, die Ben gefunden hat, eine bestimmte Bedeutung haben oder einfach Teil der normalen jährlichen Mordrate sind. Bei einem Hypothesentest stellt man eine Hypothese auf (z.B.: ein Clown tötet etwa alle 27 Jahre Kinder) und überprüft dann ob diese wahr oder falsch ist. Es gibt zwar eine ganze Reihe verschiedener Hypothesentest, aber alle folgen einem recht einfachen Schema: Man berechnet aus den gesammelten Daten eine einzige Zahl, die sogenannte Teststatistik (rechnen wir unten vor). überschreitet die Teststatistik eine kritische Grenze, fällt der Test zu Gunsten der Hypothese aus. Doch wie legt man diese kritische Grenze fest? Statistische Tests sind nie zu 100 Prozent sicher, es kann also immer passieren, dass der Test zu einem falschen Ergebnis führt und man eine Hypothese annimmt, die eigentlich falsch ist. Das wäre im Fall eines mordenden Clowns, der die Kinder jagt, allerdings nicht sehr vorteilhaft… Diese Unsicherheit wird auch α-Fehler genannt. Oft nimmt man für einen solchen Fehler 5% oder sogar noch kleinere Werte an. Das heißt, dass der Test in 5 von 100 Fällen ein falsches Ergebnis liefert. Warum man sich auf 5% geeinigt hat, ist etwas komplizierter zu erklären, aber mit der Zahl kann man auch glücklich werden, wenn man nur weiß, dass es diesen Fehler gibt.

Die Suche nach einem geeigneten Test ist schon eine Herausforderung für sich. Man muss aufpassen, dass man genau weiß, was man eigentlich testen möchte. In diesem Fall wollen wir wissen, ob es einen mordenden Clown gibt, der alle 27 Jahre Kinder tötet. Dafür müssen die drei Jahre 1906, 1930 und 1958 aus der normalen Mordrate hervorstechen, dass es sich also um Ausreißer handelt. Wir brauchen einen speziellen Ausreißertest, der genau das untersucht, aber die meisten davon sind nur zur Identifizierung eines einzelnen Ausreißers konzipiert worden. Ein Test, der auch mehrere Ausreißer auf einmal erkennen kann, wurde von Bernard Rosner entwickelt (Rosner 1975, 1983). Hier führt man sukzessive so viele Tests durch, wie man Ausreißer im Datensatz vermutet, in unserem Fall also drei. Man startet mit dem schwächsten dieser potentiellen Ausreißer (88 gestorbene Kinder in 1958). Als Teststatistik berechnet man die Differenz zwischen diesem Ausreißer (88) und dem Mittelwert aller Daten ohne die zwei größeren Ausreißer (50,6), also:

88 – 50,6 = 37,4

Diese Differenz ist schon ein gutes Maß für die Abweichung der Ausreißer von den restlichen Daten. Allerdings ist es nur eine Zahl mit der man noch nicht so viel anfangen kann. Man muss noch berücksichtigen, dass die Mordrate schwankt, bzw. wie stark sie schwankt. Um dies zu berücksichtigen, wird die Teststatistik (37,4) noch standardisiert, d.h. man teilt sie durch einen Wert, der angibt, wie stark die Daten um den Mittelwert schwanken. Genau das macht die Standardabweichung der gesammelten Daten (wobei auch hier wieder ohne die beiden größten möglichen Ausreißer gerechnet werden muss). In unserem Fall ist die Standardabweichung 5,7. Man erhält insgesamt als Teststatistik also den Wert:

Formel

Die kritische Grenze für diese Teststatistik bei einem α-Fehler von 5% kann man nun in einer Tabelle nachschauen. Sie beträgt 3,2. Da 6,6 > 3,2 ist, bestätigt der Test schon für den kleinsten Ausreißer unsere Hypothese. Daher wissen wir, dass es sich um drei Ausreißer handelt.

Ben Hanscom hat also recht und irgendetwas stimmt nicht. Durch ihre Erlebnisse mit dem Clown ist die Schlussfolgerung die sie ziehen durchaus gerechtfertigt. Wäre das Testergebnis hier kleiner als 3,2 gewesen, hätte man als nächstes den Test nur für die zwei stärksten Ausreißer wiederholt und letztendlich nur für den Stärksten. Wäre keiner der drei errechneten Werte der Teststatistik größer als 3,2, würde die hohen Mordraten in diesen Jahren zur normalen Fluktuation gehören und der Clown als Ursache wird überflüssig.

Es war der 25. Juli 1958, an dem der Klub der Verlierer Es schließlich zu einem Nahkampf herausforderte, an dem Es sich aus Bens Eingeweiden fast Sockenhalter hätte machen können. Es war ein heißer, brütend schwüler Tag. Ben erinnerte sich noch genau an das Wetter, weil es der letzte Tag der Hitzewelle gewesen war. Danach war es lange regnerisch und kühl.” 

 

Text von Samir und Dirk

Quellen:

[1] Stephen King »es« ,Heyne Bücher 1990, 2. Auflage

[2] Rosner, B. (1975). On the Detection of Many Outliers. Technometrics 17(2): 221-227.

[3] Rosner, B. (1983). Percentage Points for a Generalized ESD Many-Outlier Procedure. Technometrics 25(2): 165-172.

Kommentare (2)

  1. #1 Dr. Webbaer
    5. November 2017

    Howdy, Samir!

    Hierzu :

    Oft nimmt man für einen solchen Fehler 5% oder sogar noch kleinere Werte an. Das heißt, dass der Test in 5 von 100 Fällen ein falsches Ergebnis liefert. Warum man sich auf 5% geeinigt hat, ist etwas komplizierter zu erklären, aber mit der Zahl kann man auch glücklich werden, wenn man nur weiß, dass es diesen Fehler gibt.

    Die sogenannte Statistische Signifikanz geht so :
    -> https://de.wikipedia.org/wiki/Statistische_Signifikanz (das Fachwort hier : Signifikanzniveau)

    Die Naturwissenschaft, auch derart interessierte Wirtschaft, arbeitet “eher” auf der sogenannten Sigma-Schiene, vergleiche :
    -> https://de.wikipedia.org/wiki/Six_Sigma

    …die mit größeren Datenproben so ‘glücklich’ wird, sogar : noch “glücklicher”.
    Anderes ‘Signifikanzniveau’ meinend.

    “Warum man sich auf 5% geeinigt hat”, sozialwissenschaflich, ist gänzlich klar, weil ansonsten die Kosten der Erfassung deren Nutzen nicht mehr entsprechen könnten.

    Wirtschaftlichkeitsüberlegungen liegen zugrunde, Sozialwissenschaft ist insofern auch, qua Erfassung der Menge, weich, denn :

    ..die Naturforscher arbeiten insofern sozusagen auf deutlich höherem statistisch signifikanten Niveau,

    MFG
    Dr. Webbaer

  2. #2 anderer Michael
    6. November 2017

    Gut erklärt, habe ich sogar verstanden, glaube ich wenigstens.( Stehe mit Mathematik auf dem Kriegsfuß)
    Danke :-)
    Aber rein theoretisch gedacht. Statistik ist doch nur nützlich ,um Korrelationen (Zusammenhänge) nach festgelegten Definitionen darzustellen oder abzulehnen.
    Der nächste Schritt wäre die Kausalität (Ursächlichkeit) zu erklären, und das ist wiederum Interpretation.
    Aber ich vermute, ich bin jetzt auf dem falschen Weg. Hat dieser Test etwas mit Korrelation und Kausalität zu tun?
    Letztlich sagt er aus, die Morde sind keine Fluktuation. Ob mehrere Mörder oder ein einziger verantwortlich sind, ist nicht damit zu bestimmen. Nur kriminologische Erfahrung ( das postuliere ich jetzt einfach mal) und Wissen lassen den Schluss zu, dass ein Serienmörder verantwortlich sein könnte.