Vor kurzem hatten wir hier über Big Data diskutiert. Ein schönes, dazu passendes Buch ist „Die Berechnung der Zukunft“ von Nate Silver.

Nate Silver, amerikanischer Statistiker und Gründer des Prognosen-Blogs FiveThirtyEight, beschreibt darin, so der Untertitel des Buches, „warum die meisten Prognosen falsch sind und manche trotzdem zutreffen“. Dabei geht er auf Beispiele zur Vorhersage von Baseballleistungen, Wahlen, Wetter und Klima, Seuchen und Erdbeben ein. Nate Silver vertritt die Position, dass Big Data ohne gute Theorien nicht sehr erfolgreich sein wird. Auch das ist eine Prognose.

So interessant das Buch ist, etwas ratlos macht mich eine Grafik am Ende des Buches. Sie zeigt Ergebnisse des Google books Ngram Viewers:

Silver1

.
Es geht, so liest man im Text und in der Beschriftung der Kurven in der Grafik, um die Häufigkeit der Begriffe „vorhersagbar“ und „unvorhersehbar“ in google books. Warum eigentlich „vorhersagbar“, aber „unvorhersehbar“? Im Anhang des Buches ist der Suchalgorithmus für den Ngram Viewer dokumentiert: https://books.google.com/ngrams/graph?content=predictable%2Cunpredictable&year_start=1800
&year_end=2000&corpus=4&smoothing=3.

Demnach wurde also tatsächlich nach „unvorhersagbar“ gesucht. Nun gut, eine sprachliche Petitesse. Schon weniger unwichtig: Im Text ist die Rede davon, wie oft die Begriffe „in der englischen Belletristik“ vorkommen, in der Grafik wird dagegen von der Häufigkeit „in wissenschaftlichen Zeitschriften“ gesprochen. Nicht ganz dasselbe. Und wenn das Auge schon mal auf der Y-Achse ruht, fallen auch die für Ngram-Ergebnisse vergleichsweise hohen Prozentwerte auf. Der Ngram-Link funktioniert noch (man wird weitergeleitet) und führt zu diesem Bild:

Silver2

Es zeigt die bei Ngram auch bei Allerweltswörtern üblichen kleinen Prozentwerte. Ein Satzfehler im Buch? Oder habe ich im Kleingedruckten bei Ngram etwas überlesen? Noch seltsamer: Es sind ganz andere Kurven als im Buch. Die 100 ereignislosen Jahre von 1800 bis 1900 hat man im Buch zu Recht weggeschnitten. Woher die Jahre zwischen 2000 und 2010 im Buch kommen, weiß ich nicht, vielleicht eine Extrapolation des Ngram-Trends durch Silver. Aber was ich mich wirklich frage: der Rückgang der Kurven nach den 1920er Jahren („vorhersagbar“) bzw. nach den 1940er Jahren („unvorhersehbar“) – wo ist der geblieben? Diesen Rückgang interpretiert Nate Silver im Buch mit einer historisch einleuchtenden Erklärung, er sollte also auch wirklich existieren. Steht hinter der Grafik im Buch doch ein anderer Suchalgorithmus? Oder kann es sein, dass sich die Ergebnisse zwischen Juni 2013 (lt. Buch wurden da alle Links besucht) und heute so stark verändert haben? Oder gibt es noch andere Möglichkeiten, an die ich nicht gedacht habe?

Kommentare (18)

  1. #1 hugo
    18. November 2013

    Die “vorhersagbar“- und „unvorhersehbar”-Werte in der Buch-Grafik summieren sich ja anscheinend auf 100%. Da ist eine Deutung ziemlich offensichtlich…

  2. #2 Turi
    18. November 2013

    Kommt man vielleicht. von den Kurven in Abb. 2 auf die Kurven in Abb. 1, in dem man, statt die gesamte Literatur zu betrachten, nur Literatur betrachtet, in dem einer der Begriffe vorkommt?
    Dazu würde passen, das sich die Prozente beider Kurven in Abb. 1 immer (grob) zu 100% addieren.

    Allerdings passen auch dann beide Abbildungen nicht zusammen. So müssten sich nach Abb. 2 die Kurven bei ~1970 schneiden, in Abb. 1 schneiden sie sich schon ~1955. Dies lässt sich aber evt. mit unterschiedlichen Suchbegriffen (deutsch/englisch) erklären.

  3. #3 hugo
    18. November 2013

    Das https://imgur.com/npZsMU8 kommt raus, wenn man die Daten aus dem Ngram-Viewer jedes Jahr “normalisiert” (d.h. die Werte für die beiden Worte durch die Summe der Werte beider Worte dividiert).
    Mit ein bisschen mehr Glättung kommt es hin. Nur die Jahreszahlen passen irgendwie nicht ganz.

  4. #4 Joseph Kuhn
    18. November 2013

    @ Turi: Die Suchbegriffe in der zweiten Grafik sind natürlich auch englisch, siehe den dokumentierten Suchalgorithmus: Es ist der Algorithmus, der lt. Buch (Fußnote 19, Seite 643) für die Grafik auf Seite 551 verwendet wurde. Sucht man mit den deutschen Begriffen und im deutschen Buchcorpus, kommt ein ganz anderes Bild.

  5. #5 Turi
    18. November 2013

    @Joseph Kuhn: Ich bin eher von deutschen Suchbegriffen in Abb. 1 ausgegangen, wegen der Beschriftung und: “Demnach wurde also tatsächlich nach „unvorhersagbar“ gesucht. Nun gut, eine sprachliche Petitesse.”
    Aber ein erneutes Lesen des Texts stimme ich ihnen zu.

  6. #6 Joseph Kuhn
    18. November 2013

    @ Hugo: Danke, Sie haben mich damit auf die richtige Spur geführt: dass es vielleicht noch zusätzliche Erläuterungen in den Fußnoten gibt und ich habe die Absätze im Buch vor der Grafik noch einmal durchgesehen. Auf der Seite vorher steht ein Satz, der auf die beiden Suchbegriffe abhebt, und zwar “in wissenschaftlichen Zeitschriften” – mit einer Fußnote 15, die wie folgt lautet: “Die Daten von Abbildung Z-2 wurden mithilfe des JSTOR-Katalogs (Journal STORage, wwwjostor.org) für wissenschaftliche Zeitschriften ermittelt. Gesucht wurden Fälle, in denen entweder die Worte “predictable” oder “unpredictable” mindestens ein Mal in einem Zeitschriftenartikel vorkamen (aber nicht beide Wörter im selben Artikel). Die Ergebnisse sind nach dem Jahrzehnt ihrer Veröffentlichung sortiert. (…).”

    Demnach scheint im Buch etwas mit den Grafiken und den darauf bezogenen Erläuterungen und Fußnoten durcheinandergeraten zu sein und der Satz unter der Grafik auf Seite 551, der Grafik Z-2 als Ergebnis einer Nagram-Suche in der englischen Belletristik mit dem in Fußnote 19 dokumentierten Algorithmus ausweist, ist schlicht falsch. Vermutlich gab es im Manuskript eine Grafik Z-3 mit den Ergebnissen der Ngram-Suche in der Belletristik und irgendwer hat dann aus zwei Grafiken eine gemacht und die unterschiedlichen Erläuterungen auf diese eine Grafik bezogen. Hätte dem Lektor auffallen sollen.

    Rätsel gelöst. Danke.

  7. #7 hugo
    18. November 2013

    Und zu “Belletristik“ vs. “in wissenschaftlichen Zeitschriften”:
    (Ich habe nur die englische Ausgabe des Buches, kann sein dass das in der deutschen anders ist.)
    Silver schreibt zunächst, wie sich seiner Meinung nach die Verwendung der Worte “un/predictable” im Laufe des letzten Jahrhunderts in wissenschaftlichen Zeitschriften geändert hat und bringt dann die Graphik als Veranschaulichung. Als Quelle hierfür wird eine Suche in JSTOR genannt.
    Erst danach schreibt er, dass es in der Belletristik (“English-language fiction”) sehr ähnlich aussehe, was er durch den Ngram-Link belegt. Google Ngrams ist also gar nicht als Quelle für die Graphik gemeint. Dieser Unterschied könnte auch die Probleme mit den Jahreszahlen erklären.

    • #8 Joseph Kuhn
      18. November 2013

      … ja, genau, das ist auch der Gedankengang in der deutschen Ausgabe, nur wird da dann die Grafik Z-2 fälschlicherweise mit der Ngram-Suche verknüpft. Gibt es denn im englischen Orginal eine Grafik Z-3 mit den Ngram-Ergebnissen aus der Belletristik?

  8. #9 hugo
    18. November 2013

    Nein, da heißt es einfach:
    ‘These shifting attitudes have reverberated far beyond academic journals. If you drew the same chart based on the use of the words “predictable” and “unpredictable” in English-language fiction, it would look almost exactly the same as in figure C-2 [19]’, wobei Fußnote 19 die mit dem Ngram-Link ist.

    • #10 Joseph Kuhn
      18. November 2013

      … und daraus wurde in der deutschen Übersetzung: “Diese sich wandelnden Auffassungen haben auch über die wissenschaftlichen Publikationen hinaus ihren Widerhall gefunden. Ein Blick auf den Gebrauch der Bezeichnungen “vorhersagbar” und “unvorhersehbar” in der englischen Belletristik ergibt folgendes Bild: Abbildung Z-2. (19)”

      Damit hätten wir wohl, ganz im Sinne Silvers, erfolgreich Signal und Rauschen getrennt.

  9. #11 gsundi
    18. November 2013

    Die Verlage sparen. Lektorat gibt es oft gar nicht mehr.

  10. #12 werner
    18. November 2013

    Und wieder ein schönes Beispiel für die Wichtigkeit von Quellen im Original und nicht in der x-ten Übersetzung.

  11. #13 Dr. Webbaer
    19. November 2013

    Nach allem was Ihr Kommentatorenfreund über Nate Silber weiß, betreibt er Scharlatanerie, ohne aber so dumm zu sein bestimmte Datenquellen im Web nicht zu nutzen und sich so einen Webbewerbsvorteil bspw. gegenüber traditionellen politischen Prognostikern entgehen zu lassen (was man wissen muss, ist dass in den Wettbüros des Internets Prognosen gehandelt werden und sich so Geld verdienen lässt – ‘Money talks’, kennen Sie auch, gell, Herr Dr. Kuhn, und ja: das stimmt).

    Nate Silver vertritt die Position, dass Big Data ohne gute Theorien nicht sehr erfolgreich sein wird. Auch das ist eine Prognose.

    Theorien beschreiben, erklären und erlauben die Prognose, wobei nur eine Eigenschaft mandatorisch ist, wenn die Theorie leisten soll.
    Anders formuliert: Mit dem Hinweis, dass ‘das’ nur eine Prognose ist, werden Sie selbst schlapp.

    MFG
    Dr. W

  12. #14 Stefan W.
    https://demystifikation.wordpress.com
    21. November 2013

    Daraus etwas abzuleiten ist aber gewagt. Im Text kann ja stehen “not predictable” oder “not un~”.

  13. #15 Joseph Kuhn
    21. November 2013

    @ Dr, Webbär:

    “betreibt er Scharlatanerie”

    Und woher wissen Sie das? Haben Sie seine Prognosen überprüft?

    @ Stefan W.:

    “Daraus etwas abzuleiten ist aber gewagt.”

    Woraus etwas abzuleiten? Es ging hier lediglich um eine in der deutschen Übersetzung des Buches irritierende und zunächst unverständliche Verknüpfung von Text und Grafik. Das hat sich durch die Hinweise von “Turi” und “hugo” mit wenigen Suchbewegungen als schlichter Übersetzungs- und Lektoratsfehler aufklären lassen.

  14. #16 Dr. Webbaer
    21. November 2013

    “betreibt er [Nate Silver] Scharlatanerie” (Dr. Webbaer)

    Und woher wissen Sie das? Haben Sie seine Prognosen überprüft? (Dr. Kuhn)

    Der Schreiber dieser Zeilen konnte an Hand von Interviews zu diesem Schluss gelangen. Sischer, diese Nachricht ist schwach substantiiert, aber manchmal genügt auch ein kurzer Blick.

    Sie scheinen ja selbst ein paar mögliche Blender erkannt zu haben, Ihr Kommentatorenfreund hat N. Silver schon lange weggelegt (nachdem klar war, dass er Wettbüros des Internets abfragte und so zu besseren Daten und Schlussfolgerungen kam als der klassisch bemühte Demoskop).

    Eine grundsätzlich umwälzende Vorgehensweise ergibt sich so aber nicht – wenn Sie diesen Kollegen zukünftig grillen wollen [1], stände Dr. W womöglich bereit.

    MFG
    Dr. W

    [1] Vermutung: Ist anderswo schon im Besten geschehen.

  15. […] nicht ganz fehlerfrei ins Deutsche übersetzte Buch hier auf Gesundheits-Check vor einiger Zeit in der Diskussion war, sehr am […]

  16. […] Taleb: Der Schwarze Schwan. Die Macht höchst unwahrscheinlicher Ereignisse. München 2008. 2. Nate Silver: Die Berechnung der Zukunft. Warum die meisten Prognosen falsch sind und manche trotzdem zutreffen. München […]