“Der Umgang mit einer Riesenmenge komplexer Daten wurde zu einem bedeutenden wissenschaftlichen Problem. Wie konnte ein Wissenschaftler aus einem Berg verfügbarer Daten die Fakten herausholen und den ´richtigsten´ Wert einer Größe bestimmen?”

Dieser Satz stammt aus dem gerade erschienenen Buch “Die Theorie, die nicht sterben wollte”, das die Amerikanerin Sharon Bertsch McGrayne über eine statistische Regel – das Bayes-Theorem – geschrieben hat, die zwar schon längst nicht mehr weder aus der Wissenschaft noch aus der Gesellschaft wegzudenken ist, die aber die Soziologen trotzdem weder kennen noch verstehen (Springer-Spektrum, Heidelberg 2014). Das Bayes-Theorem, das aus dem 18. Jahrhundert stammt, drückt in atemberaubender Kürze und Präzision aus, wie Menschen durch Erfahrung klüger werden, aber darum soll es hier nicht gehen. Hier soll es um den französischen Mathematiker Pierre-Simon Laplace gehen, der dem Bayes-Theorem im ausgehenden 18. Jahrhundert seine praktikable Formulierung gegeben hat, und auf dem Weg zu diesem Ziel musste er sich mit der oben erwähnten Riesenmenge an komplexen Daten herumschlagen. Laplace wühlte sich durch Bestände von Bibliotheken mit vielen Tausend Bänden und bemerkte dabei, dass der Umgang mit Big Data “eine ganz neue Art von Denken erforderte”, wie McGrave schreibt. Herausgekommen ist ein Verständnis der Größe, die wir heute als “Wahrscheinlichkeit” kennen und als Fernsehzuschauer und Zeitungsleser banal einstufen. So wird nicht mehr reagieren, wer die Geschichte von Laplace kennt und bestaunt, wie es ihm gelungen ist, “die Wahrscheinlichkeiten von Ursachen und zukünftigen Ereignissen, abgeleitet aus vergangenen Ereignissen” zu ermitteln. Dabei konnte er unter anderem seine Mitmenschen beruhigen und zeigen, dass das Sonnensystem stabil ist und die Erde nicht vor ihrem Ende steht.

So schön das klingt, darauf kommt es hier nicht an, sondern auf die Tatsache, dass man Big Data anders begegnen kann als es im Feuilleton der FAZ oder sonst wo passiert, wie die Leute unter Führung von Frank Schirrmacher sich überfordert fühlen und nicht mehr mitkommen. Sie können nicht mehr alles lesen, wie sie meinen, ohne zu erfassen, dass dies spätestens bei Laplace im 18. Jahrhundert und wahrscheinlich (!) noch viel früher schon genau so war.  Jetzt will man Big Data zähmen, in dem man auf die zeigt, die sie produzieren. Besser wäre, Laplace zu folgen und wie im 18. Jahrhundert mit neuen Ideen die Datenmengen zu bändigen. Dazu benötigt es allerdings Geist! Doch wozu haben wir die vielen Tausende Geisteswissenschaftler denn, die sich im Feuilleton austoben? Wir brauchen keinen Geisterbeschwörung, sondern mehr Geist  in der Wissenschaft. Bitte.

Kommentare (5)

  1. #1 Dr. Webbaer
    Mai 26, 2014

    Laplace wühlte sich durch Bestände von Bibliotheken mit vielen Tausend Bänden und bemerkte dabei, dass der Umgang mit Big Data “eine ganz neue Art von Denken erforderte”, wie McGrave schreibt. Herausgekommen ist ein Verständnis der Größe, die wir heute als “Wahrscheinlichkeit” kennen und als Fernsehzuschauer und Zeitungsleser banal einstufen.

    Gerolamo Cardano war wohl der erste Stochastiker, und in zehn Jahren gibt es diesbezüglich das halbe Jahrtausend Stochastik zu feiern.

    Richtig ist, dass “Big Data” eine besondere Herausforderung darstellt, was die Gewinnung von Erkenntnis betrifft, und dass etwas Neues vorliegt.

    MFG
    Dr. W (der allerdings mit der FAZ-Schirrmacher-Feuilleton auch nicht mehr glücklich wird)

  2. #2 Volker Birk
    https://blog.fdik.org
    Mai 26, 2014

    Hallo,

    mir ist ja nicht ganz klar, wo Deine tiefe Abneigung gegen Geisteswissenschaftler herkommt. Ich vermute, dass Du Naturwissenschaftler bist. Ich selbst bin Informatiker, und bekanntlich legte einen Grundstein für die theoretische Informatik Noam Chomsky, selbiger ein Geisteswissenschaftler (ich hoffe, dass Dir das bekannt ist, ich spreche über die Chomsky-Hierarchie der Formalen Sprachen).

    Bei der philosophischen Kritik an Big Data geht es im Wesentlichen um das Missverständis, was die Interpretation von Korrelation angeht. Insofern unterscheidet sich diese Kritik überhaupt nicht von der (auch sonst in der Statistik üblichen) Kritik in anderen Feldern: Korrelation ist eben nicht Kausalität; den Unterschied macht für die Naturwissenschaft bekanntlich die Theorie aus, für die Geisteswissenschaft dann zusätzlich noch die Deutung.

    Da Du in Deiner Kritik hier nicht substantiierst, würde mich also interessieren, auf was Du Dich konkret beziehst. Als Softwarearchitekt, der selbst schon im Bereich Big Data tätig geworden ist, kenne ich das Umfeld natürlich genau – und die Gründe für (meines Erachtens dringend angebrachte) wissenschaftstheoretische Big-Data-Kritik. Entsprechend interessiert wäre ich an einer Erläuterung, was Dich an der vorgebrachten Kritik so sehr stört.

    Viele Grüsse,
    VB.

    P.S.: Bedingte Wahrscheinlichkeiten darfst Du in meinem Falle als Handwerkszeug voraussetzen 😉

  3. #3 Dr. Webbaer
    Mai 26, 2014

    Ich selbst bin Informatiker, und bekanntlich legte einen Grundstein für die theoretische Informatik Noam Chomsky, selbiger ein Geisteswissenschaftler (ich hoffe, dass Dir das bekannt ist, ich spreche über die Chomsky-Hierarchie der Formalen Sprachen).

    Chomsky ist Linguist, seine Beiträge werden mittlerweile fast durchgehend weggehüstelt, sein Impact auf die IT-Sprachlichkeit ist sehr gering.

    Geduze hilft hier nicht, von Bedingten Wahrscheinlichkeiten war nicht die Rede.

    MFG
    Dr. W (der auch auf solche Allgemeinplätze tendenziell unfroh reagiert, weil themenfremd: ‘Korrelation ist eben nicht Kausalität’)

  4. #4 Angelika Wittig
    Mai 28, 2014

    Die Bitte eines Menschen, dem ich so viel Weiterbildung verdanke, kann ich nicht ignorieren.
    Deshalb hier ein Hinweis, wie die Bitte um mehr Geist in der Wissenschaft erfüllt werden könnte:
    Geist ist eine Energieform aus Licht.
    Also gilt auch hier der Energieerhaltungssatz.
    Laut Richard Feynman ist die “Mühelosigkeit Energie abzuzapfen” abhängig von einer Energiedifferenz zwischen zwei Systemen.
    Wendet man diesen Hinweis auf forschende Wissenschaftler an wird klar, dass mehr Geist durch mehr Dialog und mehr “warum” aktiviert wird.
    Es fehlt mir etwas und ich will diese Differenz ausgleichen.

    Leider hört man nur noch sehr selten von wirklich interessanten Dialogen und Streitgesprächen in der Wissenschaft, die Bitte um mehr ist also berechtigt.
    Die Masse der Informationen könnte uns das Auswählen von guten Antworten erleichtern, wenn wir gute Fragen stellen würden.
    Selbständig denken ist sehr schwer, hierzu benötigt man Geist: die Fähigkeit Unterschiede und Ähnlichkeiten zu erkennen, Beharrlichkeit und Selbstbewusstsein.
    Geistige Energie wird durch Abweichungen von der Trägheit
    nutzbar, durch den Mut zur Unordnung.
    Wenn statt Personenbewertung eine Auseinandersetzung mit den Fakten der Vorzug gegeben würde, dann hätte auch ein Newton einem Fatio nicht das Herz brechen müssen. Weil beide dasselbe Ziel vor Augen hatten, aber einer nicht teilen konnte, sind eine Menge “Daten” verloren gegangen.

    Mehr Geist kann nur in Erscheinung treten, wenn es mehr Wechselwirkung, d.h. Austausch zwischen Menschen gibt, die wissen, was sie suchen und denen bewusst ist, dass
    ihre Entdeckungen nicht nur ihnen selbst, sondern allen
    Menschen Nutzen bringen sollten.
    “Wissenschaft ist allgemein” (Feynman)

  5. #5 Dr. Webbaer
    Mai 28, 2014

    ‘Big Data – ein Thema von vorgestern’ ist jedenfalls kein Thema von vorgestern, sondern von heute. [1]
    Erstmals ist es heute möglich hoch komplexe Systeme mit ihren Entitäten und Beziehungen derart zu modellieren, dass ein Prognostik-Modul hilfreich sein könnte.

    Laplace mag hier *irgendwie* Vorreiter gewesen sein, aber die ‘Wahrscheinlichkeit’, gar die ‘bedingte’, zu erkennen, ersetzt nicht den sinnhaften Umgang mit großen Datenmengen, der eben erst seit Erfindung des “Big Data” bzw. der Erfindung relationaler hochleistender Datenbanken möglich geworden ist.

    Die Sache begann mit der indexsequentiellen Organisation von Daten und resultierte in Abfragesprachen wie SQL und zuletzt in Abfragesprachen auf das sogenannte Cubing bezogen.

    Nichtsdestotrotz bleibt auch der heutige bestens munitionierte Stochastiker zuvörderst Zyniker.

    MFG
    Dr. W (der allerdings mit der FAZ-Schirrmacher-Feuilleton auch nicht mehr glücklich wird)

    [1] ‘Heute’ meint hier ga-anz grob die Zeit seit der Mondlandung.