Wenn das Wort “Big” als Adjektiv in der politischen Diskussion auftaucht, meint es selten etwas Gutes: Big Brother, Big Oil, Big Government, Big Business – all dies beschreibt Konzepte, die uns etwas kleiner meist lieber wären. Als also das MIT heute ankündigte, dass dank großzügiger (und keineswegs uneingennütziger) Förderung durch den Chiphersteller Intel ein neues Forschungs- und Entwicklungsprogramm namens Big Data@CSAIL eingerichtet werde (CSAIL steht für Computer Science and Artificial Intelligence Lab), wurde ich erst mal ein bisschen unruhig. Das neue Institut wird nämlich nicht gerade ein Musterbeispiel unabhängiger Forschung sein, da – wie der Intel-Vorstand Justin Rattner unumwunden erklärt – diese so genannten Intel Science and Technology Centers dazu dienen, das Wachstum von Intel zu fördern und daher direkt an Intel berichten werden. Aber sei’s drum, als Mitarbeiter des MIT (der auch Studenten des CSAIL unterrichtet) kann ich andererseits nur sagen, dass die 2,5 Millionen Dollar jährlich sicher immer willkommen sein werden.


Aber worum geht’s eigentlich bei Big Data? Darum, dass unsere Kapazitäten, Daten zu sammeln, bei weitem unsere Kapazitäten zu Daten Verarbeiten überschreiten: Pro Jahr werden in den Servern der Welt runde 1,8 Zettabytes gespeichert (1 Zettabyte = 1021 Bytes, also eine Billion Gigabytes); aber mit den herkömmlichen Methiden des Datamining oder gar der normalen Datenverarbeitung ist solchen Volumina nicht beizukommen. Dazu brauche es spezielle Computerarchitekturen, die sich auch noch auf solche Megadimensionen skalieren lassen, ebenso wie eigens zu solchen Zwecken entwickelte Algorithmen, versichert Sam Madden, ein MIT-Computerwissenschafter, der das neue Programm leiten wird.

Ich habe hier alle relevanten Pressemitteilungen verlinkt; allzu sehr will ich mich als MIT-Mitarbeiter hier nicht aus dem Fenster hängen. Um ganz ehrlich zu sein, war am Ende doch vor allem der eine Gedanke bei mir stecken gelieben: Ich hatte bisher auch immer gefürchtet, dass Big Data als Inkarnation von Big Brother längst Realität sei. Die Datensammelwut der Regierungen, aber auch von Privatfirmen wie Facebook und Google, ist ja legendär – heißt das also, dass die bisher noch gar nicht so recht wissen, wie sie mit all dem Zeugs wirklich etwas anfangen können?

flattr this!

Kommentare (5)

  1. #1 Dr. Webbaer
    31. Mai 2012

    $2.5M sind doch kein Geld, verglichen mit den $2.5€, die die DFG jedes Jahr zu verteilen hat – mehr oder weniger der Freiheit der Wissenschaft geschuldet:
    http://www.faz.net/aktuell/feuilleton/forschung-und-lehre/kritik-an-der-dfg-die-freie-wissenschaft-ist-bedroht-11497511.html

    BTW, die Datenmenge an sich ist kein Problem, wohl aber die Erfassung, hier darf man z.B. aus regionaler Sicht hellhörig werden: http://www.informelles.de/2011/10/17/kretschmann-will-pkw-ueberwachung-fuer-maut (d. GPS-Maut für Private)

    HTH
    Dr. Webbaer

  2. #2 Dr. Webbaer
    31. Mai 2012

    * verglichen mit den €2.5G

  3. #3 WolfgangK
    31. Mai 2012

    “Die Datensammelwut der Regierungen, aber auch von Privatfirmen wie Facebook und Google, ist ja legendär”

    Im Prinzip missbrauchen demokratisch legitimierte Regierungen eher selten ihr eigenes gesammeltes Datenmaterial. Zumeist sind es kommerzielle Interessen, die hinter Datenmissbräuchen stehen. Das mag auch daran liegenn, dass – wie mir ein Jurist bereits bei der Volkszählung 1987 versicherte – die Datenmenge viel zu gewaltig ist, dass einzelne Personen oder Gruppen ohne rein statistisches Interesse sie bewältigen könnten. Sicher kann man Daten immer missbrauchen; die stets steigende Menge dürfte da eher unerheblich sein.

    Bereits nach der Invasion der Deutschen in den Niederlanden 1940 haben deutsche Verwaltungen gezielt die Steuerdaten der niederländischen Verwaltungen genutzt, um Menschen jüdischen Glaubens zu finden und zu deportieren. Ein wirksames Gegenmittel gegen Datenmissbrauch wäre demzufolge die völlige Datenvermeidung, aber das war ja schon zu computerlosen Zeiten utopisch.

    Übrigens, das einzig akzeptable “Big” steht in dem Filmtitel The Big Lebowski

  4. #4 Sven Türpe
    31. Mai 2012

    Google weiß sehr gut, was man mit Daten anfangen kann — und dass das Sammeln nicht weit führt. Nützlich werden die Daten von zwei Milliarden Internet-Nutzern, wenn man damit interaktiv statistische Modelle zur Lösung spezifischer Probleme optimiert. Strukturierte Nutzerprofile sind in diesem Zusammenhang uninteressant, der Mehrwert ergibt sich gerade daraus, dass man mit einer Nutzerpopulation arbeitet.

    @WolfgangK:
    Das einzige wirksame Mittel gegen die Deportation von Menschen ist der Verzicht auf die Deportation von Menschen. Der Verzicht auf Datenspeicher und Datenverarbeitungsvorgänge stellt hingegen kein wirksames Mittel dar. Ein Regime, dessen Staates- und Rechtsverständnis die Deportation von Menschen ermöglicht, ja erfordert, ist auf Datenbestände nicht angewiesen. Ein solches Regime kann und wird die Deportationskriterien willkürlich festlegen und jede Beweislast seinen Opfern auferlegen. Datenschutz ist eine gute Sache; Unrecht in Unrechtsstaaten verhindert er jedoch nicht.

  5. #5 Dr. Webbaer
    3. Juni 2012

    Ein Regime, dessen Staates- und Rechtsverständnis die Deportation von Menschen ermöglicht, ja erfordert, ist auf Datenbestände nicht angewiesen.

    Man muss aber auch keine Hollerith-Maschinen ins 3. Reich verkaufen und keine Überwachungstechnik nach Iran (gerne mal hier mit dem Suchwort ‘Siemens’ recherchieren).