Das mit der Physik ist ja jetzt ziemlich schwierig geworden. Ich muss unbedingt wieder anfangen Paper zu lesen. Aber ich kann die ja noch nicht mal mehr einfach so runterladen, ohne Universitätszugang. Und dann die Zeit.

Und das mit der Zeit, das brauche ich ja auch keinem erzählen, wer mag denn schon noch Ausreden hören. Und wenn ich dazu komme und die Motivation finde, dann schreibe ich schon noch.

Und über die Wissenschaft mag ich heute nicht anfangen. Keine Lust mich heute aufzuregen und zu erklären, warum der ganze Wissenschaftsbetrieb einfach komplett abgerissen und neu aufgebaut gehört. Es ist Samstag und die Sonne scheint, warum also dunkel und zynisch werden.

Aber was soll ich dann noch schreiben? bei den Homöopathen passiert nichts, keine Antwort aus Hamburg, wer hätte es auch erwartet. Gut, bei Telepolis gibt es einen guten Artikel dazu ich ich werde auch zitiert. Zweimal! Das freut mich so, dass ich gar nicht weiter kommentiere dass das erste, was man auf der Telepolis-Hauptseite sieht “Jörg Friedrich” ist.

Aber es ist immer noch mein Blog, und ich kann schreiben, was ich will, und was mich interessiert. Und vielleicht das, worauf ich mehr Einblick habe als ihr drüben in Deutschland. Und weil ich jetzt in einem kleinen, aber schnell wachsenden Startup im Technologiezentrum der Welt arbeite, sollte ich vielleicht etwas über diese neuen Technologien schreiben. Also erwartet mal, wenn ich denn schreibe, vermehrt etwas dazu zu hören.

Big Data

“Big Data” ist ein treffendes Schlagwort, denn der Umgang mit gewaltigen Datenmengen (Facebook, Google, Yahoo, Amazon und andere an der Front) hat eine Menge neuer Werkzeuge gebracht, um auch bei 10 Millionen Nutzern noch jedem sein Produkt liefern zu können.

Klassisch werden Daten in relationalen Datenbanken gespeichert, z.B. MySQL. Probleme dabei sind dass das Datenmodell sehr statisch ist und die Datenbank im allgemeinen auf einer Maschine liegt. Funktioniert gut, wenn man eine Kundendatenbank pflegt, und die Struktur der Daten sehr klar ist. Aber wenn man Eingaben eines Benutzers in immer wieder neue oder geänderte Produkte speichern möchte, und das für möglicherweise Millionen Benutzer, ist eine SQL-Datenbank schnell gesprengt und das klassische Datenmodell nicht flexibel genug. Deswegen gibt es neue Datenmodelle in der Hadoop-Welt. Diese können über eine beliebige Anzahl Maschinen verteilt sein. Braucht man mehr Speicher oder schnelleren Zugriff, stellt man einfach ein paar neue Maschinen dazu. Beispiele sind CouchDB, einfaches speichern als Dateien in einem verteilten Dateiensystem und Abfrage durch Hive, oder als verteilte sehr große Liste, wie in Googles BigTable oder HBase, das die Nase vorne hat, seit Facebook die Eigenentwicklung Cassandra dafür aufgegeben hat.

Im Prinzip sind all diese Datenbanken sehr einfach. Man verliert die Funktionen von SQL wie JOINs, aber im Angesicht großer Datenmengen muss man Kompromisse eingehen.

Der nächste Schritt ist die Verarbeitung der Daten. Selbst wenn man nur einfache Modelle bauen möchte, wie eine lineare Regression, oder sogar wenn man nur zählen möchte wie oft ein Klick passiert ist, bei Millionen Nutzern und Terabyte oder Petabyte an Daten ist dies ein gewaltiges Problem. Auch hier ist die Lösung, die Aufgabe zu parallelisieren. MapReduce ist die Technik, die meistens eingesetzt wird. Im Gegensatz zu klassischen Methoden zur Parallelisierung ist auch hier der Vorteil, dass man mehr Rechenpower schlicht durch horizontale Erweiterung (mehr Computer) erhalten kann; oder man hält sich erst gar keine eigenen Server mehr und kauft sich Rechenpower von Amazon (z.B. EC2), die mit einem Klick genau so skaliert, wie man es gerade braucht.

Rasante Entwicklung

Technik entwickelt sich schnell im Silicon Valley. In den Reaktionszeiten eines durchschnittlichen deutschen Unternehmen ist eine Technik im Valley fast schon wieder veraltet. Und deswegen kommen immer noch hier die Neuerungen her. Ich hoffe, in Zukunft einige dieser Schlagbegriffe, die ich hier ausgeleert habe, mit etwas mehr Inhalt füllen zu können. Wenn euch etwas besonders interessiert, lasst es mich wissen, und ich versuche etwas dazu zu schreiben.

1 / 2 / Auf einer Seite lesen

Kommentare (2)

  1. […] Data ist in aller Munde, und Jörg Rings von Diax Rake hat mal angefangen über solche und andere Begriff aus den Datenwelt zu bloggen. Wer Fragen hat […]