Nach dem schmerzhaften zweiten Teil, der Installation, haben wir jetzt ein Hadoop-System zum Spielen. Es läuft lokal, reagiert aber wie ein echter Cluster (außer natürlich dass es nicht schneller sondern langsamer läuft, weil es nur pseudoverteilt ist). Und nach dem Spielzeug-Beispiel Wörter zählen können wir auch endlich einen Algorithmus implementieren, bei dem es einfach einleuchtet…

In Linux ist die Kommandozeile, das Terminal, das Herz der ganzen Operation. Dem/r ungeuebten Nutzer_in mag es seltsam erscheinen, hauptsaechlich in ein kleines Textfenster zu tippen, aber es ist einfach schneller und effektiver. Und so gibt es verschiedene Terminal-Programme. In Gnome oder Ubuntu Unity ist normalerweise xterm der Standard, aber das ist sehr limiterend. Wenn ich…

Im ersten Teil haben wir die Grundlagen des MapReduce erlebt, heute ist es dann endlich soweit, wir starten mit Hadoop, dem beliebtesten Framework um MapReduce verteilt über eine Menge Computer laufen zu lassen. Dafür steht heute ein nerviger Teil an: Die Installation. Wir verlassen uns auf die neueste Version von Cloudera CDH4, und hier gibt…

Den Einstieg in die Welt der großen Datenmenge macht schwierig, dass man es nicht nachvollziehen kann, indem man es einfach mal daheim ausprobiert. Das ist ja schließlich der Witz an Big Data – dass man nicht einfach mal ein Terabyte Daten durchlaufen lässt um zu sehen was daran schwierig ist. Und das hat es mir…

Die Linux Foundation hat dieses Video erstellt, das die Stärken des besten Betriebssystems der Welt als offenes Softwareprojekt zeigt:

Dies ist auch eine Geschichte darüber, dass die Erderwärmung real ist. Es ist keine Geschichte darüber, dass eine neue Bestätigung ein gewaltiger Schritt wäre. Aber ist vor allem eine kleine Respektbekundung für Richard Muller, der als einer der wenigen ein echter Skeptiker ist. Er hat das volle Maß der Arroganz des Physikers an den Tage…

Wir haben hier schon einige Male über die Projekte des verteilten Rechnens berichtet, z.B. über SETI@home. Die Idee ist, dass eine Vielzahl Menschen weltweit einem Projekt freie Rechenzeit zur Verfügung stellen, um kleine Teile einer gewaltigen Rechenaufgabe zu bewältigen. Die Softwareplattform dazu nennt sich BOINC, siehe auch z.B. bei Ludmila.

An dieser Stelle würde ich jetzt eigentlich stolz bekannt geben, dass dank Bill Gates hier legendäre Vorlesungen des großen Richard Feynman online verfügbar geworden sind. Leider funktioniert die Seite aber nicht in meinem Linux/Firefox, also muss ich leider nur bekannt geben, dass Bill Gates die Rechte an den Feynman-Vorlesungen hat und diese hinter seiner proprietärer…