Im ersten Teil haben wir die Grundlagen des MapReduce erlebt, heute ist es dann endlich soweit, wir starten mit Hadoop, dem beliebtesten Framework um MapReduce verteilt über eine Menge Computer laufen zu lassen. Dafür steht heute ein nerviger Teil an: Die Installation. Wir verlassen uns auf die neueste Version von Cloudera CDH4, und hier gibt…

Den Einstieg in die Welt der großen Datenmenge macht schwierig, dass man es nicht nachvollziehen kann, indem man es einfach mal daheim ausprobiert. Das ist ja schließlich der Witz an Big Data – dass man nicht einfach mal ein Terabyte Daten durchlaufen lässt um zu sehen was daran schwierig ist. Und das hat es mir…