Wie gut ein neues Album in der ersten Woche verkauft werden wird, ist gar nicht einfach vorherzusagen. In einer Studie (siehe dieser Artikel) haben sich jetzt Data Scientists von The Next Big Sound Korrelationen zwischen der Beliebtheit von Radio, verschiedenen neuen Internetmedien und Albenverkäufen angesehen. Im ersten Schritt wurde nur die Korrelation zwischen den Medien…

Nach dem schmerzhaften zweiten Teil, der Installation, haben wir jetzt ein Hadoop-System zum Spielen. Es läuft lokal, reagiert aber wie ein echter Cluster (außer natürlich dass es nicht schneller sondern langsamer läuft, weil es nur pseudoverteilt ist). Und nach dem Spielzeug-Beispiel Wörter zählen können wir auch endlich einen Algorithmus implementieren, bei dem es einfach einleuchtet…

Im ersten Teil haben wir die Grundlagen des MapReduce erlebt, heute ist es dann endlich soweit, wir starten mit Hadoop, dem beliebtesten Framework um MapReduce verteilt über eine Menge Computer laufen zu lassen. Dafür steht heute ein nerviger Teil an: Die Installation. Wir verlassen uns auf die neueste Version von Cloudera CDH4, und hier gibt…

Den Einstieg in die Welt der großen Datenmenge macht schwierig, dass man es nicht nachvollziehen kann, indem man es einfach mal daheim ausprobiert. Das ist ja schließlich der Witz an Big Data – dass man nicht einfach mal ein Terabyte Daten durchlaufen lässt um zu sehen was daran schwierig ist. Und das hat es mir…

Das mit der Physik ist ja jetzt ziemlich schwierig geworden. Ich muss unbedingt wieder anfangen Paper zu lesen. Aber ich kann die ja noch nicht mal mehr einfach so runterladen, ohne Universitätszugang. Und dann die Zeit. Und das mit der Zeit, das brauche ich ja auch keinem erzählen, wer mag denn schon noch Ausreden hören.…