Im ersten Teil haben wir die Grundlagen des MapReduce erlebt, heute ist es dann endlich soweit, wir starten mit Hadoop, dem beliebtesten Framework um MapReduce verteilt über eine Menge Computer laufen zu lassen. Dafür steht heute ein nerviger Teil an: Die Installation. Wir verlassen uns auf die neueste Version von Cloudera CDH4, und hier gibt…

Den Einstieg in die Welt der großen Datenmenge macht schwierig, dass man es nicht nachvollziehen kann, indem man es einfach mal daheim ausprobiert. Das ist ja schließlich der Witz an Big Data – dass man nicht einfach mal ein Terabyte Daten durchlaufen lässt um zu sehen was daran schwierig ist. Und das hat es mir…

Die meisten Daten liegen als Textdatei vor, meistens mit mehr oder weniger gut benannten Spalten von Zahlen. Um die zu verarbeiten und darzustellen, schreibe ich mir meistens Skripte, ganz früher in C++, dann in Perl, heute in Python. Manchmal nehme ich auch gnuplot dazu, das ist eigentlich schon alles was man braucht. Ganz oft muss…

Viele Probleme die man in der Wissenschaft lösen muss, sind so schwierig, dass man sie nicht analytisch in annehmbarer Zeit ausrechnen kann. An dieser Stelle kommen dann oft zufallsbasierte Methoden zum Einsatz. Dazu gehören die Monte-Carlo-Methoden, aber auch eine Klasse von Algorithmen die sich Prinzipien der Evolution zum Vorbild genommen haben. Die bekannteste Art evolutionsbasierter…

Nachdem es in Teil 1 erstmal etwas allgemeines Bla zu Python gab, wollen wir uns heute SciPy & Co. zuwenden. Bzw. muss ich jetzt genauer sein, denn eigentlich geht es um PyLab, das vereint die wissenschaftliche Bibliothek SciPy, dazugehörend NumPy zur Arbeit mit Arrays, matplotlib zum Grafiken erzeugen und eine Erweiterung zu IPython, um dynamisch…

Der Arbeitsalltag eines Wissenschaftlers besteht vor allem aus einem: Daten in einem Format einlesen, irgendwie verarbeiten, und wieder irgendwie ausgeben, sei es in einem anderen Format oder als Bild. Da man das sowieso auch in den einfachsten Fällen meistens etwa sechsunddreissig Mal falsch macht, und die Bilder eh alle neunzehn Mal, daher ist es ratsam,…