Von Jörg / 24. November 2012 / 2 Kommentare / Seite 3 von 3 / Auf einer Seite lesen

sudo -u hdfs hadoop fs -mkdir /user/joerg
sudo -u hdfs hadoop fs -chown joerg /user/joerg

Und eine Umgebungsvariable in ~/.bashrc hinzufügen

export HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce

Endlich Wörter zählen!

Und wir sind endlich soweit, unser Beispiel vom letzten Mal ausführen zu können. Wir verwenden dazu Hadoop Streaming. Um das “eigentliche” MapReduce zu verwenden, müssten wir Code in Java schreiben, und nach der schmerzhaften Installation wollen wir das nun nicht auch noch. Daher übernimmt das Hadoop Streaming jetzt, was wir vorher in der Shell von Hand gemacht haben: Den input über stdin an einen Mapper füttern, die Ausgabe sortieren, und an die Reducer verteilen. Dann den output in HDFS abspeichern, und zwar in einer Datei je Reducer.
Theoretisch, hätten wir eine echte Serverinstallation von Hadoop, könnten wir jetzt beliebig viele Computer als Mapper einsetzen, und auch als Reducer. Unser Code ist frei skalierbar geworden, und dank HDFS auch unsere Datenspeicherkapazität.
Wenn wir map.py und reduce.py vom letzten Mal verwenden wollen, müssen wir noch als erste Zeile in jedem dieser Skripte

#!/usr/bin/python

ergänzen und Ausführrechte setzen:

chmod a+x map.py reduce.py

Streaming erhält als Parameter die Skripte für mapper und reducer, und mit dem -file Parameter die Dateien die verschickt werden sollen und auf JEDEM Rechner landen. Die Eingabedatei ist aber sehr groß (jedenfalls wenn wir MapReduce ernsthaft für Big Data einsetzen), und daher verteilt auf dem HDFS. Dazu kopieren wie die Eingabedatei ins HDFS. Ich habe hier den Volltext von Moby Dick, aber ihr könnt eine beliebige Textdatei nehmen.

hadoop fs -copyFromLocal pg2701.txt .

Zeit, den Streaming-Job zu starten. Stellt sicher, dass ihr keine Fehlermeldungen seht, Warnungen kann man im allgemeinen ignorieren.

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -mapper map.py -reducer reduce.py -input /user/joerg/pg2701.txt -output /user/joerg/output -file ./map.py -file ./reduce.py

Die Ausgabedatei liegt jetzt im HDFS. Ihr könnt sie zurückkopieren. Für jeden Reducer wird es eine Datei geben, aber da wir nur einen verwendet haben, ist die Datei part-r-00000 im Ausgabeordner. Mit cat könnt ihr sie ausgeben lassen und das Resultat der harten Installationsarbeit bewundern:

hadoop fs -copyToLocal /user/joerg/output .
cat output/part-r-00000

Bevor ihr erneut streamen könnt, müsst ihr den Ausgabeordner im HDFS löschen:

hadoop fs -rm -r /user/joerg/output

Herzlichen Glückwunsch! Jetzt habt ihr ein funktionierendes MapReduce-Framework, und beim nächsten Mal können wir uns näher mit den Kommandozeilenparametern für Streaming beschäftigen und ein neues Problem lösen.

« Previous page

Seite 1 / 2 / 3

Kommentare (2)

#1 Big Data 3: Googles PageRank-Algorithmus mit MapReduce und Python in Hadoop Streaming | Diax's Rake
12/09/2012

[…] dem schmerzhaften zweiten Teil, der Installation, haben wir jetzt ein Hadoop-System zum Spielen. Es läuft lokal, reagiert aber […]
#2 Big Data 3: Googles PageRank-Algorithmus mit MapReduce und Python in Hadoop Streaming – Diax's Rake
12/18/2012

[…] dem schmerzhaften zweiten Teil, der Installation, haben wir jetzt ein Hadoop-System zum Spielen. Es läuft lokal, reagiert aber […]

Diax’s Rake ist umgezogen

Ab sofort könnt ihr mich und Diax’s Rake an neuer Stelle, meinem eigenem Webspace finden. Die…
Religiöses Gargglblafrz im Deutschlandradio

Die Adventszeit scheint die Zeit zu sein, in der es noch einfacher ist, dumpfesten religiösen Quatsch…
Soziale Medien sagen Albenverkäufe besser voraus als Radio

Wie gut ein neues Album in der ersten Woche verkauft werden wird, ist gar nicht einfach…
Big Data 3: Googles PageRank-Algorithmus mit MapReduce und Python in Hadoop Streaming

Nach dem schmerzhaften zweiten Teil, der Installation, haben wir jetzt ein Hadoop-System zum Spielen. Es läuft…
Christliche Studierendengruppe in Bristol: Frauen müssen die Klappe halten

Ja an britischen Universitäten, da herrschen noch traditionelle Werte. Aber bevor die Religionsbasher_innen wieder allzu schnell…
Effektive Terminals in Ubuntu mit konsole und yakuake

In Linux ist die Kommandozeile, das Terminal, das Herz der ganzen Operation. Dem/r ungeuebten Nutzer_in mag…

Big Data 2: Hadoop mit MapReduce 2.0 in Ubuntu 12.10 installieren und Python streamen

Endlich Wörter zählen!

Kommentare (2)

Über den Autor

Facebook

Neueste Kommentare

Neueste Posts

Diax’s Rake ist umgezogen

Religiöses Gargglblafrz im Deutschlandradio

Soziale Medien sagen Albenverkäufe besser voraus als Radio

Big Data 3: Googles PageRank-Algorithmus mit MapReduce und Python in Hadoop Streaming

Christliche Studierendengruppe in Bristol: Frauen müssen die Klappe halten

Effektive Terminals in Ubuntu mit konsole und yakuake

Kategorien

Archives

Endlich Wörter zählen!

Abonnieren

Über den Autor

Facebook

Neueste Kommentare

Neueste Posts

Kategorien

Archives