#Hadoop MapReduce WordCount
Ce tutorial permet de comprendre le fonctionnement du framework MapReduce dans Hadoop
Merci de suivre les étapes suivantes :
Rendez-vous sur le site : http://www.gutenberg.org/catalog/
Il contient des livres gratuits, nous allons choisir un livre et télécharger sa version texte.
Transférez le/les livres vers HDFS
git clone https://github.com/hbellahc/mapreduce.git
mvn clean install
ou un build classique avec votre IDE préféré
Vous avez plusieurs possibilités pour effectuer cette action :
Placez-vous dans le répertoire ou se trouve le jar que l'on souhaite transférer et exécutez la commande suivante :
stp -P 2222 <chemin local> root@sandbox-hdp.hortonworks.com:<chemin dans la sandbox>
ssh root@sandbox-hdp.hortonworks.com
cd /home/hdfs/
hadoop jar mapreduce-1.0-SNAPSHOT.jar WordCount /user/hdfs /user/hdfs/out
Dans les logs vous allez voir une ligne que vous donne l'url pour monitorer votre job 18/05/11 08:54:14 INFO mapreduce.Job: The url to track the job: http://sandbox-hdp.hortonworks.com:8088/proxy/application_1526028785803_0001/