En este contendeor podras encontrar HDFS, Hive, Spark, Hue, Zeppelin, Kafka, Zookeeper y NiFi
Para la implementacion de este contenedor solo basta con descargar (clonar) este repositorio y, proceder a descomprimir en tu maquina local.
Luego, desde la linea de comando, ubicate sobre el directorio Hadoop y ejecuta docker-compose up
Con esto completamos la instalación de Hadoop – HDFS -Spark -Hive- NiFi.
En un browser ingresar a http://localhost: numero de puerto
De igual forma, si estas trabajando con una maquina virtual como las de AWS, puedes colocar la ip publica y el puerto
correspondiente ([IP PUBLICA]):[Puerto]
Donde numero de puerto puede ser:
** 50070 (visualiza Hadoop y sus namenode)
** 8080 (Spark Master)
** 8081 (Spark Worker)
** 8888 (Hue. Se solicitará la creación de una cuenta. Ingrese admin como usuario y admin como password)
** 9999 (NiFi)
** 3030 (kafka)
** 18630 (StreamSets. Utilice admin / admin)
** 19090 (zeppelin)
Ejecute en la consola sudo docker exec -it hive-server bash
Luego ingrese al directorio donde esta alojado Hive, para esto deberá ejecutar el comando cd /opt/hive/bin
Una vez dentro de dicho directorio, ejecute Hive con el siguiente comando ./hive
Ejecute en la consola sudo docker exec -it database bash
Luego el comando mysql -h localhost -u root -p
Posterior a esto se solicitara la contraseña, la cual es : secret
Ejecute en la consola sudo docker exec -it spark-master bash
Luego ingrese al directorio donde esta alojado Spark, para esto deberá ejecutar el comando cd /spark/bin
Una vez dentro de dicho directorio, ejecute Hive el siguiente comando ./spark-shell
Ejecute en la consola sudo docker exec -it spark-master bash
Luego ingrese al directorio donde esta alojado Spark, para esto deberá ejecutar el comando cd /spark/bin
Una vez dentro de dicho directorio, ejecute el siguiente comando ./pyspark
Ejecute en la consola sudo docker exec -it kafka bash
Luego ingrese al directorio donde esta el productos y consumidor de Kafka, para esto deberá ejecutar el comando cd /usr/local/bin
Para crear un TOPIC: ./kafka-topics --create --zookeeper 172.27.1.15:2181 --replication-factor 1 --partitions 1 --topic EJEMPLO
Para verificar la creacion: ./kafka-topics --list --zookeeper 172.27.1.15:2181
Para crear un PRODUCTOR: ./kafka-console-producer --broker-list localhost:9092 --topic EJEMPLO
Para crear un CONSUMIDOR: ./kafka-console-consumer --bootstrap-server localhost:9092 --from-beginning --topic EJEMPLO
SI tienes problemas con HUE, mira la solucion propuesta aqui: https://youtu.be/Ck4sRPa0o24
Si necesitas trabajar con sqoop, aqui una propuesta: https://youtu.be/hLJFzOAbY8Q
Mas info en Blog de Julio Lopez-Nunez.