Skip to content
forked from juliopez/Hadoop

Infraestructura para Big Data : Hadoop + NiFi +Spark + Hive usando Docker

License

Notifications You must be signed in to change notification settings

Alexrmsu/Hadoop

 
 

Repository files navigation

Hadoop / Docker-Compose by @Juliopez

Infraestructura Big Data usando docker-compose.


En este contendeor podras encontrar HDFS, Hive, Spark, Hue, Zeppelin, Kafka, Zookeeper y NiFi
Para la implementacion de este contenedor solo basta con descargar (clonar) este repositorio y, proceder a descomprimir en tu maquina local.
Luego, desde la linea de comando, ubicate sobre el directorio Hadoop y ejecuta docker-compose up
Con esto completamos la instalación de Hadoop – HDFS -Spark -Hive- NiFi.

Podemos comprobar la correcta ejecución de la siguiente forma.


En un browser ingresar a http://localhost: numero de puerto
De igual forma, si estas trabajando con una maquina virtual como las de AWS, puedes colocar la ip publica y el puerto
correspondiente ([IP PUBLICA]):[Puerto]
Donde numero de puerto puede ser:
** 50070 (visualiza Hadoop y sus namenode)
** 8080 (Spark Master)
** 8081 (Spark Worker)
** 8888 (Hue. Se solicitará la creación de una cuenta. Ingrese admin como usuario y admin como password)
** 9999 (NiFi)
** 3030 (kafka)
** 18630 (StreamSets. Utilice admin / admin)
** 19090 (zeppelin)

Para el uso de Hive


Ejecute en la consola sudo docker exec -it hive-server bash
Luego ingrese al directorio donde esta alojado Hive, para esto deberá ejecutar el comando cd /opt/hive/bin
Una vez dentro de dicho directorio, ejecute Hive con el siguiente comando ./hive

Para el uso de mysql


Ejecute en la consola sudo docker exec -it database bash
Luego el comando mysql -h localhost -u root -p
Posterior a esto se solicitara la contraseña, la cual es : secret

Para el uso de Spark (Scala)


Ejecute en la consola sudo docker exec -it spark-master bash
Luego ingrese al directorio donde esta alojado Spark, para esto deberá ejecutar el comando cd /spark/bin
Una vez dentro de dicho directorio, ejecute Hive el siguiente comando ./spark-shell

Para el uso de pyspark (Python)


Ejecute en la consola sudo docker exec -it spark-master bash
Luego ingrese al directorio donde esta alojado Spark, para esto deberá ejecutar el comando cd /spark/bin
Una vez dentro de dicho directorio, ejecute el siguiente comando ./pyspark

Para el uso de Kafka


Ejecute en la consola sudo docker exec -it kafka bash
Luego ingrese al directorio donde esta el productos y consumidor de Kafka, para esto deberá ejecutar el comando cd /usr/local/bin
Para crear un TOPIC: ./kafka-topics --create --zookeeper 172.27.1.15:2181 --replication-factor 1 --partitions 1 --topic EJEMPLO
Para verificar la creacion: ./kafka-topics --list --zookeeper 172.27.1.15:2181
Para crear un PRODUCTOR: ./kafka-console-producer --broker-list localhost:9092 --topic EJEMPLO
Para crear un CONSUMIDOR: ./kafka-console-consumer --bootstrap-server localhost:9092 --from-beginning --topic EJEMPLO


SI tienes problemas con HUE, mira la solucion propuesta aqui: https://youtu.be/Ck4sRPa0o24

Si necesitas trabajar con sqoop, aqui una propuesta: https://youtu.be/hLJFzOAbY8Q

Mas info en Blog de Julio Lopez-Nunez.

About

Infraestructura para Big Data : Hadoop + NiFi +Spark + Hive usando Docker

Resources

License

Code of conduct

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Shell 100.0%