Instalación de un Ambiente de Big Data con Docker

En este tutorial, vamos a instalar un ambiente de Big Data utilizando Docker. Este ambiente incluirá herramientas esenciales como Hadoop, Hive, Spark, Zeppelin y Livy. La guía está diseñada para estudiantes sin experiencia en programación, por lo que cada paso será muy detallado.

Componentes:

Hadoop: Sistema de almacenamiento distribuido y procesamiento de datos.
Hive: Data warehouse para gestionar y consultar datos grandes.
Spark: Motor de análisis unificado para procesamiento de datos a gran escala.
Zeppelin: Herramienta de visualización y notebook para análisis interactivo.
Livy: Servicio de REST para gestionar sesiones de Spark.

Requisitos

Sistema Operativo: Windows (con soporte para WSL2)
Software Necesario: Windows Subsystem for Linux (WSL), Docker Desktop

Paso 1: Instalar Windows Subsystem for Linux (WSL)

Abrir PowerShell como Administrador:
- Haz clic derecho en el icono de inicio de Windows.
- Selecciona "Windows PowerShell (Administrador)".
Habilitar WSL:
- En PowerShell, ejecuta el siguiente comando:
```
wsl --install
```
- Espera a que se complete la instalación y luego reinicia tu computadora cuando se te solicite.
Instalar una Distribución de Linux:
- Abre Microsoft Store y busca "Linux".
- Elige una distribución, como Ubuntu, y haz clic en "Obtener" para instalarla.
- Abre la aplicación de Linux instalada y sigue las instrucciones para configurar tu usuario y contraseña.

Paso 2: Instalar Docker para Windows

Descargar Docker Desktop:
- Visita Docker Desktop.
- Haz clic en "Download for Windows" para descargar el instalador.
Instalar Docker Desktop:
- Ejecuta el archivo descargado (Docker Desktop Installer.exe).
- Sigue las instrucciones de instalación, asegurándote de seleccionar "Enable WSL 2 Windows features" cuando se te solicite.
- Reinicia tu computadora si es necesario.
Verificar Instalación de Docker:
- Abre Docker Desktop desde la barra de tareas o el menú de inicio.
- Asegúrate de que Docker esté funcionando correctamente verificando el panel "Dashboard".
Habilitar Docker Compose V2:
- En el Dashboard de Docker Desktop, asegúrate de que Docker Compose V2 esté activado.

Paso 3: Configurar el Ambiente de Big Data

Abrir Terminal de Ubuntu:
- Busca y abre la terminal de Ubuntu instalada previamente.

Descargar Configuración de Docker Compose:

En la terminal, ejecuta:

git clone https://github.com/JordanKingPeru/bigdata-docker-environment.git
cd bigdata-docker-compose

Ejecutar Docker Compose:
- En la misma terminal, ejecuta:
```
./run.sh
```
Acceder a las Interfaces Web de los Componentes:
- Abre tu navegador web y usa las siguientes URLs para acceder a las interfaces de los componentes:
  - Zeppelin: http://localhost:8890
  - YARN: http://localhost:8088
  - Otros Dashboards: http://localhost:8889/lab, http://localhost:5000

Apagar los Servicios

Para apagar los servicios de Big Data, ejecuta el siguiente comando en la terminal:

./down.sh

Conclusión

¡Felicidades! Has instalado exitosamente un entorno de Big Data en tu máquina utilizando Docker. Ahora puedes explorar y aprender a utilizar herramientas como Hadoop, Hive, Spark, Zeppelin y Livy en un entorno local.

Si tienes alguna pregunta o necesitas más detalles, no dudes en dejar un comentario.