Contacta con nosotros

Temario del curso

Introducción:

  • Apache Spark en el ecosistema de Hadoop
  • Breve introducción a Python y Scala

Fundamentos (teoría):

  • Arquitectura
  • RDD
  • Transformaciones y Acciones
  • Fase, Tarea, Dependencias

Utilizando el entorno de Databricks para comprender los fundamentos (taller práctico):

  • Ejercicios con la API de RDD
  • Funciones básicas de acción y transformación
  • PairRDD
  • Unión (Join)
  • Estrategias de almacenamiento en caché
  • Ejercicios con la API de DataFrame
  • SparkSQL
  • DataFrame: selección, filtrado, agrupación y ordenamiento
  • UDF (Función Definida por el Usuario)
  • Análisis de la API de DataSet
  • Procesamiento de flujos de datos (Streaming)

Utilizando el entorno de AWS para comprender el despliegue (taller práctico):

  • Fundamentos de AWS Glue
  • Comprensión de las diferencias entre AWS EMR y AWS Glue
  • Ejemplos de trabajos en ambos entornos
  • Análisis de ventajas y desventajas

Extra:

  • Introducción a la orquestación con Apache Airflow

Requerimientos

Habilidades de programación (preferiblemente Python y Scala)

Conocimientos básicos de SQL

 21 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas