Programa del Curso

 

Introducción:

  • Apache Spark en el ecosistema Hadoop
  • Breve introducción para python, scala

Conceptos básicos (teoría):

  • Arquitectura
  • RDD
  • Transformación y Acciones
  • Etapa, tarea, dependencias

Uso del entorno Databricks comprender los conceptos básicos (taller práctico):

  • Ejercicios con RDD API
  • Funciones básicas de acción y transformación
  • PairRDD
  • Juntar
  • Estrategias de almacenamiento en caché
  • Ejercicios con la API de DataFrame
  • ChispaSQL
  • DataFrame: seleccionar, filtrar, agrupar, ordenar
  • UDF (Función definida por el usuario)
  • Examinando la API de DataSet
  • Streaming

Uso del entorno de AWS Comprender la implementación (taller práctico):

  • Conceptos básicos de AWS Glue
  • Comprender las diferencias entre AWS EMR yAWS Glue
  • Ejemplos de trabajos en ambos entornos
  • Comprender los pros y los contras

Extra:

  • Introducción a laorquestación Apache Airflow

Requerimientos

Habilidades de programación (preferiblemente python, scala)

SQL Conceptos básicos

  21 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (3)

Cursos Relacionados

Categorías Relacionadas