Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción:
- Apache Spark en el ecosistema de Hadoop
- Breve introducción a Python y Scala
Fundamentos (teoría):
- Arquitectura
- RDD
- Transformaciones y Acciones
- Fase, Tarea, Dependencias
Utilizando el entorno de Databricks para comprender los fundamentos (taller práctico):
- Ejercicios con la API de RDD
- Funciones básicas de acción y transformación
- PairRDD
- Unión (Join)
- Estrategias de almacenamiento en caché
- Ejercicios con la API de DataFrame
- SparkSQL
- DataFrame: selección, filtrado, agrupación y ordenamiento
- UDF (Función Definida por el Usuario)
- Análisis de la API de DataSet
- Procesamiento de flujos de datos (Streaming)
Utilizando el entorno de AWS para comprender el despliegue (taller práctico):
- Fundamentos de AWS Glue
- Comprensión de las diferencias entre AWS EMR y AWS Glue
- Ejemplos de trabajos en ambos entornos
- Análisis de ventajas y desventajas
Extra:
- Introducción a la orquestación con Apache Airflow
Requerimientos
Habilidades de programación (preferiblemente Python y Scala)
Conocimientos básicos de SQL
21 Horas
Testimonios (3)
Tener sesiones prácticas / asignaciones
Poornima Chenthamarakshan - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Traducción Automática
1. Equilibrio adecuado entre conceptos de alto nivel y detalles técnicos. 2. Andras es muy conocedor de su enseñanza. 3. Ejercicio
Steven Wu - Intelligent Medical Objects
Curso - Apache Spark in the Cloud
Traducción Automática
Aprende sobre el streaming de Spark, Databricks y AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Curso - Apache Spark in the Cloud
Traducción Automática