Temario del curso
-
Introducción a Scala
- Una introducción rápida a Scala
- Laboratorios: Conociendo Scala
-
Fundamentos de Spark
- Antecedentes e historia
- Spark y Hadoop
- Conceptos y arquitectura de Spark
- Ecosistema de Spark (núcleo, Spark SQL, MLlib, Streaming)
- Laboratorios: Instalación y ejecución de Spark
-
Primer vistazo a Spark
- Ejecución de Spark en modo local
- Interfaz web de Spark
- Shell de Spark
- Análisis de un conjunto de datos - parte 1
- Inspección de RDDs
- Laboratorios: Exploración del shell de Spark
-
RDDs
- Conceptos de los RDDs
- Particiones
- Operaciones / transformaciones de RDD
- Tipos de RDD
- RDD de pares clave-valor
- MapReduce en RDD
- Almacenamiento en caché y persistencia
- Laboratorios: Creación e inspección de RDDs; almacenamiento en caché de RDDs
-
Programación con la API de Spark
- Introducción a la API de Spark / API de RDD
- Envío del primer programa a Spark
- Depuración y registro de eventos (logging)
- Propiedades de configuración
- Laboratorios: Programación con la API de Spark, envío de trabajos
-
Spark SQL
- Soporte SQL en Spark
- DataFrames
- Definición de tablas e importación de conjuntos de datos
- Consulta de DataFrames utilizando SQL
- Formatos de almacenamiento: JSON / Parquet
- Laboratorios: Creación y consulta de DataFrames; evaluación de formatos de datos
-
MLlib
- Introducción a MLlib
- Algoritmos de MLlib
- Laboratorios: Escritura de aplicaciones con MLlib
-
GraphX
- Descripción general de la biblioteca GraphX
- API de GraphX
- Laboratorios: Procesamiento de datos de grafos utilizando Spark
-
Spark Streaming
- Descripción general de Streaming
- Evaluación de plataformas de Streaming
- Operaciones de Streaming
- Operaciones de ventana deslizante
- Laboratorios: Escritura de aplicaciones de Spark Streaming
-
Spark y Hadoop
- Introducción a Hadoop (HDFS / YARN)
- Arquitectura de Hadoop + Spark
- Ejecución de Spark sobre YARN de Hadoop
- Procesamiento de archivos HDFS utilizando Spark
-
Rendimiento y optimización de Spark
- Variables de difusión (Broadcast variables)
- Acumuladores
- Gestión de memoria y almacenamiento en caché
-
Operaciones de Spark
- Despliegue de Spark en producción
- Plantillas de despliegue de ejemplo
- Configuraciones
- Monitoreo
- Resolución de problemas
Requerimientos
REQUISITOS PREVIOS
conocimiento previo de uno de los siguientes lenguajes: Java, Scala o Python (nuestros laboratorios se realizan en Scala y Python)
comprensión básica del entorno de desarrollo en Linux (navegación por la línea de comandos y edición de archivos utilizando VI o nano)
Testimonios (7)
La combinación de teoría y práctica con herramientas como databricks
Graciela Saud - Servicio de Impuestos Internos
Curso - Spark for Developers
Realizar ejercicios similares de diferentes formas realmente ayuda a comprender lo que cada componente (Hadoop/Spark, standalone/cluster) puede hacer por sí solo y en conjunto. Me dio ideas sobre cómo debería probar mi aplicación en mi máquina local durante el desarrollo en comparación con cuando está desplegada en un clúster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Traducción Automática
Ajay fue muy amable, servicial y también conocedor del tema que estaba discutiendo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Traducción Automática
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Traducción Automática
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Traducción Automática
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Traducción Automática
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Traducción Automática