Contacta con nosotros

Temario del curso

  1. Introducción a Scala

    • Una introducción rápida a Scala
    • Laboratorios: Conociendo Scala
  2. Fundamentos de Spark

    • Antecedentes e historia
    • Spark y Hadoop
    • Conceptos y arquitectura de Spark
    • Ecosistema de Spark (núcleo, Spark SQL, MLlib, Streaming)
    • Laboratorios: Instalación y ejecución de Spark
  3. Primer vistazo a Spark

    • Ejecución de Spark en modo local
    • Interfaz web de Spark
    • Shell de Spark
    • Análisis de un conjunto de datos - parte 1
    • Inspección de RDDs
    • Laboratorios: Exploración del shell de Spark
  4. RDDs

    • Conceptos de los RDDs
    • Particiones
    • Operaciones / transformaciones de RDD
    • Tipos de RDD
    • RDD de pares clave-valor
    • MapReduce en RDD
    • Almacenamiento en caché y persistencia
    • Laboratorios: Creación e inspección de RDDs; almacenamiento en caché de RDDs
  5. Programación con la API de Spark

    • Introducción a la API de Spark / API de RDD
    • Envío del primer programa a Spark
    • Depuración y registro de eventos (logging)
    • Propiedades de configuración
    • Laboratorios: Programación con la API de Spark, envío de trabajos
  6. Spark SQL

    • Soporte SQL en Spark
    • DataFrames
    • Definición de tablas e importación de conjuntos de datos
    • Consulta de DataFrames utilizando SQL
    • Formatos de almacenamiento: JSON / Parquet
    • Laboratorios: Creación y consulta de DataFrames; evaluación de formatos de datos
  7. MLlib

    • Introducción a MLlib
    • Algoritmos de MLlib
    • Laboratorios: Escritura de aplicaciones con MLlib
  8. GraphX

    • Descripción general de la biblioteca GraphX
    • API de GraphX
    • Laboratorios: Procesamiento de datos de grafos utilizando Spark
  9. Spark Streaming

    • Descripción general de Streaming
    • Evaluación de plataformas de Streaming
    • Operaciones de Streaming
    • Operaciones de ventana deslizante
    • Laboratorios: Escritura de aplicaciones de Spark Streaming
  10. Spark y Hadoop

    • Introducción a Hadoop (HDFS / YARN)
    • Arquitectura de Hadoop + Spark
    • Ejecución de Spark sobre YARN de Hadoop
    • Procesamiento de archivos HDFS utilizando Spark
  11. Rendimiento y optimización de Spark

    • Variables de difusión (Broadcast variables)
    • Acumuladores
    • Gestión de memoria y almacenamiento en caché
  12. Operaciones de Spark

    • Despliegue de Spark en producción
    • Plantillas de despliegue de ejemplo
    • Configuraciones
    • Monitoreo
    • Resolución de problemas

Requerimientos

REQUISITOS PREVIOS

conocimiento previo de uno de los siguientes lenguajes: Java, Scala o Python (nuestros laboratorios se realizan en Scala y Python)
comprensión básica del entorno de desarrollo en Linux (navegación por la línea de comandos y edición de archivos utilizando VI o nano)

 21 Horas

Número de participantes


Precio por participante

Testimonios (7)

Próximos cursos

Categorías Relacionadas