Contacta con nosotros

Temario del curso

PySpark y Aprendizaje Automático 

Módulo 1: Fundamentos de Big Data y Spark

  • Visión general del ecosistema de Big Data y el papel de Spark en las plataformas de datos modernas
  • Comprensión de la arquitectura de Spark: driver, ejecutores, gestor de clúster, evaluación diferida, DAG y planificación de ejecución
  • Diferencias entre las APIs de RDD y DataFrame, y cuándo utilizar cada enfoque
  • Creación y configuración de SparkSession, y comprensión de los fundamentos de la configuración de aplicaciones

Módulo 2: DataFrames de PySpark

  • Lectura y escritura de datos desde fuentes y formatos empresariales (CSV, JSON, Parquet, Delta)
  • Trabajo con DataFrames de PySpark: transformaciones, acciones, expresiones de columnas, filtrado, joins y agregaciones
  • Implementación de operaciones avanzadas como funciones de ventana, manejo de marcas de tiempo y trabajo con datos anidados
  • Aplicación de controles de calidad de datos y escritura de código PySpark reutilizable y mantenible

Módulo 3: Procesamiento eficiente de grandes conjuntos de datos

  • Comprensión de los fundamentos del rendimiento: estrategias de particionamiento, comportamiento de mezcla (shuffle), caché y persistencia
  • Uso de técnicas de optimización, incluyendo joins por difusión y análisis del plan de ejecución
  • Procesamiento eficiente de grandes conjuntos de datos y mejores prácticas para flujos de trabajo de datos escalables
  • Comprensión de la evolución del esquema y los formatos de almacenamiento modernos utilizados en entornos empresariales

Módulo 4: Ingeniería de características a gran escala

  • Realización de ingeniería de características con Spark MLlib: manejo de valores faltantes, codificación de variables categóricas y escalado de características
  • Diseño de pasos de preprocesamiento reutilizables y preparación de conjuntos de datos para pipelines de aprendizaje automático
  • Introducción a la selección de características y al manejo de conjuntos de datos desbalanceados

Módulo 5: Aprendizaje automático con Spark MLlib

  • Comprensión de la arquitectura de MLlib y el patrón Estimator/Transformer
  • Entrenamiento de modelos de regresión y clasificación a gran escala (Regresión Lineal, Regresión Logística, Árboles de Decisión, Bosque Aleatorio)
  • Comparación de modelos e interpretación de resultados en flujos de trabajo de aprendizaje automático distribuidos

Módulo 6: Pipelines integrales de ML

  • Construcción de pipelines de aprendizaje automático integrales que combinen preprocesamiento, ingeniería de características y modelado
  • Aplicación de estrategias de división entrenamiento/validación/prueba
  • Realización de validación cruzada y ajuste de hiperparámetros mediante búsqueda por cuadrícula y búsqueda aleatoria
  • Estructuración de experimentos de aprendizaje automático reproducibles

Módulo 7: Evaluación de modelos y toma de decisiones prácticas en ML

  • Aplicación de métricas de evaluación adecuadas para problemas de regresión y clasificación
  • Identificación de sobreajuste y subajuste, y toma de decisiones prácticas en la selección de modelos
  • Interpretación de la importancia de las características y comprensión del comportamiento del modelo

Módulo 8: Prácticas de producción y empresariales

  • Persistencia y carga de modelos en Spark
  • Implementación de flujos de trabajo de inferencia por lotes en grandes conjuntos de datos
  • Comprensión del ciclo de vida del aprendizaje automático en entornos empresariales
  • Introducción a conceptos de versionado, seguimiento de experimentos y estrategias básicas de prueba

 

Resultado práctico

  • Capacidad para trabajar de forma autónoma con PySpark
  • Capacidad para procesar grandes conjuntos de datos de manera eficiente
  • Capacidad para realizar ingeniería de características a gran escala
  • Capacidad para construir pipelines de aprendizaje automático escalables

Requerimientos

Los participantes deben contar con los siguientes conocimientos previos:

Conocimientos básicos de programación en Python, incluido el trabajo con funciones, estructuras de datos y librerías
Comprensión fundamental de conceptos de análisis de datos, como conjuntos de datos, transformaciones y agregaciones
Conocimientos básicos de SQL y conceptos de datos relacionales
Comprensión introductoria de conceptos de aprendizaje automático, como conjuntos de datos de entrenamiento, características y métricas de evaluación
Se recomienda estar familiarizado con entornos de línea de comandos y prácticas básicas de desarrollo de software

La experiencia con Pandas, NumPy o librerías similares de procesamiento de datos es útil, aunque no obligatoria.

 21 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas