Contacta con nosotros

Temario del curso

Introducción, objetivos y estrategia de migración.

  • Objetivos del curso, alineación con el perfil de los participantes y criterios de éxito.
  • Enfoques de migración de alto nivel y consideraciones de riesgos.
  • Configuración de espacios de trabajo, repositorios y conjuntos de datos para laboratorios.

Día 1 — Fundamentos de migración y arquitectura.

  • Conceptos de Lakehouse, panorama de Delta Lake y arquitectura de Databricks.
  • Diferencias entre SMP y MPP e implicaciones para la migración.
  • Diseño del patrón Medallón (Bronce → Plata → Oro) y panorama de Unity Catalog.

Laboratorio del Día 1 — Traducción de un procedimiento almacenado.

  • Migración práctica de un procedimiento almacenado de muestra a un cuaderno (notebook).
  • Mapeo de tablas temporales y cursores a transformaciones de DataFrame.
  • Validación y comparación con la salida original.

Día 2 — Delta Lake avanzado y carga incremental.

  • Transacciones ACID, registros de compromisos, control de versiones y viaje en el tiempo.
  • Auto Loader, patrones MERGE INTO, actualizaciones tipo upsert y evolución de esquemas.
  • OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento.

Laboratorio del Día 2 — Ingestión incremental y optimización.

  • Implementación de ingestión con Auto Loader y flujos de trabajo MERGE.
  • Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados.
  • Medición de mejoras en el rendimiento de lectura y escritura.

Día 3 — SQL en Databricks, rendimiento y depuración.

  • Funciones analíticas de SQL: funciones de ventana, funciones de alto orden, manejo de JSON y arrays.
  • Lectura de la interfaz Spark UI, DAGs, mezclas (shuffles), etapas, tareas y diagnóstico de cuellos de botella.
  • Patrones de ajuste de consultas: joins por difusión (broadcast), sugerencias, caché y reducción de desbordamientos.

Laboratorio del Día 3 — Refactorización de SQL y ajuste de rendimiento.

  • Refactorización de un proceso SQL pesado a Spark SQL optimizado.
  • Uso de trazas de Spark UI para identificar y corregir problemas de asimetría y mezclas.
  • Pruebas de referencia antes y después, y documentación de los pasos de ajuste.

Día 4 — PySpark táctico: reemplazo de lógica procedural.

  • Modelo de ejecución de Spark: driver, ejecutores, evaluación diferida y estrategias de particionamiento.
  • Transformación de bucles y cursores en operaciones vectorizadas con DataFrame.
  • Modularización, UDFs y pandas UDFs, widgets y bibliotecas reutilizables.

Laboratorio del Día 4 — Refactorización de scripts procedimentales.

  • Refactorización de un script ETL procedural a cuadernos modulares de PySpark.
  • Introducción de parametrización, pruebas tipo unidad y funciones reutilizables.
  • Revisión de código y aplicación de listas de verización de mejores prácticas.

Día 5 — Orquestación, pipeline de extremo a extremo y mejores prácticas.

  • Databricks Workflows: diseño de trabajos, dependencias de tareas, disparadores y manejo de errores.
  • Diseño de pipelines incrementales tipo Medallón con reglas de calidad y validación de esquemas.
  • Integración con Git (GitHub / Azure DevOps), CI y estrategias de prueba para lógica PySpark.

Laboratorio del Día 5 — Construcción de un pipeline completo de extremo a extremo.

  • Ensamblaje de un pipeline Bronce → Plata → Oro orquestado con Workflows.
  • Implementación de registro, auditoría, reintentos y validaciones automatizadas.
  • Ejecución del pipeline completo, validación de salidas y preparación de notas de despliegue.

Operacionalización, gobierno y preparación para producción.

  • Mejores prácticas de gobierno, linaje y controles de acceso en Unity Catalog.
  • Costos, dimensionamiento de clústeres, escalado automático y patrones de concurrencia de trabajos.
  • Listas de verificación de despliegue, estrategias de reversión y creación de manuales operativos (runbooks).

Revisión final, transferencia de conocimiento y próximos pasos.

  • Presentaciones de los participantes sobre el trabajo de migración y lecciones aprendidas.
  • Análisis de brechas, actividades recomendadas de seguimiento y entrega de materiales de capacitación.
  • Referencias, rutas de aprendizaje adicionales y opciones de soporte.

Requerimientos

  • Comprensión de conceptos de ingeniería de datos.
  • Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server).
  • Familiaridad con conceptos de orquestación ETL (ADF o similar).

Público objetivo

  • Gerentes de tecnología con experiencia en ingeniería de datos.
  • Ingenieros de datos que transitan lógica OLAP procedural a patrones Lakehouse.
  • Ingenieros de plataforma responsables de la adopción de Databricks.
 35 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas