Temario del curso
Introducción, objetivos y estrategia de migración.
- Objetivos del curso, alineación con el perfil de los participantes y criterios de éxito.
- Enfoques de migración de alto nivel y consideraciones de riesgos.
- Configuración de espacios de trabajo, repositorios y conjuntos de datos para laboratorios.
Día 1 — Fundamentos de migración y arquitectura.
- Conceptos de Lakehouse, panorama de Delta Lake y arquitectura de Databricks.
- Diferencias entre SMP y MPP e implicaciones para la migración.
- Diseño del patrón Medallón (Bronce → Plata → Oro) y panorama de Unity Catalog.
Laboratorio del Día 1 — Traducción de un procedimiento almacenado.
- Migración práctica de un procedimiento almacenado de muestra a un cuaderno (notebook).
- Mapeo de tablas temporales y cursores a transformaciones de DataFrame.
- Validación y comparación con la salida original.
Día 2 — Delta Lake avanzado y carga incremental.
- Transacciones ACID, registros de compromisos, control de versiones y viaje en el tiempo.
- Auto Loader, patrones MERGE INTO, actualizaciones tipo upsert y evolución de esquemas.
- OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento.
Laboratorio del Día 2 — Ingestión incremental y optimización.
- Implementación de ingestión con Auto Loader y flujos de trabajo MERGE.
- Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados.
- Medición de mejoras en el rendimiento de lectura y escritura.
Día 3 — SQL en Databricks, rendimiento y depuración.
- Funciones analíticas de SQL: funciones de ventana, funciones de alto orden, manejo de JSON y arrays.
- Lectura de la interfaz Spark UI, DAGs, mezclas (shuffles), etapas, tareas y diagnóstico de cuellos de botella.
- Patrones de ajuste de consultas: joins por difusión (broadcast), sugerencias, caché y reducción de desbordamientos.
Laboratorio del Día 3 — Refactorización de SQL y ajuste de rendimiento.
- Refactorización de un proceso SQL pesado a Spark SQL optimizado.
- Uso de trazas de Spark UI para identificar y corregir problemas de asimetría y mezclas.
- Pruebas de referencia antes y después, y documentación de los pasos de ajuste.
Día 4 — PySpark táctico: reemplazo de lógica procedural.
- Modelo de ejecución de Spark: driver, ejecutores, evaluación diferida y estrategias de particionamiento.
- Transformación de bucles y cursores en operaciones vectorizadas con DataFrame.
- Modularización, UDFs y pandas UDFs, widgets y bibliotecas reutilizables.
Laboratorio del Día 4 — Refactorización de scripts procedimentales.
- Refactorización de un script ETL procedural a cuadernos modulares de PySpark.
- Introducción de parametrización, pruebas tipo unidad y funciones reutilizables.
- Revisión de código y aplicación de listas de verización de mejores prácticas.
Día 5 — Orquestación, pipeline de extremo a extremo y mejores prácticas.
- Databricks Workflows: diseño de trabajos, dependencias de tareas, disparadores y manejo de errores.
- Diseño de pipelines incrementales tipo Medallón con reglas de calidad y validación de esquemas.
- Integración con Git (GitHub / Azure DevOps), CI y estrategias de prueba para lógica PySpark.
Laboratorio del Día 5 — Construcción de un pipeline completo de extremo a extremo.
- Ensamblaje de un pipeline Bronce → Plata → Oro orquestado con Workflows.
- Implementación de registro, auditoría, reintentos y validaciones automatizadas.
- Ejecución del pipeline completo, validación de salidas y preparación de notas de despliegue.
Operacionalización, gobierno y preparación para producción.
- Mejores prácticas de gobierno, linaje y controles de acceso en Unity Catalog.
- Costos, dimensionamiento de clústeres, escalado automático y patrones de concurrencia de trabajos.
- Listas de verificación de despliegue, estrategias de reversión y creación de manuales operativos (runbooks).
Revisión final, transferencia de conocimiento y próximos pasos.
- Presentaciones de los participantes sobre el trabajo de migración y lecciones aprendidas.
- Análisis de brechas, actividades recomendadas de seguimiento y entrega de materiales de capacitación.
- Referencias, rutas de aprendizaje adicionales y opciones de soporte.
Requerimientos
- Comprensión de conceptos de ingeniería de datos.
- Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server).
- Familiaridad con conceptos de orquestación ETL (ADF o similar).
Público objetivo
- Gerentes de tecnología con experiencia en ingeniería de datos.
- Ingenieros de datos que transitan lógica OLAP procedural a patrones Lakehouse.
- Ingenieros de plataforma responsables de la adopción de Databricks.
Testimonios (1)
Todos los temas que abarca, aunque muchos fueron muy rápidos, nos da una idea de lo que necesitaremos ahondar. Además me gustó que pudimos hacer practicas, aunque insisto, creo que el curso amerita mas.