Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Infraestructura como Código para EXO
- Visión general de los patrones de despliegue de EXO: clústeres de un solo nodo, multiplo y RDMA.
- Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) con gestión de configuraciones.
- Uso de flakes de Nix para la construcción reproducible de EXO y entornos de desarrollador.
- Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster.
Construcciones Reproducibles e Integración con CI
- Fijación de dependencias y construcción del tablero de control (dashboard) en pipelines de CI.
- Ejecución de pruebas de humo de EXO en runners de GitHub Actions o GitLab CI.
- Creación de imágenes base (golden images) y flujos de trabajo de retroceso basados en instantáneas para máquinas virtuales de macOS y Linux.
- Versionado de tarjetas de modelos personalizados junto con el código de la aplicación.
Descubrimiento de Clústeres y Automatización de Redes
- Configuración de mDNS y DNS estático para el descubrimiento confiable de nodos libp2p.
- Automatización de la creación de perfiles de red y gestión del puente Thunderbolt en macOS.
- Uso de nombres de espacio personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción.
- Reglas de cortafuegos y segmentación de red para entornos multiinquilino.
Gestión del Ciclo de Vida de Modelos y Almacenamiento
- Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS.
- Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido.
- Recolección de basura de cachés obsoletas y políticas de retención de pesos versionados.
- Automatización de descargas previas de modelos y verificaciones de salud antes de actualizaciones progresivas.
Monitoreo y Alertas
- Envío de registros de EXO a un sistema de registro centralizado (ELK, Loki o Splunk).
- Construcción de tableros de control en Grafana a partir de la salida de EXO_TRACING_ENABLED.
- Configuración de alertas sobre cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia.
- Correlación de telemetría de hardware de macmon con regresiones en el rendimiento de los modelos.
Actualización, Retroceso y Recuperación ante Desastres
- Prueba de actualizaciones de binarios de EXO en un nodo canario antes del despliegue a toda la flota.
- Retroceso a nivel de modelo: cambio entre versiones cuantificadas sin volver a descargar.
- Respaldo y restauración del estado del clúster, nombres de espacio personalizados y pesos en caché.
- Documentación de libros de instrucciones de recuperación para escenarios de reconstrucción total del clúster.
Endurecimiento de Seguridad y Cumplimiento
- Aplicación de TLS en la capa del proxy inverso (nginx, traefik) para el tablero de control y la API.
- Implementación de limitación de velocidad de API y lista blanca de IPs para los extremos (endpoints) de EXO.
- Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero.
- Auditoría de accesos y mantenimiento de un inventario de modelos desplegados y sus versiones.
Requerimientos
- Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
- Familiaridad con la administración de sistemas en macOS o Linux y gestión de paquetes
- Conocimiento de conceptos de redes, DNS y almacenamiento
Público Objetivo
- Ingenieros de DevOps
- Arquitectos de infraestructura
- Profesionales SRE responsables de cargas de trabajo de IA on-premise
21 Horas
Testimonios (2)
El conocimiento y experiencia del consultor ya que se abordan los temas teóricos aplicándolos a la realidad de los procesos. El curso contiene un programa de mucho valor en la gestión de las tecnologías de información.
Luis Castro Gamboa - Cooperativa De Ahorro Y Credito Ande No. 1 R.L.
Curso - Site Reliability Engineering (SRE) Foundation®
Que fue muy claro en cada especificación