Contacta con nosotros

Temario del curso

Infraestructura como Código para EXO

  • Visión general de los patrones de despliegue de EXO: clústeres de un solo nodo, multiplo y RDMA.
  • Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) con gestión de configuraciones.
  • Uso de flakes de Nix para la construcción reproducible de EXO y entornos de desarrollador.
  • Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster.

Construcciones Reproducibles e Integración con CI

  • Fijación de dependencias y construcción del tablero de control (dashboard) en pipelines de CI.
  • Ejecución de pruebas de humo de EXO en runners de GitHub Actions o GitLab CI.
  • Creación de imágenes base (golden images) y flujos de trabajo de retroceso basados en instantáneas para máquinas virtuales de macOS y Linux.
  • Versionado de tarjetas de modelos personalizados junto con el código de la aplicación.

Descubrimiento de Clústeres y Automatización de Redes

  • Configuración de mDNS y DNS estático para el descubrimiento confiable de nodos libp2p.
  • Automatización de la creación de perfiles de red y gestión del puente Thunderbolt en macOS.
  • Uso de nombres de espacio personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción.
  • Reglas de cortafuegos y segmentación de red para entornos multiinquilino.

Gestión del Ciclo de Vida de Modelos y Almacenamiento

  • Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS.
  • Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido.
  • Recolección de basura de cachés obsoletas y políticas de retención de pesos versionados.
  • Automatización de descargas previas de modelos y verificaciones de salud antes de actualizaciones progresivas.

Monitoreo y Alertas

  • Envío de registros de EXO a un sistema de registro centralizado (ELK, Loki o Splunk).
  • Construcción de tableros de control en Grafana a partir de la salida de EXO_TRACING_ENABLED.
  • Configuración de alertas sobre cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia.
  • Correlación de telemetría de hardware de macmon con regresiones en el rendimiento de los modelos.

Actualización, Retroceso y Recuperación ante Desastres

  • Prueba de actualizaciones de binarios de EXO en un nodo canario antes del despliegue a toda la flota.
  • Retroceso a nivel de modelo: cambio entre versiones cuantificadas sin volver a descargar.
  • Respaldo y restauración del estado del clúster, nombres de espacio personalizados y pesos en caché.
  • Documentación de libros de instrucciones de recuperación para escenarios de reconstrucción total del clúster.

Endurecimiento de Seguridad y Cumplimiento

  • Aplicación de TLS en la capa del proxy inverso (nginx, traefik) para el tablero de control y la API.
  • Implementación de limitación de velocidad de API y lista blanca de IPs para los extremos (endpoints) de EXO.
  • Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero.
  • Auditoría de accesos y mantenimiento de un inventario de modelos desplegados y sus versiones.

Requerimientos

  • Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
  • Familiaridad con la administración de sistemas en macOS o Linux y gestión de paquetes
  • Conocimiento de conceptos de redes, DNS y almacenamiento

Público Objetivo

  • Ingenieros de DevOps
  • Arquitectos de infraestructura
  • Profesionales SRE responsables de cargas de trabajo de IA on-premise
 21 Horas

Número de participantes


Precio por participante

Testimonios (2)

Próximos cursos

Categorías Relacionadas