Contacta con nosotros

Temario del curso

Introducción a EXO y clústeres de IA local

  • Descripción general del marco de EXO y el ecosistema exo-explore
  • Comparación entre inferencia centralizada en la nube e inferencia local distribuida
  • Arquitectura: descubrimiento de dispositivos libp2p, backend MLX, panel de control y capas de API
  • Requisitos de hardware: Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, almacenamiento compartido

Instalación de EXO en macOS

  • Configuración de Xcode, Metal ToolChain y los requisitos previos de macOS
  • Instalación de uv, Node.js y el toolchain de Rust nightly
  • Instalación de la bifurcación fijada de macmon para el monitoreo de Apple Silicon
  • Clonar el repositorio y compilar el panel de control con npm
  • Ejecutar EXO desde el código fuente y verificar el panel de control en localhost:52415

Instalación de EXO en Linux

  • Instalación de dependencias mediante apt o Homebrew en Linux
  • Configuración de uv, Node.js 18+ y Rust nightly
  • Compilación del panel de control y ejecución de EXO solo en CPU
  • Disposición de directorios: rutas del directorio base XDG para configuración, datos, caché y registros

Descubrimiento automático de dispositivos y formación de clústeres

  • Comprensión del descubrimiento automático basado en libp2p a través de redes locales
  • Configuración de espacios de nombres personalizados con EXO_LIBP2P_NAMESPACE para el aislamiento del clúster
  • Verificación de la membresía de nodos en la vista del clúster del panel de control
  • Manejo de fallas de descubrimiento y problemas de segmentación de red

Habilitación de RDMA sobre Thunderbolt 5

  • Arquitectura de RDMA y la afirmación de reducción del 99 por ciento en la latencia
  • Habilitar RDMA en el modo de recuperación de macOS con rdma_ctl
  • Requisitos del cable y restricciones de topología de puertos en Mac Studio
  • Emparejar las versiones de macOS en todos los nodos del clúster
  • Solución de problemas de descubrimiento de RDMA y configuración de DHCP

Implementación de modelos de vanguardia

  • Uso del panel de control para cargar y fragmentar modelos de DeepSeek v3.1, Qwen3-235B y la familia Llama
  • Visualización de la distribución de instancias con el punto final de la API /instance/previews
  • Creación de instancias de modelos con fragmentación por tuberías o paralelismo de tensor
  • Configuración de tarjetas de modelos personalizados desde el hub de HuggingFace

Monitoreo y solución de problemas

  • Lectura de registros de EXO y comprensión del rastreo distribuido
  • Interpretación de la salud del clúster en la vista del clúster del panel de control
  • Diagnóstico de fallos de nodos trabajadores y comportamiento de reconexión
  • Uso de EXO_TRACING_ENABLED para el análisis de cuellos de botella de rendimiento

Mantenimiento y actualizaciones del clúster

  • Actualización de binarios de EXO y procedimientos de reconstrucción del panel de control
  • Migración de cachés de modelos y gestión de modelos pre-descargados sobre NFS
  • Eliminación ordenada de nodos y reequilibrio de cargas de trabajo

Requerimientos

  • Comprensión de los fundamentos de redes (IP, subredes, firewalls)
  • Experiencia con la administración de línea de comandos de macOS o Linux
  • Conocimiento del manejo de paquetes de Python (pip/uv) y herramientas de Node.js

Público objetivo

  • Administradores de sistemas
  • Ingenieros de DevOps
  • Arquitectos de infraestructura de IA responsables de la implementación local de LLM
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas