Contacta con nosotros

Temario del curso

Fundamentos del Despliegue de Tencent Hunyuan en Producción

  • Panorama de escenarios de servicio de modelos de Tencent Hunyuan
  • Características de producción de modelos grandes y MoE
  • Cuellos de botella comunes en latencia, rendimiento y costos
  • Definición de objetivos de nivel de servicio para cargas de trabajo de inferencia

Arquitectura de Despliegue y Flujo de Servicio

  • Componentes principales de una pila de inferencia en producción
  • Elección entre modelos de despliegue en contenedores, locales y en la nube
  • Conceptos básicos de carga de modelos, enrutamiento de solicitudes y asignación de GPU
  • Diseño enfocado en confiabilidad y simplicidad operativa

Optimización de Latencia en la Práctica

  • Uso de motores de inferencia optimizados como TensorRT cuando corresponda
  • Conceptos de KV-cache y ajuste práctico del caché
  • Reducción del tiempo de inicio, calentamiento y sobrecarga de respuesta
  • Medición del tiempo hasta el primer token y velocidad de generación de tokens

Rendimiento, Agrupamiento y Eficiencia de GPU

  • Estrategias de agrupamiento continuo y por solicitud
  • Gestión de concurrencia y comportamiento de colas
  • Mejora de la utilización de GPU sin afectar la experiencia del usuario
  • Manejo de solicitudes de contexto largo y cargas de trabajo mixtas

Cuantización y Control de Costos

  • Por qué la cuantización es crucial para el servicio en producción
  • Compromisos prácticos de FP16, INT8 y otras opciones de precisión comunes
  • Equilibrio entre calidad del modelo, latencia y costo de infraestructura
  • Creación de una lista de verificación sencilla para optimización de costos

Operaciones, Monitoreo y Revisión de Preparación

  • Disparadores de escalado automático para servicios de inferencia
  • Monitoreo de latencia, rendimiento, uso de caché y salud de GPU
  • Conceptos básicos de registro, alertas y respuesta a incidentes
  • Revisión de un despliegue de referencia y creación de un plan de mejora

Requerimientos

  • Comprensión básica del despliegue de modelos de lenguaje grande y flujos de trabajo de inferencia
  • Experiencia con contenedores, infraestructura en la nube o local, y servicios basados en API
  • Conocimiento operativo de Python o tareas de ingeniería de sistemas

Público Objetivo

  • Ingenieros de ML que despliegan LLMs en producción
  • Ingenieros de plataforma responsables de servicios de inferencia basados en GPU
  • Arquitectos de soluciones que diseñan plataformas de servicio de IA escalables
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas