Contacta con nosotros

Temario del curso

Introducción al escalado de Ollama

  • Arquitectura de Ollama y consideraciones de escalado
  • Cuellos de botella comunes en implementaciones multiusuario
  • Mejores prácticas para la preparación de la infraestructura

Asignación de recursos y optimización de GPU

  • Estrategias eficientes de uso de CPU y GPU
  • Consideraciones de memoria y ancho de banda
  • Restricciones de recursos a nivel de contenedor

Despliegue con contenedores y Kubernetes

  • Contenerización de Ollama con Docker
  • Ejecución de Ollama en clústeres de Kubernetes
  • Balanceo de carga y descubrimiento de servicios

Escalado automático y agrupación (batching)

  • Diseño de políticas de escalado automático para Ollama
  • Técnicas de inferencia por lotes para optimizar el rendimiento
  • Compensaciones entre latencia y rendimiento

Optimización de la latencia

  • Perfilado del rendimiento de la inferencia
  • Estrategias de almacenamiento en caché y precalentamiento de modelos
  • Reducción de la sobrecarga de E/S y comunicación

Monitoreo y observabilidad

  • Integración de Prometheus para métricas
  • Creación de paneles con Grafana
  • Alertas y respuesta a incidentes en infraestructura de Ollama

Gestión de costos y estrategias de escalado

  • Asignación de GPU con conciencia de costos
  • Consideraciones al desplegar en la nube o en instalaciones propias
  • Estrategias para un escalado sostenible

Resumen y próximos pasos

Requerimientos

  • Experiencia en administración de sistemas Linux
  • Conocimientos sobre contenedores y orquestación
  • Familiaridad con el despliegue de modelos de aprendizaje automático

Audiencia

  • Ingenieros de DevOps
  • Equipos de infraestructura de ML
  • Ingenieros de confiabilidad del sitio (SRE)
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas