Contacta con nosotros

Temario del curso

Soberanía de IA y Despliegue Local de LLM

  • Riesgos de los LLMs en la nube: retención de datos, entrenamiento con entradas, jurisdicción extranjera.
  • Arquitectura de Ollama: servidor de modelos, registro y API compatible con OpenAI.
  • Comparación con vLLM, llama.cpp y Text Generation Inference.
  • Licencias de modelos: términos de Llama, Mistral, Qwen y Gemma.

Instalación y Configuración de Hardware

  • Instalación de Ollama en Linux con soporte CUDA y ROCm.
  • Fallback solo para CPU y optimización AVX/AVX2.
  • Despliegue en Docker y mapeo de volúmenes persistentes.
  • Configuración de múltiples GPUs y estrategias de asignación de VRAM.

Gestión de Modelos

  • Descarga de modelos desde el registro de Ollama: ollama pull llama3.
  • Importación de modelos GGUF desde HuggingFace y TheBloke.
  • Niveles de cuantización: compensaciones entre Q4_K_M, Q5_K_M y Q8_0.
  • Cambio de modelos y límites de carga concurrente de modelos.

Modelfiles Personalizados

  • Escritura de la sintaxis Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ajuste de temperatura, top_p y repeat_penalty.
  • Ingeniería de prompts de sistema para comportamiento específico de roles.
  • Creación y publicación de modelos personalizados en el registro local.

Integración de API

  • Punto final /v1/chat/completions compatible con OpenAI.
  • Respuestas en streaming y modo JSON.
  • Integración con LangChain, LlamaIndex y aplicaciones personalizadas.
  • Autenticación y límite de velocidad con proxy inverso.

Optimización del Rendimiento

  • Dimensionamiento de la ventana de contexto y gestión del caché KV.
  • Inferencia por lotes y manejo de solicitudes paralelas.
  • Asignación de hilos de CPU y conciencia NUMA.
  • Monitoreo de la utilización de GPU y presión de memoria.

Seguridad y Cumplimiento

  • Aislamiento de red para puntos finales de servicio de modelos.
  • Filtros de entrada y pipelines de moderación de salida.
  • Registro de auditoría de prompts y completados.
  • Proveniencia del modelo y verificación de hash.

Requerimientos

  • Administración intermedia de Linux y contenedores.
  • Comprensión de los modelos de aprendizaje automático y transformadores a alto nivel.
  • Familiaridad con APIs REST y JSON.

Público Objetivo

  • Ingenieros de IA y desarrolladores que reemplazan APIs de LLM en la nube.
  • Organizaciones con sensibilidad de datos que impiden el uso de modelos en la nube.
  • Equipos gubernamentales y de defensa que requieren modelos de lenguaje desconectados de la red (air-gapped).
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas