Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Soberanía de IA y Despliegue Local de LLM
- Riesgos de los LLMs en la nube: retención de datos, entrenamiento con entradas, jurisdicción extranjera.
- Arquitectura de Ollama: servidor de modelos, registro y API compatible con OpenAI.
- Comparación con vLLM, llama.cpp y Text Generation Inference.
- Licencias de modelos: términos de Llama, Mistral, Qwen y Gemma.
Instalación y Configuración de Hardware
- Instalación de Ollama en Linux con soporte CUDA y ROCm.
- Fallback solo para CPU y optimización AVX/AVX2.
- Despliegue en Docker y mapeo de volúmenes persistentes.
- Configuración de múltiples GPUs y estrategias de asignación de VRAM.
Gestión de Modelos
- Descarga de modelos desde el registro de Ollama: ollama pull llama3.
- Importación de modelos GGUF desde HuggingFace y TheBloke.
- Niveles de cuantización: compensaciones entre Q4_K_M, Q5_K_M y Q8_0.
- Cambio de modelos y límites de carga concurrente de modelos.
Modelfiles Personalizados
- Escritura de la sintaxis Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Ajuste de temperatura, top_p y repeat_penalty.
- Ingeniería de prompts de sistema para comportamiento específico de roles.
- Creación y publicación de modelos personalizados en el registro local.
Integración de API
- Punto final /v1/chat/completions compatible con OpenAI.
- Respuestas en streaming y modo JSON.
- Integración con LangChain, LlamaIndex y aplicaciones personalizadas.
- Autenticación y límite de velocidad con proxy inverso.
Optimización del Rendimiento
- Dimensionamiento de la ventana de contexto y gestión del caché KV.
- Inferencia por lotes y manejo de solicitudes paralelas.
- Asignación de hilos de CPU y conciencia NUMA.
- Monitoreo de la utilización de GPU y presión de memoria.
Seguridad y Cumplimiento
- Aislamiento de red para puntos finales de servicio de modelos.
- Filtros de entrada y pipelines de moderación de salida.
- Registro de auditoría de prompts y completados.
- Proveniencia del modelo y verificación de hash.
Requerimientos
- Administración intermedia de Linux y contenedores.
- Comprensión de los modelos de aprendizaje automático y transformadores a alto nivel.
- Familiaridad con APIs REST y JSON.
Público Objetivo
- Ingenieros de IA y desarrolladores que reemplazan APIs de LLM en la nube.
- Organizaciones con sensibilidad de datos que impiden el uso de modelos en la nube.
- Equipos gubernamentales y de defensa que requieren modelos de lenguaje desconectados de la red (air-gapped).
14 Horas