Contacta con nosotros

Temario del curso

Introducción a los Modelos Visión-Lenguaje

  • Visión general de los VLMs y su papel en la IA multimodal
  • Arquitecturas populares: CLIP, Flamingo, BLIP, entre otros.
  • Casos de uso: búsqueda, generación de descripciones, sistemas autónomos, análisis de contenido

Preparación del entorno de ajuste fino

  • Configuración de OpenCLIP y otras bibliotecas de VLMs
  • Formatos de conjuntos de datos para pares de imagen-texto
  • Pipelines de preprocesamiento para entradas visuales y lingüísticas

Ajuste fino de CLIP y modelos similares

  • Pérdida contrastiva y espacios de incrustación conjunta
  • Práctica: ajuste fino de CLIP con conjuntos de datos personalizados
  • Manejo de datos específicos del dominio y multilingües

Técnicas avanzadas de ajuste fino

  • Uso de LoRA y métodos basados en adaptadores para mayor eficiencia
  • Ajuste de prompts e inyección de prompts visuales
  • Compensaciones entre evaluación con cero ejemplos y con ajuste fino

Evaluación y establecimiento de puntos de referencia

  • Métricas para VLMs: precisión de recuperación, BLEU, CIDEr, recuerdo
  • Diagnósticos de alineación visual-textual
  • Visualización de espacios de incrustación y clasificaciones erróneas

Despliegue y uso en aplicaciones reales

  • Exportación de modelos para inferencia (TorchScript, ONNX)
  • Integración de VLMs en pipelines o APIs
  • Consideraciones de recursos y escalado de modelos

Estudios de caso y escenarios aplicados

  • Análisis de medios y moderación de contenido
  • Búsqueda y recuperación en comercio electrónico y bibliotecas digitales
  • Interacción multimodal en robótica y sistemas autónomos

Resumen y siguientes pasos

Requerimientos

  • Conocimiento de aprendizaje profundo para visión y procesamiento de lenguaje natural (NLP)
  • Experiencia con PyTorch y modelos basados en transformadores
  • Familiaridad con arquitecturas de modelos multimodales

Público objetivo

  • Ingenieros de visión por computadora
  • Desarrolladores de IA
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas