Contacta con nosotros

Temario del curso

Introducción a la IA multimodal y Ollama

  • Visión general del aprendizaje multimodal
  • Principales desafíos en la integración visión-lenguaje
  • Capacidades y arquitectura de Ollama

Configuración del entorno de Ollama

  • Instalación y configuración de Ollama
  • Trabajo con implementación de modelos local
  • Integración de Ollama con Python y Jupyter

Trabajo con entradas multimodales

  • Integración de texto e imagen
  • Incorporación de audio y datos estructurados
  • Diseño de flujos de trabajo de preprocesamiento

Aplicaciones de comprensión de documentos

  • Extracción de información estructurada de PDF e imágenes
  • Combinación de OCR con modelos de lenguaje
  • Construcción de flujos de trabajo inteligentes de análisis de documentos

Preguntas y respuestas visuales (VQA)

  • Configuración de conjuntos de datos y puntos de referencia para VQA
  • Entrenamiento y evaluación de modelos multimodales
  • Construcción de aplicaciones interactivas de VQA

Diseño de agentes multimodales

  • Principios de diseño de agentes con razonamiento multimodal
  • Combinación de percepción, lenguaje y acción
  • Implementación de agentes para casos de uso reales

Integración y optimización avanzada

  • Afinado de modelos multimodales con Ollama
  • Optimización del rendimiento de inferencia
  • Consideraciones de escalabilidad y despliegue

Resumen y próximos pasos

Requerimientos

  • Sólida comprensión de los conceptos de aprendizaje automático
  • Experiencia con frameworks de aprendizaje profundo como PyTorch o TensorFlow
  • Familiaridad con el procesamiento del lenguaje natural y la visión por computador

Audiencia

  • Ingenieros de aprendizaje automático
  • Investigadores de IA
  • Desarrolladores de productos que integren flujos de trabajo de visión y texto
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas