Contacta con nosotros

Temario del curso

Introducción a los modelos multimodales Mistral

  • Visión general de Mistral Medium y sus capacidades multimodales
  • Modelos de OCR y documentos, y sus casos de uso
  • Integración con ecosistemas de código abierto

Pipelines de OCR y visión

  • Fundamentos de OCR con modelos Mistral
  • Preprocesamiento de imágenes y documentos escaneados
  • Extracción de texto estructurado desde imágenes

Comprensión de documentos

  • Diseño de pipelines de NLP para documentos
  • Reconocimiento de entidades, resumen y clasificación
  • Vinculación cruzada de datos de texto y visión

Aplicaciones de búsqueda y conocimiento

  • Sistemas de búsqueda visual-textual
  • Construcción de búsquedas semánticas con salidas de OCR
  • Repositorios empresariales de documentos

Aplicaciones de asistencia e interactivas

  • Diseño de interfaz de usuario para asistentes multimodales
  • Aplicaciones de accesibilidad (por ejemplo, de visión a texto)
  • Herramientas de productividad del mundo real

Rendimiento y optimización

  • Escala de pipelines multimodales
  • Ajuste del rendimiento de inferencia
  • Evaluación de compensaciones entre precisión y eficiencia

Estudios de caso y direcciones futuras

  • Aplicaciones industriales de la inteligencia artificial multimodal
  • Tendencias de investigación en OCR e inteligencia artificial de documentos
  • Consideraciones de IA responsable en tareas visual-textuales

Resumen y próximos pasos

Requerimientos

  • Comprensión de los conceptos de procesamiento de lenguaje natural
  • Experiencia con Python y marcos de trabajo de aprendizaje automático (ML)
  • Familiaridad con los fundamentos de visión por computadora

Público objetivo

  • Equipos de producto
  • Investigadores de aprendizaje automático (ML)
  • Ingenieros de ML aplicados
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas