Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a los modelos multimodales Mistral
- Visión general de Mistral Medium y sus capacidades multimodales
- Modelos de OCR y documentos, y sus casos de uso
- Integración con ecosistemas de código abierto
Pipelines de OCR y visión
- Fundamentos de OCR con modelos Mistral
- Preprocesamiento de imágenes y documentos escaneados
- Extracción de texto estructurado desde imágenes
Comprensión de documentos
- Diseño de pipelines de NLP para documentos
- Reconocimiento de entidades, resumen y clasificación
- Vinculación cruzada de datos de texto y visión
Aplicaciones de búsqueda y conocimiento
- Sistemas de búsqueda visual-textual
- Construcción de búsquedas semánticas con salidas de OCR
- Repositorios empresariales de documentos
Aplicaciones de asistencia e interactivas
- Diseño de interfaz de usuario para asistentes multimodales
- Aplicaciones de accesibilidad (por ejemplo, de visión a texto)
- Herramientas de productividad del mundo real
Rendimiento y optimización
- Escala de pipelines multimodales
- Ajuste del rendimiento de inferencia
- Evaluación de compensaciones entre precisión y eficiencia
Estudios de caso y direcciones futuras
- Aplicaciones industriales de la inteligencia artificial multimodal
- Tendencias de investigación en OCR e inteligencia artificial de documentos
- Consideraciones de IA responsable en tareas visual-textuales
Resumen y próximos pasos
Requerimientos
- Comprensión de los conceptos de procesamiento de lenguaje natural
- Experiencia con Python y marcos de trabajo de aprendizaje automático (ML)
- Familiaridad con los fundamentos de visión por computadora
Público objetivo
- Equipos de producto
- Investigadores de aprendizaje automático (ML)
- Ingenieros de ML aplicados
14 Horas