Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Panorama de las tecnologías de reconocimiento de voz.
- Historia y evolución del reconocimiento de voz.
- Modelos acústicos, modelos de lenguaje y decodificación.
- Arquitecturas modernas: redes neuronales recurrentes (RNN), transformadores y Whisper.
Preprocesamiento de audio y fundamentos de transcripción.
- Manejo de formatos de audio y frecuencias de muestreo.
- Limpieza, recorte y segmentación de audio.
- Generación de texto a partir de audio: en tiempo real vs. por lotes.
Práctica con Whisper y otras API.
- Instalación y uso de OpenAI Whisper.
- Llamadas a API en la nube (Google, Azure) para transcripción.
- Comparación de rendimiento, latencia y costo.
Idioma, acentos y adaptación a dominios específicos.
- Trabajo con múltiples idiomas y acentos.
- Vocabularios personalizados y tolerancia al ruido.
- Manejo de lenguaje legal, médico o técnico.
Formateo e integración de la salida.
- Agregar marcas de tiempo, puntuación y etiquetas de hablante.
- Exportación a formatos de texto, SRT o JSON.
- Integración de transcripciones en aplicaciones o bases de datos.
Laboratorios de implementación de casos de uso.
- Transcripción de reuniones, entrevistas o podcasts.
- Sistemas de comandos de voz a texto.
- Subtítulos en tiempo real para transmisiones de video y audio.
Evaluación, limitaciones y aspectos éticos.
- Métricas de precisión y evaluación de modelos.
- Sesgo y equidad en modelos de reconocimiento de voz.
- Consideraciones de privacidad y cumplimiento normativo.
Resumen y próximos pasos.
Requerimientos
- Conocimiento de conceptos generales de IA y aprendizaje automático.
- Familiaridad con formatos y herramientas de archivos de audio o medios.
Público objetivo
- Científicos de datos e ingenieros de IA que trabajan con datos de voz.
- Desarrolladores de software que crean aplicaciones basadas en transcripción.
- Organizaciones que exploran el reconocimiento de voz para automatización.
14 Horas