Contacta con nosotros

Temario del curso

Introducción al Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF)

  • ¿Qué es RLHF y por qué es importante?
  • Comparación con métodos de ajuste fino supervisado.
  • Aplicaciones de RLHF en sistemas modernos de IA.

Modelado de recompensas con retroalimentación humana

  • Recopilación y estructuración de retroalimentación humana.
  • Construcción y entrenamiento de modelos de recompensa.
  • Evaluación de la efectividad de los modelos de recompensa.

Entrenamiento con Optimización de Política Próxima (PPO)

  • Visión general de los algoritmos PPO para RLHF.
  • Implementación de PPO con modelos de recompensa.
  • Ajuste fino iterativo y seguro de modelos.

Ajuste fino práctico de modelos de lenguaje

  • Preparación de conjuntos de datos para flujos de trabajo de RLHF.
  • Ajuste fino práctico de un LLM pequeño utilizando RLHF.
  • Desafíos y estrategias de mitigación.

Escalado de RLHF a sistemas de producción

  • Consideraciones de infraestructura y capacidad de cómputo.
  • Aseguramiento de calidad y bucles de retroalimentación continua.
  • Mejores prácticas para la implementación y el mantenimiento.

Consideraciones éticas y mitigación de sesgos

  • Abordaje de riesgos éticos en la retroalimentación humana.
  • Estrategias de detección y corrección de sesgos.
  • Garantía de alineación y respuestas seguras.

Estudios de caso y ejemplos del mundo real

  • Estudio de caso: Ajuste fino de ChatGPT con RLHF.
  • Otras implementaciones exitosas de RLHF.
  • Lecciones aprendidas y perspectivas de la industria.

Resumen y siguientes pasos

Requerimientos

  • Comprensión de los fundamentos del aprendizaje supervisado y por refuerzo.
  • Experiencia en ajuste fino de modelos y arquitecturas de redes neuronales.
  • Familiaridad con la programación en Python y frameworks de aprendizaje profundo (por ejemplo, TensorFlow, PyTorch).

Público objetivo

  • Ingenieros de aprendizaje automático.
  • Investigadores de IA.
 14 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas