Temario del curso
Introducción
- Aprendizaje mediante refuerzo positivo
Elementos del Aprendizaje por Refuerzo
Términos importantes (Acciones, Estados, Recompensas, Política, Valor, Valor-Q, etc.)
Visión general de los métodos de soluciones tabulares
Creación de un agente de software
Comprensión de los enfoques basados en valor, basados en política y basados en modelos
Trabajo con el Proceso de Decisión de Markov (MDP)
Cómo las políticas definen el comportamiento de un agente
Uso de métodos de Monte Carlo
Aprendizaje por diferencias temporales
Arranque en n pasos
Métodos de solución aproximada
Predicción en política con aproximación
Control en política con aproximación
Métodos fuera de política con aproximación
Comprensión de las trazas de elegibilidad
Uso de métodos de gradiente de política
Resumen y conclusiones
Requerimientos
- Experiencia en aprendizaje automático
- Experiencia en programación
Público objetivo
- Científicos de datos