Contacta con nosotros

Temario del curso

Introducción

  • Aprendizaje mediante refuerzo positivo

Elementos del Aprendizaje por Refuerzo

Términos importantes (Acciones, Estados, Recompensas, Política, Valor, Valor-Q, etc.)

Visión general de los métodos de soluciones tabulares

Creación de un agente de software

Comprensión de los enfoques basados en valor, basados en política y basados en modelos

Trabajo con el Proceso de Decisión de Markov (MDP)

Cómo las políticas definen el comportamiento de un agente

Uso de métodos de Monte Carlo

Aprendizaje por diferencias temporales

Arranque en n pasos

Métodos de solución aproximada

Predicción en política con aproximación

Control en política con aproximación

Métodos fuera de política con aproximación

Comprensión de las trazas de elegibilidad

Uso de métodos de gradiente de política

Resumen y conclusiones

Requerimientos

  • Experiencia en aprendizaje automático
  • Experiencia en programación

Público objetivo

  • Científicos de datos
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas