Contacta con nosotros

Temario del curso

1. Introducción al Aprendizaje por Refuerzo Profundo

  • ¿Qué es el aprendizaje por refuerzo?
  • Diferencias entre aprendizaje supervisado, no supervisado y aprendizaje por refuerzo
  • Aplicaciones del DRL en 2025 (robótica, salud, finanzas, logística)
  • Comprensión del ciclo de interacción entre agente y entorno

2. Fundamentos del aprendizaje por refuerzo

  • Procesos de decisión de Markov (MDP)
  • Estado, acción, recompensa, política y funciones de valor
  • Compensación entre exploración y explotación
  • Métodos de Monte Carlo y aprendizaje de diferencias temporales (TD)

3. Implementación de algoritmos básicos de RL

  • Métodos tabulares: programación dinámica, evaluación de políticas e iteración
  • Q-Learning y SARSA
  • Exploración épsilon-greedy y estrategias de desvanecimiento
  • Implementación de entornos de RL con OpenAI Gymnasium

4. Transición al Aprendizaje por Refuerzo Profundo

  • Limitaciones de los métodos tabulares
  • Uso de redes neuronales para la aproximación de funciones
  • Arquitectura y flujo de trabajo de la Red de Q Profunda (DQN)
  • Reproducción de experiencias y redes objetivo

5. Algoritmos avanzados de DRL

  • Double DQN, Dueling DQN y reproducción de experiencias priorizada
  • Métodos de gradiente de política: algoritmo REINFORCE
  • Arquitecturas Actor-Crítico (A2C, A3C)
  • Optimización de política cercana (PPO)
  • Actor-Crítico suave (SAC)

6. Trabajo con espacios de acción continuos

  • Desafíos en el control continuo
  • Uso de DDPG (Gradiente de Política Determinista Profundo)
  • TD3 (Twin Delayed DDPG)

7. Herramientas y marcos prácticos

  • Uso de Stable-Baselines3 y Ray RLlib
  • Registro y monitoreo con TensorBoard
  • Ajuste de hiperparámetros para modelos de DRL

8. Ingeniería de recompensas y diseño de entornos

  • Configuración de recompensas y equilibrio de penalizaciones
  • Conceptos de transferencia de aprendizaje de simulación a realidad
  • Creación de entornos personalizados en Gymnasium

9. Entornos parcialmente observables y generalización

  • Manejo de información de estado incompleta (POMDPs)
  • Enfoques basados en memoria utilizando LSTMs y RNNs
  • Mejora de la robustez y la generalización del agente

10. Teoría de juegos y aprendizaje por refuerzo multiagente

  • Introducción a entornos multiagente
  • Cooperación frente a competencia
  • Aplicaciones en entrenamiento adversarial y optimización de estrategias

11. Estudios de caso y aplicaciones del mundo real

  • Simulaciones de conducción autónoma
  • Estrategias de fijación de precios dinámica y trading financiero
  • Robótica y automatización industrial

12. Solución de problemas y optimización

  • Diagnóstico de entrenamiento inestable
  • Gestión de la escasez de recompensas y el sobreajuste
  • Escalado de modelos de DRL en GPUs y sistemas distribuidos

13. Resumen y próximos pasos

  • Repaso de la arquitectura DRL y los algoritmos clave
  • Tendencias de la industria y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
  • Recursos adicionales y materiales de lectura

Requerimientos

  • Dominio de la programación en Python
  • Comprensión de cálculo y álgebra lineal
  • Conocimientos básicos de probabilidad y estadística
  • Experiencia en la construcción de modelos de aprendizaje automático utilizando Python, NumPy o TensorFlow/PyTorch

Público objetivo

  • Desarrolladores interesados en la inteligencia artificial y los sistemas inteligentes
  • Científicos de datos que exploran marcos de aprendizaje por refuerzo
  • Ingenieros de aprendizaje automático que trabajan con sistemas autónomos
 21 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas