Temario del curso
1. Introducción al Aprendizaje por Refuerzo Profundo
- ¿Qué es el aprendizaje por refuerzo?
- Diferencias entre aprendizaje supervisado, no supervisado y aprendizaje por refuerzo
- Aplicaciones del DRL en 2025 (robótica, salud, finanzas, logística)
- Comprensión del ciclo de interacción entre agente y entorno
2. Fundamentos del aprendizaje por refuerzo
- Procesos de decisión de Markov (MDP)
- Estado, acción, recompensa, política y funciones de valor
- Compensación entre exploración y explotación
- Métodos de Monte Carlo y aprendizaje de diferencias temporales (TD)
3. Implementación de algoritmos básicos de RL
- Métodos tabulares: programación dinámica, evaluación de políticas e iteración
- Q-Learning y SARSA
- Exploración épsilon-greedy y estrategias de desvanecimiento
- Implementación de entornos de RL con OpenAI Gymnasium
4. Transición al Aprendizaje por Refuerzo Profundo
- Limitaciones de los métodos tabulares
- Uso de redes neuronales para la aproximación de funciones
- Arquitectura y flujo de trabajo de la Red de Q Profunda (DQN)
- Reproducción de experiencias y redes objetivo
5. Algoritmos avanzados de DRL
- Double DQN, Dueling DQN y reproducción de experiencias priorizada
- Métodos de gradiente de política: algoritmo REINFORCE
- Arquitecturas Actor-Crítico (A2C, A3C)
- Optimización de política cercana (PPO)
- Actor-Crítico suave (SAC)
6. Trabajo con espacios de acción continuos
- Desafíos en el control continuo
- Uso de DDPG (Gradiente de Política Determinista Profundo)
- TD3 (Twin Delayed DDPG)
7. Herramientas y marcos prácticos
- Uso de Stable-Baselines3 y Ray RLlib
- Registro y monitoreo con TensorBoard
- Ajuste de hiperparámetros para modelos de DRL
8. Ingeniería de recompensas y diseño de entornos
- Configuración de recompensas y equilibrio de penalizaciones
- Conceptos de transferencia de aprendizaje de simulación a realidad
- Creación de entornos personalizados en Gymnasium
9. Entornos parcialmente observables y generalización
- Manejo de información de estado incompleta (POMDPs)
- Enfoques basados en memoria utilizando LSTMs y RNNs
- Mejora de la robustez y la generalización del agente
10. Teoría de juegos y aprendizaje por refuerzo multiagente
- Introducción a entornos multiagente
- Cooperación frente a competencia
- Aplicaciones en entrenamiento adversarial y optimización de estrategias
11. Estudios de caso y aplicaciones del mundo real
- Simulaciones de conducción autónoma
- Estrategias de fijación de precios dinámica y trading financiero
- Robótica y automatización industrial
12. Solución de problemas y optimización
- Diagnóstico de entrenamiento inestable
- Gestión de la escasez de recompensas y el sobreajuste
- Escalado de modelos de DRL en GPUs y sistemas distribuidos
13. Resumen y próximos pasos
- Repaso de la arquitectura DRL y los algoritmos clave
- Tendencias de la industria y direcciones de investigación (por ejemplo, RLHF, modelos híbridos)
- Recursos adicionales y materiales de lectura
Requerimientos
- Dominio de la programación en Python
- Comprensión de cálculo y álgebra lineal
- Conocimientos básicos de probabilidad y estadística
- Experiencia en la construcción de modelos de aprendizaje automático utilizando Python, NumPy o TensorFlow/PyTorch
Público objetivo
- Desarrolladores interesados en la inteligencia artificial y los sistemas inteligentes
- Científicos de datos que exploran marcos de aprendizaje por refuerzo
- Ingenieros de aprendizaje automático que trabajan con sistemas autónomos
Testimonios (3)
Me gustó mucho el final donde tuvimos la oportunidad de experimentar con CHAT GPT. La sala no estaba muy bien preparada para esto; en lugar de una gran mesa, varias mesas pequeñas nos habrían permitido formar grupos pequeños y generar ideas de manera más efectiva.
Nola - Laramie County Community College
Curso - Artificial Intelligence (AI) Overview
Traducción Automática
Trabajando desde principios fundamentales de manera enfocada y pasando a aplicar estudios de caso en el mismo día
Maggie Webb - Department of Jobs, Regions, and Precincts
Curso - Artificial Neural Networks, Machine Learning, Deep Thinking
Traducción Automática
Que se estuviera aplicando datos reales de la empresa. El formador tenía un enfoque muy bueno al hacer que los participantes colaboraran y competieran.
Jimena Esquivel - Zaklad Uslugowy Hakoman Andrzej Cybulski
Curso - Applied AI from Scratch in Python
Traducción Automática