Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción a Predictive AIOps
- Visión general de la analítica predictiva en las operaciones de TI
- Fuentes de datos para la predicción (registros, métricas, eventos)
- Conceptos clave en pronóstico de series temporales y patrones de anomalías
Diseño de Modelos de Predicción de Incidentes
- Etiquetado de incidentes históricos y comportamiento del sistema
- Selección y entrenamiento de modelos (por ejemplo, LSTM, Random Forest, AutoML)
- Evaluación del rendimiento del modelo y manejo de falsos positivos
Recolección de Datos e Ingeniería de Características
- Ingesta y alineamiento de datos de registros y métricas para la entrada del modelo
- Extracción de características desde datos estructurados y no estructurados
- Manejo de ruido y datos faltantes en las canalizaciones operacionales
Automatización del Análisis de Causa Raíz (RCA)
- Correlación basada en grafos de servicios e infraestructura
- Uso de IA para inferir causas raíz probables a partir de cadenas de eventos
- Visualización del RCA con paneles conscientes de la topología
Remediación y Workflow Automation
- Integración con plataformas de automatización (por ejemplo, Ansible, Rundeck)
- Desencadenamiento de despliegues atrás, reinicios o redirección del tráfico
- Auditoría y documentación de intervenciones automatizadas
Escalado de Canalizaciones Inteligentes AIOps
- MLOps para la observabilidad: reentrenamiento y versionado del modelo
- Ejecución de predicciones en tiempo real a través de nodos distribuidos
- Mejores prácticas para desplegar AIOps en entornos de producción
Estudios de Caso y Aplicaciones Prácticas
- Análisis de datos de incidentes reales utilizando modelos predictivos AIOps
- Despliegue de canalizaciones RCA con datos sintéticos y de producción
- Revisión de casos de uso de la industria: apagones en la nube, inestabilidad de microservicios, degradación de redes
Resumen y Próximos Pasos
Requerimientos
- Experiencia con sistemas de monitoreo como Prometheus o ELK
- Conocimientos prácticos en Python y aprendizaje automático básico
- Familiaridad con los flujos de trabajo de gestión de incidentes
Destinatarios
- Ingenieros avanzados de confiabilidad del sitio (SREs)
- Arquitectos de automatización IT
- Líderes de plataformas de DevOps y observabilidad
14 Horas