Contacta con nosotros

Temario del curso

Introducción

Esta sección ofrece una introducción general sobre cuándo utilizar el 'aprendizaje automático', qué factores deben considerarse y qué significa todo ello, incluyendo sus ventajas y desventajas. Tipos de datos (estructurados/no estructurados/estáticos/de flujo), validez y volumen de los datos, análisis impulsado por datos frente a análisis impulsado por el usuario, modelos estadísticos frente a modelos de aprendizaje automático, desafíos del aprendizaje no supervisado, equilibrio entre sesgo y varianza, iteración y evaluación, enfoques de validación cruzada, y los enfoques supervisados, no supervisados y por refuerzo.

TEMAS PRINCIPALES

1. Comprensión del Naive Bayes

  • Conceptos básicos de los métodos bayesianos
  • Probabilidad
  • Probabilidad conjunta
  • Probabilidad condicional con el teorema de Bayes
  • El algoritmo de Naive Bayes
  • La clasificación con Naive Bayes
  • El estimador de Laplace
  • Uso de características numéricas con Naive Bayes

2. Comprensión de los árboles de decisión

  • Dividir y conquistar
  • El algoritmo de árbol de decisión C5.0
  • Elección de la mejor división
  • Poda del árbol de decisión

3. Comprensión de las redes neuronales

  • De las neuronas biológicas a las artificiales
  • Funciones de activación
  • Topología de la red
  • Número de capas
  • Dirección del flujo de información
  • Número de nodos en cada capa
  • Entrenamiento de redes neuronales mediante retropropagación
  • Aprendizaje profundo (Deep Learning)

4. Comprensión de las Máquinas de Vectores de Soporte (SVM)

  • Clasificación con hiperplanos
  • Búsqueda del margen máximo
  • El caso de datos linealmente separables
  • El caso de datos no linealmente separables
  • Uso de kernels para espacios no lineales

5. Comprensión del agrupamiento (clustering)

  • El agrupamiento como tarea de aprendizaje automático
  • El algoritmo k-means para agrupamiento
  • Uso de la distancia para asignar y actualizar grupos
  • Elección del número adecuado de grupos

6. Medición del rendimiento para la clasificación

  • Trabajo con datos de predicción de clasificación
  • Un análisis más detallado de las matrices de confusión
  • Uso de matrices de confusión para medir el rendimiento
  • Más allá de la precisión: otras medidas de rendimiento
  • La estadística kappa
  • Sensibilidad y especificidad
  • Precisión y exhaustividad (recall)
  • La medida F (F-measure)
  • Visualización de las compensaciones de rendimiento
  • Curvas ROC
  • Estimación del rendimiento futuro
  • El método de retención (holdout)
  • Validación cruzada
  • Muestreo bootstrap

7. Ajuste de modelos existentes para mejorar el rendimiento

  • Uso de caret para el ajuste automático de parámetros
  • Creación de un modelo ajustado sencillo
  • Personalización del proceso de ajuste
  • Mejora del rendimiento del modelo mediante meta-aprendizaje
  • Comprensión de los conjuntos (ensembles)
  • Bagging
  • Boosting
  • Bosques aleatorios (Random forests)
  • Entrenamiento de bosques aleatorios
  • Evaluación del rendimiento de los bosques aleatorios

TEMAS SECUNDARIOS

8. Comprensión de la clasificación mediante los vecinos más cercanos

  • El algoritmo kNN
  • Cálculo de la distancia
  • Elección de un valor k adecuado
  • Preparación de datos para su uso con kNN
  • ¿Por qué el algoritmo kNN es perezoso?

9. Comprensión de las reglas de clasificación

  • Separar y conquistar
  • El algoritmo One Rule
  • El algoritmo RIPPER
  • Reglas derivadas de árboles de decisión

10. Comprensión de la regresión

  • Regresión lineal simple
  • Estimación por mínimos cuadrados ordinarios
  • Correlaciones
  • Regresión lineal múltiple

11. Comprensión de los árboles de regresión y los árboles de modelos

  • Integración de la regresión en los árboles

12. Comprensión de las reglas de asociación

  • El algoritmo Apriori para el aprendizaje de reglas de asociación
  • Medición del interés de la regla: soporte y confianza
  • Construcción de un conjunto de reglas con el principio de Apriori

Extras

  • Spark, PySpark, MLlib y los problemas de los bandidos multi-brazo (Multi-armed bandits)

Requerimientos

Conocimiento de Python

 21 Horas

Número de participantes


Precio por participante

Testimonios (7)

Próximos cursos

Categorías Relacionadas