Contacta con nosotros

Temario del curso

Introducción a la Ciencia de Datos para Análisis de Big Data

  • Visión general de la Ciencia de Datos
  • Visión general del Big Data
  • Estructuras de datos
  • Motores y complejidades del Big Data
  • Ecosistema del Big Data y un nuevo enfoque para el análisis
  • tecnologías clave en Big Data
  • Proceso y problemas de la minería de datos
    • Minería de patrones de asociación
    • Agrupamiento de datos (Clustering)
    • Detección de valores atípicos (Outlier Detection)
    • Clasificación de datos

Introducción al ciclo de vida del análisis de datos

  • Descubrimiento
  • Preparación de datos
  • Planificación del modelo
  • Construcción del modelo
  • Presentación y comunicación de resultados
  • Operacionalización
  • Ejercicio: Estudio de caso

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con big data.

Primeros pasos con R

  • Instalación de R y RStudio
  • Características del lenguaje R
  • Objetos en R
  • Datos en R
  • Manipulación de datos
  • Problemas con big data
  • Ejercicios

Primeros pasos con Hadoop

  • Instalación de Hadoop
  • Comprensión de los modos de Hadoop
  • HDFS
  • Arquitectura de MapReduce
  • Visión general de proyectos relacionados con Hadoop
  • Escritura de programas en Hadoop MapReduce
  • Ejercicios

Integración de R y Hadoop con RHadoop

  • Componentes de RHadoop
  • Instalación de RHadoop y conexión con Hadoop
  • Arquitectura de RHadoop
  • Streaming de Hadoop con R
  • Resolución de problemas de análisis de datos con RHadoop
  • Ejercicios

Preprocesamiento y preparación de datos

  • Etapa de preparación de datos
  • Extracción de características
  • Limpieza de datos
  • Integración y transformación de datos
  • Reducción de datos: muestreo, selección de subconjunto de características
  • Reducción de dimensionalidad
  • Discretización y agrupamiento (binning)
  • Ejercicios y estudio de caso

Métodos de análisis exploratorio de datos en R

  • Estadística descriptiva
  • Análisis exploratorio de datos
  • Visualización: pasos preliminares
  • Visualización de una sola variable
  • Análisis de múltiples variables
  • Métodos estadísticos para evaluación
  • Prueba de hipótesis
  • Ejercicios y estudio de caso

Visualización de datos

  • Visualizaciones básicas en R
  • Paquetes para visualización de datos: ggplot2, lattice, plotly
  • Formato de gráficos en R
  • Gráficos avanzados
  • Ejercicios

Regresión (estimación de valores futuros)

  • Regresión lineal
  • Casos de uso
  • Descripción del modelo
  • Diagnósticos
  • Problemas con la regresión lineal
  • Métodos de regularización: regresión Ridge y Lasso
  • Generalizaciones y no linealidad
  • Splines de regresión
  • Regresión polinómica local
  • Modelos aditivos generalizados
  • Regresión con RHadoop
  • Ejercicios y estudio de caso

Clasificación

  • Problemas relacionados con la clasificación
  • Repaso de Bayes
  • Naïve Bayes
  • Regresión logística
  • K-vecinos más cercanos
  • Árboles de decisión
  • Redes neuronales
  • Máquinas de vectores de soporte (SVM)
  • Diagnóstico de clasificadores
  • Comparación de métodos de clasificación
  • Algoritmos de clasificación escalables
  • Ejercicios y estudio de caso

Evaluación del rendimiento del modelo y selección

  • Sesgo, varianza y complejidad del modelo
  • Precisión frente a interpretabilidad
  • Evaluación de clasificadores
  • Medidas de rendimiento del modelo/algoritmo
  • Método de validación hold-out
  • Validación cruzada
  • Ajuste de algoritmos de aprendizaje automático con el paquete caret
  • Visualización del rendimiento del modelo con curvas ROC de beneficio y curvas de elevación (Lift)

Métodos de ensamblaje (Ensemble Methods)

  • Bagging
  • Bosques aleatorios (Random Forests)
  • Boosting
  • Gradient Boosting
  • Ejercicios y estudio de caso

Máquinas de vectores de soporte (SVM) para clasificación y regresión

  • Clasificadores de margen máximo
    • Clasificadores de vectores de soporte
    • Máquinas de vectores de soporte
    • SVM para problemas de clasificación
    • SVM para problemas de regresión
  • Ejercicios y estudio de caso

Identificación de agrupaciones desconocidas dentro de un conjunto de datos

  • Selección de características para agrupamiento (Clustering)
  • Algoritmos basados en representantes: k-means, k-medoids
  • Algoritmos jerárquicos: métodos aglomerativos y divisivos
  • Algoritmos basados en probabilidad: EM
  • Algoritmos basados en densidad: DBSCAN, DENCLUE
  • Validación de agrupamientos
  • Conceptos avanzados de agrupamiento
  • Agrupamiento con RHadoop
  • Ejercicios y estudio de caso

Descubrimiento de conexiones mediante análisis de enlaces (Link Analysis)

  • Conceptos de análisis de enlaces
  • Métricas para análisis de redes
  • Algoritmo PageRank
  • Hyperlink-Induced Topic Search (HITS)
  • Predicción de enlaces
  • Ejercicios y estudio de caso

Minería de patrones de asociación

  • Modelo de minería de patrones frecuentes
  • Problemas de escalabilidad en la minería de patrones frecuentes
  • Algoritmos de fuerza bruta
  • Algoritmo Apriori
  • Enfoque FP-growth
  • Evaluación de reglas candidatas
  • Aplicaciones de reglas de asociación
  • Validación y pruebas
  • Diagnósticos
  • Reglas de asociación con R y Hadoop
  • Ejercicios y estudio de caso

Construcción de motores de recomendación

  • Comprensión de los sistemas de recomendación
  • Técnicas de minería de datos utilizadas en sistemas de recomendación
  • Sistemas de recomendación con el paquete recommenderlab
  • Evaluación de los sistemas de recomendación
  • Recomendaciones con RHadoop
  • Ejercicio: Construcción de un motor de recomendación

Análisis de texto

  • Etapa de análisis de texto
  • Recolección de texto crudo
  • Bolsa de palabras (Bag of words)
  • Frecuencia de término – Inverso de la frecuencia de documento (TF-IDF)
  • Determinación de sentimientos
  • Ejercicios y estudio de caso
 35 Horas

Número de participantes


Precio por participante

Testimonios (2)

Próximos cursos

Categorías Relacionadas