Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a la Ciencia de Datos para Análisis de Big Data
- Visión general de la Ciencia de Datos
- Visión general del Big Data
- Estructuras de datos
- Motores y complejidades del Big Data
- Ecosistema del Big Data y un nuevo enfoque para el análisis
- tecnologías clave en Big Data
- Proceso y problemas de la minería de datos
- Minería de patrones de asociación
- Agrupamiento de datos (Clustering)
- Detección de valores atípicos (Outlier Detection)
- Clasificación de datos
Introducción al ciclo de vida del análisis de datos
- Descubrimiento
- Preparación de datos
- Planificación del modelo
- Construcción del modelo
- Presentación y comunicación de resultados
- Operacionalización
- Ejercicio: Estudio de caso
A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con big data.
Primeros pasos con R
- Instalación de R y RStudio
- Características del lenguaje R
- Objetos en R
- Datos en R
- Manipulación de datos
- Problemas con big data
- Ejercicios
Primeros pasos con Hadoop
- Instalación de Hadoop
- Comprensión de los modos de Hadoop
- HDFS
- Arquitectura de MapReduce
- Visión general de proyectos relacionados con Hadoop
- Escritura de programas en Hadoop MapReduce
- Ejercicios
Integración de R y Hadoop con RHadoop
- Componentes de RHadoop
- Instalación de RHadoop y conexión con Hadoop
- Arquitectura de RHadoop
- Streaming de Hadoop con R
- Resolución de problemas de análisis de datos con RHadoop
- Ejercicios
Preprocesamiento y preparación de datos
- Etapa de preparación de datos
- Extracción de características
- Limpieza de datos
- Integración y transformación de datos
- Reducción de datos: muestreo, selección de subconjunto de características
- Reducción de dimensionalidad
- Discretización y agrupamiento (binning)
- Ejercicios y estudio de caso
Métodos de análisis exploratorio de datos en R
- Estadística descriptiva
- Análisis exploratorio de datos
- Visualización: pasos preliminares
- Visualización de una sola variable
- Análisis de múltiples variables
- Métodos estadísticos para evaluación
- Prueba de hipótesis
- Ejercicios y estudio de caso
Visualización de datos
- Visualizaciones básicas en R
- Paquetes para visualización de datos: ggplot2, lattice, plotly
- Formato de gráficos en R
- Gráficos avanzados
- Ejercicios
Regresión (estimación de valores futuros)
- Regresión lineal
- Casos de uso
- Descripción del modelo
- Diagnósticos
- Problemas con la regresión lineal
- Métodos de regularización: regresión Ridge y Lasso
- Generalizaciones y no linealidad
- Splines de regresión
- Regresión polinómica local
- Modelos aditivos generalizados
- Regresión con RHadoop
- Ejercicios y estudio de caso
Clasificación
- Problemas relacionados con la clasificación
- Repaso de Bayes
- Naïve Bayes
- Regresión logística
- K-vecinos más cercanos
- Árboles de decisión
- Redes neuronales
- Máquinas de vectores de soporte (SVM)
- Diagnóstico de clasificadores
- Comparación de métodos de clasificación
- Algoritmos de clasificación escalables
- Ejercicios y estudio de caso
Evaluación del rendimiento del modelo y selección
- Sesgo, varianza y complejidad del modelo
- Precisión frente a interpretabilidad
- Evaluación de clasificadores
- Medidas de rendimiento del modelo/algoritmo
- Método de validación hold-out
- Validación cruzada
- Ajuste de algoritmos de aprendizaje automático con el paquete caret
- Visualización del rendimiento del modelo con curvas ROC de beneficio y curvas de elevación (Lift)
Métodos de ensamblaje (Ensemble Methods)
- Bagging
- Bosques aleatorios (Random Forests)
- Boosting
- Gradient Boosting
- Ejercicios y estudio de caso
Máquinas de vectores de soporte (SVM) para clasificación y regresión
- Clasificadores de margen máximo
- Clasificadores de vectores de soporte
- Máquinas de vectores de soporte
- SVM para problemas de clasificación
- SVM para problemas de regresión
- Ejercicios y estudio de caso
Identificación de agrupaciones desconocidas dentro de un conjunto de datos
- Selección de características para agrupamiento (Clustering)
- Algoritmos basados en representantes: k-means, k-medoids
- Algoritmos jerárquicos: métodos aglomerativos y divisivos
- Algoritmos basados en probabilidad: EM
- Algoritmos basados en densidad: DBSCAN, DENCLUE
- Validación de agrupamientos
- Conceptos avanzados de agrupamiento
- Agrupamiento con RHadoop
- Ejercicios y estudio de caso
Descubrimiento de conexiones mediante análisis de enlaces (Link Analysis)
- Conceptos de análisis de enlaces
- Métricas para análisis de redes
- Algoritmo PageRank
- Hyperlink-Induced Topic Search (HITS)
- Predicción de enlaces
- Ejercicios y estudio de caso
Minería de patrones de asociación
- Modelo de minería de patrones frecuentes
- Problemas de escalabilidad en la minería de patrones frecuentes
- Algoritmos de fuerza bruta
- Algoritmo Apriori
- Enfoque FP-growth
- Evaluación de reglas candidatas
- Aplicaciones de reglas de asociación
- Validación y pruebas
- Diagnósticos
- Reglas de asociación con R y Hadoop
- Ejercicios y estudio de caso
Construcción de motores de recomendación
- Comprensión de los sistemas de recomendación
- Técnicas de minería de datos utilizadas en sistemas de recomendación
- Sistemas de recomendación con el paquete recommenderlab
- Evaluación de los sistemas de recomendación
- Recomendaciones con RHadoop
- Ejercicio: Construcción de un motor de recomendación
Análisis de texto
- Etapa de análisis de texto
- Recolección de texto crudo
- Bolsa de palabras (Bag of words)
- Frecuencia de término – Inverso de la frecuencia de documento (TF-IDF)
- Determinación de sentimientos
- Ejercicios y estudio de caso
35 Horas
Testimonios (2)
Intensidad, Materiales de formación y experiencia, Claridad, Excelente comunicación con Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Curso - Data Science for Big Data Analytics
Traducción Automática
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Curso - Data Science for Big Data Analytics
Traducción Automática