Programa del Curso

Introducción a Data Science for Big Data Analytics

    Data Science Visión general Visión general de Big Data Estructuras de datos Impulsores y complejidades del Big Data Ecosistema Big Data y un nuevo enfoque de la analítica Tecnologías clave en Big Data Proceso y problemas de minería de datos Minería de patrones de asociación Agrupación en clústeres de datos Detección de valores atípicos Clasificación de datos

Introducción al ciclo de vida de Data Analytics

    Descubrimiento Preparación de los datos Planificación de modelos Construcción de modelos Presentación/Communication de resultados Operacionalización Ejercicio: Estudio de caso

A partir de este momento , la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios de investigación y tecnología de big data relacionada.

Introducción a R

    Instalación de R y Rstudio Características del lenguaje R Objetos en R Datos en R Manipulación de datos Problemas de big data Ejercicios

Primeros pasos con Hadoop

    Instalación Hadoop Descripción de los modos Hadoop HDFS Arquitectura de MapReduce Hadoop Resumen de proyectos relacionados Escribir programas en Hadoop MapReduce Ejercicios

Integración de R y Hadoop con RHadoop

    Componentes de RHadoop Instalación de RHadoop y conexión con Hadoop La arquitectura de RHadoop Hadoop Transmisión con R Resolución de problemas de análisis de datos con RHadoop Ejercicios

Preprocesamiento y preparación de datos

    Pasos de preparación de datos Extracción de características Limpieza de datos Integración y transformación de datos Reducción de datos: muestreo, selección de subconjuntos de características, Reducción de dimensionalidad Discretización y discretización Ejercicios y estudio de caso

Métodos exploratorios de análisis de datos en R

    Estadística descriptiva Análisis exploratorio de datos Visualización: pasos preliminares Visualización de una sola variable Examen de múltiples variables Métodos estadísticos de evaluación Prueba de hipótesis Ejercicios y estudio de caso

Data Visualizations

    Visualizaciones básicas en R Paquetes para visualización de datos ggplot2, lattice, plotly, lattice Dar formato a los gráficos en R Gráficos avanzados Ejercicios

Regresión (estimación de valores futuros)

    Regresión lineal Casos de uso Descripción del modelo Diagnósticos Problemas con la regresión lineal Métodos de contracción, regresión de cresta, lazo Generalizaciones y no linealidad Splines de regresión Regresión polinómica local Modelos aditivos generalizados Regresión con RHadoop Ejercicios y estudio de caso

Clasificación

    Los problemas relacionados con la clasificación Repaso bayesiano Bayes ingenuo Regresión logística K-vecinos más cercanos Algoritmo de árboles de decisión Redes neuronales Máquinas de vectores de soporte Diagnóstico de clasificadores Comparación de los métodos de clasificación ScalaAlgoritmos de clasificación BLE Ejercicios y estudio de caso

Evaluación del rendimiento y la selección del modelo

    Sesgo, varianza y complejidad del modelo Precisión vs Interpretabilidad Evaluación de clasificadores Medidas del rendimiento del modelo/algoritmo Método de validación de exclusión Validación cruzada Ajuste de algoritmos de aprendizaje automático con el paquete de intercalación Visualización del rendimiento del modelo con curvas Profit ROC y Lift

Métodos de conjunto

    Embolsado Random Forests Impulsar Aumento de gradiente Ejercicios y estudio de caso

Máquinas de vectores de soporte para clasificación y regresión

    Clasificadores de margen máximo Clasificadores de vectores de soporte Máquinas de vectores de soporte SVM's para problemas de clasificación SVM para problemas de regresión
Ejercicios y estudio de caso
  • Identificación de agrupaciones desconocidas dentro de un conjunto de datos
  • Selección de características para la agrupación en clústeres Algoritmos basados en representantes: k-medias, k-medoides Algoritmos jerárquicos: métodos aglomerativos y divisivos Algoritmos base probabilísticos: EM Algoritmos basados en densidad: DBSCAN, DENCLUE Validación de clústeres Conceptos avanzados de agrupación en clústeres Agrupación en clústeres con RHadoop Ejercicios y estudio de caso

      Descubriendo conexiones con el análisis de enlaces

    Conceptos de análisis de enlaces Métricas para el análisis de redes El algoritmo Pagerank Tema inducido por hipervínculos Search Predicción de enlaces Ejercicios y estudio de caso

      Minería de patrones de asociación

    Modelo de minería de patrones frecuentes ScalaProblemas de capacidad en la minería de patrones frecuente Algoritmos de fuerza bruta Algoritmo a priori El enfoque de crecimiento de la PF Evaluación de las reglas de los candidatos Aplicación de las Reglas de Asociación Validación y pruebas Diagnósticos Reglas de asociación con R y Hadoop Ejercicios y estudio de caso

      Creación de motores de recomendación

    Descripción de los sistemas de recomendación Técnicas de minería de datos utilizadas en sistemas de recomendación Sistemas de recomendación con el paquete recommenderlab Evaluación de los sistemas de recomendación Recomendaciones con RHadoop Ejercicio: Creación de un motor de recomendaciones

      Análisis de textos

    Pasos del análisis de texto Recopilación de texto sin procesar Bolsa de palabras Frecuencia de términos – Frecuencia inversa de documentos Determinación de los sentimientos Ejercicios y estudio de caso

      35 horas
     

    Número de participantes


    Comienza

    Termina


    Dates are subject to availability and take place between 09:30 and 16:30.
    Los cursos de formación abiertos requieren más de 5 participantes.

    Testimonios (2)

    Cursos Relacionados

    Unified Batch and Stream Processing with Apache Beam

      14 horas

    Categorías Relacionadas