Inicio
Big Data Formación
Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

El big data se refiere a conjuntos de datos tan voluminosos y complejos que el software tradicional de procesamiento de datos resulta inadecuado para manejarlos. Los desafíos del big data incluyen la captura de datos, el almacenamiento, el análisis, la búsqueda, el intercambio, la transferencia, la visualización, las consultas, las actualizaciones y la privacidad de la información.

Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Temario del curso

Introducción a la Ciencia de Datos para Análisis de Big Data

Visión general de la Ciencia de Datos
Visión general del Big Data
Estructuras de datos
Motores y complejidades del Big Data
Ecosistema del Big Data y un nuevo enfoque para el análisis
tecnologías clave en Big Data
Proceso y problemas de la minería de datos
- Minería de patrones de asociación
- Agrupamiento de datos (Clustering)
- Detección de valores atípicos (Outlier Detection)
- Clasificación de datos

Introducción al ciclo de vida del análisis de datos

Descubrimiento
Preparación de datos
Planificación del modelo
Construcción del modelo
Presentación y comunicación de resultados
Operacionalización
Ejercicio: Estudio de caso

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con big data.

Primeros pasos con R

Instalación de R y RStudio
Características del lenguaje R
Objetos en R
Datos en R
Manipulación de datos
Problemas con big data
Ejercicios

Primeros pasos con Hadoop

Instalación de Hadoop
Comprensión de los modos de Hadoop
HDFS
Arquitectura de MapReduce
Visión general de proyectos relacionados con Hadoop
Escritura de programas en Hadoop MapReduce
Ejercicios

Integración de R y Hadoop con RHadoop

Componentes de RHadoop
Instalación de RHadoop y conexión con Hadoop
Arquitectura de RHadoop
Streaming de Hadoop con R
Resolución de problemas de análisis de datos con RHadoop
Ejercicios

Preprocesamiento y preparación de datos

Etapa de preparación de datos
Extracción de características
Limpieza de datos
Integración y transformación de datos
Reducción de datos: muestreo, selección de subconjunto de características
Reducción de dimensionalidad
Discretización y agrupamiento (binning)
Ejercicios y estudio de caso

Métodos de análisis exploratorio de datos en R

Estadística descriptiva
Análisis exploratorio de datos
Visualización: pasos preliminares
Visualización de una sola variable
Análisis de múltiples variables
Métodos estadísticos para evaluación
Prueba de hipótesis
Ejercicios y estudio de caso

Visualización de datos

Visualizaciones básicas en R
Paquetes para visualización de datos: ggplot2, lattice, plotly
Formato de gráficos en R
Gráficos avanzados
Ejercicios

Regresión (estimación de valores futuros)

Regresión lineal
Casos de uso
Descripción del modelo
Diagnósticos
Problemas con la regresión lineal
Métodos de regularización: regresión Ridge y Lasso
Generalizaciones y no linealidad
Splines de regresión
Regresión polinómica local
Modelos aditivos generalizados
Regresión con RHadoop
Ejercicios y estudio de caso

Clasificación

Problemas relacionados con la clasificación
Repaso de Bayes
Naïve Bayes
Regresión logística
K-vecinos más cercanos
Árboles de decisión
Redes neuronales
Máquinas de vectores de soporte (SVM)
Diagnóstico de clasificadores
Comparación de métodos de clasificación
Algoritmos de clasificación escalables
Ejercicios y estudio de caso

Evaluación del rendimiento del modelo y selección

Sesgo, varianza y complejidad del modelo
Precisión frente a interpretabilidad
Evaluación de clasificadores
Medidas de rendimiento del modelo/algoritmo
Método de validación hold-out
Validación cruzada
Ajuste de algoritmos de aprendizaje automático con el paquete caret
Visualización del rendimiento del modelo con curvas ROC de beneficio y curvas de elevación (Lift)

Métodos de ensamblaje (Ensemble Methods)

Bagging
Bosques aleatorios (Random Forests)
Boosting
Gradient Boosting
Ejercicios y estudio de caso

Máquinas de vectores de soporte (SVM) para clasificación y regresión

Clasificadores de margen máximo
- Clasificadores de vectores de soporte
- Máquinas de vectores de soporte
- SVM para problemas de clasificación
- SVM para problemas de regresión
Ejercicios y estudio de caso

Identificación de agrupaciones desconocidas dentro de un conjunto de datos

Selección de características para agrupamiento (Clustering)
Algoritmos basados en representantes: k-means, k-medoids
Algoritmos jerárquicos: métodos aglomerativos y divisivos
Algoritmos basados en probabilidad: EM
Algoritmos basados en densidad: DBSCAN, DENCLUE
Validación de agrupamientos
Conceptos avanzados de agrupamiento
Agrupamiento con RHadoop
Ejercicios y estudio de caso

Descubrimiento de conexiones mediante análisis de enlaces (Link Analysis)

Conceptos de análisis de enlaces
Métricas para análisis de redes
Algoritmo PageRank
Hyperlink-Induced Topic Search (HITS)
Predicción de enlaces
Ejercicios y estudio de caso

Minería de patrones de asociación

Modelo de minería de patrones frecuentes
Problemas de escalabilidad en la minería de patrones frecuentes
Algoritmos de fuerza bruta
Algoritmo Apriori
Enfoque FP-growth
Evaluación de reglas candidatas
Aplicaciones de reglas de asociación
Validación y pruebas
Diagnósticos
Reglas de asociación con R y Hadoop
Ejercicios y estudio de caso

Construcción de motores de recomendación

Comprensión de los sistemas de recomendación
Técnicas de minería de datos utilizadas en sistemas de recomendación
Sistemas de recomendación con el paquete recommenderlab
Evaluación de los sistemas de recomendación
Recomendaciones con RHadoop
Ejercicio: Construcción de un motor de recomendación

Análisis de texto

Etapa de análisis de texto
Recolección de texto crudo
Bolsa de palabras (Bag of words)
Frecuencia de término – Inverso de la frecuencia de documento (TF-IDF)
Determinación de sentimientos
Ejercicios y estudio de caso

35 Horas

Número de participantes

En línea

Presencial

Seleccione el lugar

Seleccione un lugar

Precio por participante

Los cursos públicos requieren más de 5 participantes.

Ciencia de Datos para Big Data Analytics - Reserva

Nombre completo *

Correo electrónico *

Teléfono *

Título Profesional

Nombre de la Empresa

Dirección 1 *

Ciudad *

Estado / Provincia

País *

Código Postal *

Fecha de Inicio

Identificación Fiscal

Las fechas están sujetas a disponibilidad y tendrán lugar entre 09:30 y 16:30.

Pago *

Transferencia Bancaria (Factura, OC)

Débito / Tarjeta de Crédito

Comentarios

Términos y Condiciones *

Soy un representante autorizado del cliente arriba mencionado y deseo reservar los cursos o servicios arriba mencionados de acuerdo con los Términos y Condiciones y la Política de Privacidad de NobleProg.

Informarme sobre descuentos y promociones

Por favor, lea nuestra Política de Privacidad para saber cómo utilizamos sus datos

Ciencia de Datos para Big Data Analytics - Consulta

Nombre completo *

Correo electrónico *

Teléfono *

Número de participantes

Nombre de la Empresa

Dirección de la Compañía

¿Cómo quiere hacer el curso?

Instalaciones del Cliente

En línea

Presencial

Comentarios

Informarme sobre descuentos y promociones

Por favor, lea nuestra Política de Privacidad para saber cómo utilizamos sus datos

Ciencia de Datos para Big Data Analytics - Solicitud de consultoría

Nombre completo *

Teléfono *

Correo electrónico *

Nombre de la Empresa

Asunto de la consulta *

Consulta sobre el Objetivo

¿Con quién va a trabajar el consultor?

Consulta Urgente *

Comentarios

Informarme sobre descuentos y promociones

Por favor, lea nuestra Política de Privacidad para saber cómo utilizamos sus datos

Testimonios (2)

Intensidad, Materiales de formación y experiencia, Claridad, Excelente comunicación con Alessandra

Marija Hornis Dmitrovic - Marija Hornis

Curso - Data Science for Big Data Analytics

Traducción Automática

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

Curso - Data Science for Big Data Analytics

13612 USD (En línea)

16112 USD (Presencial)

Cursos Relacionados

Ecosistema Anaconda para Cientistas de Datos

14 Horas

Este entrenamiento impartido por un instructor en vivo en Colombia (en línea o presencial) está dirigido a científicos de datos que desean utilizar el ecosistema de Anaconda para capturar, gestionar e implementar paquetes y flujos de trabajo de análisis de datos en una sola plataforma.

Al finalizar este entrenamiento, los participantes podrán:

Instalar y configurar componentes y bibliotecas de Anaconda.
Comprender los conceptos centrales, características y beneficios de Anaconda.
Gestionar paquetes, entornos y canales utilizando el Navegador de Anaconda.
Utilizar paquetes de Conda, R y Python para ciencia de datos y aprendizaje automático.
Conocer casos de uso prácticos y técnicas para gestionar múltiples entornos de datos.

Capacitación de Administrador para Apache Hadoop

35 Horas

Público objetivo:

Este curso está diseñado para especialistas en TI que buscan una solución para almacenar y procesar grandes conjuntos de datos en entornos de sistemas distribuidos.

Objetivo:

Adquirir un conocimiento profundo sobre la administración de clústeres Hadoop.

Análisis de Big Data en Salud

21 Horas

El análisis de big data consiste en examinar grandes volúmenes de conjuntos de datos diversos para descubrir correlaciones, patrones ocultos y otras ideas útiles.

La industria de la salud cuenta con cantidades masivas de datos médicos y clínicos complejos y heterogéneos. Aplicar análisis de big data a datos de salud ofrece un gran potencial para obtener información que mejore la prestación de servicios de atención médica. Sin embargo, la magnitud de estos conjuntos de datos presenta grandes desafíos para el análisis y su aplicación práctica en entornos clínicos.

En esta capacitación en vivo, impartida por un instructor (a distancia), los participantes aprenderán a realizar análisis de big data en el ámbito de la salud mientras trabajan en una serie de ejercicios prácticos en laboratorios en vivo.

Al finalizar esta capacitación, los participantes serán capaces de:

Instalar y configurar herramientas de análisis de big data, como Hadoop MapReduce y Spark.
Comprender las características de los datos médicos.
Aplicar técnicas de big data para manejar datos médicos.
Estudiar sistemas y algoritmos de big data en el contexto de aplicaciones de salud.

Público objetivo

Desarrolladores.
Científicos de datos.

Formato del curso

Parte de clase magistral, parte de discusión, ejercicios y práctica intensiva.

Nota

Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinar.

Hadoop para Administradores

21 Horas

Apache Hadoop es el framework más popular para procesar Big Data en clústeres de servidores. En este curso de tres días (opcionalmente cuatro), los participantes aprenderán sobre los beneficios empresariales y los casos de uso de Hadoop y su ecosistema, cómo planificar el despliegue y el crecimiento del clúster, así como cómo instalar, mantener, monitorear, solucionar problemas y optimizar Hadoop. Además, practicarán la carga masiva de datos en el clúster, se familiarizarán con diversas distribuciones de Hadoop y ejercitarán la instalación y gestión de herramientas del ecosistema. El curso finalizará con un debate sobre la seguridad del clúster mediante Kerberos.

"…El material estaba muy bien preparado y cubría todos los temas de forma exhaustiva. El laboratorio fue muy útil y estaba muy bien organizado"
— Andrew Nguyen, Ingeniero Principal de Integración DW, Microsoft Online Advertising

Público objetivo

Administradores de Hadoop

Formato

Clases teóricas y laboratorios prácticos, con una distribución aproximada del 60% de teoría y el 40% de práctica.

Hadoop para Desarrolladores (4 días)

28 Horas

Apache Hadoop es el framework más popular para procesar Big Data en clústeres de servidores. Este curso introducirá a un desarrollador a diversos componentes (HDFS, MapReduce, Pig, Hive y HBase) del ecosistema Hadoop.

Hadoop Avanzado para Desarrolladores

21 Horas

Apache Hadoop es uno de los marcos de trabajo más populares para procesar Big Data en clústeres de servidores. Este curso profundiza en la gestión de datos en HDFS, así como en Pig, Hive y HBase avanzados. Estas técnicas de programación avanzada serán beneficiosas para desarrolladores de Hadoop con experiencia.

Público objetivo: desarrolladores

Duración: tres días

Formato: clases magistrales (50%) y laboratorios prácticos (50%).

Administración de Hadoop en MapR

28 Horas

Público objetivo:

Este curso tiene como objetivo desmitificar la tecnología de big data y Hadoop, demostrando que su comprensión no es difícil.

Hadoop y Spark para administradores

35 Horas

Esta capacitación impartida por un instructor, en vivo en Colombia (en línea o presencial), está dirigida a administradores de sistemas que desean aprender a configurar, implementar y gestionar clústeres de Hadoop dentro de su organización.

Al finalizar esta capacitación, los participantes podrán:

Instalar y configurar Apache Hadoop.
Comprender los cuatro componentes principales del ecosistema de Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
Utilizar el Sistema de Archivos Distribuido de Hadoop (HDFS) para escalar un clúster a cientos o miles de nodos.
Configurar HDFS para que funcione como motor de almacenamiento en implementaciones locales de Spark.
Configurar Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3 y sistemas de bases de datos NoSQL como Redis, Elasticsearch, Couchbase, Aerospike, entre otros.
Realizar tareas administrativas como el aprovisionamiento, gestión, monitoreo y seguridad de un clúster de Apache Hadoop.

HBase para Desarrolladores

21 Horas

Este curso introduce HBase, una base de datos NoSQL construida sobre Hadoop. Está diseñado para desarrolladores que utilizarán HBase en el desarrollo de aplicaciones y para administradores encargados de gestionar clústeres de HBase.

Guiaremos a los desarrolladores a través de la arquitectura de HBase, el modelado de datos y el desarrollo de aplicaciones sobre HBase. También se abordará el uso de MapReduce con HBase, así como temas de administración relacionados con la optimización del rendimiento. El curso es altamente práctico, con numerosas sesiones de laboratorio.

Duración: 3 días

Público objetivo: Desarrolladores y administradores

Kaggle

14 Horas

Esta formación impartida por un instructor, en vivo en Colombia (en línea o en el sitio), está dirigida a científicos de datos y desarrolladores que deseen aprender y construir su carrera en Ciencia de Datos utilizando Kaggle.

Al finalizar esta formación, los participantes serán capaces de:

Comprender los fundamentos de la ciencia de datos y el aprendizaje automático.
Explorar el análisis de datos.
Conocer Kaggle y su funcionamiento.

Aceleración de flujos de trabajo de Python Pandas con Modin

14 Horas

Esta capacitación en vivo, impartida por un instructor en Colombia (en línea o en sitio), está dirigida a científicos de datos y desarrolladores que deseen utilizar Modin para construir e implementar cálculos paralelos con Pandas y lograr un análisis de datos más rápido.

Al finalizar esta capacitación, los participantes serán capaces de:

Configurar el entorno necesario para comenzar a desarrollar flujos de trabajo de Pandas a gran escala con Modin.
Comprender las características, la arquitectura y las ventajas de Modin.
Conocer las diferencias entre Modin, Dask y Ray.
Ejecutar operaciones de Pandas más rápidamente con Modin.
Implementar toda la API y las funciones de Pandas.

PySpark y Aprendizaje Automático

21 Horas

Esta formación ofrece una introducción práctica a la construcción de flujos de trabajo escalables para el procesamiento de datos y el aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo opera Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.

Ciencia de datos con GPU usando NVIDIA RAPIDS

14 Horas

Esta capacitación en vivo, impartida por un instructor en Colombia (en línea o en sitio), está dirigida a científicos de datos y desarrolladores que deseen utilizar RAPIDS para construir pipelines de datos, flujos de trabajo y visualizaciones acelerados por GPU, aplicando algoritmos de aprendizaje automático como XGBoost, cuML, entre otros.

Al finalizar esta capacitación, los participantes estarán en capacidad de:

Configurar el entorno de desarrollo necesario para crear modelos de datos con NVIDIA RAPIDS.
Comprender las características, componentes y ventajas de RAPIDS.
Aprovechar las GPU para acelerar pipelines de datos y análisis de extremo a extremo.
Implementar preparación de datos y ETL acelerados por GPU utilizando cuDF y Apache Arrow.
Aprender a realizar tareas de aprendizaje automático con los algoritmos XGBoost y cuML.
Crear visualizaciones de datos y ejecutar análisis de grafos con cuXfilter y cuGraph.

Python y Spark para Big Data (PySpark)

21 Horas

En esta capacitación en vivo, impartida por un instructor en Colombia, los participantes aprenderán a utilizar Python y Spark juntos para analizar big data mientras realizan ejercicios prácticos.

Al finalizar esta capacitación, los participantes podrán:

Aprender cómo usar Spark con Python para analizar Big Data.
Trabajar en ejercicios que simulan casos del mundo real.
Utilizar diferentes herramientas y técnicas para el análisis de big data con PySpark.

Stratio: Módulos Rocket e Inteligencia con PySpark

14 Horas

Stratio es una plataforma centrada en los datos que integra big data, inteligencia artificial y gobernanza en una única solución. Sus módulos Rocket e Inteligencia permiten una exploración, transformación y análisis avanzado de datos rápidos en entornos empresariales.

Esta capacitación en vivo, impartida por un instructor (en línea o en las instalaciones), está dirigida a profesionales de datos de nivel intermedio que deseen utilizar eficazmente los módulos Rocket e Inteligencia de Stratio con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.

Al finalizar esta capacitación, los participantes podrán:

Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Inteligencia.
Aplicar PySpark en el contexto de ingestión, transformación y análisis de datos.
Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.

Formato del curso

Clase interactiva y discusión.
Numerosos ejercicios y práctica.
Implementación práctica en un entorno de laboratorio en vivo.

Opciones de personalización del curso

Para solicitar una capacitación personalizada para este curso, contáctenos para coordinar.

Ciencia de Datos para Big Data Analytics

Temario del curso

Introducción a la Ciencia de Datos para Análisis de Big Data

Introducción al ciclo de vida del análisis de datos

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con big data.

Primeros pasos con R

Primeros pasos con Hadoop

Integración de R y Hadoop con RHadoop

Preprocesamiento y preparación de datos

Métodos de análisis exploratorio de datos en R

Visualización de datos

Regresión (estimación de valores futuros)

Clasificación

Evaluación del rendimiento del modelo y selección

Métodos de ensamblaje (Ensemble Methods)

Máquinas de vectores de soporte (SVM) para clasificación y regresión

Identificación de agrupaciones desconocidas dentro de un conjunto de datos

Descubrimiento de conexiones mediante análisis de enlaces (Link Analysis)

Minería de patrones de asociación

Construcción de motores de recomendación

Análisis de texto

Testimonios (2)

Marija Hornis Dmitrovic - Marija Hornis

Curso - Data Science for Big Data Analytics

Teboho Makenete

Curso - Data Science for Big Data Analytics

Próximos cursos

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Categorías Relacionadas

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Ciencia de Datos para Big Data Analytics

Temario del curso

Introducción a la Ciencia de Datos para Análisis de Big Data

Introducción al ciclo de vida del análisis de datos

A partir de este punto, la mayor parte del tiempo de formación (80%) se dedicará a ejemplos y ejercicios en R y tecnologías relacionadas con big data.

Primeros pasos con R

Primeros pasos con Hadoop

Integración de R y Hadoop con RHadoop

Preprocesamiento y preparación de datos

Métodos de análisis exploratorio de datos en R

Visualización de datos

Regresión (estimación de valores futuros)

Clasificación

Evaluación del rendimiento del modelo y selección

Métodos de ensamblaje (Ensemble Methods)

Máquinas de vectores de soporte (SVM) para clasificación y regresión

Identificación de agrupaciones desconocidas dentro de un conjunto de datos

Descubrimiento de conexiones mediante análisis de enlaces (Link Analysis)

Minería de patrones de asociación

Construcción de motores de recomendación

Análisis de texto

Testimonios (2)

Marija Hornis Dmitrovic - Marija Hornis

Curso - Data Science for Big Data Analytics

Teboho Makenete

Curso - Data Science for Big Data Analytics

Próximos cursos

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Ciencia de Datos para Big Data Analytics

Cursos Relacionados

Ecosistema Anaconda para Cientistas de Datos

Capacitación de Administrador para Apache Hadoop

Público objetivo:

Objetivo:

Análisis de Big Data en Salud

Hadoop para Administradores

Público objetivo

Formato

Hadoop para Desarrolladores (4 días)

Hadoop Avanzado para Desarrolladores

Administración de Hadoop en MapR

Público objetivo:

Hadoop y Spark para administradores

HBase para Desarrolladores

Kaggle

Aceleración de flujos de trabajo de Python Pandas con Modin

PySpark y Aprendizaje Automático

Ciencia de datos con GPU usando NVIDIA RAPIDS

Python y Spark para Big Data (PySpark)

Stratio: Módulos Rocket e Inteligencia con PySpark

Categorías Relacionadas

Big Data

Ciencia de los datos

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites