Temario del curso
Introducción
Instalación y configuración de Dataiku Data Science Studio (DSS)
- Requisitos del sistema para Dataiku DSS
- Configuración de las integraciones con Apache Hadoop y Apache Spark
- Configuración de Dataiku DSS con proxies web
- Migración desde otras plataformas hacia Dataiku DSS
Descripción general de las funcionalidades y arquitectura de Dataiku DSS
- Objetos y gráficos fundamentales en Dataiku DSS
- ¿Qué es una receta en Dataiku DSS?
- Tipos de conjuntos de datos soportados por Dataiku DSS
Creación de un proyecto en Dataiku DSS
Definición de conjuntos de datos para conectar recursos de datos en Dataiku DSS
- Trabajo con conectores DSS y formatos de archivo
- Formatos estándar de DSS frente a formatos específicos de Hadoop
- Carga de archivos para un proyecto de Dataiku DSS
Descripción general del sistema de archivos del servidor en Dataiku DSS
Creación y uso de carpetas gestionadas
- Receta de Dataiku DSS para fusionar carpetas
- Carpetas gestionadas locales frente a no locales
Construcción de un conjunto de datos de sistema de archivos usando el contenido de carpetas gestionadas
- Realización de limpiezas mediante una receta de código DSS
Trabajo con el conjunto de datos de métricas y el conjunto de datos de estadísticas internas
Implementación de la receta de descarga de DSS para conjuntos de datos HTTP
Reubicación de conjuntos de datos SQL y HDFS utilizando DSS
Ordenamiento de conjuntos de datos en Dataiku DSS
- Ordenamiento en escritura frente a ordenamiento en tiempo de lectura
Exploración y preparación de elementos visuales de datos para un proyecto de Dataiku DSS
Descripción general de los esquemas, tipos de almacenamiento y significados en Dataiku
Ejecución de scripts de limpieza, normalización y enriquecimiento de datos en Dataiku DSS
Trabajo con la interfaz de gráficos de Dataiku DSS y tipos de agregaciones visuales
Utilización de la función de estadísticas interactivas de DSS
- Análisis univariado frente a análisis bivariado
- Uso de la herramienta de Análisis de Componentes Principales (PCA) de DSS
Descripción general del aprendizaje automático con Dataiku DSS
- Aprendizaje automático supervisado frente a no supervisado
- Referencias para algoritmos de ML de DSS y manejo de características
- Aprendizaje profundo con Dataiku DSS
Descripción general del flujo derivado de conjuntos de datos y recetas de DSS
Transformación de conjuntos de datos existentes en DSS mediante recetas visuales
Utilización de recetas de DSS basadas en código definido por el usuario
Optimización de la exploración y experimentación de código con cuadernos de código de DSS
Creación de visualizaciones avanzadas de DSS y funcionalidades personalizadas de interfaz frontal mediante aplicaciones web
Trabajo con la función de informes de código de Dataiku DSS
Compartir elementos de proyectos de datos y familiarizarse con el panel de control de DSS
Diseño y empaquetado de un proyecto de Dataiku DSS como una aplicación reutilizable
Descripción general de métodos avanzados en Dataiku DSS
- Implementación de particionamiento optimizado de conjuntos de datos usando DSS
- Ejecución de partes específicas de procesamiento de DSS mediante cálculos en contenedores de Kubernetes
Descripción general de la colaboración y control de versiones en Dataiku DSS
Implementación de escenarios de automatización, métricas y verificaciones para pruebas de proyectos en DSS
Despliegue y actualización de un proyecto con el nodo de automatización de DSS y bundles
Trabajo con APIs en tiempo real en Dataiku DSS
- APIs adicionales y REST APIs en DSS
Análisis y pronóstico de series temporales en Dataiku DSS
Seguridad de un proyecto en Dataiku DSS
- Gestión de permisos de proyecto y autorizaciones de panel de control
- Implementación de opciones de seguridad avanzadas
Integración de Dataiku DSS con la nube
Solución de problemas
Resumen y conclusiones
Requerimientos
- Experiencia con los lenguajes de programación Python, SQL y R
- Conocimientos básicos de procesamiento de datos con Apache Hadoop y Spark
- Comprensión de los conceptos de aprendizaje automático y modelos de datos
- Antecedentes en análisis estadísticos y conceptos de ciencia de datos
- Experiencia en visualización y comunicación de datos
Público objetivo
- Ingenieros
- Científicos de datos
- Analistas de datos