Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
-
Introducción
- Historia y conceptos de Hadoop
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitos sobre Hadoop
- Desafíos de Hadoop (hardware y software)
- Laboratorios: discutan sus proyectos y problemas relacionados con Big Data
-
Planificación e instalación
- Selección de software y distribuciones de Hadoop
- Dimensionamiento del clúster y planificación del crecimiento
- Selección de hardware y red
- Topología de racks
- Instalación
- Multiinquilino
- Estructura de directorios y registros (logs)
- Pruebas de rendimiento (benchmarking)
- Laboratorios: instalación del clúster y ejecución de pruebas de rendimiento
-
Operaciones de HDFS
- Conceptos (escalabilidad horizontal, replicación, localidad de datos, conciencia de rack)
- Nodos y demonios (NameNode, Secondary NameNode, NameNode en espera para HA, DataNode)
- Monitoreo de salud
- Administración mediante línea de comandos e interfaz web
- Agregación de almacenamiento y reemplazo de discos defectuosos
- Laboratorios: familiarización con los comandos de HDFS
-
Ingesta de datos
- Flume para ingesta de registros y otros datos hacia HDFS
- Sqoop para importar desde bases de datos SQL a HDFS, así como exportar de nuevo a SQL
- Almacenes de datos en Hadoop con Hive
- Copia de datos entre clústeres (distcp)
- Uso de S3 como complemento a HDFS
- Mejores prácticas y arquitecturas de ingesta de datos
- Laboratorios: configuración y uso de Flume, y lo mismo para Sqoop
-
Operaciones y administración de MapReduce
- Computación paralela antes de MapReduce: comparación entre la administración de HPC y la de Hadoop
- Cargas del clúster en MapReduce
- Nodos y demonios (JobTracker, TaskTracker)
- Recorrido por la interfaz de usuario de MapReduce
- Configuración de MapReduce
- Configuración de trabajos
- Optimización de MapReduce
- Protección contra errores en MR: qué comunicar a sus programadores
- Laboratorios: ejecución de ejemplos de MapReduce
-
YARN: nueva arquitectura y nuevas capacidades
- Objetivos de diseño y arquitectura de implementación de YARN
- Nuevos actores: ResourceManager, NodeManager, Application Master
- Instalación de YARN
- Programación de trabajos bajo YARN
- Laboratorios: investigación sobre la programación de trabajos
-
Temas avanzados
- Monitoreo de hardware
- Monitoreo del clúster
- Agregación y remoción de servidores, actualización de Hadoop
- Copias de seguridad, recuperación y planificación de continuidad del negocio
- Flujos de trabajo de jobs con Oozie
- Alta disponibilidad (HA) en Hadoop
- Federacion de Hadoop
- Seguridad del clúster con Kerberos
- Laboratorios: configuración del monitoreo
-
Pistas opcionales
- Cloudera Manager para la administración del clúster, monitoreo y tareas rutinarias; instalación y uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del entorno de la distribución de Cloudera (CDH5)
- Ambari para la administración del clúster, monitoreo y tareas rutinarias; instalación y uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del gestor de clúster Ambari y la Plataforma de Datos de Hortonworks (HDP 2.0)
Requerimientos
- Dominio de la administración básica de sistemas Linux
- Habilidades básicas de scripting
No se requiere conocimiento previo de Hadoop ni de computación distribuida; sin embargo, estos temas se introducirán y explicarán durante el curso.
Entorno de laboratorio
Sin instalación: ¡No es necesario instalar el software de Hadoop en los equipos de los estudiantes! Se proporcionará un clúster de Hadoop funcional.
Los estudiantes necesitarán lo siguiente:
- Un cliente SSH (Linux y Mac ya incluyen clientes SSH; para Windows, se recomienda PuTTY)
- Un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada.
21 Horas
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática