Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
1: HDFS (17%)
- Describir la función de los demonios de HDFS.
- Describir el funcionamiento normal de un clúster de Apache Hadoop, tanto en el almacenamiento de datos como en el procesamiento de datos.
- Identificar las características actuales de los sistemas informáticos que motivan la necesidad de un sistema como Apache Hadoop.
- Clasificar los objetivos principales del diseño de HDFS.
- Dado un escenario, identificar el caso de uso apropiado para la federación de HDFS.
- Identificar los componentes y demonios de un clúster HDFS HA-Quorum.
- Analizar el papel de la seguridad de HDFS (Kerberos).
- Determinar la mejor opción de serialización de datos para un escenario determinado.
- Describir los flujos de lectura y escritura de archivos.
- Identificar los comandos para manipular archivos en la consola del sistema de archivos de Hadoop.
2: YARN y MapReduce versión 2 (MRv2) (17%)
- Comprender cómo afecta la actualización de un clúster de Hadoop 1 a Hadoop 2 en la configuración del clúster.
- Comprender cómo desplegar MapReduce v2 (MRv2 / YARN), incluidos todos los demonios de YARN.
- Comprender la estrategia básica de diseño para MapReduce v2 (MRv2).
- Determinar cómo YARN gestiona la asignación de recursos.
- Identificar el flujo de trabajo de un trabajo MapReduce ejecutándose en YARN.
- Determinar qué archivos deben modificarse y cómo para migrar un clúster de MapReduce versión 1 (MRv1) a MapReduce versión 2 (MRv2) ejecutándose en YARN.
3: Planificación de clústeres Hadoop (16%)
- Puntos principales a considerar al elegir el hardware y los sistemas operativos para alojar un clúster de Apache Hadoop.
- Analizar las opciones al seleccionar un sistema operativo.
- Comprender el ajuste del núcleo y el intercambio de disco.
- Dado un escenario y un patrón de carga de trabajo, identificar una configuración de hardware adecuada para dicho escenario.
- Dado un escenario, determinar los componentes del ecosistema que el clúster necesita ejecutar para cumplir con el acuerdo de nivel de servicio (SLA).
- Dimensionamiento del clúster: dada un escenario y la frecuencia de ejecución, identificar los detalles específicos de la carga de trabajo, incluidos CPU, memoria, almacenamiento y E/S de disco.
- Dimensionamiento y configuración de discos, incluyendo JBOD frente a RAID, SANs, virtualización y requisitos de dimensionamiento de discos en un clúster.
- Topologías de red: comprender el uso de la red en Hadoop (tanto para HDFS como para MapReduce) y proponer o identificar los componentes clave del diseño de red para un escenario determinado.
4: Instalación y administración de clústeres Hadoop (25%)
- Dado un escenario, identificar cómo el clúster gestionará las fallas de disco y de máquinas.
- Analizar la configuración de registro y el formato de los archivos de configuración de registro.
- Comprender los conceptos básicos de las métricas de Hadoop y la supervisión de la salud del clúster.
- Identificar la función y el propósito de las herramientas disponibles para la supervisión del clúster.
- Poder instalar todos los componentes del ecosistema en CDH 5, incluyendo (pero no limitado a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive y Pig.
- Identificar la función y el propósito de las herramientas disponibles para gestionar el sistema de archivos de Apache Hadoop.
5: Gestión de recursos (10%)
- Comprender los objetivos generales de diseño de cada uno de los planificadores de Hadoop.
- Dado un escenario, determinar cómo el planificador FIFO asigna los recursos del clúster.
- Dado un escenario, determinar cómo el planificador justo (Fair Scheduler) asigna los recursos del clúster bajo YARN.
- Dado un escenario, determinar cómo el planificador de capacidad (Capacity Scheduler) asigna los recursos del clúster.
6: Supervisión y registro (15%)
- Comprender las funciones y características de las capacidades de recopilación de métricas de Hadoop.
- Analizar las interfaces web de NameNode y JobTracker.
- Comprender cómo supervisar los demonios del clúster.
- Identificar y supervisar el uso de CPU en los nodos maestros.
- Describir cómo supervisar el intercambio de memoria y la asignación de memoria en todos los nodos.
- Identificar cómo visualizar y gestionar los archivos de registro de Hadoop.
- Interpretar un archivo de registro.
Requerimientos
- Conocimientos básicos de administración de Linux
- Habilidades básicas de programación
35 Horas
Testimonios (3)
I genuinely enjoyed the many hands-on sessions.
Jacek Pieczatka
Curso - Administrator Training for Apache Hadoop
Traducción Automática
I genuinely enjoyed the big competences of Trainer.
Grzegorz Gorski
Curso - Administrator Training for Apache Hadoop
Traducción Automática
I mostly liked the trainer giving real live Examples.
Simon Hahn
Curso - Administrator Training for Apache Hadoop
Traducción Automática