Contacta con nosotros

Temario del curso

1: HDFS (17%)

  • Describir la función de los demonios de HDFS.
  • Describir el funcionamiento normal de un clúster de Apache Hadoop, tanto en el almacenamiento de datos como en el procesamiento de datos.
  • Identificar las características actuales de los sistemas informáticos que motivan la necesidad de un sistema como Apache Hadoop.
  • Clasificar los objetivos principales del diseño de HDFS.
  • Dado un escenario, identificar el caso de uso apropiado para la federación de HDFS.
  • Identificar los componentes y demonios de un clúster HDFS HA-Quorum.
  • Analizar el papel de la seguridad de HDFS (Kerberos).
  • Determinar la mejor opción de serialización de datos para un escenario determinado.
  • Describir los flujos de lectura y escritura de archivos.
  • Identificar los comandos para manipular archivos en la consola del sistema de archivos de Hadoop.

2: YARN y MapReduce versión 2 (MRv2) (17%)

  • Comprender cómo afecta la actualización de un clúster de Hadoop 1 a Hadoop 2 en la configuración del clúster.
  • Comprender cómo desplegar MapReduce v2 (MRv2 / YARN), incluidos todos los demonios de YARN.
  • Comprender la estrategia básica de diseño para MapReduce v2 (MRv2).
  • Determinar cómo YARN gestiona la asignación de recursos.
  • Identificar el flujo de trabajo de un trabajo MapReduce ejecutándose en YARN.
  • Determinar qué archivos deben modificarse y cómo para migrar un clúster de MapReduce versión 1 (MRv1) a MapReduce versión 2 (MRv2) ejecutándose en YARN.

3: Planificación de clústeres Hadoop (16%)

  • Puntos principales a considerar al elegir el hardware y los sistemas operativos para alojar un clúster de Apache Hadoop.
  • Analizar las opciones al seleccionar un sistema operativo.
  • Comprender el ajuste del núcleo y el intercambio de disco.
  • Dado un escenario y un patrón de carga de trabajo, identificar una configuración de hardware adecuada para dicho escenario.
  • Dado un escenario, determinar los componentes del ecosistema que el clúster necesita ejecutar para cumplir con el acuerdo de nivel de servicio (SLA).
  • Dimensionamiento del clúster: dada un escenario y la frecuencia de ejecución, identificar los detalles específicos de la carga de trabajo, incluidos CPU, memoria, almacenamiento y E/S de disco.
  • Dimensionamiento y configuración de discos, incluyendo JBOD frente a RAID, SANs, virtualización y requisitos de dimensionamiento de discos en un clúster.
  • Topologías de red: comprender el uso de la red en Hadoop (tanto para HDFS como para MapReduce) y proponer o identificar los componentes clave del diseño de red para un escenario determinado.

4: Instalación y administración de clústeres Hadoop (25%)

  • Dado un escenario, identificar cómo el clúster gestionará las fallas de disco y de máquinas.
  • Analizar la configuración de registro y el formato de los archivos de configuración de registro.
  • Comprender los conceptos básicos de las métricas de Hadoop y la supervisión de la salud del clúster.
  • Identificar la función y el propósito de las herramientas disponibles para la supervisión del clúster.
  • Poder instalar todos los componentes del ecosistema en CDH 5, incluyendo (pero no limitado a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive y Pig.
  • Identificar la función y el propósito de las herramientas disponibles para gestionar el sistema de archivos de Apache Hadoop.

5: Gestión de recursos (10%)

  • Comprender los objetivos generales de diseño de cada uno de los planificadores de Hadoop.
  • Dado un escenario, determinar cómo el planificador FIFO asigna los recursos del clúster.
  • Dado un escenario, determinar cómo el planificador justo (Fair Scheduler) asigna los recursos del clúster bajo YARN.
  • Dado un escenario, determinar cómo el planificador de capacidad (Capacity Scheduler) asigna los recursos del clúster.

6: Supervisión y registro (15%)

  • Comprender las funciones y características de las capacidades de recopilación de métricas de Hadoop.
  • Analizar las interfaces web de NameNode y JobTracker.
  • Comprender cómo supervisar los demonios del clúster.
  • Identificar y supervisar el uso de CPU en los nodos maestros.
  • Describir cómo supervisar el intercambio de memoria y la asignación de memoria en todos los nodos.
  • Identificar cómo visualizar y gestionar los archivos de registro de Hadoop.
  • Interpretar un archivo de registro.

Requerimientos

  • Conocimientos básicos de administración de Linux
  • Habilidades básicas de programación
 35 Horas

Número de participantes


Precio por participante

Testimonios (3)

Próximos cursos

Categorías Relacionadas