Programa del Curso

Módulo 1. Introducción a Hadoop

  • El Hadoop Sistema de archivos distribuido (HDFS)
  • La ruta de lectura y la ruta de escritura
  • Administración de metadatos del sistema de archivos
  • El nodo de nombre y el nodo de datos
  • La alta disponibilidad de Namenode
  • Federación de nodos de nombre
  • Las herramientas de línea de comandos
  • Descripción de la compatibilidad con REST

Módulo 2. Introducción a MapReduce

  • Análisis de los datos con Hadoop
  • Patrón de asignación y reducción
  • Java MapReduce
  • Escalado horizontal
  • Flujo de datos
  • Desarrollo de funciones de combinador
  • Ejecución de un trabajo de MapReduce distribuido

Módulo 3. Planificación de un clúster Hadoop

  • Elegir una distribución y una versión de Hadoop
  • Versiones y características
  • Selección de hardware
  • Selección de hardware maestro y de trabajo
  • Tamaño del clúster
  • Selección y preparación del sistema operativo
  • Diseño de implementación
  • Configuración de usuarios, grupos y privilegios
  • Configuración del disco
  • Diseño de redes

Módulo 4. Instalación y configuración

  • Instalación de Hadoop
  • Configuración: Descripción general
  • Los archivos de configuración de Hadoop XML
  • Variables de entorno y scripts de shell
  • Configuración de registro
  • Administración de HDFS
  • Optimización y ajuste
  • Formatear el nodo de nombre
  • Creación de un directorio /tmp
  • Pensando en la alta disponibilidad de Namenode
  • Las opciones de esgrima
  • Configuración automática de conmutación por error
  • Formatear y arrancar los nodos de nombre
  • Federación de nodos de nombre

Módulo 5. Descripción Hadoop de E/S

  • Integridad de datos en HDFS
  • Descripción de los códecs
  • Compresión y divisiones de entrada
  • Uso de la compresión en MapReduce
  • El mecanismo de serialización
  • Estructuras de datos basadas en archivos
  • El formato SequenceFile
  • Otros formatos de archivo y formatos orientados a columnas

Módulo 6. Desarrollo de una aplicación MapReduce

  • La APIde configuración
  • Configuración del entorno de desarrollo
  • Administración de la configuración
  • GenericOptionsParser, Tool y ToolRunner
  • Escribir una prueba unitaria con MRUnit
  • El mapeador y el reductor
  • Ejecución local en datosde prueba
  • Probar el controlador
  • Ejecución en un clúster
  • Empaquetado y lanzamiento de un trabajo
  • La interfaz de usuario web de MapReduce
  • Ajuste de un trabajo

Módulo 7. Identidad, autenticación y autorización

  • Gestión de la identidad
  • Kerberos y Hadoop
  • Descripción de la autorización

Módulo 8. Recurso Management

  • ¿Qué es el recurso Management?
  • Cuotas de HDFS
  • Programadores de MapReduce
  • Anatomía de la ejecución de una aplicación YARN
  • Solicitudes de recursos
  • Vida útil de la aplicación
  • YARN en comparación con MapReduce 1
  • Programación en YARN
  • Opciones del programador
  • Configuración del programador de capacidad
  • Configuración del programador justo
  • Programación de retrasos
  • Equidad dominante de los recursos

Módulo 9. Tipos y formatos de MapReduce

  • Tipos de MapReduce
  • El trabajo predeterminado de MapReduce
  • Definición de los formatos de entrada
  • Gestión de divisiones y registros de entrada
  • Entrada de texto y entrada binaria
  • Gestión de varias entradas
  • Database Entrada (y salida)
  • Formatos de salida
  • Salida de texto y salida binaria
  • Gestión de varias salidas
  • La salida Database

Módulo 10. Uso de las entidades de MapReduce

  • Uso de contadores
  • Lectura de contadores incorporados
  • Contadores Java definidos por el usuario
  • Comprender la clasificación
  • Uso de la caché distribuida

Módulo 11. Mantenimiento y solución de problemas de clústeres

  • Gestión de Hadoop procesos
  • Inicio y detención de procesos con scripts de inicio
  • Inicio y detención de procesos manualmente
  • Tareas de mantenimiento de HDFS
  • Adición de un nodo de datos
  • Retirada de un nodo de datos
  • Comprobación de la integridad del sistema de archivos con fsck
  • Equilibrio de datos de bloque HDFS
  • Lidiar con un disco fallido
  • Tareasde mantenimiento de MapReduce
  • Eliminar un trabajo de MapReduce
  • Eliminar una tarea de MapReduce
  • Gestión del agotamiento de recursos

Módulo 12. Monitorización

  • Las métricas disponibles Hadoop
  • El papel de SNMP
  • Supervisión del estado
  • Comprobaciones a nivel de host
  • Comprobaciones de HDFS
  • Comprobaciones de MapReduce

Módulo 13. Copia de seguridad y recuperación

  • Copia de seguridad de datos
  • Copia distribuida (distcp)
  • Ingesta de datos en paralelo
  • Metadatos de nodo de nombre
 21 horas

Número de participantes



Precio por participante

Testimonios (1)

Cursos Relacionados

Hortonworks Data Platform (HDP) para Administradores

21 horas

Apache Ambari: Administre de manera eficiente los clústeres de Hadoop

21 horas

Impala para Inteligencia Empresarial

21 horas

Análisis de Datos con Hive / HiveQL

7 horas

Capacitación de Administrador para Apache Hadoop

35 horas

Big Data Analytics in Health

21 horas

Datameer para Analistas de Datos

14 horas

Administración de Hadoop

21 horas

Hadoop para Administradores

21 horas

Hadoop para Desarrolladores (4 días)

28 horas

Hadoop Avanzado para Desarrolladores

21 horas

Hadoop para jefes de proyecto

14 horas

Administración de Hadoop en MapR

28 horas

Hadoop con Python

28 horas

Hadoop and Spark for Administrators

35 horas

Categorías Relacionadas