Programa del Curso

  • Introducción
  • Hadoop Historia, Conceptos
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Hadoop Mitos
  • Hadoop Desafíos (hardware / software)
  • Labs: discuta sus proyectos y problemas de Big Data
Planificación e instalación Selección de software, Hadoop distribuciones Dimensionamiento del clúster, planificación del crecimiento Selección de hardware y red Topología de bastidor Instalación Arrendamiento múltiple Estructura de directorios, registros Evaluación comparativa Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
  • Operaciones de HDFS
  • Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de rack)
  • Nodos y daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
  • Supervisión de la salud
  • Administración basada en explorador y línea de comandos
  • Adición de almacenamiento, sustitución de unidades defectuosas
  • Labs: familiarizarse con las líneas de comandos de HDFS
Ingesta de datos Canal para la ingesta de registros y otros datos en HDFS Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL Almacenamiento de datos de Hadoop con Hive Copia de datos entre clústeres (distcp) Uso de S3 como complemento de HDFS Prácticas recomendadas y arquitecturas de ingesta de datos Labs: configuración y uso de Flume, lo mismo para Sqoop
  • Operaciones y administración de MapReduce
  • Computación paralela antes de mapreduce: comparación de la administración de HPC con Hadoop
  • Cargas de clúster de MapReduce
  • Nodos y demonios (JobTracker, TaskTracker)
  • Tutorial de la interfaz de usuario de MapReduce
  • Configuración de Mapreduce
  • Configuración del trabajo
  • Optimización de MapReduce
  • RM infalible: qué decirle a tus programadores
  • Labs: ejecución de ejemplos de MapReduce
YARN: nueva arquitectura y nuevas capacidades Objetivos de diseño y arquitectura de implementación de YARN Nuevos actores: ResourceManager, NodeManager, Application Master Instalación de YARN Programación de trabajos en YARN Laboratorios: investigar la programación de trabajos
  • Temas avanzados
  • Monitoreo de hardware
  • Supervisión de clústeres
  • Adición y eliminación de servidores, actualización Hadoop
  • Planificación de copias de seguridad, recuperación y continuidad del negocio
  • Flujos de trabajo de Oozie
  • Hadoop alta disponibilidad (HA)
  • Hadoop Federación
  • Protección del clúster con Kerberos
  • Laboratorios: configurar la supervisión
Pistas opcionales Cloudera Manager para la administración, supervisión y tareas rutinarias de clústeres; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5) Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos Hortonworks (HDP 2.0)

Requerimientos

  • Cómodo con la administración básica del sistema Linux
  • Habilidades básicas de scripting

No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.

Entorno de laboratorio

Instalación cero: ¡No es necesario instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará a los estudiantes un clúster de hadoop en funcionamiento.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
  • Un explorador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
 21 horas

Número de participantes



Precio por participante

Testimonios (5)

Cursos Relacionados

Hortonworks Data Platform (HDP) para Administradores

21 horas

Apache Ambari: Administre de manera eficiente los clústeres de Hadoop

21 horas

Impala para Inteligencia Empresarial

21 horas

Análisis de Datos con Hive / HiveQL

7 horas

Capacitación de Administrador para Apache Hadoop

35 horas

Big Data Analytics in Health

21 horas

Datameer para Analistas de Datos

14 horas

Administración de Hadoop

21 horas

Hadoop para Desarrolladores (4 días)

28 horas

Hadoop Avanzado para Desarrolladores

21 horas

Hadoop para Desarrolladores y Administradores

21 horas

Hadoop para jefes de proyecto

14 horas

Administración de Hadoop en MapR

28 horas

Hadoop con Python

28 horas

Hadoop and Spark for Administrators

35 horas

Categorías Relacionadas