Contacta con nosotros

Temario del curso

  • Introducción
    • Historia y conceptos de Hadoop
    • Ecosistema
    • Distribuciones
    • Arquitectura de alto nivel
    • Mitos sobre Hadoop
    • Desafíos de Hadoop (hardware y software)
    • Laboratorios: discutan sus proyectos y problemas relacionados con Big Data
  • Planificación e instalación
    • Selección de software y distribuciones de Hadoop
    • Dimensionamiento del clúster y planificación del crecimiento
    • Selección de hardware y red
    • Topología de racks
    • Instalación
    • Multiinquilino
    • Estructura de directorios y registros (logs)
    • Pruebas de rendimiento (benchmarking)
    • Laboratorios: instalación del clúster y ejecución de pruebas de rendimiento
  • Operaciones de HDFS
    • Conceptos (escalabilidad horizontal, replicación, localidad de datos, conciencia de rack)
    • Nodos y demonios (NameNode, Secondary NameNode, NameNode en espera para HA, DataNode)
    • Monitoreo de salud
    • Administración mediante línea de comandos e interfaz web
    • Agregación de almacenamiento y reemplazo de discos defectuosos
    • Laboratorios: familiarización con los comandos de HDFS
  • Ingesta de datos
    • Flume para ingesta de registros y otros datos hacia HDFS
    • Sqoop para importar desde bases de datos SQL a HDFS, así como exportar de nuevo a SQL
    • Almacenes de datos en Hadoop con Hive
    • Copia de datos entre clústeres (distcp)
    • Uso de S3 como complemento a HDFS
    • Mejores prácticas y arquitecturas de ingesta de datos
    • Laboratorios: configuración y uso de Flume, y lo mismo para Sqoop
  • Operaciones y administración de MapReduce
    • Computación paralela antes de MapReduce: comparación entre la administración de HPC y la de Hadoop
    • Cargas del clúster en MapReduce
    • Nodos y demonios (JobTracker, TaskTracker)
    • Recorrido por la interfaz de usuario de MapReduce
    • Configuración de MapReduce
    • Configuración de trabajos
    • Optimización de MapReduce
    • Protección contra errores en MR: qué comunicar a sus programadores
    • Laboratorios: ejecución de ejemplos de MapReduce
  • YARN: nueva arquitectura y nuevas capacidades
    • Objetivos de diseño y arquitectura de implementación de YARN
    • Nuevos actores: ResourceManager, NodeManager, Application Master
    • Instalación de YARN
    • Programación de trabajos bajo YARN
    • Laboratorios: investigación sobre la programación de trabajos
  • Temas avanzados
    • Monitoreo de hardware
    • Monitoreo del clúster
    • Agregación y remoción de servidores, actualización de Hadoop
    • Copias de seguridad, recuperación y planificación de continuidad del negocio
    • Flujos de trabajo de jobs con Oozie
    • Alta disponibilidad (HA) en Hadoop
    • Federacion de Hadoop
    • Seguridad del clúster con Kerberos
    • Laboratorios: configuración del monitoreo
  • Pistas opcionales
    • Cloudera Manager para la administración del clúster, monitoreo y tareas rutinarias; instalación y uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del entorno de la distribución de Cloudera (CDH5)
    • Ambari para la administración del clúster, monitoreo y tareas rutinarias; instalación y uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del gestor de clúster Ambari y la Plataforma de Datos de Hortonworks (HDP 2.0)

Requerimientos

  • Dominio de la administración básica de sistemas Linux
  • Habilidades básicas de scripting

No se requiere conocimiento previo de Hadoop ni de computación distribuida; sin embargo, estos temas se introducirán y explicarán durante el curso.

Entorno de laboratorio

Sin instalación: ¡No es necesario instalar el software de Hadoop en los equipos de los estudiantes! Se proporcionará un clúster de Hadoop funcional.

Los estudiantes necesitarán lo siguiente:

  • Un cliente SSH (Linux y Mac ya incluyen clientes SSH; para Windows, se recomienda PuTTY)
  • Un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada.
 21 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas