Contacta con nosotros

Temario del curso

Sección 1: Introducción a Hadoop

  • Historia y conceptos de Hadoop
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Mitos sobre Hadoop
  • Desafíos de Hadoop
  • Hardware y software
  • Laboratorio: primer acercamiento a Hadoop

Sección 2: HDFS

  • Diseño y arquitectura
  • Conceptos (escalabilidad horizontal, replicación, localidad de datos, conciencia de rack)
  • Daemon: Namenode, Secondary Namenode, DataNode
  • Comunicaciones y latidos (heartbeats)
  • Integridad de los datos
  • Proceso de lectura y escritura
  • Alta disponibilidad (HA) y federación de Namenode
  • Laboratorios: Interacción con HDFS

Sección 3: MapReduce

  • Conceptos y arquitectura
  • Daemon (MRV1): JobTracker y TaskTracker
  • Fases: driver, mapper, shuffle/sort, reducer
  • MapReduce versión 1 y versión 2 (YARN)
  • Internos de MapReduce
  • Introducción al programa MapReduce en Java
  • Laboratorios: Ejecución de un programa de ejemplo de MapReduce

Sección 4: Pig

  • Pig frente a Java MapReduce
  • Flujo de trabajo de Pig
  • Lenguaje Pig Latin
  • ETL con Pig
  • Transformaciones y uniones (joins)
  • Funciones definidas por el usuario (UDF)
  • Laboratorios: Escritura de scripts en Pig para analizar datos

Sección 5: Hive

  • Arquitectura y diseño
  • Tipos de datos
  • Soporte SQL en Hive
  • Creación de tablas en Hive y consultas
  • Particiones
  • Uniones (joins)
  • Procesamiento de texto
  • Laboratorios: Varios laboratorios sobre procesamiento de datos con Hive

Sección 6: HBase

  • Conceptos y arquitectura
  • HBase frente a RDBMS y Cassandra
  • API de Java para HBase
  • Datos de series temporales en HBase
  • Diseño de esquemas
  • Laboratorios: Interacción con HBase usando la consola; programación con la API de Java de HBase; ejercicio de diseño de esquemas

Requerimientos

  • dominio del lenguaje de programación Java (la mayoría de los ejercicios prácticos se realizan en Java)
  • familiaridad con el entorno Linux (capacidad para navegar por la línea de comandos de Linux y editar archivos usando vi / nano)

Entorno de laboratorio

Instalación cero: ¡No es necesario instalar el software de Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop funcional para los estudiantes.

Los estudiantes necesitarán lo siguiente:

  • un cliente SSH (Linux y Mac ya incluyen clientes SSH; para Windows se recomienda PuTTY)
  • un navegador para acceder al clúster; se recomienda Firefox
 28 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas