Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Sección 1: Introducción a Hadoop
- Historia y conceptos de Hadoop
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitos sobre Hadoop
- Desafíos de Hadoop
- Hardware y software
- Laboratorio: primer acercamiento a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escalabilidad horizontal, replicación, localidad de datos, conciencia de rack)
- Daemon: Namenode, Secondary Namenode, DataNode
- Comunicaciones y latidos (heartbeats)
- Integridad de los datos
- Proceso de lectura y escritura
- Alta disponibilidad (HA) y federación de Namenode
- Laboratorios: Interacción con HDFS
Sección 3: MapReduce
- Conceptos y arquitectura
- Daemon (MRV1): JobTracker y TaskTracker
- Fases: driver, mapper, shuffle/sort, reducer
- MapReduce versión 1 y versión 2 (YARN)
- Internos de MapReduce
- Introducción al programa MapReduce en Java
- Laboratorios: Ejecución de un programa de ejemplo de MapReduce
Sección 4: Pig
- Pig frente a Java MapReduce
- Flujo de trabajo de Pig
- Lenguaje Pig Latin
- ETL con Pig
- Transformaciones y uniones (joins)
- Funciones definidas por el usuario (UDF)
- Laboratorios: Escritura de scripts en Pig para analizar datos
Sección 5: Hive
- Arquitectura y diseño
- Tipos de datos
- Soporte SQL en Hive
- Creación de tablas en Hive y consultas
- Particiones
- Uniones (joins)
- Procesamiento de texto
- Laboratorios: Varios laboratorios sobre procesamiento de datos con Hive
Sección 6: HBase
- Conceptos y arquitectura
- HBase frente a RDBMS y Cassandra
- API de Java para HBase
- Datos de series temporales en HBase
- Diseño de esquemas
- Laboratorios: Interacción con HBase usando la consola; programación con la API de Java de HBase; ejercicio de diseño de esquemas
Requerimientos
- dominio del lenguaje de programación Java (la mayoría de los ejercicios prácticos se realizan en Java)
- familiaridad con el entorno Linux (capacidad para navegar por la línea de comandos de Linux y editar archivos usando vi / nano)
Entorno de laboratorio
Instalación cero: ¡No es necesario instalar el software de Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop funcional para los estudiantes.
Los estudiantes necesitarán lo siguiente:
- un cliente SSH (Linux y Mac ya incluyen clientes SSH; para Windows se recomienda PuTTY)
- un navegador para acceder al clúster; se recomienda Firefox
28 Horas
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática