Temario del curso
Introducción
- Introducción a las soluciones de computación en la nube y big data
- Resumen de las características y arquitectura de Apache Hadoop
Configuración de Hadoop
- Planificación de un clúster de Hadoop (local, en la nube, etc.)
- Selección del sistema operativo y la distribución de Hadoop
- Aprovisionamiento de recursos (hardware, red, etc.)
- Descarga e instalación del software
- Dimensionamiento del clúster para garantizar flexibilidad
Trabajo con HDFS
- Comprensión del Sistema de Archivos Distribuido de Hadoop (HDFS)
- Resumen de la referencia de comandos de HDFS
- Acceso a HDFS
- Realización de operaciones básicas con archivos en HDFS
- Uso de S3 como complemento de HDFS
Resumen de MapReduce
- Comprensión del flujo de datos en el framework de MapReduce
- Map, Shuffle, Sort y Reduce
- Demostración: Cálculo de los salarios más altos
Trabajo con YARN
- Comprensión de la gestión de recursos en Hadoop
- Trabajo con ResourceManager, NodeManager y Application Master
- Programación de trabajos bajo YARN
- Programación para un gran número de nodos y clústeres
- Demostración: Programación de trabajos
Integración de Hadoop con Spark
- Configuración del almacenamiento para Spark (HDFS, Amazon S3, NoSQL, etc.)
- Comprensión de los Conjuntos de Datos Distribuidos Resilientes (RDDs)
- Creación de un RDD
- Implementación de transformaciones de RDD
- Demostración: Implementación de un programa de búsqueda de texto para títulos de películas
Gestión de un clúster de Hadoop
- Monitoreo de Hadoop
- Seguridad de un clúster de Hadoop
- Añadido y eliminación de nodos
- Ejecución de una prueba de rendimiento
- Ajuste de un clúster de Hadoop para optimizar el rendimiento
- Respaldo, recuperación y planificación de continuidad del negocio
- Garantía de alta disponibilidad (HA)
Actualización y migración de un clúster de Hadoop
- Evaluación de los requisitos de carga de trabajo
- Actualización de Hadoop
- Migración entre entornos locales y en la nube y viceversa
- Recuperación ante fallos
Solución de problemas
Resumen y conclusiones
Requerimientos
- Experiencia en administración de sistemas
- Experiencia con la línea de comandos de Linux
- Comprensión de los conceptos de big data
Público objetivo
- Administradores de sistemas
- Administradores de bases de datos (DBA)
Testimonios (3)
Me gustó que fuera práctico. Amé aplicar el conocimiento teórico con ejemplos prácticos.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
El hecho de poder llevar con nosotros la mayoría de la información/curso/presentación/ejercicios realizados, para poder revisarlos y tal vez volver a hacer lo que no entendimos la primera vez o mejorar lo que ya hicimos.
Raul Mihail Rat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
La combinación de teoría y práctica con herramientas como databricks