Contacta con nosotros

Temario del curso

Panorama general de Big Data:

  • ¿Qué es Big Data?
  • ¿Por qué Big Data está ganando popularidad?
  • Casos de estudio de Big Data
  • Características de Big Data
  • Soluciones para trabajar con Big Data.

Hadoop y sus componentes:

  • ¿Qué es Hadoop y cuáles son sus componentes?
  • Arquitectura de Hadoop y las características de los datos que puede manejar o procesar.
  • Breve historia de Hadoop, las empresas que lo utilizan y por qué han comenzado a adoptarlo.
  • Marco de trabajo de Hadoop y sus componentes: explicación detallada.
  • ¿Qué es HDFS y cómo funcionan las operaciones de lectura y escritura en el Sistema de Archivos Distribuido de Hadoop?
  • Cómo configurar un clúster de Hadoop en diferentes modos: clúster independiente, pseudo o multi-nodo.

(Esto incluye la configuración de un clúster de Hadoop en VirtualBox, KVM o VMware; la configuración de red que debe revisarse cuidadosamente; el inicio de los demonios de Hadoop y la prueba del clúster).

  • ¿Qué es el marco de trabajo MapReduce y cómo funciona?
  • Ejecución de trabajos de MapReduce en un clúster de Hadoop.
  • Comprensión de la replicación, el espejo y la conciencia de rack en el contexto de los clústeres de Hadoop.

Planificación del clúster de Hadoop:

  • Cómo planificar su clúster de Hadoop.
  • Comprensión del hardware y software necesarios para planificar su clúster de Hadoop.
  • Análisis de las cargas de trabajo y planificación del clúster para evitar fallos y garantizar un rendimiento óptimo.

¿Qué es MapR y por qué elegir MapR?:

  • Panorama general de MapR y su arquitectura.
  • Comprensión y funcionamiento del Sistema de Control de MapR, los volúmenes de MapR, las instantáneas y los espejos.
  • Planificación de un clúster en el contexto de MapR.
  • Comparación de MapR con otras distribuciones y con Apache Hadoop.
  • Instalación de MapR y despliegue del clúster.

Configuración y administración del clúster:

  • Gestión de servicios, nodos, instantáneas, volúmenes espejo y clústeres remotos.
  • Comprensión y administración de nodos.
  • Comprensión de los componentes de Hadoop e instalación de estos componentes junto con los servicios de MapR.
  • Acceso a los datos en el clúster, incluido mediante NFS; gestión de servicios y nodos.
  • Gestión de datos mediante volúmenes, administración de usuarios y grupos, asignación de roles a nodos, activación y desactivación de nodos, administración del clúster y monitoreo del rendimiento; configuración, análisis y monitoreo de métricas para evaluar el rendimiento; configuración y administración de la seguridad de MapR.
  • Comprensión y trabajo con M7, el almacenamiento nativo para tablas de MapR.
  • Configuración y ajuste del clúster para lograr un rendimiento óptimo.

Actualización del clúster e integración con otras configuraciones:

  • Actualización de la versión de software de MapR y tipos de actualización.
  • Configuración del clúster de MapR para acceder a un clúster de HDFS.
  • Configuración de un clúster de MapR en Amazon Elastic Mapreduce.

Todos los temas anteriores incluyen demostraciones y sesiones prácticas para que los participantes obtengan experiencia práctica con la tecnología.

Requerimientos

  • Conocimientos básicos del sistema de archivos de Linux
  • Conocimientos básicos de Java
  • Conocimiento de Apache Hadoop (recomendado)
 28 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas