Transmisión de Datos y Procesamiento de Datos en Tiempo Real
Visión general del curso
Este curso ofrece una introducción práctica y estructurada a la construcción de sistemas de transmisión de datos en tiempo real. Cubre conceptos fundamentales, patrones de arquitectura y herramientas de la industria utilizadas para procesar datos continuos a gran escala. Los participantes aprenderán cómo diseñar, implementar y optimizar tuberías de transmisión utilizando marcos de trabajo modernos. El curso progresa desde ideas fundamentales hasta aplicaciones prácticas, permitiendo a los aprendices construir con confianza soluciones de tiempo real listas para producción.
Formato de la capacitación
• Sesiones dirigidas por instructores con explicaciones guiadas
• Recorridos conceptuales con ejemplos del mundo real
• Demostraciones prácticas y ejercicios de codificación
• Laboratorios progresivos alineados con los temas diarios
• Discusiones interactivas y sesiones de preguntas y respuestas
Objetivos del curso
• Comprender los conceptos de transmisión de datos en tiempo real y la arquitectura de sistemas
• Diferenciar entre modelos de procesamiento de datos por lotes y por transmisión
• Diseñar tuberías de transmisión escalables y tolerantes a fallas
• Trabajar con herramientas y marcos de trabajo de transmisión distribuida
• Aplicar procesamiento de tiempo de evento, ventanas y operaciones con estado
• Construir y optimizar soluciones de datos en tiempo real para casos de uso empresarial
Temario del curso
Temario del Curso - Día 1
• Introducción a los conceptos de transmisión de datos
• Fundamentos del procesamiento por lotes vs. en tiempo real
• Conceptos básicos de arquitectura impulsada por eventos
• Casos de uso comunes en la industria
• Descripción general del ecosistema de transmisión
Día 2
• Patrones de diseño de arquitectura de transmisión
• Fundamentos de sistemas de mensajería distribuida
• Productores y consumidores
• Temas, particiones y flujo de datos
• Estrategias de ingestión de datos
Día 3
• Conceptos de procesamiento de flujos y marcos de trabajo
• Tiempo de evento vs. tiempo de procesamiento
• Técnicas de ventanas y sus casos de uso
• Procesamiento de flujos con estado
• Conceptos básicos de tolerancia a fallas y verificación periódica (checkpointing)
Día 4
• Transformación de datos en tuberías de transmisión
• ETL y ELT en sistemas en tiempo real
• Gestión y evolución de esquemas
• Uniones de flujos y enriquecimiento de datos
• Introducción a servicios de transmisión basados en la nube
Día 5
• Monitoreo y observabilidad en sistemas de transmisión
• Conceptos básicos de seguridad y control de acceso
• Ajuste de rendimiento y optimización
• Revisión del diseño integral de la tubería
• Casos de uso del mundo real, como detección de fraude y procesamiento de IoT
Los cursos públicos requieren más de 5 participantes.
Transmisión de Datos y Procesamiento de Datos en Tiempo Real - Reserva
Transmisión de Datos y Procesamiento de Datos en Tiempo Real - Consulta
Transmisión de Datos y Procesamiento de Datos en Tiempo Real - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Capacitación de Administrador para Apache Hadoop
35 HorasPúblico objetivo:
Este curso está diseñado para especialistas en TI que buscan una solución para almacenar y procesar grandes conjuntos de datos en entornos de sistemas distribuidos.
Objetivo:
Adquirir un conocimiento profundo sobre la administración de clústeres Hadoop.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEsta formación impartida por un instructor en vivo en Colombia (en línea o presencial) está dirigida a científicos de datos e ingenieros de nivel intermedio que deseen utilizar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al finalizar esta formación, los participantes podrán:
- Configurar un entorno de big data utilizando Google Colab y Spark.
- Procesar y analizar grandes conjuntos de datos de manera eficiente con Apache Spark.
- Visualizar big data en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Análisis de Big Data en Salud
21 HorasEl análisis de big data consiste en examinar grandes volúmenes de conjuntos de datos diversos para descubrir correlaciones, patrones ocultos y otras ideas útiles.
La industria de la salud cuenta con cantidades masivas de datos médicos y clínicos complejos y heterogéneos. Aplicar análisis de big data a datos de salud ofrece un gran potencial para obtener información que mejore la prestación de servicios de atención médica. Sin embargo, la magnitud de estos conjuntos de datos presenta grandes desafíos para el análisis y su aplicación práctica en entornos clínicos.
En esta capacitación en vivo, impartida por un instructor (a distancia), los participantes aprenderán a realizar análisis de big data en el ámbito de la salud mientras trabajan en una serie de ejercicios prácticos en laboratorios en vivo.
Al finalizar esta capacitación, los participantes serán capaces de:
- Instalar y configurar herramientas de análisis de big data, como Hadoop MapReduce y Spark.
- Comprender las características de los datos médicos.
- Aplicar técnicas de big data para manejar datos médicos.
- Estudiar sistemas y algoritmos de big data en el contexto de aplicaciones de salud.
Público objetivo
- Desarrolladores.
- Científicos de datos.
Formato del curso
- Parte de clase magistral, parte de discusión, ejercicios y práctica intensiva.
Nota
- Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinar.
Hadoop para Administradores
21 HorasApache Hadoop es el framework más popular para procesar Big Data en clústeres de servidores. En este curso de tres días (opcionalmente cuatro), los participantes aprenderán sobre los beneficios empresariales y los casos de uso de Hadoop y su ecosistema, cómo planificar el despliegue y el crecimiento del clúster, así como cómo instalar, mantener, monitorear, solucionar problemas y optimizar Hadoop. Además, practicarán la carga masiva de datos en el clúster, se familiarizarán con diversas distribuciones de Hadoop y ejercitarán la instalación y gestión de herramientas del ecosistema. El curso finalizará con un debate sobre la seguridad del clúster mediante Kerberos.
"…El material estaba muy bien preparado y cubría todos los temas de forma exhaustiva. El laboratorio fue muy útil y estaba muy bien organizado"
— Andrew Nguyen, Ingeniero Principal de Integración DW, Microsoft Online Advertising
Público objetivo
Administradores de Hadoop
Formato
Clases teóricas y laboratorios prácticos, con una distribución aproximada del 60% de teoría y el 40% de práctica.
Hadoop para Desarrolladores (4 días)
28 HorasApache Hadoop es el framework más popular para procesar Big Data en clústeres de servidores. Este curso introducirá a un desarrollador a diversos componentes (HDFS, MapReduce, Pig, Hive y HBase) del ecosistema Hadoop.
Hadoop Avanzado para Desarrolladores
21 HorasApache Hadoop es uno de los marcos de trabajo más populares para procesar Big Data en clústeres de servidores. Este curso profundiza en la gestión de datos en HDFS, así como en Pig, Hive y HBase avanzados. Estas técnicas de programación avanzada serán beneficiosas para desarrolladores de Hadoop con experiencia.
Público objetivo: desarrolladores
Duración: tres días
Formato: clases magistrales (50%) y laboratorios prácticos (50%).
Administración de Hadoop en MapR
28 HorasPúblico objetivo:
Este curso tiene como objetivo desmitificar la tecnología de big data y Hadoop, demostrando que su comprensión no es difícil.
Hadoop y Spark para administradores
35 HorasEsta capacitación impartida por un instructor, en vivo en Colombia (en línea o presencial), está dirigida a administradores de sistemas que desean aprender a configurar, implementar y gestionar clústeres de Hadoop dentro de su organización.
Al finalizar esta capacitación, los participantes podrán:
- Instalar y configurar Apache Hadoop.
- Comprender los cuatro componentes principales del ecosistema de Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
- Utilizar el Sistema de Archivos Distribuido de Hadoop (HDFS) para escalar un clúster a cientos o miles de nodos.
- Configurar HDFS para que funcione como motor de almacenamiento en implementaciones locales de Spark.
- Configurar Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3 y sistemas de bases de datos NoSQL como Redis, Elasticsearch, Couchbase, Aerospike, entre otros.
- Realizar tareas administrativas como el aprovisionamiento, gestión, monitoreo y seguridad de un clúster de Apache Hadoop.
HBase para Desarrolladores
21 HorasEste curso introduce HBase, una base de datos NoSQL construida sobre Hadoop. Está diseñado para desarrolladores que utilizarán HBase en el desarrollo de aplicaciones y para administradores encargados de gestionar clústeres de HBase.
Guiaremos a los desarrolladores a través de la arquitectura de HBase, el modelado de datos y el desarrollo de aplicaciones sobre HBase. También se abordará el uso de MapReduce con HBase, así como temas de administración relacionados con la optimización del rendimiento. El curso es altamente práctico, con numerosas sesiones de laboratorio.
Duración: 3 días
Público objetivo: Desarrolladores y administradores
Apache NiFi para administradores
21 HorasApache NiFi es una plataforma de código abierto para la integración de datos basada en flujos y el procesamiento de eventos. Permite el enrutamiento, la transformación y la mediación de datos en tiempo real entre sistemas dispares, automatizados, con una interfaz web y un control detallado.
Esta formación presencial o remota, impartida por un instructor, está dirigida a administradores e ingenieros de nivel intermedio que deseen desplegar, gestionar, asegurar y optimizar flujos de datos de NiFi en entornos de producción.
Al finalizar esta formación, los participantes podrán:
- Instalar, configurar y mantener clústeres de Apache NiFi.
- Diseñar y gestionar flujos de datos provenientes de diversas fuentes y destinos.
- Implementar lógica de automatización, enrutamiento y transformación de flujos.
- Optimizar el rendimiento, monitorear operaciones y solucionar problemas.
Formato del Curso
- Clases interactivas con discusión de arquitecturas del mundo real.
- Prácticas guiadas: construcción, despliegue y gestión de flujos.
- Ejercicios basados en escenarios en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinarlo.
Apache NiFi para desarrolladores
7 HorasEn esta capacitación presencial impartida por un instructor en Colombia, los participantes aprenderán los fundamentos de la programación basada en flujos mientras desarrollan diversas extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al finalizar esta capacitación, los participantes podrán:
- Comprender la arquitectura de NiFi y los conceptos de flujo de datos.
- Desarrollar extensiones utilizando NiFi y APIs de terceros.
- Desarrollar de forma personalizada su propio procesador de Apache NiFi.
- Ingresar y procesar datos en tiempo real provenientes de formatos de archivo y fuentes de datos diversos e inusuales.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la construcción de flujos de trabajo escalables para el procesamiento de datos y el aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo opera Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo, impartida por un instructor en Colombia, los participantes aprenderán a utilizar Python y Spark juntos para analizar big data mientras realizan ejercicios prácticos.
Al finalizar esta capacitación, los participantes podrán:
- Aprender cómo usar Spark con Python para analizar Big Data.
- Trabajar en ejercicios que simulan casos del mundo real.
- Utilizar diferentes herramientas y técnicas para el análisis de big data con PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta formación presencial, impartida por un instructor en Colombia (en línea o in situ), está dirigida a desarrolladores que deseen utilizar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al finalizar esta formación, los participantes serán capaces de:
- Configurar el entorno necesario para comenzar a procesar big data con Spark, Hadoop y Python.
- Comprender las características, componentes centrales y arquitectura de Spark y Hadoop.
- Aprender a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explorar las herramientas del ecosistema de Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Construir sistemas de recomendación basados en filtrado colaborativo similares a los de Netflix, YouTube, Amazon, Spotify y Google.
- Utilizar Apache Mahout para escalar algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Inteligencia con PySpark
14 HorasStratio es una plataforma centrada en los datos que integra big data, inteligencia artificial y gobernanza en una única solución. Sus módulos Rocket e Inteligencia permiten una exploración, transformación y análisis avanzado de datos rápidos en entornos empresariales.
Esta capacitación en vivo, impartida por un instructor (en línea o en las instalaciones), está dirigida a profesionales de datos de nivel intermedio que deseen utilizar eficazmente los módulos Rocket e Inteligencia de Stratio con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar esta capacitación, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Inteligencia.
- Aplicar PySpark en el contexto de ingestión, transformación y análisis de datos.
- Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.
Formato del curso
- Clase interactiva y discusión.
- Numerosos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, contáctenos para coordinar.