Fundamentos de Apache Iceberg
Apache Iceberg es un formato de tabla de código abierto diseñado para conjuntos de datos a gran escala, que lleva la confiabilidad y la simplicidad de las tablas SQL al ámbito de los big data. Fue creado para resolver los desafíos asociados con la gestión de grandes volúmenes de datos en lagos de datos, los cuales suelen implicar el manejo de esquemas complejos, archivos de gran tamaño y diversas fuentes de información.
Esta capacitación impartida por un instructor, en vivo (en línea o presencial), está dirigida a profesionales de datos de nivel principiante que desean adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de trabajo de procesamiento.
Al finalizar esta capacitación, los participantes estarán en capacidad de:
- Obtener una comprensión profunda de la arquitectura, las características y los beneficios de Apache Iceberg.
- Conocer los formatos de tabla, la partición, la evolución de esquemas y las capacidades de viaje en el tiempo.
- Instalar y configurar Apache Iceberg en diferentes entornos.
- Crear, gestionar y manipular tablas Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla hacia Iceberg.
Formato del curso
- Clase magistral interactiva y discusiones.
- Numerosos ejercicios y prácticas.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinar.
Temario del curso
Introducción a Apache Iceberg
- Panorama general de Apache Iceberg.
- Importancia y casos de uso en la arquitectura de datos moderna.
- Características y beneficios clave.
Conceptos fundamentales
- Formato y arquitectura de las tablas Iceberg.
- Comparación con otros formatos de tabla.
- Partición y evolución de esquemas.
- Viaje en el tiempo y versionado de datos.
Configuración de Apache Iceberg
- Instalación y configuración.
- Integración de Iceberg con diversos motores de procesamiento de datos.
- Configuración de un entorno Iceberg en una máquina local.
Operaciones básicas
- Creación y gestión de tablas Iceberg.
- Escritura y lectura en tablas Iceberg.
- Operaciones básicas CRUD.
Migración e integración de datos
- Migración de datos desde Hive y otros sistemas hacia Iceberg.
- Integración con herramientas de BI.
- Migración de un conjunto de datos de ejemplo a Iceberg.
Optimización del rendimiento
- Técnicas de ajuste de rendimiento.
- Optimización de consultas y escaneos de datos.
- Optimización del rendimiento en Iceberg.
Panorama general de características avanzadas
- Evolución de particiones y particionamiento oculto.
- Evolución de tablas y cambios en esquemas.
- Funciones de viaje en el tiempo y reversión.
- Implementación de características avanzadas en Iceberg.
Resumen y próximos pasos
Requerimientos
- Familiaridad con conceptos como tablas, esquemas, particiones y ingestión de datos.
- Conocimientos básicos de SQL.
Público objetivo
- Ingenieros de datos.
- Arquitectos de datos.
- Analistas de datos.
- Desarrolladores de software.
Los cursos públicos requieren más de 5 participantes.
Fundamentos de Apache Iceberg - Reserva
Fundamentos de Apache Iceberg - Consulta
Fundamentos de Apache Iceberg - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Apache Iceberg Avanzado
21 HorasEsta capacitación presencial impartida por un instructor en Colombia (en línea o en sitio) está dirigida a profesionales de datos de nivel avanzado que deseen optimizar flujos de trabajo de procesamiento de datos, garantizar la integridad de la información e implementar soluciones robustas de data lakehouse capaces de abordar la complejidad de las aplicaciones modernas de big data.
Al finalizar esta capacitación, los participantes estarán en capacidad de:
- Adquirir un conocimiento profundo de la arquitectura de Iceberg, incluyendo la gestión de metadatos y la disposición de archivos.
- Configurar Iceberg para lograr un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Gestionar tablas Iceberg a gran escala, realizar cambios complejos en el esquema y administrar la evolución de particiones.
- Dominar técnicas para optimizar el rendimiento de consultas y la eficiencia en el escaneo de datos para conjuntos de datos extensos.
- Implementar mecanismos que garanticen la consistencia de los datos, administren compromisos transaccionales y gestionen fallos en entornos distribuidos.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEsta formación impartida por un instructor en vivo en Colombia (en línea o presencial) está dirigida a científicos de datos e ingenieros de nivel intermedio que deseen utilizar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al finalizar esta formación, los participantes podrán:
- Configurar un entorno de big data utilizando Google Colab y Spark.
- Procesar y analizar grandes conjuntos de datos de manera eficiente con Apache Spark.
- Visualizar big data en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Inteligencia de Negocios de Big Data para Agencias del Gobierno
35 HorasLos avances tecnológicos y el incremento constante de la información están transformando la manera en que se desarrollan los negocios en múltiples industrias, incluyendo el sector gubernamental. La generación de datos y las tasas de archivado digital en el gobierno están en aumento debido al rápido crecimiento de dispositivos móviles y aplicaciones, sensores y dispositivos inteligentes, soluciones de computación en la nube y portales orientados al ciudadano. A medida que la información digital se expande y se vuelve más compleja, la gestión, el procesamiento, el almacenamiento, la seguridad y la disposición de la información también se complican. Nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener insights a partir de sus datos no estructurados. El mercado gubernamental ha llegado a un punto de inflexión, reconociendo que la información es un activo estratégico; por lo tanto, el gobierno necesita proteger, aprovechar y analizar tanto la información estructurada como la no estructurada para servir mejor y cumplir con los requisitos de su misión. Mientras los líderes gubernamentales se esfuerzan por evolucionar hacia organizaciones basadas en datos para lograr exitosamente sus objetivos, están sentando las bases para correlacionar dependencias entre eventos, personas, procesos e información.
Las soluciones gubernamentales de alto valor se crearán a partir de una combinación de las tecnologías más disruptivas:
- Dispositivos y aplicaciones móviles
- Servicios en la nube
- Tecnologías de negocios sociales y redes
- Big Data y analítica
Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones al actuar sobre los patrones revelados mediante el análisis de grandes volúmenes de datos, ya sean relacionados o no, estructurados o no estructurados.
Sin embargo, lograr estos logros requiere mucho más que simplemente acumular cantidades masivas de datos. "Dar sentido a estos volúmenes de Big Data requiere herramientas y tecnologías de vanguardia que puedan analizar y extraer conocimiento útil de flujos vastos y diversos de información", escribieron Tom Kalil y Fen Zhao de la Oficina de Política Científica y Tecnológica de la Casa Blanca en una publicación del Blog de la OSTP.
La Casa Blanca dio un paso para ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Big Data en 2012. Esta iniciativa incluyó más de 200 millones de dólares para maximizar la explosión de Big Data y las herramientas necesarias para analizarla.
Los desafíos que plantea Big Data son casi tan desalentadores como su promesa es alentadora. El almacenamiento eficiente de datos es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el precio por megabyte del almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlos cuando los necesiten y de la forma que requieran. Realizar copias de seguridad de cantidades masivas de datos aumenta aún más este reto.
Analizar los datos de manera efectiva es otro gran desafío. Muchas agencias emplean herramientas comerciales que les permiten filtrar entre las montañas de datos, identificando tendencias que pueden ayudarlas a operar con mayor eficiencia. (Un estudio reciente de MeriTalk encontró que los ejecutivos de TI federales consideran que Big Data podría ayudar a las agencias a ahorrar más de 500 mil millones de dólares, al tiempo que se cumplen los objetivos de la misión.).
Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto su sistema de análisis de datos Piranha a disposición de otras agencias. Este sistema ha ayudado a investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre aneurismas aórticos antes de que ocurran. También se utiliza para tareas más mundanas, como filtrar currículos para conectar candidatos a empleos con gerentes de contratación.
Una Introducción Práctica al Análisis de Datos y Big Data - 3 Días
21 HorasLos participantes que completen esta capacitación presencial impartida por un instructor en Colombia obtendrán una comprensión práctica y basada en casos reales de Big Data, así como de sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de poner en práctica estos conocimientos mediante ejercicios prácticos. La interacción grupal y la retroalimentación del instructor constituyen un componente fundamental del curso.
El curso comienza con una introducción a los conceptos elementales de Big Data, para luego avanzar hacia los lenguajes de programación y metodologías utilizados en el análisis de datos. Finalmente, se discutirán las herramientas y la infraestructura que permiten el almacenamiento de Big Data, el procesamiento distribuido y la escalabilidad.
Big Data y Análisis Avanzado
42 HorasBig Data y Análisis Avanzado es la aplicación de técnicas y herramientas sofisticadas para analizar grandes conjuntos de datos complejos, con el fin de obtener información útil y apoyar la toma de decisiones estratégicas.
Esta capacitación impartida por un instructor, en vivo (en línea o presencial), está dirigida a profesionales de datos de nivel avanzado que deseen aprovechar métodos analíticos de vanguardia y tecnologías de big data para realizar análisis predictivos, prescriptivos y en tiempo real.
Al finalizar esta capacitación, los participantes podrán:
- Diseñar e implementar pipelines de procesamiento de datos a gran escala para datos estructurados y no estructurados.
- Aplicar técnicas avanzadas de aprendizaje automático y aprendizaje profundo a conjuntos de datos masivos.
- Aprovechar marcos de computación distribuida para análisis en tiempo real y transmisión de datos.
- Integrar el análisis de big data en sistemas de inteligencia empresarial y toma de decisiones.
Formato del curso
- Clase interactiva con discusión.
- Numerosos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, contáctenos para coordinarlo.
Big Data Business Intelligence para análisis de inteligencia criminal
35 HorasEn esta formación en vivo y dirigida por un instructor en Colombia, los participantes aprenderán la mentalidad adecuada para abordar las tecnologías de Big Data, evaluar su impacto en los procesos y políticas existentes, e implementar estas tecnologías con el propósito de identificar actividad delictiva y prevenir el crimen. Se examinarán casos de estudio de organizaciones policiales de todo el mundo para obtener ideas sobre sus enfoques de adopción, desafíos y resultados.
Al finalizar esta capacitación, los participantes podrán:
- Combinar la tecnología de Big Data con los procesos tradicionales de recopilación de datos para reconstruir una narrativa durante una investigación.
- Implementar soluciones industriales de almacenamiento y procesamiento de Big Data para el análisis de datos.
- Preparar una propuesta para la adopción de las herramientas y procesos más adecuados que permitan un enfoque basado en datos para la investigación criminal.
Apache NiFi para administradores
21 HorasApache NiFi es una plataforma de código abierto para la integración de datos basada en flujos y el procesamiento de eventos. Permite el enrutamiento, la transformación y la mediación de datos en tiempo real entre sistemas dispares, automatizados, con una interfaz web y un control detallado.
Esta formación presencial o remota, impartida por un instructor, está dirigida a administradores e ingenieros de nivel intermedio que deseen desplegar, gestionar, asegurar y optimizar flujos de datos de NiFi en entornos de producción.
Al finalizar esta formación, los participantes podrán:
- Instalar, configurar y mantener clústeres de Apache NiFi.
- Diseñar y gestionar flujos de datos provenientes de diversas fuentes y destinos.
- Implementar lógica de automatización, enrutamiento y transformación de flujos.
- Optimizar el rendimiento, monitorear operaciones y solucionar problemas.
Formato del Curso
- Clases interactivas con discusión de arquitecturas del mundo real.
- Prácticas guiadas: construcción, despliegue y gestión de flujos.
- Ejercicios basados en escenarios en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinarlo.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la construcción de flujos de trabajo escalables para el procesamiento de datos y el aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo opera Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Fundamentos de Apache Spark
21 HorasEste entrenamiento en vivo impartido por un instructor en Colombia (en línea o en sitio) está dirigido a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar rápidamente conjuntos de datos de gran tamaño.
- Comprender las diferencias entre Apache Spark y Hadoop MapReduce y saber cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta capacitación en vivo impartida por un instructor en Colombia (en línea o en sitio) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen desplegar, mantener y optimizar clústeres de Spark.
Al finalizar esta capacitación, los participantes podrán:
- Instalar y configurar Apache Spark en diversos entornos.
- Gestionar los recursos del clúster y monitorear las aplicaciones de Spark.
- Optimizar el rendimiento de los clústeres de Spark.
- Implementar medidas de seguridad y garantizar alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark aumenta gradualmente al inicio, requiriendo un gran esfuerzo para obtener los primeros resultados. Este curso está diseñado para superar esa parte inicial más desafiante. Al finalizarlo, los participantes comprenderán los fundamentos de Apache Spark, podrán diferenciar claramente entre RDD y DataFrame, aprenderán las API de Python y Scala, y entenderán conceptos como ejecutores y tareas, entre otros. Además, siguiendo las mejores prácticas, el curso pone un énfasis especial en el despliegue en la nube, Databricks y AWS. Los estudiantes también comprenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios Spark más recientes de AWS.
PÚBLICO OBJETIVO:
Ingenieros de Datos, DevOps, Científicos de Datos
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo, impartida por un instructor en Colombia, los participantes aprenderán a utilizar Python y Spark juntos para analizar big data mientras realizan ejercicios prácticos.
Al finalizar esta capacitación, los participantes podrán:
- Aprender cómo usar Spark con Python para analizar Big Data.
- Trabajar en ejercicios que simulan casos del mundo real.
- Utilizar diferentes herramientas y técnicas para el análisis de big data con PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta formación presencial, impartida por un instructor en Colombia (en línea o in situ), está dirigida a desarrolladores que deseen utilizar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al finalizar esta formación, los participantes serán capaces de:
- Configurar el entorno necesario para comenzar a procesar big data con Spark, Hadoop y Python.
- Comprender las características, componentes centrales y arquitectura de Spark y Hadoop.
- Aprender a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explorar las herramientas del ecosistema de Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Construir sistemas de recomendación basados en filtrado colaborativo similares a los de Netflix, YouTube, Amazon, Spotify y Google.
- Utilizar Apache Mahout para escalar algoritmos de aprendizaje automático.
Stratio: Módulos Rocket e Inteligencia con PySpark
14 HorasStratio es una plataforma centrada en los datos que integra big data, inteligencia artificial y gobernanza en una única solución. Sus módulos Rocket e Inteligencia permiten una exploración, transformación y análisis avanzado de datos rápidos en entornos empresariales.
Esta capacitación en vivo, impartida por un instructor (en línea o en las instalaciones), está dirigida a profesionales de datos de nivel intermedio que deseen utilizar eficazmente los módulos Rocket e Inteligencia de Stratio con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar esta capacitación, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Inteligencia.
- Aplicar PySpark en el contexto de ingestión, transformación y análisis de datos.
- Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.
Formato del curso
- Clase interactiva y discusión.
- Numerosos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, contáctenos para coordinar.