Análisis de Big Data en Salud
El análisis de big data consiste en examinar grandes volúmenes de conjuntos de datos diversos para descubrir correlaciones, patrones ocultos y otras ideas útiles.
La industria de la salud cuenta con cantidades masivas de datos médicos y clínicos complejos y heterogéneos. Aplicar análisis de big data a datos de salud ofrece un gran potencial para obtener información que mejore la prestación de servicios de atención médica. Sin embargo, la magnitud de estos conjuntos de datos presenta grandes desafíos para el análisis y su aplicación práctica en entornos clínicos.
En esta capacitación en vivo, impartida por un instructor (a distancia), los participantes aprenderán a realizar análisis de big data en el ámbito de la salud mientras trabajan en una serie de ejercicios prácticos en laboratorios en vivo.
Al finalizar esta capacitación, los participantes serán capaces de:
- Instalar y configurar herramientas de análisis de big data, como Hadoop MapReduce y Spark.
- Comprender las características de los datos médicos.
- Aplicar técnicas de big data para manejar datos médicos.
- Estudiar sistemas y algoritmos de big data en el contexto de aplicaciones de salud.
Público objetivo
- Desarrolladores.
- Científicos de datos.
Formato del curso
- Parte de clase magistral, parte de discusión, ejercicios y práctica intensiva.
Nota
- Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinar.
Temario del curso
Introducción al análisis de big data en salud
Visión general de las tecnologías de análisis de big data
- Apache Hadoop MapReduce
- Apache Spark
Instalación y configuración de Apache Hadoop MapReduce
Instalación y configuración de Apache Spark
Uso de modelado predictivo para datos de salud
Uso de Apache Hadoop MapReduce para datos de salud
Realización de fenotipado y agrupamiento en datos de salud
- Métricas de evaluación de clasificación
- Métodos de ensamble para clasificación
Uso de Apache Spark para datos de salud
Trabajo con ontologías médicas
Uso de análisis de grafos en datos de salud
Reducción de dimensionalidad en datos de salud
Trabajo con métricas de similitud de pacientes
Solución de problemas
Resumen y conclusión
Requerimientos
- Conocimiento de los conceptos de aprendizaje automático y minería de datos.
- Experiencia avanzada en programación (Python, Java, Scala).
- Dominio de procesos de datos y ETL.
Los cursos públicos requieren más de 5 participantes.
Análisis de Big Data en Salud - Reserva
Análisis de Big Data en Salud - Consulta
Análisis de Big Data en Salud - Solicitud de consultoría
Testimonios (1)
Me gustó mucho la VM. El profesor tenía un conocimiento muy profundo no solo del tema principal sino también de otros temas; además, era muy amable y agradable. También me gustó las instalaciones en Dubái.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Traducción Automática
Próximos cursos
Cursos Relacionados
Capacitación de Administrador para Apache Hadoop
35 HorasPúblico objetivo:
Este curso está diseñado para especialistas en TI que buscan una solución para almacenar y procesar grandes conjuntos de datos en entornos de sistemas distribuidos.
Objetivo:
Adquirir un conocimiento profundo sobre la administración de clústeres Hadoop.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEsta formación impartida por un instructor en vivo en Colombia (en línea o presencial) está dirigida a científicos de datos e ingenieros de nivel intermedio que deseen utilizar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al finalizar esta formación, los participantes podrán:
- Configurar un entorno de big data utilizando Google Colab y Spark.
- Procesar y analizar grandes conjuntos de datos de manera eficiente con Apache Spark.
- Visualizar big data en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Hadoop y Spark para administradores
35 HorasEsta capacitación impartida por un instructor, en vivo en Colombia (en línea o presencial), está dirigida a administradores de sistemas que desean aprender a configurar, implementar y gestionar clústeres de Hadoop dentro de su organización.
Al finalizar esta capacitación, los participantes podrán:
- Instalar y configurar Apache Hadoop.
- Comprender los cuatro componentes principales del ecosistema de Hadoop: HDFS, MapReduce, YARN y Hadoop Common.
- Utilizar el Sistema de Archivos Distribuido de Hadoop (HDFS) para escalar un clúster a cientos o miles de nodos.
- Configurar HDFS para que funcione como motor de almacenamiento en implementaciones locales de Spark.
- Configurar Spark para acceder a soluciones de almacenamiento alternativas, como Amazon S3 y sistemas de bases de datos NoSQL como Redis, Elasticsearch, Couchbase, Aerospike, entre otros.
- Realizar tareas administrativas como el aprovisionamiento, gestión, monitoreo y seguridad de un clúster de Apache Hadoop.
Una introducción práctica al procesamiento de flujo
21 HorasEn esta capacitación en vivo impartida por un instructor en Colombia (presencial o remota), los participantes aprenderán a configurar e integrar diferentes marcos de trabajo de procesamiento de flujos con sistemas de almacenamiento de big data existentes, así como con aplicaciones de software relacionadas y microservicios.
Al finalizar esta capacitación, los participantes estarán en capacidad de:
- Instalar y configurar diferentes marcos de trabajo de procesamiento de flujos, como Spark Streaming y Kafka Streaming.
- Comprender y seleccionar el marco de trabajo más adecuado para cada tarea.
- Procesar datos de manera continua, concurrente y registro por registro.
- Integrar soluciones de procesamiento de flujos con bases de datos existentes, almacenes de datos, lagos de datos, entre otros.
- Integrar la biblioteca de procesamiento de flujos más adecuada con aplicaciones empresariales y microservicios.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la construcción de flujos de trabajo escalables para el procesamiento de datos y el aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo opera Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Pila SMACK para Ciencia de Datos
14 HorasEste entrenamiento en vivo impartido por un instructor en Colombia (en línea o en sitio) está dirigido a científicos de datos que desean utilizar la pila SMACK para construir plataformas de procesamiento de datos orientadas a soluciones de big data.
Al finalizar este entrenamiento, los participantes podrán:
- Implementar una arquitectura de pipeline de datos para el procesamiento de grandes volúmenes de información.
- Desarrollar infraestructura de clúster con Apache Mesos y Docker.
- Analizar datos utilizando Spark y Scala.
- Gestionar datos no estructurados con Apache Cassandra.
Fundamentos de Apache Spark
21 HorasEste entrenamiento en vivo impartido por un instructor en Colombia (en línea o en sitio) está dirigido a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar rápidamente conjuntos de datos de gran tamaño.
- Comprender las diferencias entre Apache Spark y Hadoop MapReduce y saber cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta capacitación en vivo impartida por un instructor en Colombia (en línea o en sitio) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen desplegar, mantener y optimizar clústeres de Spark.
Al finalizar esta capacitación, los participantes podrán:
- Instalar y configurar Apache Spark en diversos entornos.
- Gestionar los recursos del clúster y monitorear las aplicaciones de Spark.
- Optimizar el rendimiento de los clústeres de Spark.
- Implementar medidas de seguridad y garantizar alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark aumenta gradualmente al inicio, requiriendo un gran esfuerzo para obtener los primeros resultados. Este curso está diseñado para superar esa parte inicial más desafiante. Al finalizarlo, los participantes comprenderán los fundamentos de Apache Spark, podrán diferenciar claramente entre RDD y DataFrame, aprenderán las API de Python y Scala, y entenderán conceptos como ejecutores y tareas, entre otros. Además, siguiendo las mejores prácticas, el curso pone un énfasis especial en el despliegue en la nube, Databricks y AWS. Los estudiantes también comprenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios Spark más recientes de AWS.
PÚBLICO OBJETIVO:
Ingenieros de Datos, DevOps, Científicos de Datos
Spark para Desarrolladores
21 HorasOBJETIVO:
Este curso presentará Apache Spark. Los estudiantes aprenderán cómo Spark se integra en el ecosistema de Big Data y cómo utilizar Spark para el análisis de datos. El curso abarca el shell de Spark para el análisis interactivo de datos, los mecanismos internos de Spark, las API de Spark, Spark SQL, Spark Streaming, aprendizaje automático (Machine Learning) y GraphX.
PÚBLICO OBJETIVO :
Desarrolladores / Analistas de Datos
Escalando Pipelines de Datos con Spark NLP
14 HorasEsta capacitación impartida por un instructor, en vivo en Colombia (en línea o en sitio), está dirigida a científicos de datos y desarrolladores que desean utilizar Spark NLP, construido sobre Apache Spark, para desarrollar, implementar y escalar modelos y pipelines de procesamiento de texto en lenguaje natural.
Al finalizar esta capacitación, los participantes podrán:
- Configurar el entorno de desarrollo necesario para comenzar a construir pipelines de PLN con Spark NLP.
- Comprender las características, la arquitectura y los beneficios de utilizar Spark NLP.
- Utilizar los modelos preentrenados disponibles en Spark NLP para implementar procesamiento de texto.
- Aprender cómo construir, entrenar y escalar modelos de Spark NLP para proyectos de nivel productivo.
- Aplicar clasificación, inferencia y análisis de sentimientos en casos de uso del mundo real (datos clínicos, conocimientos sobre el comportamiento del cliente, etc.).
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo, impartida por un instructor en Colombia, los participantes aprenderán a utilizar Python y Spark juntos para analizar big data mientras realizan ejercicios prácticos.
Al finalizar esta capacitación, los participantes podrán:
- Aprender cómo usar Spark con Python para analizar Big Data.
- Trabajar en ejercicios que simulan casos del mundo real.
- Utilizar diferentes herramientas y técnicas para el análisis de big data con PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta formación presencial, impartida por un instructor en Colombia (en línea o in situ), está dirigida a desarrolladores que deseen utilizar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al finalizar esta formación, los participantes serán capaces de:
- Configurar el entorno necesario para comenzar a procesar big data con Spark, Hadoop y Python.
- Comprender las características, componentes centrales y arquitectura de Spark y Hadoop.
- Aprender a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explorar las herramientas del ecosistema de Spark (Spark MLlib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Construir sistemas de recomendación basados en filtrado colaborativo similares a los de Netflix, YouTube, Amazon, Spotify y Google.
- Utilizar Apache Mahout para escalar algoritmos de aprendizaje automático.
Apache Spark SQL
7 HorasSpark SQL es el módulo de Apache Spark para trabajar con datos estructurados y no estructurados. Spark SQL proporciona información sobre la estructura de los datos así como sobre los cálculos que se están ejecutando. Esta información puede utilizarse para realizar optimizaciones. Dos usos comunes de Spark SQL son:
- ejecutar consultas SQL.
- leer datos de una instalación existente de Hive.
En esta capacitación en vivo impartida por un instructor (presencial o remota), los participantes aprenderán a analizar diversos tipos de conjuntos de datos utilizando Spark SQL.
Al finalizar esta capacitación, los participantes estarán en capacidad de:
- Instalar y configurar Spark SQL.
- Realizar análisis de datos utilizando Spark SQL.
- Consultar conjuntos de datos en diferentes formatos.
- Visualizar datos y resultados de consultas.
Formato del curso
- Clases interactivas con debate.
- Numerosos ejercicios y prácticas.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, por favor contáctenos para coordinarlo.
Stratio: Módulos Rocket e Inteligencia con PySpark
14 HorasStratio es una plataforma centrada en los datos que integra big data, inteligencia artificial y gobernanza en una única solución. Sus módulos Rocket e Inteligencia permiten una exploración, transformación y análisis avanzado de datos rápidos en entornos empresariales.
Esta capacitación en vivo, impartida por un instructor (en línea o en las instalaciones), está dirigida a profesionales de datos de nivel intermedio que deseen utilizar eficazmente los módulos Rocket e Inteligencia de Stratio con PySpark, centrándose en estructuras de bucle, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar esta capacitación, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Inteligencia.
- Aplicar PySpark en el contexto de ingestión, transformación y análisis de datos.
- Utilizar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDF) para operaciones de datos reutilizables en PySpark.
Formato del curso
- Clase interactiva y discusión.
- Numerosos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada para este curso, contáctenos para coordinar.