Contacta con nosotros

Temario del curso

Cada sesión dura 2 horas

Día 1: Sesión 1: Visión general de negocios sobre por qué la Inteligencia de Negocios de Big Data es clave en el gobierno

  • Estudios de caso del NIH y el DoE
  • Tasa de adopción de Big Data en agencias gubernamentales y cómo están alineando sus operaciones futuras con la Analítica Predictiva de Big Data
  • Áreas de aplicación a gran escala en el DoD, NSA, IRS, USDA, etc.
  • Interfaz de Big Data con datos heredados (legacy)
  • Comprensión básica de las tecnologías habilitadoras en analítica predictiva
  • Integración de datos y visualización en tableros (dashboards)
  • Gestión del fraude
  • Generación de reglas de negocio y detección de fraude
  • Detección y perfilado de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Día 1: Sesión 2: Introducción a Big Data - Parte 1

  • Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
  • Almacenes de datos (Data Warehouses) – esquema estático, conjuntos de datos de evolución lenta.
  • Bases de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (procesamiento masivo), recuperación desde HDFS.
  • Por lotes (Batch) – adecuado para análisis no interactivos.
  • Volumen: datos de flujo continuo (CEP).
  • Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.).
  • Menos listos para producción – Storm/S4.
  • Bases de datos NoSQL – (columnares y clave-valor): Ideales como complemento analítico a almacenes de datos o bases de datos tradicionales.

Día 1: Sesión 3: Introducción a Big Data - Parte 2

Soluciones NoSQL

  • Almacén Clave-Valor (KV Store) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Almacén Clave-Valor (KV Store) - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén Clave-Valor Jerárquico - GT.m, Cache
  • Almacén Clave-Valor Ordenado - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Caché Clave-Valor - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Almacén de Tuplas - Gigaspaces, Coord, Apache River
  • Base de datos orientada a objetos - ZopeDB, DB40, Shoal
  • Almacén de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Almacén de columna amplia - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción al problema de limpieza de datos en Big Data

  • RDBMS – estructura/esquema estático, no fomenta un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, suficiente estructura para almacenar datos sin un esquema exacto previo.
  • Problemas de limpieza de datos.

Día 1: Sesión 4: Introducción a Big Data - Parte 3: Hadoop

  • Cuándo seleccionar Hadoop?
  • ESTRUCTURADO - Los almacenes de datos empresariales o bases de datos pueden almacenar datos masivos (a un costo), pero imponen estructura (no es ideal para exploración activa).
  • Datos SEMI ESTRUCTURADOS – difíciles de gestionar con soluciones tradicionales (Almacenes de datos/Bases de datos).
  • Almacenar datos = ESFUERZO ENORME y estático incluso después de la implementación.
  • Para variedad y volumen de datos, procesados en hardware comercial – HADOOP.
  • Hardware comercial necesario para crear un clúster de Hadoop.

Introducción a MapReduce y HDFS

  • MapReduce – computación distribuida en múltiples servidores.
  • HDFS – hace que los datos estén disponibles localmente para el proceso de computación (con redundancia).
  • Datos – pueden ser no estructurados o sin esquema (a diferencia de RDBMS).
  • Responsabilidad del desarrollador de dar sentido a los datos.
  • Programar MapReduce = trabajar con Java (ventajas/desventajas), carga manual de datos en HDFS.

Día 2: Sesión 1: Ecosistema de Big Data - Construcción de ETL para Big Data: universo de herramientas de Big Data - ¿cuál usar y cuándo?

  • Hadoop frente a otras soluciones NoSQL.
  • Para acceso interactivo y aleatorio a los datos.
  • HBase (base de datos orientada a columnas) sobre Hadoop.
  • Acceso aleatorio a datos, pero con restricciones impuestas (máximo 1 PB).
  • No es adecuado para análisis ad hoc; es bueno para registros, conteos y series de tiempo.
  • Sqoop - Importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC).
  • Flume – Flujo de datos (ej. datos de registro) hacia HDFS.

Día 2: Sesión 2: Sistema de Gestión de Big Data

  • Movimiento de componentes, nodos de cómputo que inician/fallan: ZooKeeper - Para servicios de configuración, coordinación y nombrado.
  • Pipelines o flujos de trabajo complejos: Oozie – gestión de flujos de trabajo, dependencias y cadenas en serie.
  • Despliegue, configuración, gestión de clústeres, actualizaciones, etc. (administrador de sistemas): Ambari.
  • En la nube: Whirr.

Día 2: Sesión 3: Analítica Predictiva en Inteligencia de Negocios - Parte 1: Técnicas fundamentales e Inteligencia de Negocios basada en aprendizaje automático:

  • Introducción al aprendizaje automático.
  • Aprendizaje de técnicas de clasificación.
  • Predicción Bayesiana - Preparación del archivo de entrenamiento.
  • Máquinas de Vectores de Soporte (SVM).
  • Álgebra KNN p-Tree y minería vertical.
  • Redes Neuronales.
  • Problema de gran número de variables en Big Data - Bosque Aleatorio (RF).
  • Problema de automatización en Big Data – Bosque Aleatorio de múltiples modelos (ensemble).
  • Automatización mediante Soft10-M.
  • Herramienta de análisis de texto - Treeminer.
  • Aprendizaje ágil.
  • Aprendizaje basado en agentes.
  • Aprendizaje distribuido.
  • Introducción a herramientas de código abierto para analítica predictiva: R, Rapidminer, Mahout.

Día 2: Sesión 4: Ecosistema de Analítica Predictiva - Parte 2: Problemas comunes de analítica predictiva en el gobierno.

  • Analítica de insights.
  • Analítica de visualización.
  • Analítica predictiva estructurada.
  • Analítica predictiva no estructurada.
  • Perfilado de amenazas, fraudes o proveedores.
  • Motor de recomendación.
  • Detección de patrones.
  • Descubrimiento de reglas/escenarios – fallos, fraude, optimización.
  • Descubrimiento de la causa raíz.
  • Análisis de sentimientos.
  • Analítica de CRM.
  • Analítica de redes.
  • Análisis de texto.
  • Revisión asistida por tecnología.
  • Analítica de fraude.
  • Analítica en tiempo real.

Día 3: Sesión 1: Analítica en tiempo real y escalable sobre Hadoop

  • Por qué los algoritmos de análisis comunes fallan en Hadoop/HDFS.
  • Apache Hama - Para computación distribuida síncrona por lotes.
  • Apache SPARK - Para computación en clúster y analítica en tiempo real.
  • CMU Graphics Lab2 - Enfoque asíncrono basado en grafos para computación distribuida.
  • Enfoque basado en álgebra KNN p de Treeminer para reducir costos de hardware en la operación.

Día 3: Sesión 2: Herramientas para eDiscovery y Forense

  • eDiscovery sobre Big Data frente a datos heredados – comparación de costos y rendimiento.
  • Codificación predictiva y revisión asistida por tecnología (TAR).
  • Demostración en vivo de un producto TAR (vMiner) para entender cómo TAR acelera el descubrimiento.
  • Indexación más rápida a través de HDFS – velocidad de los datos.
  • NLP o Procesamiento de Lenguaje Natural – diversas técnicas y productos de código abierto.
  • eDiscovery en idiomas extranjeros – tecnología para el procesamiento de idiomas extranjeros.

Día 3: Sesión 3: Inteligencia de Negocios de Big Data para Ciberseguridad – Comprensión de una visión completa de 360 grados desde la recopilación rápida de datos hasta la identificación de amenazas

  • Comprensión de los fundamentos de la analítica de seguridad: superficie de ataque, mala configuración de seguridad, defensas del host.
  • Infraestructura de red / Gran tubería de datos / ETL de respuesta para analítica en tiempo real.
  • Prescriptiva frente a predictiva – Reglas fijas frente a descubrimiento automático de reglas de amenaza a partir de metadatos.

Día 3: Sesión 4: Big Data en el USDA: Aplicaciones en Agricultura

  • Introducción al IoT (Internet de las Cosas) para agricultura – Big Data basado en sensores y control.
  • Introducción a la imagen satelital y su aplicación en agricultura.
  • Integración de datos de sensores e imágenes para fertilidad del suelo, recomendaciones de cultivo y pronósticos.
  • Seguros agrícolas y Big Data.
  • Pronóstico de pérdida de cosechas.

Día 4: Sesión 1: Prevención de fraude mediante Inteligencia de Negocios de Big Data en el gobierno – Analítica de fraude:

  • Clasificación básica de analítica de fraude: basada en reglas frente a analítica predictiva.
  • Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude.
  • Fraude de proveedores / sobrecostos en proyectos.
  • Fraude en Medicare y Medicaid – técnicas de detección de fraude para el procesamiento de reclamaciones.
  • Fraudes en reembolsos de viaje.
  • Fraudes en reembolsos del IRS.
  • Se presentarán estudios de caso y demostraciones en vivo donde la información esté disponible.

Día 4: Sesión 2: Analítica de Redes Sociales – Recopilación y análisis de inteligencia

  • API de ETL de Big Data para extracción de datos de redes sociales.
  • Texto, imágenes, metadatos y video.
  • Análisis de sentimientos a partir de fuentes de redes sociales.
  • Filtrado contextual y no contextual de fuentes de redes sociales.
  • Tablero (Dashboard) de redes sociales para integrar diversas plataformas sociales.
  • Perfilado automático de perfiles en redes sociales.
  • Se realizará una demostración en vivo de cada análisis a través de la herramienta Treeminer.

Día 4: Sesión 3: Analítica de Big Data en procesamiento de imágenes y flujos de video

  • Técnicas de almacenamiento de imágenes en Big Data – Soluciones de almacenamiento para datos que superan los petabytes.
  • LTFS y LTO.
  • GPFS-LTFS (Solución de almacenamiento en capas para grandes datos de imágenes).
  • Fundamentos de analítica de imágenes.
  • Reconocimiento de objetos.
  • Segmentación de imágenes.
  • Rastreo de movimiento.
  • Reconstrucción de imágenes 3D.

Día 4: Sesión 4: Aplicaciones de Big Data en el NIH:

  • Áreas emergentes de bioinformática.
  • Problemas de metagenómica y minería de Big Data.
  • Analítica predictiva de Big Data para farmacogenómica, metabolómica y proteómica.
  • Big Data en el proceso genómico aguas abajo.
  • Aplicación de analítica predictiva de Big Data en salud pública.

Tablero (Dashboard) de Big Data para acceso rápido a datos diversos y visualización:

  • Integración de plataformas de aplicaciones existentes con el Tablero de Big Data.
  • Gestión de Big Data.
  • Estudio de caso de Tableros de Big Data: Tableau y Pentaho.
  • Uso de aplicaciones de Big Data para impulsar servicios basados en ubicación en el gobierno.
  • Sistemas de seguimiento y gestión.

Día 5: Sesión 1: Cómo justificar la implementación de Inteligencia de Negocios de Big Data dentro de una organización:

  • Definición del ROI para la implementación de Big Data.
  • Estudios de caso sobre el ahorro de tiempo de los analistas en la recopilación y preparación de datos – aumento en la ganancia de productividad.
  • Estudios de caso de aumento de ingresos por ahorro en costos de bases de datos licenciadas.
  • Aumento de ingresos por servicios basados en ubicación.
  • Ahorró por prevención de fraude.
  • Un enfoque integrado de hoja de cálculo para calcular el gasto aproximado frente a la ganancia de ingresos/ahorro por la implementación de Big Data.

Día 5: Sesión 2: Procedimiento paso a paso para reemplazar sistemas de datos heredados por un sistema de Big Data:

  • Comprensión de la hoja de ruta práctica para la migración a Big Data.
  • ¿Qué información importante se necesita antes de diseñar una implementación de Big Data?
  • ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • Cómo estimar el crecimiento de los datos.
  • Estudios de caso.

Día 5: Sesión 4: Revisión de proveedores de Big Data y de sus productos. Sesión de preguntas y respuestas:

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (parte de EMC)

Requerimientos

  • Conocimiento básico de operaciones comerciales y sistemas de datos en el gobierno dentro de su dominio
  • Comprensión básica de SQL/Oracle o bases de datos relacionales
  • Comprensión básica de estadística (a nivel de hoja de cálculo)
 35 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas