Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Cada sesión dura 2 horas
Día 1: Sesión 1: Visión general de negocios sobre por qué la Inteligencia de Negocios de Big Data es clave en el gobierno
- Estudios de caso del NIH y el DoE
- Tasa de adopción de Big Data en agencias gubernamentales y cómo están alineando sus operaciones futuras con la Analítica Predictiva de Big Data
- Áreas de aplicación a gran escala en el DoD, NSA, IRS, USDA, etc.
- Interfaz de Big Data con datos heredados (legacy)
- Comprensión básica de las tecnologías habilitadoras en analítica predictiva
- Integración de datos y visualización en tableros (dashboards)
- Gestión del fraude
- Generación de reglas de negocio y detección de fraude
- Detección y perfilado de amenazas
- Análisis de costo-beneficio para la implementación de Big Data
Día 1: Sesión 2: Introducción a Big Data - Parte 1
- Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
- Almacenes de datos (Data Warehouses) – esquema estático, conjuntos de datos de evolución lenta.
- Bases de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop – sin condiciones sobre la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (procesamiento masivo), recuperación desde HDFS.
- Por lotes (Batch) – adecuado para análisis no interactivos.
- Volumen: datos de flujo continuo (CEP).
- Opciones típicas – productos CEP (ej. Infostreams, Apama, MarkLogic, etc.).
- Menos listos para producción – Storm/S4.
- Bases de datos NoSQL – (columnares y clave-valor): Ideales como complemento analítico a almacenes de datos o bases de datos tradicionales.
Día 1: Sesión 3: Introducción a Big Data - Parte 2
Soluciones NoSQL
- Almacén Clave-Valor (KV Store) - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Almacén Clave-Valor (KV Store) - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Almacén Clave-Valor Jerárquico - GT.m, Cache
- Almacén Clave-Valor Ordenado - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Caché Clave-Valor - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Almacén de Tuplas - Gigaspaces, Coord, Apache River
- Base de datos orientada a objetos - ZopeDB, DB40, Shoal
- Almacén de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Almacén de columna amplia - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción al problema de limpieza de datos en Big Data
- RDBMS – estructura/esquema estático, no fomenta un entorno ágil y exploratorio.
- NoSQL – semiestructurado, suficiente estructura para almacenar datos sin un esquema exacto previo.
- Problemas de limpieza de datos.
Día 1: Sesión 4: Introducción a Big Data - Parte 3: Hadoop
- Cuándo seleccionar Hadoop?
- ESTRUCTURADO - Los almacenes de datos empresariales o bases de datos pueden almacenar datos masivos (a un costo), pero imponen estructura (no es ideal para exploración activa).
- Datos SEMI ESTRUCTURADOS – difíciles de gestionar con soluciones tradicionales (Almacenes de datos/Bases de datos).
- Almacenar datos = ESFUERZO ENORME y estático incluso después de la implementación.
- Para variedad y volumen de datos, procesados en hardware comercial – HADOOP.
- Hardware comercial necesario para crear un clúster de Hadoop.
Introducción a MapReduce y HDFS
- MapReduce – computación distribuida en múltiples servidores.
- HDFS – hace que los datos estén disponibles localmente para el proceso de computación (con redundancia).
- Datos – pueden ser no estructurados o sin esquema (a diferencia de RDBMS).
- Responsabilidad del desarrollador de dar sentido a los datos.
- Programar MapReduce = trabajar con Java (ventajas/desventajas), carga manual de datos en HDFS.
Día 2: Sesión 1: Ecosistema de Big Data - Construcción de ETL para Big Data: universo de herramientas de Big Data - ¿cuál usar y cuándo?
- Hadoop frente a otras soluciones NoSQL.
- Para acceso interactivo y aleatorio a los datos.
- HBase (base de datos orientada a columnas) sobre Hadoop.
- Acceso aleatorio a datos, pero con restricciones impuestas (máximo 1 PB).
- No es adecuado para análisis ad hoc; es bueno para registros, conteos y series de tiempo.
- Sqoop - Importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC).
- Flume – Flujo de datos (ej. datos de registro) hacia HDFS.
Día 2: Sesión 2: Sistema de Gestión de Big Data
- Movimiento de componentes, nodos de cómputo que inician/fallan: ZooKeeper - Para servicios de configuración, coordinación y nombrado.
- Pipelines o flujos de trabajo complejos: Oozie – gestión de flujos de trabajo, dependencias y cadenas en serie.
- Despliegue, configuración, gestión de clústeres, actualizaciones, etc. (administrador de sistemas): Ambari.
- En la nube: Whirr.
Día 2: Sesión 3: Analítica Predictiva en Inteligencia de Negocios - Parte 1: Técnicas fundamentales e Inteligencia de Negocios basada en aprendizaje automático:
- Introducción al aprendizaje automático.
- Aprendizaje de técnicas de clasificación.
- Predicción Bayesiana - Preparación del archivo de entrenamiento.
- Máquinas de Vectores de Soporte (SVM).
- Álgebra KNN p-Tree y minería vertical.
- Redes Neuronales.
- Problema de gran número de variables en Big Data - Bosque Aleatorio (RF).
- Problema de automatización en Big Data – Bosque Aleatorio de múltiples modelos (ensemble).
- Automatización mediante Soft10-M.
- Herramienta de análisis de texto - Treeminer.
- Aprendizaje ágil.
- Aprendizaje basado en agentes.
- Aprendizaje distribuido.
- Introducción a herramientas de código abierto para analítica predictiva: R, Rapidminer, Mahout.
Día 2: Sesión 4: Ecosistema de Analítica Predictiva - Parte 2: Problemas comunes de analítica predictiva en el gobierno.
- Analítica de insights.
- Analítica de visualización.
- Analítica predictiva estructurada.
- Analítica predictiva no estructurada.
- Perfilado de amenazas, fraudes o proveedores.
- Motor de recomendación.
- Detección de patrones.
- Descubrimiento de reglas/escenarios – fallos, fraude, optimización.
- Descubrimiento de la causa raíz.
- Análisis de sentimientos.
- Analítica de CRM.
- Analítica de redes.
- Análisis de texto.
- Revisión asistida por tecnología.
- Analítica de fraude.
- Analítica en tiempo real.
Día 3: Sesión 1: Analítica en tiempo real y escalable sobre Hadoop
- Por qué los algoritmos de análisis comunes fallan en Hadoop/HDFS.
- Apache Hama - Para computación distribuida síncrona por lotes.
- Apache SPARK - Para computación en clúster y analítica en tiempo real.
- CMU Graphics Lab2 - Enfoque asíncrono basado en grafos para computación distribuida.
- Enfoque basado en álgebra KNN p de Treeminer para reducir costos de hardware en la operación.
Día 3: Sesión 2: Herramientas para eDiscovery y Forense
- eDiscovery sobre Big Data frente a datos heredados – comparación de costos y rendimiento.
- Codificación predictiva y revisión asistida por tecnología (TAR).
- Demostración en vivo de un producto TAR (vMiner) para entender cómo TAR acelera el descubrimiento.
- Indexación más rápida a través de HDFS – velocidad de los datos.
- NLP o Procesamiento de Lenguaje Natural – diversas técnicas y productos de código abierto.
- eDiscovery en idiomas extranjeros – tecnología para el procesamiento de idiomas extranjeros.
Día 3: Sesión 3: Inteligencia de Negocios de Big Data para Ciberseguridad – Comprensión de una visión completa de 360 grados desde la recopilación rápida de datos hasta la identificación de amenazas
- Comprensión de los fundamentos de la analítica de seguridad: superficie de ataque, mala configuración de seguridad, defensas del host.
- Infraestructura de red / Gran tubería de datos / ETL de respuesta para analítica en tiempo real.
- Prescriptiva frente a predictiva – Reglas fijas frente a descubrimiento automático de reglas de amenaza a partir de metadatos.
Día 3: Sesión 4: Big Data en el USDA: Aplicaciones en Agricultura
- Introducción al IoT (Internet de las Cosas) para agricultura – Big Data basado en sensores y control.
- Introducción a la imagen satelital y su aplicación en agricultura.
- Integración de datos de sensores e imágenes para fertilidad del suelo, recomendaciones de cultivo y pronósticos.
- Seguros agrícolas y Big Data.
- Pronóstico de pérdida de cosechas.
Día 4: Sesión 1: Prevención de fraude mediante Inteligencia de Negocios de Big Data en el gobierno – Analítica de fraude:
- Clasificación básica de analítica de fraude: basada en reglas frente a analítica predictiva.
- Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude.
- Fraude de proveedores / sobrecostos en proyectos.
- Fraude en Medicare y Medicaid – técnicas de detección de fraude para el procesamiento de reclamaciones.
- Fraudes en reembolsos de viaje.
- Fraudes en reembolsos del IRS.
- Se presentarán estudios de caso y demostraciones en vivo donde la información esté disponible.
Día 4: Sesión 2: Analítica de Redes Sociales – Recopilación y análisis de inteligencia
- API de ETL de Big Data para extracción de datos de redes sociales.
- Texto, imágenes, metadatos y video.
- Análisis de sentimientos a partir de fuentes de redes sociales.
- Filtrado contextual y no contextual de fuentes de redes sociales.
- Tablero (Dashboard) de redes sociales para integrar diversas plataformas sociales.
- Perfilado automático de perfiles en redes sociales.
- Se realizará una demostración en vivo de cada análisis a través de la herramienta Treeminer.
Día 4: Sesión 3: Analítica de Big Data en procesamiento de imágenes y flujos de video
- Técnicas de almacenamiento de imágenes en Big Data – Soluciones de almacenamiento para datos que superan los petabytes.
- LTFS y LTO.
- GPFS-LTFS (Solución de almacenamiento en capas para grandes datos de imágenes).
- Fundamentos de analítica de imágenes.
- Reconocimiento de objetos.
- Segmentación de imágenes.
- Rastreo de movimiento.
- Reconstrucción de imágenes 3D.
Día 4: Sesión 4: Aplicaciones de Big Data en el NIH:
- Áreas emergentes de bioinformática.
- Problemas de metagenómica y minería de Big Data.
- Analítica predictiva de Big Data para farmacogenómica, metabolómica y proteómica.
- Big Data en el proceso genómico aguas abajo.
- Aplicación de analítica predictiva de Big Data en salud pública.
Tablero (Dashboard) de Big Data para acceso rápido a datos diversos y visualización:
- Integración de plataformas de aplicaciones existentes con el Tablero de Big Data.
- Gestión de Big Data.
- Estudio de caso de Tableros de Big Data: Tableau y Pentaho.
- Uso de aplicaciones de Big Data para impulsar servicios basados en ubicación en el gobierno.
- Sistemas de seguimiento y gestión.
Día 5: Sesión 1: Cómo justificar la implementación de Inteligencia de Negocios de Big Data dentro de una organización:
- Definición del ROI para la implementación de Big Data.
- Estudios de caso sobre el ahorro de tiempo de los analistas en la recopilación y preparación de datos – aumento en la ganancia de productividad.
- Estudios de caso de aumento de ingresos por ahorro en costos de bases de datos licenciadas.
- Aumento de ingresos por servicios basados en ubicación.
- Ahorró por prevención de fraude.
- Un enfoque integrado de hoja de cálculo para calcular el gasto aproximado frente a la ganancia de ingresos/ahorro por la implementación de Big Data.
Día 5: Sesión 2: Procedimiento paso a paso para reemplazar sistemas de datos heredados por un sistema de Big Data:
- Comprensión de la hoja de ruta práctica para la migración a Big Data.
- ¿Qué información importante se necesita antes de diseñar una implementación de Big Data?
- ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
- Cómo estimar el crecimiento de los datos.
- Estudios de caso.
Día 5: Sesión 4: Revisión de proveedores de Big Data y de sus productos. Sesión de preguntas y respuestas:
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (parte de EMC)
Requerimientos
- Conocimiento básico de operaciones comerciales y sistemas de datos en el gobierno dentro de su dominio
- Comprensión básica de SQL/Oracle o bases de datos relacionales
- Comprensión básica de estadística (a nivel de hoja de cálculo)
35 Horas
Testimonios (1)
La capacidad del formador de alinear el curso con los requisitos de la organización, y no solo proporcionarlo por el mero hecho de impartirlo.
Masilonyane - Revenue Services Lesotho
Curso - Big Data Business Intelligence for Govt. Agencies
Traducción Automática