Programa del Curso

Cada sesión tiene una duración de 2 horas

Día-1: Sesión -1: Visión general del negocio de por qué Big Data Business Intelligence en Govt.

  • Estudios de caso de los NIH y el Departamento de Educación
  • Tasa de adaptación de Big Data en las agencias gubernamentales y cómo están alineando sus operaciones futuras en torno a Big Data Predictive Analytics
  • Área de aplicación a gran escala en DoD, NSA, IRS, USDA, etc.
  • Interfaz de Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de cuadros de mando
  • Gestión del fraude
  • Generación de reglas de negocio/detección de fraude
  • Detección y creación de perfiles de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Día-1: Sesión-2 : Introducción de Big Data-1

  • Principales características del Big Data: volumen, variedad, velocidad y veracidad. Arquitectura MPP para el volumen.
  • Almacenes de datos: esquema estático, conjunto de datos que evoluciona lentamente
  • Bases de datos MPP como Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop: no hay condiciones en la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
  • Por lotes: adecuado para análisis / no interactivo
  • Volumen : Datos de transmisión de CEP
  • Opciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción lista – Storm/S4
  • Bases de datos NoSQL (en columnas y clave-valor): Más adecuadas como complemento analítico para el almacén de datos/base de datos

Día-1 : Sesión -3 : Introducción a Big Data-2

NoSQL soluciones

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (Jerárquico) - GT.m, Caché
  • Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tienda de tuplas - Gigaspaces, Coord, Apache River
  • Base de datos de objetos: ZopeDB, DB40, Shoal
  • Almacén de documentos: CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplio almacén en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción al tema Data Cleaning en Big Data

  • RDBMS: estructura/esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, estructura suficiente para almacenar datos sin un esquema exacto antes de almacenar datos
  • Problemas de limpieza de datos

Día-1 : Sesión-4 : Introducción a Big Data-3 : Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
  • Datos ESTRUCTURADOS SEMI: difíciles de hacer con las soluciones tradicionales (DW/DB)
  • Datos de almacenamiento = ENORME esfuerzo y estática incluso después de la implementación
  • Para variedad y volumen de datos, procesados en hardware básico – HADOOP
  • Commodity H/W necesario para crear un Hadoop clúster

Introducción a Map Reduce /HDFS

  • MapReduce: distribuya la informática en varios servidores
  • HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
  • Datos: pueden ser no estructurados o sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programming MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS

Día-2: Sesión-1: Big Data Construcción de ecosistemas Big Data ETL: universo de Big Data Herramientas: ¿cuál usar y cuándo?

  • Hadoop frente a otras soluciones NoSQL
  • Para el acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos, pero se imponen restricciones (máx. 1 PB)
  • No es bueno para el análisis ad-hoc, es bueno para el registro, el recuento, las series temporales
  • Sqoop: importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume: transmita datos (por ejemplo, datos .log) a HDFS

Día-2: Sesión-2: Sistema Big Data Management

  • Piezas móviles, nodos de cómputo de inicio/fallo: ZooKeeper: para servicios de configuración/coordinación/nomenclatura
  • Canalización/flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias y la conexión en cadena
  • Implementar, configurar, administrar clústeres, actualizar, etc. (administrador de sistemas): Ambari
  • En la nube : Whirr

Día-2: Sesión-3: Análisis predictivo en Business Intelligence -1: Técnicas fundamentales y BI basado en aprendizaje automático:

  • Introducción al aprendizaje automático
  • Aprendizaje de técnicas de clasificación
  • Archivo de entrenamiento de preparación de predicción bayesiana
  • Máquina de vectores de soporte
  • KNN p-Tree Algebra y minería vertical
  • Red neuronal
  • Big Data Problema de variable grande -Bosque aleatorio (RF)
  • Big Data Problema de automatización: RF de conjunto multimodelo
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto-Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a las herramientas de código abierto para el análisis predictivo : R, Rapidminer, Mahut

Día-2: Sesión-4 Ecosistema de analítica predictiva-2: Problemas comunes de analítica predictiva en Govt.

  • Analítica de información
  • Analítica de visualización
  • Análisis predictivo estructurado
  • Analítica predictiva no estructurada
  • Perfiles de amenazas/fraudes/proveedores
  • Motor de recomendaciones
  • Detección de patrones
  • Descubrimiento de reglas/escenarios: fallo, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de sentimiento
  • Analítica de CRM
  • Análisis de redes
  • Análisis de texto
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Analítica en tiempo real

Día-3 : Sesión-1 : Tiempo real y Scala se convirtió en analítica sobre Hadoop

  • Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
  • Apache Hama: para computación distribuida síncrona masiva
  • Apache SPARK: para computación en clúster para análisis en tiempo real
  • CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la computación distribuida
  • Enfoque basado en p-Algebra de KNN de Treeminer para reducir el costo de operación del hardware

Día 3: Sesión 2: Herramientas para eDiscovery y análisis forense

  • eDiscovery sobre Big Data frente a datos heredados: una comparación de costo y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de un producto Tar (vMiner) para comprender cómo funciona TAR para un descubrimiento más rápido
  • Indexación más rápida a través de HDFS: velocidad de los datos
  • NLP o procesamiento del lenguaje natural: diversas técnicas y productos de código abierto
  • eDiscovery en lenguas extranjeras: tecnología para el procesamiento de lenguas extranjeras

Día-3 : Sesión 3: Big Data BI para Cyber Security – Comprensión de vistas completas de 360 grados desde la recopilación rápida de datos hasta la identificación de amenazas

  • Comprender los conceptos básicos de la superficie de ataque de análisis de seguridad, la configuración incorrecta de seguridad y las defensas del host
  • Infraestructura de red / Tubería de datos de gran tamaño / ETL de respuesta para análisis en tiempo real
  • Prescriptivo vs predictivo – Reglas fijas basadas en reglas vs detección automática de amenazas a partir de metadatos

Día-3: Sesión 4: Big Data en USDA: Aplicación en Agricultura

  • Introducción al IoT (Internet de las cosas) para la agricultura, basado en sensores Big Data y control
  • Introducción a la imagen satelital y su aplicación en la agricultura
  • Integración de datos de sensores e imágenes para la fertilidad del suelo, la recomendación de cultivo y la previsión
  • Seguros agrarios y Big Data
  • Pronóstico de pérdida de cosechas

Día-4 : Sesión-1: Prevención del fraude BI a partir de Big Data en Govt-Fraud analytic:

  • Clasificación básica de la analítica de fraude: analítica basada en reglas vs analítica predictiva
  • Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude
  • Fraude de proveedores/cobro excesivo por proyectos
  • Fraude a Medicare y Medicaid: técnicas de detección de fraude para el procesamiento de reclamos
  • Fraudes en el reembolso de viajes
  • Fraudes de reembolso del IRS
  • Se ofrecerán estudios de casos y demostraciones en vivo siempre que se disponga de datos.

Día-4 : Sesión-2: Social Media Analítica- Recopilación y análisis de inteligencia

  • API ETL de Big Data para extraer datos de redes sociales
  • Texto, imagen, metadatos y vídeo
  • Análisis de sentimiento a partir del feed de redes sociales
  • Filtrado contextual y no contextual del feed de redes sociales
  • Social Media Panel de control para integrar diversas redes sociales
  • Elaboración automatizada de perfiles de redes sociales
  • La demostración en vivo de cada análisis se dará a través de Treeminer Tool.

Día-4 : Sesión-3: Big Data Analítica en procesamiento de imágenes y feeds de vídeo

  • Técnicas de almacenamiento de imágenes en Big Data- Solución de almacenamiento para datos que superan los petabytes
  • LTFS y LTO
  • GPFS-LTFS (Solución de almacenamiento en capas para datos de imágenes grandes)
  • Fundamentos de la analítica de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Seguimiento de movimiento
  • Reconstrucción de imágenes en 3D

Día-4: Sesión-4: Big Data aplicaciones en los NIH:

  • Áreas emergentes de la informática Bio
  • Problemas de metagenómica y minería de Big Data
  • Análisis predictivo de Big Data para farmacogenómica, metabolómica y proteómica
  • Big Data en el proceso de Genómica aguas abajo
  • Aplicación de la analítica predictiva de Big Data en Salud Pública

Big Data Panel de control para un rápido acceso a diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Gestión de Big Data
  • Caso de estudio de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en el gobierno.
  • Sistema de seguimiento y gestión

Día-5 : Sesión-1: Cómo justificar Big Data la implementación de BI dentro de una organización:

  • Definición del ROI para la implementación Big Data
  • Casos prácticos para ahorrar tiempo a los analistas en la recopilación y preparación de datos: aumento de la productividad
  • Casos prácticos de aumento de ingresos al ahorrar el costo de la base de datos con licencia
  • Aumento de ingresos de los servicios basados en la ubicación
  • Evitar la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular aprox. gastos frente a ganancias/ahorros de ingresos de Big Data implementación.

Día-5 : Sesión-2: Procedimiento paso a paso para reemplazar el sistema de datos heredado a Big Data Sistema:

  • Comprensión práctica Big Data de la hoja de ruta de la migración
  • ¿Cuál es la información importante que se necesita antes de diseñar una implementación Big Data
  • ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • Cómo estimar el crecimiento de los datos
  • Casos de estudio

Día-5: Sesión 4: Revisión de Big Data Proveedores y revisión de sus productos. Sesión de preguntas y respuestas:

  • Accenture
  • APTEAN (anteriormente software de los CDC)
  • Sistemas Cisco
  • Cloudera
  • Dell
  • EMC
  • Corporación GoodData
  • Guavus
  • Sistemas de datos de Hitachi
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones de Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuanto
  • Espacio en rack
  • Análisis de Revolution
  • Ventas de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG/Terracotta
  • Automatización de Soft10
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Piensa en grande en analítica
  • Sistemas de señalización de mareas
  • Minador de árboles
  • VMware (Parte de EMC)

Requerimientos

  • Conocimiento básico de la operación comercial y los sistemas de datos en el gobierno en su dominio
  • Conocimientos básicos de SQL/Oracle o bases de datos relacionales
  • Conocimientos básicos de Statistics (a nivel de hoja de cálculo) 
  35 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (5)

Cursos Relacionados

Categorías Relacionadas