Programa del Curso

===== Día 01 ===== Descripción general de Big Data Business Intelligence for Criminal Intelligence Analysis

  • Casos de estudio de las fuerzas del orden - Policía predictiva
  • Tasa de adopción de Big Data en las Fuerzas del Orden y cómo están alineando sus operaciones futuras en torno a Big Data Predictive Analytics
  • Soluciones tecnológicas emergentes, como sensores de disparos, videos de vigilancia y redes sociales
  • Uso de la tecnología Big Data para mitigar la sobrecarga de información
  • Interfaz de Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
  • Integración de datos y visualización de cuadros de mando
  • Gestión del fraude
  • Reglas de negocio y detección de fraudes
  • Detección y creación de perfiles de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Introducción a Big Data

  • Principales características del Big Data: Volumen, Variedad, Velocidad y Veracidad.
  • Arquitectura MPP (Procesamiento Paralelo Masivo)
  • Almacenes de datos: esquema estático, conjunto de datos que evoluciona lentamente
  • Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop: no hay condiciones en la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
  • Apache Spark para el procesamiento de secuencias
  • Por lotes: adecuado para análisis / no interactivo
  • Volumen : Datos de transmisión de CEP
  • Opciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción lista – Storm/S4
  • Bases de datos NoSQL (en columnas y clave-valor): Más adecuadas como complemento analítico para el almacén de datos/base de datos

NoSQL soluciones

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Almacén KV (Jerárquico) - GT.m, Caché
  • Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tienda de tuplas - Gigaspaces, Coord, Apache River
  • Base de datos de objetos: ZopeDB, DB40, Shoal
  • Almacén de documentos: CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplio almacén en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción a Data Cleaning problemas en Big Data

  • RDBMS: estructura/esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, estructura suficiente para almacenar datos sin un esquema exacto antes de almacenar los datos
  • Problemas de limpieza de datos

Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS: difíciles de llevar a cabo con soluciones tradicionales (DW/DB)
  • Datos de almacenamiento = ENORME esfuerzo y estática incluso después de la implementación
  • Para variedad y volumen de datos, procesados en hardware básico – HADOOP
  • Commodity H/W necesario para crear un Hadoop clúster

Introducción a Map Reduce /HDFS

  • MapReduce: distribuya la informática en varios servidores
  • HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
  • Datos: pueden ser no estructurados o sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programming MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS

===== Día 02 ===== Big Data Ecosistema -- Construcción Big Data ETL (Extraer, Transformar, Cargar) -- ¿Qué Big Data herramientas usar y cuándo?

  • Hadoop frente a otras soluciones NoSQL
  • Para el acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) sobre Hadoop
  • Acceso aleatorio a los datos, pero se imponen restricciones (máx. 1 PB)
  • No es bueno para el análisis ad-hoc, es bueno para el registro, el recuento, las series temporales
  • Sqoop: importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
  • Flume: transmita datos (por ejemplo, datos .log) a HDFS

Sistema Big Data Management

  • Piezas móviles, nodos de cómputo de inicio/fallo: ZooKeeper: para servicios de configuración/coordinación/nomenclatura
  • Canalización/flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias y la conexión en cadena
  • Implementar, configurar, administrar clústeres, actualizar, etc. (administrador de sistemas): Ambari
  • En la nube : Whirr

Predictive Analytics -- Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático

  • Introducción al aprendizaje automático
  • Aprendizaje de técnicas de clasificación
  • Predicción bayesiana: preparación de un archivo de entrenamiento
  • Máquina de vectores de soporte
  • KNN p-Tree Algebra y minería vertical
  • Redes neuronales
  • Problema de variables grandes de Big Data: bosque aleatorio (RF)
  • Problema de automatización de Big Data – RF de conjuntos multimodelo
  • Automatización a través de Soft10-M
  • Herramienta de análisis de texto-Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a las herramientas de código abierto para el análisis predictivo : R, Python, Rapidminer, Mahut

Predictive Analytics Ecosistema y su aplicación en el Análisis de Inteligencia Criminal

  • La tecnología y el proceso investigativo
  • Analítica de información
  • Análisis de visualización
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Perfiles de amenazas/fraudes/proveedores
  • Motor de recomendaciones
  • Detección de patrones
  • Descubrimiento de reglas/escenarios: fallo, fraude, optimización
  • Descubrimiento de la causa raíz
  • Análisis de sentimiento
  • Análisis de CRM
  • Análisis de red
  • Análisis de texto para obtener información de transcripciones, declaraciones de testigos, charlas en Internet, etc.
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Analítica en tiempo real

===== Día 03 ===== Análisis en tiempo real y Scalable a través de Hadoop

  • Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
  • Apache Hama: para computación distribuida síncrona masiva
  • Apache SPARK: para computación en clúster y análisis en tiempo real
  • CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la computación distribuida
  • KNN p -- Enfoque basado en álgebra de Treeminer para reducir el costo de operación del hardware

Herramientas para eDiscovery y análisis forense

  • eDiscovery sobre Big Data frente a datos heredados: una comparación de costo y rendimiento
  • Codificación predictiva y revisión asistida por tecnología (TAR)
  • Demostración en vivo de vMiner para comprender cómo TAR permite un descubrimiento más rápido
  • Indexación más rápida a través de HDFS – Velocidad de los datos
  • NLP (procesamiento del lenguaje natural): productos y técnicas de código abierto
  • eDiscovery en lenguas extranjeras: tecnología para el procesamiento de lenguas extranjeras

Big Data BI para Cyber Security – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas

  • Comprender los conceptos básicos de la analítica de seguridad: superficie de ataque, configuración incorrecta de seguridad, defensas de host
  • Infraestructura de red / Tubería de datos de gran tamaño / ETL de respuesta para análisis en tiempo real
  • Prescriptivo vs predictivo – Reglas fijas basadas en reglas vs detección automática de amenazas a partir de metadatos

Recopilación de datos dispares para el análisis de inteligencia criminal

  • Uso de IoT (Internet de las cosas) como sensores para la captura de datos
  • Uso de imágenes satelitales para la vigilancia doméstica
  • Uso de datos de vigilancia e imágenes para la identificación de delitos
  • Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas
  • Combinar la recuperación automatizada de datos con los datos obtenidos de informantes, interrogatorios e investigaciones
  • Forecasting Actividad delictiva

===== Día 04 ===== BI de prevención de fraude de Big Data en Fraud Analytics

  • Clasificación básica de Fraud Analytics: análisis basado en reglas frente a análisis predictivo
  • Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude
  • Business al fraude comercial, al fraude de reclamaciones médicas, al fraude de seguros, a la evasión fiscal y al blanqueo de capitales.

Social Media Analítica -- Recopilación y análisis de inteligencia

  • Cómo Social Media es utilizado por los delincuentes para organizarse, reclutar y planificar
  • API ETL de Big Data para extraer datos de redes sociales
  • Texto, imagen, metadatos y vídeo
  • Análisis de sentimiento a partir del feed de redes sociales
  • Filtrado contextual y no contextual del feed de redes sociales
  • Social Media Panel de control para integrar diversas redes sociales
  • Elaboración automatizada de perfiles de redes sociales
  • La demostración en vivo de cada análisis se dará a través de Treeminer Tool

Big Data Analítica en el procesamiento de imágenes y transmisiones de vídeo

  • Técnicas de almacenamiento de imágenes en Big Data -- Solución de almacenamiento para datos que superan los petabytes
  • LTFS (Sistema de Archivos de Cinta Lineal) y LTO (Cinta Lineal Abierta)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System): solución de almacenamiento en capas para Big Image Data
  • Fundamentos de la analítica de imágenes
  • Reconocimiento de objetos
  • Segmentación de imágenes
  • Seguimiento de movimiento
  • Reconstrucción de imágenes en 3D

Biométricas, ADN y programas de identificación de próxima generación

  • Más allá de las huellas dactilares y el reconocimiento facial
  • Reconocimiento de voz, pulsación de teclas (análisis del patrón de escritura de un usuario) y CODIS (sistema combinado de índice de ADN)
  • Más allá de la coincidencia de ADN: uso del fenotipado forense de ADN para construir un rostro a partir de muestras de ADN

Big Data Panel de control para un rápido acceso a diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Gestión de Big Data
  • Caso de estudio de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en el gobierno.
  • Sistema de seguimiento y gestión

===== Día 05 ===== Cómo justificar Big Data la implementación de BI dentro de una organización:

  • Definición del ROI (Retorno de la inversión Investment) para la implementación de Big Data
  • Casos prácticos para ahorrar tiempo a los analistas en la recopilación y preparación de datos, lo que aumenta la productividad
  • Aumento de los ingresos gracias a la reducción del coste de las licencias de bases de datos
  • Aumento de ingresos de los servicios basados en la ubicación
  • Ahorro de costes gracias a la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular los gastos aproximados frente a la ganancia/ahorro de ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema Big Data

  • Big Data Hoja de ruta de la migración
  • ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
  • ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • Cómo estimar el crecimiento de los datos
  • Casos de estudio

Revisión de Big Data Proveedores y revisión de sus productos.

  • Accenture
  • APTEAN (anteriormente software de los CDC)
  • Sistemas Cisco
  • Cloudera
  • Dell
  • EMC
  • Corporación GoodData
  • Guavus
  • Sistemas de datos de Hitachi
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones de Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuanto
  • Espacio en rack
  • Análisis de Revolution
  • Ventas de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG/Terracotta
  • Automatización de Soft10
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Piensa en grande en analítica
  • Sistemas de señalización de mareas
  • Minador de árboles
  • VMware (Parte de EMC)

Sesión de preguntas y respuestas

Requerimientos

    Conocimiento de los
  • procesos de aplicación de la ley y los sistemas de datos
  • Conocimientos básicos de SQL/Oracle o base de datos relacional
  • Conocimientos básicos de estadística (a nivel de hoja de cálculo)
 35 horas

Número de participantes



Precio por participante

Testimonios (5)

Cursos Relacionados

Data Analysis with Redash

14 horas

Business Intelligence and Data Analysis with Metabase

14 horas

QlikView para usuarios de negocios

7 horas

QlikView para desarrolladores

14 horas

Google Sheets for Excel Users

14 horas

Cognos 11

14 horas

IBM Cognos Analytics

14 horas

Alteryx Advanced

14 horas

Alteryx for Data Analysis

7 horas

Alteryx para Desarrolladores

14 horas

Data Preparation with Alteryx

7 horas

Algorithmic Trading with Python and R

14 horas

Stata: Beginner to Advanced

14 horas

Statistical Analysis with Stata and R

35 horas

Cluster Analysis with R and SAS

14 horas

Categorías Relacionadas