Contacta con nosotros

Temario del curso

Día 01

Visión general de la Inteligencia de Negocios con Big Data para el Análisis de Inteligencia Criminal

  • Casos de estudio de fuerzas del orden: Policiamiento predictivo.
  • Tasa de adopción de Big Data en agencias policiales y cómo están alineando sus futuras operaciones en torno al análisis predictivo de Big Data.
  • Soluciones tecnológicas emergentes, como sensores de disparos, video vigilancia y redes sociales.
  • Uso de la tecnología de Big Data para mitigar la sobrecarga de información.
  • Interfaz entre Big Data y datos heredados.
  • Comprensión básica de las tecnologías habilitadoras en el análisis predictivo.
  • Integración de datos y visualización en tableros de control.
  • Gestión de fraude.
  • Reglas de negocio y detección de fraude.
  • Detección de amenazas y perfiles.
  • Análisis de costo-beneficio para la implementación de Big Data.

Introducción a Big Data

  • Características principales de Big Data: Volumen, Variedad, Velocidad y Veracidad.
  • Arquitectura MPP (Procesamiento Masivamente Paralelo).
  • Almacenes de datos (Data Warehouses) – esquema estático, conjunto de datos de evolución lenta.
  • Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop: sin condiciones sobre la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (procesamiento), recuperación desde HDFS.
  • Apache Spark para procesamiento de flujos.
  • Lotes (Batch): adecuados para análisis no interactivo.
  • Volumen: datos de streaming de eventos complejos (CEP).
  • Opciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.).
  • Menos preparados para producción: Storm/S4.
  • Bases de datos NoSQL (columnares y clave-valor): las más adecuadas como complemento analítico al almacén de datos/base de datos.

Soluciones NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB).
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, MongoDB, DovetailDB.
  • KV Store (Jerárquico) - GT.m, Cache.
  • KV Store (Ordenado) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord.
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracotta.
  • Tuple Store - Gigaspaces, Coord, Apache River.
  • Bases de datos de objetos - ZopeDB, DB4o, Shoal.
  • Almacenes de documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Bases de datos XML, ThruDB, CloudKit, Persistent, Riak-Basho, Scalaris.
  • Almacenes columnares anchos (Wide Columnar) - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI.

Variedades de Datos: Introducción a los problemas de limpieza de datos en Big Data

  • RDBMS – estructura/esquema estático, no fomenta un entorno ágil y exploratorio.
  • NoSQL – semiestructurado, con suficiente estructura para almacenar datos sin un esquema exacto previo.
  • Problemas de limpieza de datos.

Hadoop

  • ¿Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: Los almacenes de datos/bases de datos empresariales pueden almacenar datos masivos (a un costo), pero imponen estructura (no es bueno para la exploración activa).
  • Datos SEMIESTRUCTURADOS: difíciles de manejar con soluciones tradicionales (DW/DB).
  • Almacenar datos = ESFUERZO ENORME y estático incluso después de la implementación.
  • Para variedad y volumen de datos, procesados en hardware genérico – HADOOP.
  • Se necesita hardware genérico para crear un clúster de Hadoop.

Introducción a MapReduce / HDFS

  • MapReduce – distribución del cómputo en múltiples servidores.
  • HDFS – hace los datos disponibles localmente para el proceso de cómputo (con redundancia).
  • Datos – pueden ser no estructurados/sin esquema (a diferencia de RDBMS).
  • Responsabilidad del desarrollador para dar sentido a los datos.
  • Programación de MapReduce = trabajo con Java (pros/contras), carga manual de datos en HDFS.

Día 02

Ecosistema de Big Data: Construcción de ETL de Big Data (Extraer, Transformar, Cargar) – ¿Qué herramientas de Big Data usar y cuándo?

  • Hadoop vs. otras soluciones NoSQL.
  • Para acceso interactivo y aleatorio a los datos.
  • HBase (base de datos orientada a columnas) sobre Hadoop.
  • Acceso aleatorio a los datos, pero con restricciones impuestas (máx. 1 PB).
  • No es bueno para análisis ad-hoc, sí para registro de eventos, conteo y series temporales.
  • Sqoop: Importación de bases de datos a Hive o HDFS (acceso JDBC/ODBC).
  • Flume: Flujo de datos (por ejemplo, datos de registro) hacia HDFS.

Sistema de gestión de Big Data

  • Componentes móviles, nodos de cómputo que inician/fallan: ZooKeeper - Para servicios de configuración, coordinación y nombres.
  • Pipeline/flujo de trabajo complejo: Oozie – gestionar flujos de trabajo, dependencias, cadena de margaritas.
  • Despliegue, configuración, gestión de clústeres, actualizaciones, etc. (administrador de sistemas): Ambari.
  • En la nube: Whirr.

Análisis predictivo – Técnicas fundamentales e Inteligencia de Negocios basada en aprendizaje automático

  • Introducción al aprendizaje automático.
  • Aprendizaje de técnicas de clasificación.
  • Predicción bayesiana – preparación de un archivo de entrenamiento.
  • Máquinas de vectores de soporte.
  • Álgebra de árboles KNN y minería vertical.
  • Redes neuronales.
  • Problema de variables grandes en Big Data – Bosque aleatorio (RF).
  • Problema de automatización en Big Data – Bosque aleatorio de conjuntos multmodelo.
  • Automatización a través de Soft10-M.
  • Herramienta de análisis de texto – Treeminer.
  • Aprendizaje ágil.
  • Aprendizaje basado en agentes.
  • Aprendizaje distribuido.
  • Introducción a herramientas de código abierto para análisis predictivo: R, Python, RapidMiner, Mahout.

Ecosistema de análisis predictivo y su aplicación en el Análisis de Inteligencia Criminal

  • Tecnología y el proceso investigativo.
  • Análisis de percepciones (Insight analytics).
  • Análisis de visualización.
  • Análisis predictivo estructurado.
  • Análisis predictivo no estructurado.
  • Perfiles de amenazas/fraude/proveedores.
  • Motor de recomendaciones.
  • Detección de patrones.
  • Descubrimiento de reglas/escenarios – fallos, fraude, optimización.
  • Descubrimiento de la causa raíz.
  • Análisis de sentimientos.
  • Análisis CRM.
  • Análisis de redes.
  • Análisis de texto para obtener información de transcripciones, declaraciones de testigos, conversaciones en internet, etc.
  • Revisión asistida por tecnología.
  • Análisis de fraude.
  • Analítica en tiempo real.

Día 03

Analítica en tiempo real y escalable sobre Hadoop

  • ¿Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS?
  • Apache Hama – para cómputo distribuido síncrono masivo.
  • Apache SPARK – para cómputo en clúster y analítica en tiempo real.
  • CMU Graphics Lab2 – Enfoque asincrónico basado en grafos para el cómputo distribuido.
  • KNN p – Enfoque algebraico de Treeminer para reducir el costo operativo del hardware.

Herramientas para eDiscovery y Forense

  • eDiscovery sobre Big Data vs. datos heredados – comparación de costos y rendimiento.
  • Codificación predictiva y Revisión asistida por tecnología (TAR).
  • Demo en vivo de vMiner para entender cómo TAR habilita un descubrimiento más rápido.
  • Indexación más rápida a través de HDFS – Velocidad de los datos.
  • PNL (Procesamiento de Lenguaje Natural) – productos y técnicas de código abierto.
  • eDiscovery en idiomas extranjeros – tecnología para el procesamiento de idiomas extranjeros.

Big Data BI para Seguridad Cibernética – Obteniendo una visión de 360 grados, recopilación rápida de datos e identificación de amenazas

  • Comprensión de los fundamentos del análisis de seguridad: superficie de ataque, configuraciones de seguridad incorrectas, defensas de host.
  • Infraestructura de red / Gran conducto de datos / ETL de respuesta para analítica en tiempo real.
  • Prescriptivo vs. predictivo – Basado en reglas fijas vs. descubrimiento automático de reglas de amenaza desde metadatos.

Recopilación de datos dispersos para el Análisis de Inteligencia Criminal

  • Uso de IoT (Internet de las Cosas) como sensores para capturar datos.
  • Uso de imágenes satelitales para vigilancia doméstica.
  • Uso de datos de vigilancia e imágenes para la identificación criminal.
  • Otras tecnologías de recopilación de datos – drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas.
  • Combinación de recuperación automatizada de datos con datos obtenidos de informantes, interrogatorios e investigaciones.
  • Pronóstico de actividad criminal.

Día 04

Prevención de fraude BI a partir de Big Data en Analítica de Fraude

  • Clasificación básica de la Analítica de Fraude – basada en reglas vs. analítica predictiva.
  • Machine Learning supervisado vs. no supervisado para la detección de patrones de fraude.
  • Fraude empresarial, fraude en reclamaciones médicas, fraude de seguros, evasión fiscal y lavado de dinero.

Analítica de Redes Sociales – Recopilación y análisis de inteligencia

  • Cómo utilizan los criminales las redes sociales para organizar, reclutar y planificar.
  • API ETL de Big Data para extraer datos de redes sociales.
  • Texto, imágenes, metadatos y video.
  • Análisis de sentimientos desde el flujo de redes sociales.
  • Filtrado contextual y no contextual del flujo de redes sociales.
  • Tablero de control de redes sociales para integrar diversas plataformas.
  • Perfilación automatizada de perfiles de redes sociales.
  • Se ofrecerá una demo en vivo de cada analítica a través de la herramienta Treeminer.

Analítica de Big Data en procesamiento de imágenes y flujos de video

  • Técnicas de almacenamiento de imágenes en Big Data – Solución de almacenamiento para datos que exceden petabytes.
  • LTFS (Sistema de Archivos de Cinta Lineal) y LTO (Cinta Lineal Abierta).
  • GPFS-LTFS (Sistema de Archivos Paralelo General - Sistema de Archivos de Cinta Lineal) – Solución de almacenamiento en capas para grandes datos de imagen.
  • Fundamentos del análisis de imágenes.
  • Reconocimiento de objetos.
  • Segmentación de imágenes.
  • Rastreo de movimiento.
  • Reconstrucción de imágenes 3D.

Biometría, ADN y Programas de Identificación de Nueva Generación

  • Más allá de la huella dactilar y el reconocimiento facial.
  • Reconocimiento de voz, huella de teclado (análisis del patrón de escritura del usuario) y CODIS (Sistema de Índice de ADN Combinado).
  • Más allá de la coincidencia de ADN: uso de la fenotipización forense del ADN para construir un rostro a partir de muestras de ADN.

Tablero de control de Big Data para acceso rápido y visualización de datos diversos:

  • Integración de la plataforma de aplicaciones existente con el tablero de control de Big Data.
  • Gestión de Big Data.
  • Caso de estudio del Tablero de control de Big Data: Tableau y Pentaho.
  • Uso de aplicaciones de Big Data para impulsar servicios basados en ubicación en el gobierno.
  • Sistema de seguimiento y gestión.

Día 05

Cómo justificar la implementación de BI con Big Data dentro de una organización:

  • Definición del ROI (Retorno de la Inversión) para implementar Big Data.
  • Casos de estudio sobre ahorro de tiempo del analista en la recopilación y preparación de datos – aumentando la productividad.
  • Ganancia de ingresos por menor costo de licencias de bases de datos.
  • Ganancia de ingresos por servicios basados en ubicación.
  • Ahorro de costos por prevención de fraude.
  • Enfoque integrado de hojas de cálculo para calcular gastos aproximados vs. Ganancia/ahorro de ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado con un sistema de Big Data

  • Hoja de ruta de migración de Big Data.
  • ¿Qué información crítica se necesita antes de diseñar un sistema de Big Data?
  • ¿Cuáles son las diferentes formas de calcular el Volumen, Velocidad, Variedad y Veracidad de los datos?
  • ¿Cómo estimar el crecimiento de datos?
  • Casos de estudio.

Revisión de proveedores de Big Data y revisión de sus productos.

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte de EMC)

Sesión de preguntas y respuestas

Requerimientos

  • Conocimiento de los procesos policiales y los sistemas de datos.
  • Comprensión básica de SQL/Oracle o bases de datos relacionales.
  • Comprensión básica de estadísticas (a nivel de hojas de cálculo).

Público objetivo

  • Especialistas de fuerzas del orden con formación técnica.
 35 Horas

Número de participantes


Precio por participante

Testimonios (2)

Próximos cursos

Categorías Relacionadas