Programa del Curso

Introducción al análisis de datos y Big Data

  • ¿Qué hace que Big Data sea "grande"?
    • Velocidad, Volumen, Variedad, Veracidad (VVVV)
  • Límites al procesamiento de datos tradicional
  • Procesamiento distribuido
  • Análisis estadístico
  • Tipos de análisis de aprendizaje automático
  • Visualización de datos

Idiomas utilizados para el análisis de datos

  • Lenguaje R
    • ¿Por qué R para el análisis de datos?
    • Manipulación de datos, cálculo y visualización gráfica
  • Pitón
    • ¿Por qué Python para el análisis de datos?
    • Manipulación, procesamiento, limpieza y crujido de datos

Enfoques para el análisis de datos

  • Análisis estadístico
    • Análisis de series temporales
    • Predicción con modelos de correlación y regresión
    • Estadística Inferencial (estimación)
    • Estadística descriptiva en conjuntos de Big Data (por ejemplo, cálculo de la media)
  • Aprendizaje automático
    • Aprendizaje supervisado vs no supervisado
    • Clasificación y agrupamiento
    • Estimando el costo de métodos específicos
    • Filtración
  • Procesamiento natural del lenguaje
    • Procesando texto
    • Subestimando el significado del texto
    • Generación automática de texto
    • Análisis de sentimiento / Análisis de tema
  • Visión por computador
    • Adquirir, procesar, analizar y comprender imágenes
    • Reconstruyendo, interpretando y entendiendo escenas 3D
    • Usar datos de imagen para tomar decisiones

Infraestructura Big Data

  • Almacenamiento de datos
    • Bases de datos relacionales (SQL)
      • MySQL
      • Postgres
      • Oráculo
    • Bases de datos no relacionales (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Comprender los matices
      • Bases de datos jerárquicas
      • Bases de datos orientadas a objetos
      • Bases de datos orientadas a documentos
      • Bases de datos orientadas a gráficos
      • Otro
  • Procesamiento distribuido
    • Hadoop
      • HDFS como un sistema de archivos distribuido
      • MapReduce para procesamiento distribuido
    • Spark
      • Marco de computación en clúster en memoria todo en uno para el procesamiento de datos a gran escala
      • Streaming estructurado
      • Spark SQL
      • Bibliotecas de aprendizaje automático: MLlib
      • Procesamiento de gráficos con GraphX
  • Escalabilidad
    • Nube pública
      • AWS, Google, Aliyun, etc.
    • Nube privada
      • OpenStack, Cloud Foundry, etc.
    • Escalabilidad automática
  • Elegir la solución correcta para el problema
  • El futuro de Big Data
  • Observaciones finales

Requerimientos

  • Una comprensión general de las matemáticas
  • Una comprensión general de la programación
  • Una comprensión general de las bases de datos
 35 horas

Número de participantes



Precio por participante

Testimonios (5)

Cursos Relacionados

ArcGIS for Spatial Analysis

14 horas

ArcMap in ArcGIS

14 horas

ArcGIS Pro for Spatial Analysis

14 horas

ArcGIS with Python Scripting

14 horas

QGIS para el Sistema de Información Geográfica

21 horas

Advanced Data Analysis with TIBCO Spotfire

14 horas

Introduction to Spotfire

14 horas

AI-Driven Data Analysis with TIBCO Spotfire X

14 horas

Data Analysis with SQL, Python and Spotfire

14 horas

Sensu: Beginner to Advanced

14 horas

Supervisando sus Recursos con Munin

7 horas

Supervisión Automatizada con Zabbix

14 horas

Fluentd for Log Data Unification

14 horas

Nagios Certified Administrator Preparation

21 horas

Advanced Nagios

21 horas

Categorías Relacionadas

1