课程大纲

Data Analysis 和 Big Data 简介

  • 是什么让 Big Data “大”?
    • 速度、体积、多样性、准确性 (VVVV)
  • 传统数据处理的限制
  • 分散式处理
  • 统计分析
  • Machine Learning 分析的类型
  • Data Visualization

Big Data 角色和职责

  • 管理员
  • 开发人员
  • 数据分析师

Languages 用于 Data Analysis

  • R Language
    • 为什么 R 代表 Data Analysis?
    • 数据操作、计算和图形显示
  • Python
    • 为什么 Python 而不是 Data Analysis?
    • 操作、处理、清理和处理数据

接近 Data Analysis

  • 统计分析
    • 时间序列分析
    • Forecasting 使用相关性和回归模型
    • 推论 Statistics (估计)
    • Big Data 集合中的描述 Statistics (例如,计算平均值)
  • Machine Learning
    • 监督学习与无监督学习
    • 分类和聚类
    • 估算特定方法的成本
    • 滤波
  • 自然语言处理
    • 处理文字
    • 理解文本的含义
    • 自动文字生成
    • 情感分析 / 主题分析
  • Computer Vision
    • 获取、处理、分析和理解图像
    • 重建、解释和理解 3D 场景
    • 使用图像数据做出决策

Big Data 基础设施

  • 数据存储
    • 关系资料库 (SQL)
      • MySQL
      • Postgres
      • Oracle
    • 非关系资料库 (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • 了解细微差别
      • 分层资料库
      • 面向物件的资料库
      • 面向文件的资料库
      • 面向图形的资料库
      • 其他
  • 分散式处理
    • Hadoop
      • HDFS 作为分散式文件系统
      • 用于分散式处理的 MapReduce
    • 火花
      • 用于大规模数据处理的一体化记忆体集群计算框架
      • 结构化流式处理
      • 火花 SQL
      • Machine Learning 库:MLlib
      • 使用 GraphX 进行图形处理
  • Scala能力
    • 公有云
      • AWS、Google、阿里云等。
    • 私有云
      • OpenStack、Cloud Foundry等。
    • 自动可扩充性

为问题选择正确的解决方案

Big Data 的未来

总结和后续步骤

要求

  • 对数学的一般理解
  • 对程式设计的一般理解
  • 对资料库的一般理解

观众

  • 开发人员/程式师
  • IT 顾问
 35 小时

客户评论 (7)

即将举行的公开课程

课程分类