课程大纲

第 1 部分:HDFS 中的 Data Management

  • 各种资料格式(JSON / Avro / Parquet)
  • 压缩方案
  • 数据掩码
  • 实验室 : 分析不同的数据格式; 启用压缩

第 2 部分:高级 Pig

  • 用户定义的函数
  • Pig 库介绍 (ElephantBird / Data-Fu)
  • 使用 Pig 载入复杂的结构化数据
  • Pig 调优
  • 实验 : 高级 Pig 文稿,解析复杂数据类型

第 3 部分:高级 Hive

  • 用户定义的函数
  • 压缩表
  • Hive 性能调优
  • 实验:创建压缩表、评估表格式和配置

第4部分:高级 HBase

  • 高级架构建模
  • 压缩
  • 批量数据摄取
  • 宽桌 / 高桌比较
  • HBase 和 Pig
  • HBase 和 Hive
  • HBase 性能调优
  • 实验室:调整 HBase;从Pig获取HBase数据& Hive;使用 Phoenix 进行数据建模

要求

  • 熟悉 Java 程式设计语言(大多数程式设计练习都使用 Java)
  • 在 Linux 环境中舒适(能够导航 Linux 命令行,使用 vi / nano 编辑档)
  • Hadoop 的工作  知识。

实验室环境

零安装: 无需在学生的计算机上安装 Hadoop 软体!将为学生提供一个有效的hadoop集群。

学生将需要以下内容

  • 一个 SSH 用户端(Linux 和 Mac 已经有 SSH 用户端,建议使用 Windows Putty )
  • 用于访问集群的浏览器。我们推荐 Firefox 浏览器
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类