课程大纲

1:HDFS (17%)

  • 描述 HDFS 守护进程的功能
  • 描述 Apache Hadoop 集群在数据存储和数据处理方面的正常操作。
  • 确定激励 Apache 等系统的计算系统的当前功能Hadoop。
  • 对 HDFS 设计的主要目标进行分类
  • 给定一个场景,确定 HDFS 联合的适当使用案例
  • 确定 HDFS HA-Quorum 集群的元件和守护程式
  • 分析 HDFS 安全性 (Kerberos) 的作用
  • 确定给定方案的最佳数据序列化选项
  • 描述档读取和写入路径
  • 确定用于操作 Hadoop 档案系统 Shell 中的档案的命令

2:YARN 和 MapReduce 版本 2 (MRv2) (17%)

  • 了解将集群从 Hadoop 1 升级到 Hadoop 2 如何影响集群设置
  • 了解如何部署 MapReduce v2 (MRv2 / YARN),包括所有 YARN 守护进程
  • 了解 MapReduce v2 (MRv2) 的基本设计策略
  • 确定 YARN 如何处理资源分配
  • 确定在 YARN 上运行的 MapReduce 作业的工作流
  • 确定必须更改哪些档以及如何将集群从 MapReduce 版本 1 (MRv1) 迁移到在 YARN 上运行的 MapReduce 版本 2 (MRv2)。

3: Hadoop 集群规划 (16%)

  • 选择托管 Apache Hadoop 集群的硬体和作业系统时要考虑的主要要点。
  • 分析选择OS的选择
  • 了解内核优化和磁碟交换
  • 给定场景和工作负载模式,确定适合该场景的硬体配置
  • 在给定场景下,确定您的集群需要运行的生态系统元件才能满足 SLA 要求
  • 集群大小调整:给定场景和执行频率,确定工作负载的具体情况,包括 CPU、记忆体、存储、磁碟 I/O
  • 磁碟大小调整和配置,包括 JBOD 与 RAID、SAN、虚拟化和群集中的磁碟大小调整要求
  • 网路拓扑:了解 Hadoop 中的网络使用方式(适用于 HDFS 和 MapReduce),并为给定场景提出或确定关键网路设计元件

4: Hadoop 群集安装和管理 (25%)

  • 在给定方案中,确定群集将如何处理磁碟和计算机故障
  • 分析记录设定和纪录记录设定档格式
  • 了解 Hadoop 指标和集群运行状况监控的基础知识
  • 确定可用于集群监控的工具的功能和用途
  • 能够安装CDH 5中的所有生态系统元件,包括(但不限于):Impala、Flume、Oozie、Hue、Manager、Sqoop、Hive 和 Pig
  • 确定用于管理 Apache Hadoop 档案系统的可用工具的功能和用途

5:资源 Management (10%)

  • 了解 Hadoop 个调度程式的总体设计目标
  • 给定一个场景,确定 FIFO Scheduler 如何分配集群资源
  • 在给定方案中,确定 Fair Scheduler 如何在 YARN 下分配集群资源
  • 在给定方案中,确定 Capacity Scheduler 如何分配集群资源

6:监控和日志记录 (15%)

  • 了解 Hadoop 的指标收集功能的功能和特性
  • 分析 NameNode 和 JobTracker Web UI
  • 了解如何监控集群守护进程
  • 识别和监控主节点上的CPU使用率
  • 描述如何监控所有节点上的交换和记忆体分配
  • 确定如何查看和管理 Hadoop 的日志档
  • 解释纪录档

要求

  • 基本 Linux 管理技能
  • 基本程式设计技能
 35 小时

客户评论 (3)

即将举行的公开课程

课程分类