课程大纲

  • 介绍
    • Hadoop 历史, 概念
    • 生态系统
    • 分布
    • 高级架构
    • Hadoop 神话
    • Hadoop 挑战 (硬体 / 软体)
    • 实验:讨论您的 Big Data 个项目和问题
  • 规划和安装
    • 选择软体,Hadoop 发行版
    • 调整集群大小,规划增长
    • 选择硬体和网路
    • 机架拓扑
    • 安装
    • 多租户
    • 目录结构、日志
    • 标杆
    • 实验室:集群安装、运行性能基准测试
  • HDFS 操作
    • 概念(水平扩展、复制、资料位置、机架感知)
    • 节点和守护程式(NameNode、Secondary NameNode、HA Standby NameNode、DataNode)
    • 运行状况监控
    • 命令行和基于浏览器的管理
    • 添加存储,更换有缺陷的驱动器
    • 实验:熟悉 HDFS 命令行
  • 数据摄取
    • 用于将日志和其他数据摄取到 HDFS 中的 Flume
    • Sqoop 用于从 SQL 资料库导入到 HDFS,以及汇出回 SQL
    • Hadoop 使用 Hive 进行数据仓库存储
    • 在集群之间复制资料 (distcp)
    • 使用 S3 作为 HDFS 的补充
    • 数据摄取最佳实践和架构
    • 实验:设置和使用 Flume,与 Sqoop 相同
  • MapReduce 操作和管理
    • mapreduce 之前的并行计算:比较 HPC 与 Hadoop 管理
    • MapReduce 集群负载
    • 节点和守护进程(JobTracker、TaskTracker)
    • MapReduce UI 演练
    • Mapreduce 配置
    • 作业配置
    • 优化 MapReduce
    • 万无一失的 MR:对程式师说些什么
    • 实验:运行 MapReduce 示例
  • YARN:新架构和新功能
    • YARN 设计目标和实现架构
    • 新参与者:ResourceManager、NodeManager、Application Master
    • 安装 YARN
    • YARN 下的作业调度
    • 实验室:调查作业计划
  • 高级主题
    • 硬体监控
    • 集群监控
    • 新增与删除伺服器, 升级Hadoop
    • 备份、恢复和业务连续性规划
    • Oozie 作业工作流
    • Hadoop 高可用性 (HA)
    • Hadoop 联合
    • 使用 Kerberos 保护集群
    • 实验室:设置监控
  • 可选轨道
    • Cloudera Manager 用于集群管理、监控和日常任务;安装、使用。在本系列中,所有练习和实验都在Cloudera分发环境 (CDH5) 中进行
    • 用于群集管理、监视和日常任务的Ambari;安装、使用。在此系列中,所有练习和实验都在Ambari集群管理器和 Hortonworks 数据平台 (HDP 2.0) 中执行

要求

  • 熟悉基本的 Linux 系统管理
  • 基本脚本编写技能

不需要 Hadoop 和分散式计算知识,但将在课程中介绍和解释。

实验室环境

零安装 : 无需在学生的机器上安装 Hadoop 软体!将为学生提供一个有效的hadoop集群。

学生将需要以下内容

  • SSH 用户端(Linux 和 Mac 已经有 SSH 用户端,建议使用 Windows Putty )
  • 用于访问集群的浏览器。我们建议使用 安装了 FoxyProxy 扩展 的 Firefox 浏览器 
 21 小时

客户评论 (5)

即将举行的公开课程

课程分类