课程大纲

回顾 Apache Airflow 基础知识

  • 核心概念:DAG、任务和运算符
  • Airflow 架构和元件
  • 常见使用案例和工作流程回顾

优化工作流性能

  • 识别 Airflow 管道中的瓶颈
  • 任务级优化技术
  • 利用任务重试、并行和并发

管理复杂的依赖关系

  • 在工作流程中定义动态依赖关系
  • 处理条件和分支工作流
  • 有效使用任务组和子 DAG

高级功能 Apache Airflow

  • 创建自定义运算子和钩子
  • 实现用于外部触发器的感测器
  • 集成第三方服务和外挂程式

扩展 Apache Airflow 部署

  • 水平和垂直缩放方法
  • 使用 Celery Executor 进行分散式执行
  • 在云环境中扩展的最佳实践

监控和调试工作流

  • 为工作流监控配置日志记录和警报
  • 使用 Airflow UI 和 CLI 进行故障排除
  • 识别和解决 Airflow 部署中的常见问题

固定 Apache Airflow

  • Airflow 中的身份验证和访问控制
  • 保护敏感数据和环境配置
  • 为工作流实施审计跟踪

企业 Use Case 和最佳实践

  • 为生产环境设计强大的工作流程
  • 利用 Airflow 进行数据工程和 ETL 管道
  • 探索可扩展 Airflow 部署的真实案例研究

总结和后续步骤

要求

  • 基础知识 Apache Airflow
  • 熟悉 Python 程式设计和工作流编排概念
  • 在 Linux 环境中管理和部署应用程式的经验

观众

  • 数据工程师
  • DevOps 专业人士
  • 软体开发人员
 21 小时

即将举行的公开课程

课程分类