课程大纲

数据密集型的基础 Platform Engineering

  • 数据密集型应用程序简介
  • 大数据平台工程的挑战
  • 数据处理体系结构概述

数据建模和 Management

  • 可伸缩性数据建模原则
  • 数据存储选项和优化
  • 在分布式环境中管理数据生命周期

Big Data 处理框架

  • 大数据处理工具概述(Hadoop、Spark、Flink)
  • 批处理与流处理
  • 设置大数据处理管道

实时分析平台

  • 实时分析架构
  • 流处理引擎(Kafka Streams,Apache Storm)
  • 构建实时仪表板和可视化效果

数据管道编排

  • 使用 Apache Airflow 和其他方式进行工作流管理
  • 自动化数据管道以提高效率
  • 数据管道的监视和警报

平台安全性与合规性

  • 数据平台的安全最佳实践
  • 确保数据隐私和法规遵从性
  • 实施安全的数据访问控制

性能调优和优化

  • 优化数据吞吐量和延迟的技术
  • 数据密集型平台的扩展策略
  • 性能基准测试和监控

案例研究和最佳实践

  • 分析成功的数据平台实施
  • 从行业领导者那里吸取的经验教训
  • 数据密集型平台工程的新兴趋势

顶点项目

  • 为数据密集型应用程序设计平台解决方案
  • 实现数据处理管道的原型
  • 评估平台的性能和可扩展性

摘要和后续步骤

要求

  • 了解基本数据结构和算法
  • 具有 Java、Scala 或 Python 编程经验
  • 熟悉数据库的基本概念和 SQL

观众

  • 软件开发人员
  • 数据工程师
  • 技术负责人
 21 小时

即将举行的公开课程

课程分类