课程大纲

大规模监控简介

  • 在高流量环境中进行监控的挑战
  • Prometheus 和 Grafana 的扩展策略
  • 分散式系统的体系结构注意事项

缩放 Prometheus

  • 在分片环境中设定 Prometheus
  • 对大规模系统使用 Prometheus 联合
  • 实施 Prometheus 存储优化

针对大型环境进行优化 Grafana

  • 配置 Grafana 以处理大型数据集
  • 提高控制面板性能和载入时间
  • 复杂可视化的最佳实践

使用 Prometheus 和 Grafana 进行分散式监控

  • 将 Prometheus 与分散式追踪工具集成
  • 在 Kubernetes 环境中监控微服务
  • 高级警报和通知策略

管理高可用性

  • 设置冗馀 Prometheus 和 Grafana 实例
  • 用于监视系统的故障转移策略
  • 确保数据的一致性和可靠性

故障排除和调试

  • 识别和解决性能瓶颈
  • 调试 PromQL 查询和控制面板配置
  • 大规模监控中的常见陷阱

高级集成

  • 将 Prometheus 和 Grafana 与外部资料库集成
  • 使用 Grafana 外挂程式增强功能
  • 利用第三方工具进行扩展监控

总结和后续步骤

要求

  • 对 Prometheus 和 Grafana 基础知识有深入的理解
  • 具有 Linux 系统管理经验
  • 熟悉分散式系统架构

观众

  • DevOps 名工程师
  • 网站可靠性工程师 (SRE)
 14 小时

客户评论 (2)

即将举行的公开课程

课程分类