如何从监控指标中评定系统行为符合预期?

查看原文

后端的计算资源这几年在剧烈变更,DevOps 们应该意识到很多 Monitoring 的基本概念也应该要跟上了!

Monitoring 的核心是观察和监测系统行为,如何界定系统行为是正确的。我们的部署和开发流程以天,小时的速度在迭代,变更让系统变的很脆弱,也使其正确性更难界定。各种后端服务的引入让系统混入网络问题的复杂性。节点死死生生,架构动态扩容缩容,监控应该如何面对这些挑战呢?

  • 自顶向下地梳理业务,核心组件必须监控到位。
  • 系统不是非好即坏,数字或者延时是更好的指标。这里面的挑战是,即便是每分钟采点,大量的指标也会产生大量的数据。怎么分析呢?统计学可以是解决系统行为的好工具。
  • 对过去发生的事故仔细分析,从数据点中找出关联,从而监控到位。
  • 设定 SLI/SLO/SLA,从服务级别去思考服务的监控(跟第一点很像)。

衍生思考:从裸的监控指标中抽取出有意义的,面向服务或商业的解读正是我个人目前的主要工作内容。这篇文章讲到的这几点确实是我目前工作中遇到的难点。尽管讲的很虚,但又觉得梳理地很到痛点。