Google Breakfix 项目 - Google 如何做基于事故的数据分析

查看原文

Chaos 意味着很多问题:事故又多糟糕,修好了么,日志什么样子,哪个客户受影响了,谁是相关的 oncall,等等等等。Google 为这类问题收集了几类数据用于分析,也写了一些工具生成 Postmortem 报告。这些数据主要包括:

  • Timing Data:Start Time, Detection Time, End time, Escalation Time, Mitigation Time, 其中从 Hits Production 到 Detected 这段时间叫 TTD,从 Detected 到 Fully Resolved 这段时间叫 TTR,从 Hits Production 到 Fully Resolved 这段时间算作 Duration。
  • Incident Metadata:Root Cause Categories, Trigger Categories, Severity Dimensions, Detection Methods, Incident Antipatterns