一份 Post-Mortem 报告中要有什么?

查看原文

Postmortem 是旨在从发生的事故中汲取经验的流程,它一般是一种基于事故的分析和讨论。系统变得复杂后,故障无法避免,评估和补救也需要跟进,而这些需要花时间去分析数据。很多 Post-Mortem 报告非常耗时,要跟不同团队沟通,找出信息拼在一起得出结论。Post-mortem 的产出可以有很多形式:Learning Review, After-Action Review, Incident Review, Incident Report, Post-Incident Review, Root Cause Analysis (RCA).

一份好的 Post-mortem 报告需要讲好故事,因此它需要包括:

  • 事件概览:什么服务/哪些客户收到了影响,Issue 有多久又多严重,谁在处理,以及到底最终怎么修复这个问题。
  • Root Cause Analysis:故障的根源是什么?究竟为什么会发生?
  • 处理措施:当时如何诊断/评估的?哪些诊断是有用的?哪些诊断是有害的?
  • 时间线:从聊天记录和事故细节中拼凑出关键的时间点。
  • 经验教训:什么做得好,什么做的不好,下次怎么避免事故再次发生。