在 Game Day 破坏和修复你的系统

查看原文

这篇文章介绍了不少公司的传统演练项目:Game Day,在这天工程师们会主动在生产环境上造出故障,借此锻炼应急响应能力。这个词是 Amazon Master of Disaster Jesse_Robbins 提出的,业内 Netflix 也提供了一套叫做 Simian Army 的工具做这件事情。这个活动的核心目标是让系统和团队两方面都有能力很快从灾难中恢复。对于系统而言,要提供自动部署,断路器,扩容等能力,对团队而言,要演练搞挂和修复问题。如果小团队不敢搞,可以放在 staging 或者 testing 环境中做。但还是在生产环境中做这件事情比较性价比高。Game Day 的准备阶段其实比执行阶段更复杂,你要选择好场景,假想好会出现的情况,实施的时候验证是否符合预期。