Readiness 和 Liveness 检查的区别

查看原文

本文介绍了两种 Health Check: Readiness & Liveness,前者用于让负载均衡知道什么可以指派流量给应用,后者用于让负载均衡直到什么时候应该将应用移除出 Pool。

  • Readiness 的使用场景:应用即便已经正在运行了,它仍然需要一定时间才能 serve 服务,这段时间可能用来加载数据,可能用来构建缓存,可能用来选举 Leader,总之 Readiness 检查通过前是不会有流量发给应用的。
  • Liveness 的使用场景:应用可能运行到一半崩溃了,死锁了,CPU100%了,总之没法响应请求了。这时候 Livenss 能够检察出应用无法再处理请求了,就会将其从 Pool 中挪走,或者更聪明的工具可以重启应用或者干脆起新的应用加到 Pool 中。
  • 在 Kubernetes 中有三种 Probe 可以使用,HTTP / Command / TCP。
    • HTTP 200~300 响应码的情况下,健康检查成功,否则算失败。即便应用不是 web 服务,也可以提供一个 http 接口出来方便检查。
    • Kubernetes 可以在 container 中运行命令,如果 exit_code=0 那么健康检查成功。通常没法提供 http 的时候可以用这个。
    • TCP 检查能建立连接就算通过,一般提供另类服务,例如 rpc, ftp 等应用时可以用这个。
  • 配置上,一般就是检查超时的阈值。一般来说 liveness 需要配置 initialDelaySeconds,否则有可能应用永远起不来。推荐使用 P99 启动时间(第99百分位时间)作为 initialDelaySeconds。