Loki - like Prometheus, but for logs

查看原文

本文是Grafana Loki service的设计文档。

  • 解决的问题:Metrics 和 Alerts 只能揭示预定义的问题,未知的问题还得从 Log 里面去细细查找。常见的 Incident Response 流程是:alert -> metric dashboard -> adhoc query -> log -> distribution tracing -> fix。 日志和 Metric 分在两个系统,这增加了 Operations 的 Context Switch。
  • 现存方案:full-text search systems to index logs。缺点:不好 scale,运维复杂。
  • 解决方案:预装 agent 到各个节点,收集日志,将 log stream 的 metadata 作为索引,而非 log stream 本身。metadata 可以用 Prometheus-style multi-dimensional labels 定义。

见代码:https://github.com/grafana/loki