基本的事后总结条件为: (a)用户可见的宕机时间或者服务质量降级程度达到一定标准。 (b)任何类型的数据丢失。 (c)on-call 工程师需要人工介入的事故(包括回滚、切换用户流量等)。 (d)问题解决耗时超过一定限制。 (e)监控问题(预示着问题是由人工发现的,而非报警系统)。 协作和知识共享 (a)实时协作:可以很快地收集数据和想法 (b)开放的评论系统:使大家都可以参与进来提供解决方案 (c)邮件通知: