海恩法则和墨菲定律
海恩法则指出:
每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。
海恩法则强调两点:
(1)事故的发生是量的积累的结果;
(2)再好的技术,再完美的规章,在实际操作层面,也无法取代人自身的素质和责任心。
根据海恩法则,一起重大事故发生之后,我们要在处理事故和解决问题的同事,还要及时的对同类问题的「事故征兆」和「事故苗头」进行排查并处理,以防止类似问题的再次发生,将问题在萌芽状态就将其解决掉,这可以作为互联网企业线上应急的指导思想。
墨菲定律指出:
如果有两种或者两种以上方式去做某件事情,而选择其中一种方式将导致灾难,则必定有人会做出这种选择。
默认定律强调一下几点:
(1)任何事情都没有表面看起来那么简单
(2)所有事情的发展都会比你预计的时间长
(3)会出错的事情总会出错
(4)如果你担心某种情况会发生,那么它更有可能发生
墨菲定律实际上是个心理学效应,如果你担心某种情况会发生,那么它更发生的可能性很大,久而久之就一定会发生。
墨菲定律给到我们技术人的警示:
对生产环境发生的任何怪异现象和问题都不要轻视,对其背后产生的原因一定要彻查。
海恩法则给到我们技术人的警示:
任何生产环境的严重故障,背后都有很多次小问题的积累,积累到一定量级之后会导致质变,进而发生更严重的故障。
所以,我们需要对线上服务,产生的任何问题征兆,不论问题大小,都要刨根问底,对任何问题都要持怀疑态度,问问自己"为什么会发生?发生的原因是什么?如何排查和解决?怎么快速恢复服务?如何避免?"等等。不能因为问题的现象不明显而忽略。