一、目的与范围
1、目的
本标准用于在线上故障发生后的定级,对故障影响不同维度指标给出相应的指导意见,准确定位故障紧急程度,快速响应。同时规范产研测人员工作流程,重视生产红线,减少线上故障的发生。
2、范围
适用于金融客服研发部发生的线上事故、问题。
二、故障级别定义
1、故障级别
线上故障级别分为P0/P1/P2/P3/P4,其中P0为特大事故、P1为重大事故、P2为严重事故、P3为一般事故、P4为轻微事故。
未达到事故级别的线上问题分为P5/P6,其中P5为一般问题,P6为轻微问题。
描述 | 特大事故 | 重大事故 | 严重事故 | 一般事故 | 轻微事故 | 一般问题 | 轻微问题 |
级别 | P0 | P1 | P2 | P3 | P4 | P5 | P6 |
2、故障类型定义
根据故障发生的直接原因进行归类
故障类型 | 类型定义 |
系统质量类 | 自身所负责系统存在逻辑或流程缺陷直接导致线上问题,同时还包括性能、稳定性引发的问题 |
外部依赖类-其它 | 是由所依赖的上下游系统/中间件不稳定导致(供应商除外),或者物理故障(如网络中断、服务器宕机等)所导致的自身业务流程受阻 |
外部依赖类-供应商 | 由第三方厂商-导致的系统不稳定或者不可用 |
运营质量类 | 由运营或业务人员配置错误导致的线上问题 |
流程规范类 | 由于未按照既定的测试流程、开发规范、上线流程等原因导致事故 |
说明:对于外部依赖类和运营质量类(非研发操作导致),如果是第一时间发现问题,快速推进并协调解决,并自身系统具有容错机制,可以免责。
3、故障级别变化条件
线上故障主要根据资金损失、影响用户范围、影响用户时长等综合判定故障等级。对于特殊场景,故障定级可以适当降低,具体如下:
1、从事件处理的目标快速响应和恢复故障角度出发,在系统上线发布时,对于非人为误操作或流程违规导致的事件,在5分钟内恢复的,一般不认定为事故。
2、经过评估且报备后进行的线上演习、压测、验证过程中发生的故障,且为非人为误操作或流程违规导致的,事件定级根据正常影响程度评估后下降一级。
对于特定场景,故障定级上升,具体如下:
1、知而不报,故障发生后未第一时间反馈,从其他渠道反馈后才内部同步告知,此情形将根据事故影响上升故障级别,最高可上升至P0
2、故障发生后未第一时间解决,导致故障影响范围扩大
3、618和双十一等大促期间,故障定级上升一级
三、具体故障定级标准
1.影响因素
影响类型 | 影响范围 | 影响时长(系数) | |
资损类 | 资损金额>50W (5分) 50W>=资损金额>20W(4分) 20W>=资损金额>10W(3分) 10W>=资损金额>5W(3分) 5W>=资损金额>1W(2分) 1W>=资损金额(1分) | NA | |
功能类 | 影响C端客户 | 影响接待客户数>50%(5分) 50%>=影响接待客户数>20%(4分) 20%>=影响接待客户数>5%(3分) 5%>=影响接待客户数>1%(2分) 1%>=影响接待客户数(1分) | 影响时长>2H *1 2H>=影响时长>1H *0.8 1H>=影响时长>30min *0.6 30min>影响时长>15min *0.4 影响时长<15min *0.2 |
影响客服服务 | 影响客服数>80%(5分) 80%>=影响客服数>50%(4分) 50%>=影响客服数>30%(3分) 30%>=影响客服数>10%(2分) 影响客服数<=10%(1分) | 影响时长>8H *1 8H>=影响时长>4H *0.8 4H>=影响时长>2H *0.6 2H>影响时长>30min *0.4 影响时长<30min *0.2 | |
运营数据异常 | 影响结算,导致偏差>30% (3分) 30%>=影响结算,导致偏差>10%(2分) 10%>=影响结算,导致偏差(1分) | NA | |
影响核心监控 | 影响业务核心监控数据(3分) | 影响时长>4H *1 8H>=影响时长>4H *0.5 影响时长<4H *0.2 | |
用户体验类 | C端UI展示 | 用户感知明显,且在top5主流机型必现(3分) 用户感知明显,且非top5的其它要求机型必现(2分) 用户感知不明显,但与UI设计不一致,且在要求机型上必现(1分) | NA |
C端页面响应较慢 | 20%概率出现白页或者页面崩溃(4分) 关键接口响应偏差>50% (3分) 50%>=关键接口响应偏差>20% (2分) 关键接口响应偏差<=20% (1分) | NA | |
舆情类 | 舆情客诉 | 30天内由于客服系统原因导致的舆情客诉(3分) | NA |
影响时长说明:B端功能问题,其影响时长只计算客服工作时间
兼容性测试机型要求:兼容性测试规范
2.计算公式
影响得分=影响范围*影响时长
3.事故定级
事故/问题类型 | 事故/问题级别 | 事故/问题判断依据 |
线上事故 | P0 | 5分<=影响得分 |
P1 | 4分<=影响得分<5分 | |
P2 | 3分<=影响得分<4分 | |
P3 | 2分<=影响得分<3分 | |
P4 | 1分<=影响得分<2分 | |
线上问题 | P5 | 0.5≤影响得分<1 |
P6 | 影响得分<0.5 未在上述范围内的线上故障,均为P6 |