一、数据质量评价指标(来自《GB/T 36344-2018 信息技术-数据质量评价指标》)

1. 数据质量评价指标框架见图1所示:

在这里插入图片描述

2. 说明

1)规范性
数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。

2)完整性
按照数据规则要求,数据元素被赋予数值的程度。

3)准确性
数据准确表示其所描述的真实实体(实际对象)真实值的程度。

4)一致性
数据与其他特定上下文中使用的数据无矛盾的程度。

5)时效性
数据在时间变化中的正确程度。

6)可访问性
数据能被访问的程度。

二、数据治理中的数据质量评价指标(实际使用)

1.标准

1)准确性
评估数据与真实事实之间的一致性和准确性。

计算公式:

  准确率 = (正确数据记录数 / 总数据记录数)  x 100%

2)完整性
评价数据中是否有缺失值。

计算公式:

 空值率 = (缺失或为空的记录数 / 总记录数) × 100%      

3)一致性
评估数据集中数据的逻辑关系是否一致。

计算公式:

使用适当的统计方法(如差异率、标准差等)计算不同数据源间选定字段的数据差异。

4)唯一性
评估数据集中的重复值。重复数据可能会引入偏见和错误的结果。一种方法是通过对属性值进行排序和消除重复值的方法来检查数据集中的重复数据。

计算公式:

 重复数据比例 = (重复值数量 / 总数据量) × 100%

5)及时性
评估数据的更新速度和时效性。数据的时效性可以影响数据分析的结果和决策制定的有效性。

计算公式:

  计算数据更新延迟 = 当前时间 - 数据最后更新时间戳

6)可用性

计算公式:

数据可访问率 = (成功访问的请求数量 / 总请求数量) × 100%。

2.阈值

    以上评价指标都需要设定一个阈值,当通过上述计算公式计算得到结果,超过(或低于)阈值,表示违反了相关质量评价指标。需要对数据进行治理,以提高数据治理,使其满足具体应用需求。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐