度量数据质量需围绕核心质量维度,通过“量化指标+计算方法”将抽象的质量要求转化为可衡量的数值,核心步骤和方法如下:
一、确定核心度量维度(聚焦关键质量问题)
优先选择与业务强相关的维度,无需覆盖所有,常见核心维度及度量逻辑如下:
二、各维度度量指标与计算方法
1. 准确性(数据是否“对”)
- 定义:数据值与真实业务情况的吻合程度。
- 常用指标:
- 错误率:错误数据条数 / 总数据条数 × 100%
示例:订单表中“金额≠单价×数量”的记录有5条,总记录10000条,错误率=5/10000×100%=0.05%。 - 准确率:1 - 错误率
示例:上述订单数据准确率=1-0.05%=99.95%。
- 错误率:错误数据条数 / 总数据条数 × 100%
- 适用场景:订单金额、客户手机号(是否符合11位格式)、库存数量等。
2. 完整性(数据是否“全”)
- 定义:关键信息是否无缺失(非所有字段都需100%完整,仅关注业务必需字段)。
- 常用指标:
- 字段空值率:某字段空值条数 / 该字段总数据条数 × 100%
示例:客户表中“手机号”字段空值10条,总记录2000条,空值率=10/2000×100%=0.5%。 - 字段完整率:1 - 字段空值率
示例:上述手机号字段完整率=1-0.5%=99.5%。
- 字段空值率:某字段空值条数 / 该字段总数据条数 × 100%
- 适用场景:客户身份证号(合规必需)、订单物流单号(发货必需)等。
3. 一致性(数据是否“统一”)
- 定义:同一数据在不同系统/表中的值是否一致(无矛盾)。
- 常用指标:
- 不一致率:跨表/跨系统不一致的记录数 / 总比对记录数 × 100%
示例:“客户表”与“订单表”中同一客户ID的“姓名”不一致的有3条,总比对客户1500个,不一致率=3/1500×100%=0.2%。
- 不一致率:跨表/跨系统不一致的记录数 / 总比对记录数 × 100%
- 适用场景:客户姓名(客户表vs订单表)、商品价格(商品表vs购物车表)等。
4. 及时性(数据是否“新”)
- 定义:数据生成/更新时间是否满足业务对“新鲜度”的要求。
- 常用指标:
- 延迟率:超过规定更新时间的数据条数 / 总数据条数 × 100%
示例:库存数据要求“下单后5分钟内更新”,延迟更新的记录20条,总记录500条,延迟率=20/500×100%=4%。 - 平均延迟时间:所有延迟数据的延迟时长总和 / 延迟数据条数
示例:20条延迟库存数据总延迟时长120分钟,平均延迟时间=120/20=6分钟。
- 延迟率:超过规定更新时间的数据条数 / 总数据条数 × 100%
- 适用场景:实时库存、实时交易数据、物流轨迹更新等。
5. 唯一性(数据是否“不重复”)
- 定义:是否存在重复的关键记录(无冗余)。
- 常用指标:
- 重复率:重复记录组数 / 总记录数 × 100%(注:1组重复含2条及以上相同记录,按1组算)
示例:客户表中“身份证号重复”的组有4组(共8条重复记录),总记录2000条,重复率=4/2000×100%=0.2%。 - 唯一率:1 - 重复率
示例:上述客户数据唯一率=1-0.2%=99.8%。
- 重复率:重复记录组数 / 总记录数 × 100%(注:1组重复含2条及以上相同记录,按1组算)
- 适用场景:客户身份证号、订单编号(唯一标识)等。
三、度量工具与实操建议
- 工具选择:
- 小数据量:用Excel(
COUNTBLANK算空值、COUNTIF查重复)、SQL(GROUP BY + HAVING COUNT(*)>查重复、WHERE条件查错误)。 - 大数据量:用Python(Pandas库批量计算指标)、专业数据质量工具(如Informatica、Talend,自动生成度量报告)。
- 小数据量:用Excel(
- 阈值设定:根据业务容忍度定合格标准,例如“订单数据准确率≥99.9%”“客户手机号空值率≤0.5%”(需业务与技术团队共识)。
- 结果呈现:用“指标数值+是否达标”的表格呈现,例如:
数据对象 度量维度 指标值 合格标准 是否达标 订单表 准确性 99.95% ≥99.9% 是 客户表 完整性 99.5% ≥99% 是
通过以上方法,可将数据质量从“主观感受”转化为“客观数值”,为后续优化提供明确依据。
数据质量检核指标的分类,核心围绕数据质量核心维度展开,每个维度对应具体、可落地的检核指标,形成“维度-指标”的层级关系,以下是具体分类及说明:
一、准确性检核指标(确保数据“正确无误”)
用于验证数据值是否与真实业务事实、标准规则一致,常见指标:
- 格式准确率:符合预设格式(如手机号11位、邮箱含@)的记录数/总记录数 × 100%
- 逻辑准确率:满足业务逻辑(如“订单金额=单价×数量”“年龄≤150”)的记录数/总记录数 × 100%
- 值匹配率:与权威数据源(如身份证库、商品编码库)匹配成功的记录数/总比对记录数 × 100%
二、完整性检核指标(确保数据“无缺漏”)
用于验证关键信息是否存在缺失,仅关注业务必需字段,常见指标:
- 字段空值率:某字段空值(含NULL、空字符串)的记录数/该字段总记录数 × 100%
- 字段填充率:1 - 字段空值率(即非空记录占比)
- 关键信息完整率:同时包含多个核心字段(如客户表“姓名+手机号+身份证号”)的记录数/总记录数 × 100%
三、一致性检核指标(确保数据“无矛盾”)
用于验证同一数据在不同场景、系统中的值是否统一,常见指标:
- 跨表一致性率:同一标识(如客户ID、订单号)在不同表中对应值一致的记录数/总比对记录数 × 100%
- 格式一致性率:同一字段(如日期格式“YYYY-MM-DD”“MM/DD/YYYY”)符合统一格式的记录数/总记录数 × 100%
- 逻辑一致性率:满足内部逻辑规则(如“父分类ID≠子分类ID”“入职日期≤离职日期”)的记录数/总记录数 × 100%
四、及时性检核指标(确保数据“足够新鲜”)
用于验证数据生成、更新、传输的速度是否满足业务时效要求,常见指标:
- 数据延迟率:超过规定时效(如“订单生成后1小时内同步至数仓”)的记录数/总记录数 × 100%
- 平均延迟时长:所有延迟数据的“实际时间-规定时间”总和/延迟数据条数
- 数据更新频率达标率:按预设频率(如“库存每5分钟更新1次”)完成更新的次数/总应更新次数 × 100%
五、唯一性检核指标(确保数据“无冗余重复”)
用于验证关键标识是否唯一,避免重复记录,常见指标:
- 记录重复率:重复记录组数(1组含2条及以上相同记录)/总记录数 × 100%
- 唯一标识重复率:关键唯一标识(如身份证号、订单编号)重复的记录数/总记录数 × 100%
- 去重后有效率:去重后剩余的非重复记录数/去重前总记录数 × 100%
六、有效性检核指标(确保数据“符合业务规则”)
用于验证数据是否在合理的业务范围内、符合特定场景要求,常见指标:
- 值范围合规率:数值在预设范围(如“商品价格>0”“评分1-5分”)内的记录数/总记录数 × 100%
- 枚举值合规率:字段值属于预设枚举列表(如“订单状态=待支付/已支付/已取消”)的记录数/总记录数 × 100%
- 业务规则合规率:满足特定业务场景规则(如“会员订单金额≥0”“优惠券使用时间在有效期内”)的记录数/总记录数 × 100%
- 数据质量技术规则是确保数据质量的重要手段,以下是一些具体示例:
准确性技术规则
- 数值范围校验规则:客户年龄字段必须在0到120之间;商品价格必须大于0。
- 格式匹配规则:邮箱地址必须符合“[a-zA-Z0-9._%±]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$”的正则表达式格式;手机号必须为11位数字。
完整性技术规则
- 必填字段非空规则:用户表中的姓名、身份证号等必填字段不能为空值。
- 记录完整性规则:订单表中必须同时包含订单号、客户ID、商品ID、订单金额等关键信息,缺一不可。
一致性技术规则
- 跨表数据一致性规则:订单表中的客户ID在客户表中必须存在且对应信息一致。
- 字段值逻辑一致性规则:如果订单状态为“已完成”,则支付状态不能为“未支付”。
唯一性技术规则
- 主键唯一性规则:客户表中的客户ID必须唯一,不能出现重复值。
- 组合字段唯一性规则:在订单详情表中,订单号和商品ID的组合必须唯一,以确保每个商品在每个订单中只有一条记录。
及时性技术规则
- 数据更新频率规则:每日销售报表的数据应在当天9:00前更新完成。
- 数据延迟时间规则:实时监控数据的传输延迟,要求数据从产生到进入数据仓库的时间延迟不超过1分钟。
有效性技术规则
- 枚举值有效性规则:性别字段只能是“男”“女”或“未知”;订单状态只能是“待支付”“已支付”“已取消”等预设值。
- 业务逻辑有效性规则:根据业务规则,订单金额应该等于单价乘以数量,通过该规则可以检查订单数据的有效性。


1112

被折叠的 条评论
为什么被折叠?



