历史数据清洗（数据治理）需要关注的问题

噢！不杰克

于 2025-02-24 15:07:25 发布

阅读量381

点赞数 3

分类专栏： mysql数据库问题文章标签：数据库 java sql

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SpringLsL/article/details/145828951

版权

mysql数据库问题专栏收录该内容

6 篇文章

订阅专栏

历史数据清洗（数据治理）

如果有基本了解的可以直接看总结

事务与幂等性

使用事务（Transaction）
- 若数据量大且涉及多表更新，尽量使用批量提交（如每 1000 条提交一次）来提高效率，避免单条提交影响性能。
- 避免长事务，防止锁表或数据库性能下降。
保证幂等性
- 处理数据时，避免重复执行导致数据异常，比如先检查数据是否已被处理再执行操作。
- 可使用唯一标识字段（如 processed_flag）或日志记录追踪处理进度。

清洗规则制定

脏数据处理（最好查询时就排除大量的脏数据，脏数据太多代码是写不过来的）
缺省字段处理（默认值）
字段格式规范（日期、金额等）

性能

大数据量分批处理
- 避免一次性加载所有数据，可采用分页查询或分批更新（如 LIMIT 1000 OFFSET 0）。
- 可采用多线程并行清洗，但要注意数据一致性和锁冲突。
使用索引加速查询
- 确保查询条件字段（如 ID、时间）有索引，避免全表扫描导致性能下降。
  避免死锁。
- 避免多个进程并发更新同一条数据，必要时可加锁或分批处理。

记录数据清洗日志

推荐直接记录日志文件，容查找追溯

异常回滚机制

记录已处理 ID，只对未处理的数据重试。
将错误数据存入 error_log 表，后续手动修复或自动重试。

总结-问题解决方案

数据清洗过程被中断的解决方案
记录日志，例如记录已处理数据的 ID 或其他可区分的字段。
在表中增加标识字段，标记已清洗的数据行，并按标识字段排序进行清洗，以便恢复时能准确找到中断点。
重新执行时，基于中断点设置相应条件，确保数据连续清洗。
如何处理错误数据
数据本身错误：
记录日志文件，包括错误原因和主键 ID，以便后续分析和修正。
程序执行错误：
记录日志，包括错误原因和主键 ID，便于后续重试。
若涉及随机数冲突等问题，可基于错误数据重新执行修复逻辑。
接口需要的条件
ID 方式：
例如 “1232,4343,54545”，接口返回异常 ID，修改后可直接重新执行。
时间方式：
通过创建时间或其他时间字段，在中断时标记断点，后续清洗时从该时间点继续。
也可使用 ID 方式，但查询时需确保正确排序，避免数据遗漏或重复。
记录原始ID，清洗完成后可以进行数据完整性校验，确保数据没有丢失或遗漏。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。