1.前言
今天和老同学交流了翻技术,准确的说是争执与讨论,谈到了数据清洗,特此记录一下对清洗的理解,分享与学习
2.数据清洗
下图出自小D课堂,本人也为小D课堂的忠实粉丝

类比现实去理解
- ODS :未处理的数据 :【猪肉,牛肉,洗头膏,沙子,空瓶子】
- DWD:筛选出规范数据,去掉了沙子和空瓶子【猪肉,牛肉,洗头膏】
- DWM:轻微的聚合关联,为DWS提供复用性数据【东北的猪肉,蒙古的牛肉,今天生产的洗头膏】
- DWS:经过主题分析后的数据【昨天东北的猪肉10元一斤卖了300斤,今天蒙古的牛肉30元一斤买了600斤,今天生产的海飞丝洗头膏在东北区域销售了800w瓶】
如此理解望同行交流与沟通