- 博客(10)
- 收藏
- 关注
原创 第六章操作题
实现对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份(直辖市),并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,并添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线,具体效果如图1所示。(2)配置
2021-12-12 08:16:56
196
原创 8.3.7~8.3.8
8.3.7 加载演员数据至演员维度表打开Kettle工具,创建转换,load_dim_actor,并添加“表输入”控件、“插入/更新”控件以及Hop跳连接线。配置“表输入”控件,点击“表输入”控件,进入“表输入”界面,,单击新建按钮,配置数据库连接,配置完成后单击“确认”按钮。在SQL框编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为1970-01-01, 00:00:00并赋值给临时字段max_dim_actor_last_update;单击“预览”按钮,查看
2021-12-12 08:14:02
163
原创 8.3.5~8.3.6
一、加载用户数据至用户维度表操作介绍通过Kettle工具加载用户数据至用户维度表dim_customer。操作步骤(1)、打开kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。(2)、配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。
2021-12-12 08:10:30
180
原创 8.3.2~8.3.4
一、加载日期数据至日期维度表1、打开kettle 工具,创建转换2、配置“生成记录”控件3、配置“增加序列”控件4、配置“JavaScript代码”控件
2021-11-19 16:53:47
1329
原创 第七章操作题
一、操作题一1、打开kettle工具,创建转换使用kettle工具创建转换full_load,并添加“执行SQL脚本”控件,“表输入”控件,“表输出”控件以及Hop跳连接线,如图:2、配置“执行SQL脚本”控件在SQL框中编写删除数据表full_target中数据的SQL语句3、配置“表输入”控件在SQL框中编写查询数据表full_source数据的SQL语句,然后单击“预览”按钮,查看数据表full_source的数据是否成功从MySQL数据库中出抽取到表输..
2021-11-18 17:26:35
637
原创 第五章 数据的清洗与检验
一、完全去重1、打开kettle工具,新建转换2、配置“csv文件输入”控件3、配置“唯一行(哈希值)”控件4、运行二、填充缺失值1、打开kettle工具,创建转换2、配置“文本文件输入”控件3、配置“过滤记录”控件4、配置“替换NULL”控件5、配置“合并记录”控件6、配置“替换NULL值2”控件7、配置“字段选择”控件8、运行...
2021-10-30 11:35:18
77
原创 第四章 数据抽取
一、CSV文件的抽取1、打开kettle工具,创建转换2、配置CSV文件输入控件3、配置表输出控件4、运行转换csv_extract5、查看数据表csv的数据二、JSON文件的数据抽取1、打开kettle工具,创建转换2、配置JSON input 控件3、配置 表输出创建json表连接数据库4、运行json_extract5、查看数据表json中的数据...
2021-10-27 11:44:31
81
原创 2021-10-08
一、转换转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换的步骤是通过跳连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行。数据流是数据行从一个步骤到另一个步骤的移动。二、作业一个作业包含一个或多个作业项,并且这些作业项都以某种顺序进行执行的,作业执行的顺序由作业作业项之间的跳
2021-10-08 23:52:47
69
原创 1.1数据清洗的背景
1.1数据清洗的背景1.1.1 数据质量概述数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。(但在不同的业务场景中,数据消费者对数据质量有各自不同的观点)数据质量的显著特点如下:①“业务需求”会随时间变化,数据质量也会随时间反生变化。②数据质量可以借助信息系统量度,但独立于信息系统存在。③数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的消失而消失。1.1.2数据质量的评价指标数据质量的评价指标主要包括数据的准确性、完整性、简洁...
2021-09-12 19:46:41
757
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人