Sqoop

Sqoop是一款用于在Hadoop与RDBMS间传递数据的开源工具,支持全量导入、查询导入、指定列导入、条件筛选导入等功能。它可以将MySQL等数据库的数据导入HDFS、Hive或Hbase,也能将HDFS和Hive的数据导出到RDBMS。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sqoop

Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…)
间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的
数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使
用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache
项目。
Sqoop2 的最新版本是 1.99.7。请注意,2 与 1 不兼容,且特征不完整,它并不打算用于
生产部署。

RDBMS 到 HDFS

1 全部导入

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t”

2 查询导入

bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --query 'select name,sex from staff where id <=1 and $CONDITIONS;

注意:如果 query 后使用的是双引号,则$CONDITIONS 前必须加转移符,防止 shell 识别为自己的

变量。

3 导入指定列

bin/sqoop import \
–connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --columns id,sex \ --table staff

4 根据条件筛选导入

bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --table staff \ --where “id=1”

RDBMS 到 Hive

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --hive-import \ --fields-terminated-by “\t” \ --hive-overwrite \ --hive-table staff_hive

提示:该过程分为两步,第一步将数据导入到 HDFS,第二步将导入到 HDFS 的数据迁移到
Hive 仓库,第一步默认的临时目录是/user/ityouxin/表名 需要用到 hive 的 jar,创建 jar 软连接:
ln -s /opt/module/hive/lib/hive-common-1.2.1.jar /opt/module/sqoop/lib/hive-common-1.2.1.jar
ln -s /opt/module/hive/lib/hive-exec-1.2.1.jar /opt/module/sqoop/lib/hive-exec-1.2.1.jar

RDBMS 到 Hbase

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --columns “id,name,sex” \
–column-family “info” \ --hbase-create-table \ --hbase-row-key “id” \ --hbase-table “hbase_company” \ --num-mappers 1 \ --split-by id

HIVE/HDFS 到 RDBMS

$ bin/sqoop export \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --export-dir /user/hive/warehouse/staff_hive \ --input-fields-terminated-by “\t”

提示:Mysql 中如果表不存在,不会自动创建

脚本打包

bin/sqoop --options-file opt/job_HDFS2RDBMS.opt //文件中的命令和参数需要各自独占一行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值