Sqoop
Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…)
间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的
数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使
用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache
项目。
Sqoop2 的最新版本是 1.99.7。请注意,2 与 1 不兼容,且特征不完整,它并不打算用于
生产部署。
RDBMS 到 HDFS
1 全部导入
$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t”
2 查询导入
bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --query 'select name,sex from staff where id <=1 and $CONDITIONS;
注意:如果 query 后使用的是双引号,则$CONDITIONS 前必须加转移符,防止 shell 识别为自己的
变量。
3 导入指定列
bin/sqoop import \
–connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --columns id,sex \ --table staff
4 根据条件筛选导入
bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --table staff \ --where “id=1”
RDBMS 到 Hive
$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --hive-import \ --fields-terminated-by “\t” \ --hive-overwrite \ --hive-table staff_hive
提示:该过程分为两步,第一步将数据导入到 HDFS,第二步将导入到 HDFS 的数据迁移到
Hive 仓库,第一步默认的临时目录是/user/ityouxin/表名 需要用到 hive 的 jar,创建 jar 软连接:
ln -s /opt/module/hive/lib/hive-common-1.2.1.jar /opt/module/sqoop/lib/hive-common-1.2.1.jar
ln -s /opt/module/hive/lib/hive-exec-1.2.1.jar /opt/module/sqoop/lib/hive-exec-1.2.1.jar
RDBMS 到 Hbase
$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --columns “id,name,sex” \
–column-family “info” \ --hbase-create-table \ --hbase-row-key “id” \ --hbase-table “hbase_company” \ --num-mappers 1 \ --split-by id
HIVE/HDFS 到 RDBMS
$ bin/sqoop export \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --export-dir /user/hive/warehouse/staff_hive \ --input-fields-terminated-by “\t”
提示:Mysql 中如果表不存在,不会自动创建
脚本打包
bin/sqoop --options-file opt/job_HDFS2RDBMS.opt //文件中的命令和参数需要各自独占一行