Sqoop

最新推荐文章于 2023-04-16 16:45:27 发布

takeuheart

最新推荐文章于 2023-04-16 16:45:27 发布

阅读量173

点赞数

分类专栏： Sqoop 文章标签： sqoop

本文链接：https://blog.csdn.net/takeuherat/article/details/103656150

版权

Sqoop 专栏收录该内容

0 篇文章

订阅专栏

Sqoop是一款用于在Hadoop与RDBMS间传递数据的开源工具，支持全量导入、查询导入、指定列导入、条件筛选导入等功能。它可以将MySQL等数据库的数据导入HDFS、Hive或Hbase，也能将HDFS和Hive的数据导出到RDBMS。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sqoop

Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql…)
间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres 等）中的
数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。
Sqoop 项目开始于 2009 年，最早是作为 Hadoop 的一个第三方模块存在，后来为了让使
用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop 独立成为一个 Apache
项目。
Sqoop2 的最新版本是 1.99.7。请注意，2 与 1 不兼容，且特征不完整，它并不打算用于
生产部署。

RDBMS 到 HDFS

1 全部导入

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t”

2 查询导入

bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --query 'select name,sex from staff where id <=1 and $CONDITIONS;

注意：如果 query 后使用的是双引号，则$CONDITIONS 前必须加转移符，防止 shell 识别为自己的

变量。

3 导入指定列

bin/sqoop import \
–connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --target-dir /user/company \ --delete-target-dir \ --num-mappers 1 \ --fields-terminated-by “\t” \ --columns id,sex \ --table staff

4 根据条件筛选导入

RDBMS 到 Hive

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --hive-import \ --fields-terminated-by “\t” \ --hive-overwrite \ --hive-table staff_hive

提示：该过程分为两步，第一步将数据导入到 HDFS，第二步将导入到 HDFS 的数据迁移到
Hive 仓库，第一步默认的临时目录是/user/ityouxin/表名需要用到 hive 的 jar，创建 jar 软连接：
ln -s /opt/module/hive/lib/hive-common-1.2.1.jar /opt/module/sqoop/lib/hive-common-1.2.1.jar
ln -s /opt/module/hive/lib/hive-exec-1.2.1.jar /opt/module/sqoop/lib/hive-exec-1.2.1.jar

RDBMS 到 Hbase

$ bin/sqoop import \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --columns “id,name,sex” \
–column-family “info” \ --hbase-create-table \ --hbase-row-key “id” \ --hbase-table “hbase_company” \ --num-mappers 1 \ --split-by id

HIVE/HDFS 到 RDBMS

$ bin/sqoop export \ --connect jdbc:mysql://hadoop102:3306/company \ --username root \ --password 000000 \ --table staff \ --num-mappers 1 \ --export-dir /user/hive/warehouse/staff_hive \ --input-fields-terminated-by “\t”

提示：Mysql 中如果表不存在，不会自动创建