Kettle对接Hadoop：轻松实现大数据ETL集成

网站推广优化yetaoaiueo

于 2025-05-21 23:26:02 发布

阅读量917

点赞数 17

文章标签：大数据 hadoop etl 分布式数据仓库

本文链接：https://blog.csdn.net/yetaodiao/article/details/148153395

版权

你好，数据探索者们！还在为如何将强大的ETL工具Kettle与分布式大数据框架Hadoop集成而烦恼吗？别担心，你来对地方了！这篇博客将手把手带你完成Kettle 8.2与Hadoop 2.7.4的集成之旅，即使你是大数据初学者，也能轻松上手。

🧐 它们是谁？先来认识一下主角

在我们开始动手之前，先来简单了解下这次集成的主角们：

Kettle (Pentaho Data Integration - PDI): 想象一下，你需要从各种不同的地方(比如数据库、文本文件、Excel)收集数据，然后对这些数据进行清洗、转换(比如去掉不需要的列、计算新的值)，最后再把处理好的数据加载到另一个地方(比如数据仓库、另一个数据库或者我们今天的主角Hadoop里)。Kettle就是这样一个强大的ETL(Extract-Transform-Load)工具，它通过图形化的界面，让你拖拽组件就能设计出复杂的数据处理流程，大大简化了数据集成的工作。
Hadoop: 当数据量大到一台机器处理不过来的时候，Hadoop就派上用场了。它是一个开源的分布式计算框架，能够让你用多台计算机(我们称之为一个集群)协同工作，来存储和处理海量数据。

HDFS (Hadoop Distributed File System): 这是Hadoop的分布式文件系统，你可以把它理解为一个超大的硬盘，由集群中所有机器的硬盘共同组成，专门用来存储大数据文件。
完全分布式模式 (Fully Distributed Mode): 指的是Hadoop集群真正在多台物理或虚拟机上运行，每台机器各司其职(有的管理文件系统，有的负责计算任务)，是生产环境中Hadoop的典型部署方式。

集成目标: 我们的目标是将Kettle配置好，让它能够认识并操作我们的Hadoop集群，比如将本地文件上传到HDFS，或者从HDFS读取数据进行处理。

🛠️ 准备工作：我们的环境清单

在开始之前，确保你的“厨房”里有这些“食材”和“工具”：

操作系统 (Kettle端): Windows 10 (当然，Kettle也可以运行在Linux或MacOS上)
操作系统 (Hadoop集群端): CentOS 7.9 (虚拟机搭建)
Hadoop版本及模式: Hadoop 2.7.4，并且已经搭建好了完全分布式环境。

(初学者提示：Hadoop完全分布式环境的搭建本身就是一个比较复杂的过程，需要你对Linux和网络有一定了解。这部分本文不赘述，假设你已经有了一个可用的Hadoop集群。如果没有，可以先搜索相关教程完成Hadoop集群的搭建。)

Kettle版本及模式: Kettle 8.2 (PDI Community Edition)，单机模式运行。

⚙️ 第一步：Hadoop集群的基石

这篇博客的核心是Kettle与Hadoop的集成，所以我们假设你已经成功安装并运行了一个Hadoop 2.7.4的完全分布式集群。如果你还没有完成这一步，请先参考相关的Hadoop安装文档( 手把手教你搭建Hadoop 3.0完全分布式集群_dragonli的技术博客_51CTO博客)。

关键点： 确保你的Hadoop集群(特别是HDFS和YARN服务)正在正常运行，并且你可以从集群的任意节点访问它们。

🔧 第二步：Kettle的精心配置

现在，让我们来配置Kettle，让它能够与Hadoop集群“对话”。

下载Kettle: 访问Kettle的官方社区下载地址(例如：https://www.hitachivantara.com/en-us/products/pentaho-platform/data-integration-analytics/pentaho-community-edition.html，注意官方链接可能随时间变化，请搜索“Pentaho Community Edition download”获取最新链接)。下载Kettle 8.2的压缩包(通常是 pdi-ce-*.zip)。
解压Kettle: 将下载的压缩包解压到你Windows系统的一个目录下，例如 F:\javadev\pdi-ce-8.2.0.0-342。这个目录就是Kettle的“家”。
关键一步：让Kettle认识你的Hadoop集群配置 Kettle需要知道你的Hadoop集群在哪里，以及如何连接它。这通过复制Hadoop的配置文件来实现。

找到你Hadoop集群的四个核心配置文件：

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml (初学者提示：这些文件通常位于Hadoop安装目录下的 etc/hadoop/ 文件夹中。你需要从你的Hadoop集群的某个节点上把它们拷贝出来。)

将这四个XML文件复制到Kettle的一个特定插件目录下。文档中给出的示例是 F:\javadev\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514。

注意： cdh514 这个文件夹名只是一个示例(可能代表Cloudera Distribution of Hadoop 5.14)。你可以自己创建一个有意义的名称，比如 myhadoop274。重要的是，后续配置要与此名称保持一致。

Kettle对接Hadoop：轻松实现大数据ETL集成_hadoop

配置 config.properties 文件:

找到并打开位于上一步你创建的Hadoop配置文件夹(如 F:\javadev\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514)中的 config.properties 文件。
在该文件末尾添加以下内容，这表示我们连接Hadoop时不需要特定的Kerberos等高级授权(对于简单测试环境)：
Properties

配置 plugin.properties 文件:

这个文件用于告诉Kettle当前激活哪个Hadoop配置。
找到并打开Kettle插件的主配置文件，路径通常是 F:\javadev\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\plugin.properties。
修改 active.hadoop.configuration 属性的值，使其指向你在步骤3中创建的文件夹名称。例如，如果你创建的文件夹是 cdh514，则修改为：
Properties

如果你的文件夹叫 myhadoop274，就改成 active.hadoop.configuration=myhadoop274。

Kettle对接Hadoop：轻松实现大数据ETL集成_HDFS_02

修改 Spoon.bat (Windows启动脚本): Spoon是Kettle的图形化设计工具。为了确保Kettle在Windows上有足够的权限以Hadoop用户的身份操作HDFS，我们需要修改它的启动脚本。

找到并用文本编辑器打开Kettle根目录下的 Spoon.bat 文件 (例如 F:\javadev\pdi-ce-8.2.0.0-342\Spoon.bat)。
在文件的末尾(通常在 start "Spoon" 那行之前，或者确保是脚本执行前设置)添加以下这行代码：
Code snippet

REM ***************
REM ** Let window User Become root for hadoop...    **
REM ***************
set HADOOP_USER_NAME=root

重要提示: root 是文档中Hadoop集群安装和操作时使用的用户。你应该将其更改为你在Hadoop集群中具有HDFS读写权限的实际用户名。 如果你的Hadoop集群没有专门配置用户权限，root 或你启动Hadoop进程的用户通常可以工作。但为了安全和规范，建议使用专用的Hadoop用户。

🎉 配置完成！ 到这里，Kettle的基础配置就绪，它应该已经准备好和你的Hadoop集群进行交互了。

🎯 第三步：实战演练 - 创建作业将本地文件上传到HDFS

光说不练假把式！让我们创建一个简单的Kettle作业(Job)，将一个本地文件上传到Hadoop的HDFS中，来检验我们的集成成果。

启动Spoon并新建作业: 双击运行修改后的 Spoon.bat 文件，启动Kettle的图形化界面。

在Spoon界面左上角的“主对象树”中，右键点击“作业”，选择“新建”，或者通过菜单栏“文件” -> “新建” -> “作业”。
将新建的作业保存一下，比如命名为 txt-to-hdfs.kjb。

Kettle对接Hadoop：轻松实现大数据ETL集成_hadoop_03

添加必要的作业项 (Job Entries): 一个Kettle作业由多个“作业项”按流程连接而成。

Start: 每个作业都需要一个起点。从左侧“核心对象”面板的“通用”分类下，拖拽一个“Start”组件到右侧的作业设计画布上。

Kettle对接Hadoop：轻松实现大数据ETL集成_Hadoop_04

Hadoop Copy Files: 这是我们实现文件上传到HDFS的核心组件。从左侧“核心对象”面板的“Big Data”分类下，找到并拖拽一个“Hadoop Copy Files”组件到画布上。

Kettle对接Hadoop：轻松实现大数据ETL集成_hadoop_05

连接组件: 按住Shift键，从“Start”组件中心点拖拽一条箭头(称为Hop)到“Hadoop Copy Files”组件。这表示作业从Start开始，然后执行Hadoop Copy Files。

Kettle对接Hadoop：轻松实现大数据ETL集成_ETL_06

配置Hadoop Cluster连接: 虽然我们在 plugin.properties 中指定了活动的Hadoop配置，但在作业中，我们通常还需要显式定义或选择这个Hadoop集群连接信息，以便Kettle的作业项能够使用它。

在Spoon界面左上角的“主对象树”中，展开你当前作业(例如 txt-to-hdfs)下的“Hadoop clusters”。
右键点击“Hadoop clusters”，选择“New”。

Kettle对接Hadoop：轻松实现大数据ETL集成_ETL_07

会弹出一个“Hadoop cluster”配置窗口。你需要在这里填写连接Hadoop集群的详细信息：

Cluster Name: 给你的Hadoop集群连接起一个名字，例如 MyHadoopCluster。
Hostname (HDFS): 你的Hadoop NameNode的主机名或IP地址。
Port (HDFS): HDFS NameNode的端口号 (通常是8020或9000，具体取决于你的core-site.xml中fs.defaultFS的配置)。
Username (HDFS): 连接HDFS的用户名(与Spoon.bat中设置的HADOOP_USER_NAME对应)。
JobTracker Hostname / ResourceManager Hostname: (对于文件复制，主要关注HDFS，但通常也需要填写YARN ResourceManager的信息) 你的YARN ResourceManager的主机名或IP。
JobTracker Port / ResourceManager Port: YARN ResourceManager的端口号 (通常是8032或8050)。

Kettle对接Hadoop：轻松实现大数据ETL集成_HDFS_08

进行测试！ 这是非常重要的一步。在配置窗口的右下角或某个标签页(通常是"Test"或有测试按钮)，点击“Test”按钮。Kettle会尝试连接你的Hadoop集群。
如果一切顺利，你应该会看到一个成功的提示框，比如“Hadoop cluster connection test was successful”或类似的中文提示。

Kettle对接Hadoop：轻松实现大数据ETL集成_ETL_09

点击“OK”保存这个Hadoop Cluster配置。

配置“Hadoop Copy Files”组件: 双击画布上的“Hadoop Copy Files”组件，打开它的配置窗口。

作业项名称: 可以保持默认或修改为一个更具描述性的名称。
Hadoop connection: 从下拉列表中选择上一步配置并测试成功的Hadoop Cluster连接(例如 MyHadoopCluster)。
源文件/文件夹 (Source file/folder): 点击“浏览”，选择你要上传到HDFS的本地文件或文件夹。例如，你可以在本地创建一个 test.txt 文件。
目标文件/文件夹 (Destination file/folder): 点击“浏览”(这里通常是浏览HDFS路径)，或者直接输入你希望文件上传到HDFS的目标路径。例如，hdfs://namenode_host:port/datas/ (请替换namenode_host:port为你的实际HDFS NameNode地址和端口，或直接使用HDFS路径如 /datas/)。确保目标文件夹在HDFS上存在，或者你有权限创建它。
通配符 (Wildcard): 如果你想上传符合特定模式的多个文件，可以使用通配符。