HBase实现表的连接操作-1_____MultipleInputs实现多Mapper和单Reducer的组合

最新推荐文章于 2024-08-09 15:41:02 发布

king_on

最新推荐文章于 2024-08-09 15:41:02 发布

阅读量3.4k

点赞数 1

分类专栏： hbase 文章标签： hadoop mapreduce MultipleInputs

本文链接：https://blog.csdn.net/king_on/article/details/8727008

版权

本文介绍了如何在MapReduce中利用MultipleInputs类处理多个输入路径，实现不同Mapper与单个Reducer的结合，模拟数据库的连接操作。通过创建针对不同输入文件的Mapper类，保持Mapper输出数据类型的统一，并在Reducer中根据标记处理数据，从而达到数据整合的目的。示例中提到了使用1.0.3版本的Hadoop进行操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在MapReduce架构中，有时候需要处理一种特殊情况：

现在存在多个结构不同的数据文件，Job需要在这些数据文件中提取一些数据，并交给一个Reducer进一步处理。这种操作类似于关系数据库中的连接操作。在一个Mapper中根据输入文件名( 使用 Job.get("map.input.file") 获取 )来区分数据来源并分别处理，是一个解决办法，但有时需要一个更加彻底的办法，那就是MultipleInputs.

    MultipleInputs:
   This class supports MapReduce jobs that have multiple input paths with a different InputFormat and Mapper for each path.
   支持多个Mapper的输出混合到一个shuffle, 一个reducer, 其中每个Mapper拥有不同的InputFormat和Mapper处理类

0. Hadoop版本
1.0.3是可以的。最新版本(1.0.4)未测试

使用MultipleInputs类实现MapReduce任务的步骤如下：
1. 首先根据不同的输入文件编写Mapper class
   不同文件结构和含义不同，Mapper class处理不同。
   所有Mapper需要输出相同的数据类型。
   对于输出value，需要标记该value来源，以便Reducer识别

2. Reducer class根据输入以及tag标记进一步处理数据
Reducer接受数据为 key-value(包含tag)
根据这些数据进一步处理。得到最终结果

示例：示例-MapReduce-MultipleInputs用法

“readme.txt"

1.输入
	file_1.txt
		编号tab国家名
	file_2.txt
		国家名tab首都名

2.处理过程
	MapA.class 处理file_1.txt
	MapB.class 处理file_2.txt
	Reduce.class处理最后结果，将国家名、编号和首都格式化为："ID=%s\tcountry=%s\tcapital=%s"

3.输出结果：
	------------

最低0.47元/天解锁文章