作者:贺圣军,叩丁狼高级讲师。原创文章,转载请注明出处。
在hadoop的开发过程中,通常情况我们习惯使用window的eclipse或者idea完成MapReduce的相关开发,并且使用hdfs的文件系统以及提交任务到hadoop集群中进行计算,对于这个过程我们需要使用相关的配置代码完成操作
1 环境说明
开发工具 | idea或者eclipse |
---|---|
hadoop集群的hdfs | hdfs://lab301:9000 |
hadoop集群的yarn主机地址 | lab301 |
2 核心配置参数
在运行job的运行类WordCountDriver中的main方法的配置的Configuration中添加如下几个参数
conf.set("fs.defaultFS", "hdfs://lab301:9000");# 设置使用hdfs的文件系统,默认使用的是本地文件系统
conf.set("mapreduce.framework.name","yarn");# 设置使用yarn的方式运行
conf.set("yarn.resourcemanager.hostname","lab301");# 设置资源管理节点(rm)所在的主机名
conf.set("mapreduce.app-submission.cross-platform","true");# 设置是否跨平台运行
conf.set("mapreduce.job.jar", "D:\\bigdata\\hadoop\\mapreducer\\target\\mapreducer-1.0.0.jar");# 重要设置 需要提交的job的jar包
3 重要说明
对于使用hadoop集群运行,我们需要先把程序打包,然后在通过mapreduce.job.jar参数指定jar的位置才可以正常的运行job任务
对于上面的所有参数,我们都可以在几个配置文件中找到:core-default.xml,mapred-default.xml,yarn-default.xml中找到
4 运行代码
源码下载地址: https://gitee.com/heshengjun/hadoop_local.git