
spark
csdnmrliu
这个作者很懒,什么都没留下…
展开
-
Java本地模式开发Spark程序开发遇到的问题
1. spark应用打成Jar包提交到spark on yarn执行时依赖冲突解决:使用maven项目开发时,可以把spark、scala、hadoop相关依赖添加以下标签<scope>provided</scope>例如:<dependencies> <!-- scala-library -->原创 2018-09-06 17:29:45 · 1365 阅读 · 0 评论 -
Hadoop、Spark计数器(累加器)使用
1. MapReduce中自定义计数器(枚举方式)1.1 首先定义并使用计数器//第一种 组名+计数器名context.getCounter(groupName, counterName).increment(1);//参数类型为String //第二种 Enumcontext.getCounter(counterName).increment(1);//参数类型为Enum//...原创 2018-09-25 18:18:29 · 4534 阅读 · 1 评论 -
Hadoop、Spark(Java、scala)实现分组、排序
1. MapReduce实现分组、排序1.1分组//在MapReduce 主类设置自定义分组Classjob.setGroupingComparatorClass((Class<? extends RawComparator> cls);//实例job.setGroupingComparatorClass(S1apEnbidGroupingComparator....原创 2018-09-20 11:27:19 · 818 阅读 · 2 评论 -
Hadoop、Spark处理小文件
注:hadoop基于2.7.5;spark基于2.3.1-hadoop2.7-scala2.11.81.hadoop处理小文件(提升mapreduce性能,没有解决namenode内存问题) 2.spark处理小文件原创 2018-09-27 09:14:38 · 875 阅读 · 0 评论 -
Spark-2.3.0环境搭建安装
安装包:spark-2.3.0-bin-hadoop2.71. 下载安装包wget https://archive.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz2. 解压缩tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /usr/local3. 配置环境变...原创 2018-10-09 17:25:06 · 2164 阅读 · 0 评论