
Spark之路
文章平均质量分 64
congliibm
这个作者很懒,什么都没留下…
展开
-
Spark RDD API详解(一) Map和Reduce
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S...原创 2014-12-23 09:16:33 · 155 阅读 · 0 评论 -
Spark开发环境搭建(for Eclipse)
[size=x-large]下载和安装Scala插件[/size]Scala IDE([url]http://scala-ide.org/[/url]);或者在已有的Eclipse IDE里面安装Scala插件,选择插件安装时注意要选Scala worksheet功能,以方便在Eclipse里面直接测试一些代码片段。也要看清楚和对应版本的Eclipse,不然会有问题。下载后,叫up...原创 2014-12-23 14:20:45 · 274 阅读 · 0 评论 -
第一个Spark程序(编码+Spark-submit提交运行)
[size=xx-large]第一个程序[/size]将搜狗实验室的日志分析,分析出查询排行榜;需要先将txt文件传到HDFS上,然后分析;程序代码:[code="java"]package main.scalaimport org.apache.spark.{ SparkContext, SparkConf }import org.apache.spark...原创 2014-12-23 15:01:23 · 482 阅读 · 0 评论 -
Spark Standalone 集群部署图文分享
[size=x-large][b]JDK和Scala的安装[/b][/size]请参阅Hadoop安装文章里的说明:[url]http://congli.iteye.com/blog/2158007[/url][size=x-large][b]SSH无密码登录[/b][/size]请参阅Hadoop安装文章里的说明:[url]http://congli.iteye.com/bl...原创 2014-11-19 16:37:11 · 130 阅读 · 0 评论