- 博客(8)
- 收藏
- 关注
原创 Spark2.0 + Hadoop2.7.2 + Centos7 集群部署<一>
Centos7 集群部署到官网下载 virtualbox安装文件 https://www.virtualbox.org/wiki/Downloads到官网下载centos7镜像文件 http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1511.iso
2016-09-18 22:37:00
1628
原创 Spring beanFactory简介
beanFactory 是spring IoC中一个最基本的容器,位于继承图最顶端的一个接口。spring IoC容器的接口/类设计图如下所示(注:该图只包含部分接口或子类): 图 1.1(图片来源于http://www.pinhuba.com/spring/101250.htm) 作为一个最古老的祖先接口,beanFactory接口定义了一个容器应该具备的最基本的功能
2016-08-21 16:17:23
438
原创 创建Executor
当sparkContext被创建后,worker就会分配executor,这个过程如下图所示: 如上图所示,executor要经过很多个步骤才会被创建。SparkContext中有一个叫做createTaskScheduler()的函数,这个函数会根据master URL的类型,创建taskScheduler和相应的backend,其主要代码如下:
2016-06-27 23:42:12
573
原创 DAGScheduler 源码走读
要理解DAGScheduler,首先就得了解RDD的生命周期。RDD是什么?且看它的全称 Resilient Distributed Datasets,弹性式分布数据集。没错,一个RDD就是一个数据集,而且这个数据集自带了很多方法,这些方法可分为两种:transformation 和 action。
2016-06-15 21:02:46
431
原创 深入理解RDD
RDD最基本的五个特征 RDD 即 Resilient Distributes Dataset, 是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD,提供了一系列操作,比如 map、flatMap、filter等。input source种类繁多,比如hdfs上存储的文件、本地存储的文件,相应的 RDD的种类也有
2016-06-06 00:06:05
9489
原创 Maven编译报permGen错,解决办法之一
终端输入export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"
2015-04-11 11:11:07
666
原创 Mac 10.10.2编译Hadoop-2.6.0-src
楼主写过一篇博客《Ubuntu14.04 编译 hadoop2.6.0源码以及把源码导入eclipse》 ,基于这篇文章以及网上其他博主的博客,我在Mac 10.10.2上面编译Hadoop-2.6.0-src,着实吃了不少麻烦。我各种换maven版本和jdk版本,不管怎么换依旧报错default-testCompiler(楼主觉得编译Hadoop源码报错,一般都是maven报错或者jdk报错),
2015-04-07 18:17:59
531
原创 Ubuntu14.04 编译 hadoop2.6.0源码以及把源码导入eclipse
1.下载源码http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6/2.编译环境准备:* JDK 1.7(楼主试过JDK1.8,编译会报错)* Maven 3.1.1 * Findbugs 1.3.9 * ProtocolBuffer 2.5.0* CMake 2.8.5* Zlib devel (if
2015-01-26 22:22:00
1258
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人