spark2.0下实现IPYTHON3.5开发,兼配置jupyter,notebook降低python开发难度
1、spark2.0安装就不说了,网上有很多,不会的话给我留言。
2、我们在spark2.0下用python开发的话,不需要安装python了,直接安装anaconda就可以啦!
3、anaconda下载地址:https://www.continuum.io/downloads,这里提供3.5和2.7的,考虑到以后学习,我下载最新的3.5,界面如下:
4、通过scp将其拷贝到linux系统里面,我把它拷贝到了home目录下的Downloads下,大家可以根据自己喜好放置:界面如下:
5、输入安装命令安装命令,如下图所示:
6、回车,如下图所示:
7、输入yes,如下图所示:
8、输入回车,默认安装即可,当然也可以修改,这里默认安装,如下图所示:
9、这时候大家看到,anaconda已经还有python3.5了,所以不需要安装,如下图所示:
10、稍等一会,安装完成如下图所示:
11、anaconda默认的环境变量大家看到上一张图是在home目录下的./bashrc里面,我们vim 一下这个文件,发现环境变量已经配置完成,如下图所示:
12、这时候我们先运行一下pyspark,看下效果,我们发现是2.6.6,不是python3.5,但是还是可以启动的,如下图所示:
13、我们为了使用anaconda,所以这里在.bashrc文件里面配置一下,命令如下:
export PYSPARK_PYTHON=/root/anaconda3/bin
export IPYTHON=”1”
界面如下图所示:
14、这时候我们进入spark的bin目录执行./pyspark,看下界面,如下图所示:
15、我们发现报错了,IPYTHON和IPYTHON_OPTS已经在spark2.0+以上不使用了,所以我们删除IPYTHON=”1”,source一下.bashrc,重新reboot一下虚拟机,这个时候我们在执行./pyspark,界面如下图所示:
16、配置成功!
17、anaconda集成了IPYTHON为的是方便我们开发,大家还记得刚才报错的那个地方,新的版本已经把IPYTHON更名了,好那我们就把刚才报错提示要配置的那两个参数配置一下PYSPARK_DRIVER_PYTHON和PYSPARK_DRIVER_PYTHON_OPTS,命令如下:
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=”notebook –NotebookApp.open_browser=False –NotebookApp.ip=’*’ –NotebookApp.port=8880”
界面如下:
这个时候在重新启动./pyspark,发现启动界面变了,如下图所示:
我们这时候可以在浏览器里面可以按红色框提示的信息输入,例如我输入:192.168.85.100:8880,界面如下图所示:
哇塞,一不小心我们把Jupyter配置好了,关于Jupyter的使用,大家可以上官网查阅,我这里就不解释了,这样基于python学习spark是不是方便一些了。
总结:spark2.0整合python开发主要是安装一下anaconda,然后配置一下PYSPARK_DRIVER_PYTHON和PYSPARK_DRIVER_PYTHON_OPTS参数,接下来我们就开始学习spark的开发吧。