spark集群在windows下搭建

最新推荐文章于 2023-03-27 08:54:04 发布

walk walk

最新推荐文章于 2023-03-27 08:54:04 发布

阅读量2.5k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/dongtest/article/details/103084936

版权

spark 专栏收录该内容

11 篇文章

订阅专栏

我用三台windows电脑,主机名和 ip对应如下:
（右键我的计算机属性修改计算机名分别为:win-master,win-salver1,win-salver2）
win-master 192.168.0.1
win-salve1 192.168.0.2
win-salve2 192.168.0.3
每台电脑安装好对应的软件，建议安装目录保持一致
1.下载java:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
我下载的是jdk8,根据自己电脑系统选择对应的版本，需要登录后下载。安装好之后，设置系统环境变量JAVA_HOME指向java安装目录，比如我的是D:/spark/Java/jdk1.8.0_231，同时把%JAVA_HOME%\bin目录添加到系统变量path里
2.下载scala:https://www.scala-lang.org/download/2.12.10.html 选择msi格式，然后安装
3.下载spark:http://spark.apache.org/downloads.html
我选择的spark版本为2.4.4 pre-build for apache hadoop 2.7
安装spark 然后设置环境变量SPARK_HOME=d:/spark (我的spark安装目录) ，同样把%SPARK_HOME%\bin目录添加到系统变量path里
4.下载Hadoop:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/ 下载后直接加压就可以，然后设置系统环境变量HADOOP_HOME=你的hadoop目录，同样把%HADOOP_HOME%\bin目录添加到系统变量path里。下载winutils.exe 把它复制到hadoop\bin目录下
5.安装pyspark:将spark目录下python子目录里的pyspark文件夹复制到python安装目录\Python35\Lib\site-packages里
软件安装好后，启动spark就可以了，linux下有自动脚本start-all.sh可以直接启动，在windows下不能用，所以只能手动启动(D:/hadoop2.7,D:/spark是我的hadoop和spark目录)。
先启动master，打开CMD输入启动命令:java -cp “D:/hadoop2.7/conf;D:/spark/jars/" -Xmx1g org.apache.spark.deploy.master.Master --host win-master --port 7077 --webui-port 8080
然后启动master机器的worker，重新打开一个CMD输入：java -cp "D:/hadoop2.7/conf/;D:/spark/jars/” -Xmx1g org.apache.spark.deploy.worker.Worker spark://win-master:7077
然后启动win-salve1和win-salve2的worker命令和master电脑的一样：java -cp “D:/hadoop2.7/conf/;D:/spark/jars/*” -Xmx1g org.apache.spark.deploy.worker.Worker spark://win-master:7077

集群启动起来后，就可以用spark-submit了，在master电脑新开一个CMD，运行d:/spark/bin/spark-submit --master spark://win-master:7077 test.py
然后可以在master电脑中打开浏览器访问localhost:8080 查看状态