- 博客(70)
- 资源 (27)
- 收藏
- 关注
原创 spark history server 本地路径
本地启spark history server,spark.history.fs.logDirectory除了可以设置为hdfs远程目录外,还可以设置为本地路径,如:./start-history-server.sh file:///home/te/maruilei/scripts/logs/tmp_log/
2021-06-09 14:38:51
921
原创 Spark启动HistoryServer
1.spark-defaults.conf中添加配置,开启eventLog并指定存放路径:spark.eventLog.enabled=truespark.eventLog.compress=truespark.eventLog.dir=hdfs://XXX:9000/spark_eventlog/2. $SPARK_HOME/sbin下,执行 ./start-history-server.sh 启动history-server:需要注意的是,start-history-server..
2021-02-02 21:32:03
2463
转载 京东Spark自研Remote Shuffle Service在大促中的应用实践
前言本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行各业的应用越来越广泛,Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布,已有十年之久,俨然已经成为大数据计算领域名副其实的老将。虽经过不断的迭代和优化,Spark功能日趋成熟与完善,但在性能及稳定性方面,仍然还有很多可以提升的地方。Shuffle过程作为MapReduce编程模型的性能瓶颈,就是其中重点之一。我们希.
2021-01-19 20:42:21
1710
原创 IDEA中Spark源码接口或方法少实现类
1. 现象:举例说明如:SparkApplication # start方法,被多个类重写,但有时候点左侧overrides看实现状况时,可能会缺少某几个类的实现调用;2. 原因:比如缺少yarn或kubernetes具体类的实现,原因一般是因为Spark项目中module的引用出了问题;我的问题是因为总切换2.4和3.0版本,modules中各个模块同时引入了2.11和2.12版本,module引用冲突导致的;3. 解决办法:File -> Project..
2020-12-16 10:48:32
266
2
原创 spark打包命令
./dev/make-distribution.sh --name hadoop2.7.1 --tgz -Phadoop-2.7 -Psparkr -Phive -Phive-1.2 -Phive-thriftserver -Pyarn -Pkubernetes -DskipTests -Dmaven.test.skip=true
2020-11-24 17:02:30
304
原创 spark触发adaptive skewed join的例子code
1. 启动spark-shell,参数如下:spark-shell --conf spark.driver.allowMultipleContexts=true --conf spark.sql.adaptive.maxNumPostShufflePartitions=5 --conf spark.shuffle.statistics.verbose=true --conf spark.sql.adaptive.enabled=true --conf spark.sql.autoBroadcastJo
2020-11-18 23:34:29
454
原创 Spark Shuffle 例子
sc.parallelize(0 to 0xff, 100).map(i => (i ^ 2, i << 2, i & 2, i | 2)).repartition(100).count()
2020-11-09 14:41:09
260
原创 this file is idented with 4 spaces instead of 2
Idea 调整不同类型文件的缩进大小:Preference-> Editor -> Code Style -> Java / Scala-> Tabs / Indents -> Other -> Ok
2020-10-12 14:12:42
261
1
原创 Error: Could not find or load main class XXX 或 Main class cannot resolve XXX
非maven项目,简简单单的Scala Object main函数调方法,想run或debug起来,结果idea报错Error: Could not find or load main class XXX不是啥sdk或 *..iml的问题,需要确认的是,是否将要调试的class类所在的根目录设置为sources root具体:参考:https://stackoverflow.com/questions/21884217/cant-choose-class-as-main-class-i.
2020-10-09 15:28:13
1483
原创 Java中String转Int
两种办法:1. 用Integer的parseInt(): 1 2 3 4 5 6 Stringstr="123"; try{ inta=Integer.parseInt(str); }catch(NumberFormatExceptione){ e.printStackTrace(); } 2.用Integer的valueOf():...
2020-08-14 11:05:51
508
原创 Spark On K8s Executor失败不删除(方便调试)
--conf spark.kubernetes.executor.deleteOnTermination=false
2020-08-10 17:09:27
635
原创 Spark编码格式校验,引包顺序
import顺序,空行以及格式:java.*scala.*第三方包按字母序如com.*org.*org.apache.spark.*
2020-07-28 11:32:51
261
原创 如何使用火焰图对Spark的executor的CPU使用率进行profile?具体步骤,如何操作?
需要对executor CPU进行profile,看调用栈,有没有函数性能瓶颈,想用火焰图。1. 登录executor所在NM节点;2. 通过ps -ef | grep appId/executor 结合 jps 找到相应executor进程,找到进程pid;3. 通过以下脚本,获取(定时抓取)供profile用的jstack和top等文件:#!/bin/bashif [ $# -eq 0 ]; then echo >&2 "Usage: jstackSeries
2020-07-23 21:40:27
1111
原创 hive server 2 服务端及beeline client客户端 远程debug方式
hive server 2 服务端代码远程debug调试方式:1. idea 添加debug 远程调试,如下:2.将idea 远程debug参数添加到vi hadoop_conf/hadoop-env.sh 中HADOOP_CLIENT_OPTS 配置项中,如:export HADOOP_CLIENT_OPTS="-Xmx5g -agentlib:jdwp=tran...
2020-04-24 10:43:59
2549
2
原创 常用docker知识【持续更新】
1. 基于Dockerfile制作一个镜像:docker build -t docker tag docker push 2. 基于某个镜像启动一个pod:docker run -i -t repo.XX.local/centos/centos-jdk:7.5-XX
2020-04-17 10:59:49
151
原创 scaladiagrams看scala类图依赖关系
1. clone并buildscaladiagrams:git clone https://github.com/mikeyhu/scaladiagrams.gitcd scaladiagrams./build注意: build过程可能遇到本地sbt问题,详见:https://blog.csdn.net/merrily01/article/details/1053913982...
2020-04-08 17:16:15
944
2
原创 Error wrapping InputStream in GZIPInputStream: java.io.EOFException
问题:本地编译scaladiagrams,报错如下,看日志应该是本地sbt环境问题:Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256m; support was removed in 8.0[info] Loading global plugins from /Users/XXXX/.s...
2020-04-08 16:50:20
904
原创 Spark本地跑UT的方法
1. 跑具体某个UT✗ ./build/mvn test -Dtest=moo -DwildcardSuites=org.apache.spark.metrics.sink.JtsdbSinkSuite2. 跑某个模块下所有UT,如:mvn clean package -Pyarn -Phadoop-2.7 -Pkubernetes -Dhadoop.ver...
2020-04-02 18:40:30
788
原创 spark.test.home is not set!
Spark idea本地跑unit test,报错spark.test.home is not set! 怎么办?举例报错详细如下:spark.test.home is not set!ScalaTestFailureLocation: org.apache.spark.deploy.SparkSubmitSuite$$anonfun$58 at (SparkSubmitSuite....
2020-03-03 11:31:38
1187
原创 git rebase 远程分支,落后的commits
1. 将目标远程分支checkout到本地;如:git remote add Upstream https://github.com/apache/spark.gitgit remote update Upstreamgit checkout -t Upstream/branch-2.4.52. 切换到自己的开发分支,将mr相关commits rebase 合并为一...
2020-03-02 12:24:01
6464
原创 Spark单元测试getClass.getClassLoader.getResource读resource路径下的配置文件,总报NullPointerException
IDEA 跑Spark单元测试,需要读取resource路径下测试用的配置文件,用getClass.getClassLoader.getResource("XXXX")总报NullPointerException空指针异常,找不到配置文件。解决办法:删掉根路径下的.idea文件夹,打开项目重新生成一个...
2020-02-20 10:43:00
936
原创 spark on k8s: master pod kube-proxy-mkbp7 Evicte -- The node was low on resource: ephemeral-storag
spark on k8s 集群发现kube-proxy-mkbp7异常,总是Evicted状态,其他node节点上pod正常。1. 通过kubectl describe pod XXXXX -n kube-system 查看pod信息,发现报错日志如下:The node was low on resource: ephemeral-storage. Container kube-pr...
2019-11-18 17:10:40
1433
2
原创 ERROR: unsatisfiable constraints:
背景:测试环境,基于spark-2.4.4代码,打镜像,供spark on k8s使用。问题:执行打包镜像命令,报错如下:docker build -t spark-2.4.4-merrily01-spark -f kubernetes/dockerfiles/spark/Dockerfile . ---> Running in 43e58e4f3a6f+ ...
2019-11-15 12:26:03
13124
原创 Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile
环境:spark:2.4.4maven:apache-maven-3.6.2java: 1.8背景:修改了spark源码,想基于此用spark的make-distribution.sh脚本重新打可部署的tar包,命令如下:./dev/make-distribution.sh --name maruilei-spark --tgz -Phadoop-2.7 -Phiv...
2019-11-15 12:17:35
3511
1
原创 Spark源码分析-应用程序到底是如何提交到Spark并运行的?
网上有不少关于Spark应用程序提交流程分析的文章,有的鞭辟入里、有的浅尝辄止。但由于Spark代码版本更迭或关注点的缘故,总有一些自己想知道的细节不能系统的获取。所以打算基于spark-2.4.4(3.0-release版本还未发版),记录下自己对Spark应用程序提交和运行流程源码的一些分析和理解,同时通过打断点代码调试的方式,将完整的代码执行流程分享给大家,希望能做到真正的手把手带你读Spa...
2019-11-08 15:47:07
245
原创 git如何checkout远程仓库tag
以Spark为例:1.git remote add Upstream https://github.com/apache/spark.git2.git remote update Upstream3. git tag (查看tag,找到自己需要的)4.git checkout v3.0.0-preview-rc2 (直接切换到目标tag,但是tag内容是不能修改的,因...
2019-11-07 10:36:26
28775
原创 Spark On Kubernetes报错Permission denied: user=root, access=WRITE, inode="/user/spark/log":hadoop:supe
Spark On Kubernetes 提交测试任务,driver pod 报错日志,如下:19/11/06 07:38:05 INFO OutputCommitCoordinator$OutputCommitCoordinatorEndpoint: OutputCommitCoordinator stopped!19/11/06 07:38:05 INFO SparkContext: S...
2019-11-06 15:54:15
844
原创 Spark on Kubernetes提交任务报错:Expected HTTP 101 response but was '403 Forbidden'
环境:Spark版本: 2.4.3Kubernetes版本:v1.16.2问题:提交spark-submit example.jar 以cluster方式到k8s集群,driver-pod报错如下:19/11/06 07:06:54 INFO ExecutorPodsAllocator: Going to request 5 executors from Kubernetes...
2019-11-06 15:28:43
7724
原创 Spark on Kubernetes提交测试任务失败报错:User "system:serviceaccount:default:default" cannot get resource "pods
Spark On Kubernetes 通过cluster方式提交spark-submit example.jar包测试任务,driver-pod创建成功,任务失败,driver pod报错日志如下:External scheduler cannot be instantiatedCaused by: io.fabric8.kubernetes.client.KubernetesClien...
2019-11-06 14:27:39
8471
原创 Spark On Kubernetes 提交测试任务
自己在虚拟机上搭建了一个kubernetes测试集群,通过Spark官方文档,提交一个测试任务到kubernetes集群上执行,记录一下:1. 提交命令:cluster模式:$ bin/spark-submit \ --master k8s://https://ip:port \ --deploy-mode cluster \ --name spark-pi ...
2019-11-06 14:11:25
1329
5
原创 kubernetes集群中打包并上传Spark镜像
打包镜像:docker build -t spark-2.4.3-image-merrily01 -f kubernetes/dockerfiles/spark/Dockerfile .docker push XXX遇到问题1:docker pushspark-2.4.3-image-merrily01 失败,报错:hadoop@master:/software/serv...
2019-11-06 13:15:57
492
原创 Failed to initialize compiler: object scala.runtime in compiler mirror-Spark Shell由于Scala编译器原因不能正常启动
有日子没用之前搭的测试集群,今天想用来测试下 Spark一个问题,发现spark-shell启动失败了,报错信息如下:hadoop@master:/software/servers/spark$ spark-shellListening for transport dt_socket at address: 900119/11/06 09:34:26 WARN NativeCodeLoa...
2019-11-06 10:50:32
1120
2
原创 linux下查看进程信息的方法
三个命令:1. jps 找到目标进程的pid;2. jinfo pid , 可以看进程相关参数等信息;2. jstack pid, 可以看到进程中各个线程的方法调用栈信息;
2019-10-31 18:09:00
672
原创 scala [ERROR] Failed to construct terminal; falling back to unsupported
使用scala-2.11.12版本,启动scala时,报错如下:Welcome to Scala 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_191).Type in expressions for evaluation. Or try :help.[ERROR] Failed to construct terminal;...
2019-10-30 17:27:45
4861
7
原创 不知道机器密码,如何通过远程获取传文件?
背景:两台机器,通过跳转方式进入,均不知道密码,想通过scp,实现传递文件,该如何实现?方案:1. 在其中一台机器,存放文件的目录下:python -m SimpleHTTPServer可以空格后跟端口号,默认端口是8000比如:python -m SimpleHTTPServer 80端口80 的时候 ,wget时不需要本地代理,非80端口,wget请求时,可能需要......
2019-07-26 19:16:50
419
原创 Spark源码分析(零):一定要学会的Spark源码远程调试方法remote debug
1. IDEA配置remote debug:2. 客户端设置监听:export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=n,address=9001"3. 客户端提交任务(启动Spark),可以看到监听生效:Listening for ...
2019-07-15 10:18:41
435
protobuf-2.5.0.tar.gz、openssl-1.0.2l.tar.gz、cmake-3.0.2.tar.gz
2018-07-31
juniversalchardet-2.0.0.jar
2017-10-25
nexus-webapp-2.14.4-03.war
2017-10-10
ValidateCode.jar
2017-06-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人