
spark
eiffel_0311
这个作者很懒,什么都没留下…
展开
-
redash on spark-thriftserver
redash 的 数据源中不包括spark-thriftserver, 而spark-thriftserver 的出现是为了替代 hiveserver2 直接执行sql。 尝试修改 redash 中 hive 相关的逻辑 以此来支持spark-thriftserver。 1. 测试环境: centos 7 spark2.4.3 hadoop2.10 2. 安装redash 新建文件:docker-compose.yaml version: '2' servi...原创 2020-06-18 17:27:40 · 949 阅读 · 1 评论 -
spark 源码分析
spark 整体架构 spark 四块最重要的:sparkSql spark流处理 机器学习 图计算 spark 2.0 源码结构 spark最核心的代码:https://github.com/apache/spark 分析源码的方法从bin 文件夹开始,我们同常会打开一个spark-shell, 提交任务spark-sbumit, 加入我们执行spark-submit, 那么打开原创 2016-09-29 15:07:23 · 78113 阅读 · 0 评论 -
spark RDD 基本操作
1. map: 对当前元素做一个映射 val array = Array(1,2,3) val rdd = sc.parallelize(array).map(r => 2*r) 2. filter: 过滤出符合条件的元组 val array = Array(1,2,3) val rdd = sc.para原创 2016-01-06 10:22:38 · 71929 阅读 · 0 评论