
大数据.spark
阿木的程序媛
这个作者很懒,什么都没留下…
展开
-
spark性能优化:数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一原创 2017-06-25 15:46:44 · 346 阅读 · 0 评论 -
Spark Rdd coalesce()方法和repartition()方法
有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区。或者需要把Rdd的分区数量调大。还有就是通过设置一个Rdd的分区来达到设置生成的文件的数量。有两种方法是可以重设Rdd的分区:分别是 coalesce()方法和repartition()。转载 2017-06-13 16:40:05 · 590 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却原创 2017-06-26 05:40:51 · 269 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却原创 2017-06-26 05:36:43 · 248 阅读 · 0 评论 -
CentOS下Storm 1.0.0集群安装详解
本文环境如下: 操作系统:CentOS 6 32位 ZooKeeper版本:3.4.8 Storm版本:1.0.0 JDK版本:1.8.0_77 32位 Python版本:2.6.6 集群情况:一个主控节点(Master)和两个工作节点(Slave1,Slave2)1. 搭建Zookeeper集群安装参考:CentOS下ZooKeeper单机模式原创 2017-03-11 13:06:44 · 245 阅读 · 0 评论