
spark
书灯
和喜欢的人,在一起,做喜欢的事。
展开
-
spark学习笔记之二:宽依赖和窄依赖
宽依赖和窄依赖原创 2017-07-27 17:17:42 · 1902 阅读 · 0 评论 -
spark学习笔记之一:RDD的五大特性
RDD的五大特性原创 2017-07-27 17:12:32 · 9966 阅读 · 0 评论 -
spark--transform算子--union
union方法可以合并两个RDD,但是不去重,仅仅合并而已原创 2017-07-19 10:08:27 · 402 阅读 · 0 评论 -
spark--transform算子--sortByKey
sortByKey方法用于针对Key做排序,默认是按照升序排序原创 2017-07-19 10:05:31 · 361 阅读 · 0 评论 -
spark--transform算子--sample
sample根据概率随机,第一个参数为True会出现重复的数,第二个参数表示随机数的比例,第三个参数表示随机的种子原创 2017-07-19 09:49:06 · 449 阅读 · 0 评论 -
spark--transform算子--repartition
repartition,功能是将RDD的partition的数量增多或者减少原创 2017-07-19 09:39:44 · 450 阅读 · 0 评论 -
spark--transform算子--reduceByKey
reduceByKey方法用于根据key做分组计算,但是和reduce不同,他还是属于T算子原创 2017-07-19 09:06:13 · 409 阅读 · 0 评论 -
spark--transform算子--parallelized
parallelize 操作会将集合并行化为RDD原创 2017-07-18 21:56:34 · 359 阅读 · 0 评论 -
spark--transform算子--mapPartitionsWithIndex
如果想知道谁分到了一起,mapPartitionsWithIndex这个算子可以拿到每个partition的index原创 2017-07-18 21:52:14 · 346 阅读 · 0 评论 -
spark--transform算子--mapPartitions
mapPartitions算子,按照分区遍历,一次处理一个partition中所有的数据原创 2017-07-18 21:46:51 · 439 阅读 · 0 评论 -
spark--transform算子--map
map 遍历元素,对每个元素进行操作原创 2017-07-18 21:43:57 · 807 阅读 · 0 评论 -
spark--transform算子--join
join方法为(K,V)和(K,W)的数据集调用,返回相同的K所组成的数据集原创 2017-07-18 21:38:58 · 320 阅读 · 0 评论 -
spark--transform算子--intersection
intersection方法用于取两个RDD的交集原创 2017-07-18 21:24:34 · 948 阅读 · 0 评论 -
spark--transform算子--groupByKey
groupByKey把相同的key的元素放到一起去原创 2017-07-18 11:42:20 · 404 阅读 · 0 评论 -
spark--transform算子--flatMap
flatMap = flat + map返回多个元素原创 2017-07-18 11:41:10 · 280 阅读 · 0 评论 -
spark--transform算子--filter
filter 过滤元素原创 2017-07-18 11:39:08 · 854 阅读 · 0 评论 -
spark--transform算子--distinct
distinct方法用于对本身的数据集进行去重处理原创 2017-07-18 11:15:13 · 491 阅读 · 0 评论 -
spark--transform算子--cogroup
在类型为(K,V)和(K,W)的数据集上调用,返回一个 (K, (Seq[V], Seq[W]))元组的数据集。原创 2017-07-17 17:56:07 · 302 阅读 · 0 评论 -
spark--transform算子--coalesce
coalesce算子,功能是将RDD的partition的数量减缩,减少原创 2017-07-17 17:52:22 · 297 阅读 · 0 评论 -
spark--transform算子--cartesian
这个方法用于计算两个(K,V)数据集之间的笛卡尔积原创 2017-07-17 17:47:49 · 476 阅读 · 0 评论 -
spark--actions算子--takeSample
获取随机数原创 2017-07-13 09:41:14 · 698 阅读 · 0 评论 -
spark--actions算子--takeOrdered
基于内置的排序规则或者自定义的排序规则排序,返回前n个元素原创 2017-07-13 09:37:53 · 242 阅读 · 0 评论 -
spark--actions算子--saveAsTextFile
将数据集作为文本文件保存到指定的文件系统、hdfs、或者hadoop支持的其他文件系统中原创 2017-07-13 09:35:18 · 617 阅读 · 0 评论 -
spark--actions算子--saveAsObjectFile
基于java序列化保存文件原创 2017-07-13 09:28:55 · 804 阅读 · 0 评论 -
spark--actions算子--reduce
reduce它需要两个参数并返回一个,来聚合数据集的元素。原创 2017-07-12 18:32:04 · 330 阅读 · 0 评论 -
spark--actions算子--first
first返回数据集的第一个元素,类似于take(1)原创 2017-07-12 14:36:09 · 247 阅读 · 0 评论 -
spark--actions算子--count
计算数据集的数据个数,一般都是统计内部元素的个数。原创 2017-07-12 14:20:00 · 367 阅读 · 0 评论 -
spark--actions算子--collect
collect算子会将在分布式集群中的数据拉取到driver端,如果数据量大,会走大量的网络传输。原创 2017-07-08 10:35:36 · 372 阅读 · 0 评论 -
spark简介
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark原创 2017-07-05 14:47:46 · 258 阅读 · 0 评论 -
spark--Actions算子--countByKey
仅适用于类型(K,V)的RDD,返回与每个键的计数的(K,Int)对的hashmap原创 2017-07-04 18:29:41 · 236 阅读 · 0 评论