spark_书灯的博客-CSDN博客

spark

关注

关注数：文章数：30 文章阅读量：24430 文章收藏量：8

作者: 书灯

和喜欢的人，在一起，做喜欢的事。

展开

spark学习笔记之二：宽依赖和窄依赖

宽依赖和窄依赖

原创 2017-07-27 17:17:42 · 1902 阅读 · 0 评论
spark学习笔记之一：RDD的五大特性

RDD的五大特性

原创 2017-07-27 17:12:32 · 9966 阅读 · 0 评论
spark--transform算子--union

union方法可以合并两个RDD，但是不去重，仅仅合并而已

原创 2017-07-19 10:08:27 · 402 阅读 · 0 评论
spark--transform算子--sortByKey

sortByKey方法用于针对Key做排序，默认是按照升序排序

原创 2017-07-19 10:05:31 · 361 阅读 · 0 评论
spark--transform算子--sample

sample根据概率随机,第一个参数为True会出现重复的数，第二个参数表示随机数的比例，第三个参数表示随机的种子

原创 2017-07-19 09:49:06 · 449 阅读 · 0 评论
spark--transform算子--repartition

repartition，功能是将RDD的partition的数量增多或者减少

原创 2017-07-19 09:39:44 · 450 阅读 · 0 评论
spark--transform算子--reduceByKey

reduceByKey方法用于根据key做分组计算，但是和reduce不同，他还是属于T算子

原创 2017-07-19 09:06:13 · 409 阅读 · 0 评论
spark--transform算子--parallelized

parallelize 操作会将集合并行化为RDD

原创 2017-07-18 21:56:34 · 359 阅读 · 0 评论
spark--transform算子--mapPartitionsWithIndex

如果想知道谁分到了一起，mapPartitionsWithIndex这个算子可以拿到每个partition的index

原创 2017-07-18 21:52:14 · 346 阅读 · 0 评论
spark--transform算子--mapPartitions

mapPartitions算子，按照分区遍历，一次处理一个partition中所有的数据

原创 2017-07-18 21:46:51 · 439 阅读 · 0 评论
spark--transform算子--map

map 遍历元素，对每个元素进行操作

原创 2017-07-18 21:43:57 · 807 阅读 · 0 评论
spark--transform算子--join

join方法为(K,V)和(K,W)的数据集调用，返回相同的K所组成的数据集

原创 2017-07-18 21:38:58 · 320 阅读 · 0 评论
spark--transform算子--intersection

intersection方法用于取两个RDD的交集

原创 2017-07-18 21:24:34 · 948 阅读 · 0 评论
spark--transform算子--groupByKey

groupByKey把相同的key的元素放到一起去

原创 2017-07-18 11:42:20 · 404 阅读 · 0 评论
spark--transform算子--flatMap

flatMap = flat + map返回多个元素

原创 2017-07-18 11:41:10 · 280 阅读 · 0 评论
spark--transform算子--filter

filter 过滤元素

原创 2017-07-18 11:39:08 · 854 阅读 · 0 评论
spark--transform算子--distinct

distinct方法用于对本身的数据集进行去重处理

原创 2017-07-18 11:15:13 · 491 阅读 · 0 评论
spark--transform算子--cogroup

在类型为（K,V)和（K,W)的数据集上调用，返回一个 (K, (Seq[V], Seq[W]))元组的数据集。

原创 2017-07-17 17:56:07 · 302 阅读 · 0 评论
spark--transform算子--coalesce

coalesce算子，功能是将RDD的partition的数量减缩，减少

原创 2017-07-17 17:52:22 · 297 阅读 · 0 评论
spark--transform算子--cartesian

这个方法用于计算两个(K,V)数据集之间的笛卡尔积

原创 2017-07-17 17:47:49 · 476 阅读 · 0 评论
spark--actions算子--takeSample

获取随机数

原创 2017-07-13 09:41:14 · 698 阅读 · 0 评论
spark--actions算子--takeOrdered

基于内置的排序规则或者自定义的排序规则排序，返回前n个元素

原创 2017-07-13 09:37:53 · 242 阅读 · 0 评论
spark--actions算子--saveAsTextFile

将数据集作为文本文件保存到指定的文件系统、hdfs、或者hadoop支持的其他文件系统中

原创 2017-07-13 09:35:18 · 617 阅读 · 0 评论
spark--actions算子--saveAsObjectFile

基于java序列化保存文件

原创 2017-07-13 09:28:55 · 804 阅读 · 0 评论
spark--actions算子--reduce

reduce它需要两个参数并返回一个，来聚合数据集的元素。

原创 2017-07-12 18:32:04 · 330 阅读 · 0 评论
spark--actions算子--first

first返回数据集的第一个元素，类似于take(1)

原创 2017-07-12 14:36:09 · 247 阅读 · 0 评论
spark--actions算子--count

计算数据集的数据个数，一般都是统计内部元素的个数。

原创 2017-07-12 14:20:00 · 367 阅读 · 0 评论
spark--actions算子--collect

collect算子会将在分布式集群中的数据拉取到driver端，如果数据量大，会走大量的网络传输。

原创 2017-07-08 10:35:36 · 372 阅读 · 0 评论
spark简介

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark

原创 2017-07-05 14:47:46 · 258 阅读 · 0 评论
spark--Actions算子--countByKey

仅适用于类型（K，V）的RDD,返回与每个键的计数的（K，Int）对的hashmap

原创 2017-07-04 18:29:41 · 236 阅读 · 0 评论

spark

作者: 书灯

spark学习笔记之二：宽依赖和窄依赖

spark学习笔记之一：RDD的五大特性

spark--transform算子--union

spark--transform算子--sortByKey

spark--transform算子--sample

spark--transform算子--repartition

spark--transform算子--reduceByKey

spark--transform算子--parallelized

spark--transform算子--mapPartitionsWithIndex

spark--transform算子--mapPartitions

spark--transform算子--map

spark--transform算子--join

spark--transform算子--intersection

spark--transform算子--groupByKey

spark--transform算子--flatMap

spark--transform算子--filter

spark--transform算子--distinct

spark--transform算子--cogroup

spark--transform算子--coalesce

spark--transform算子--cartesian

spark--actions算子--takeSample

spark--actions算子--takeOrdered

spark--actions算子--saveAsTextFile

spark--actions算子--saveAsObjectFile

spark--actions算子--reduce

spark--actions算子--first

spark--actions算子--count

spark--actions算子--collect

spark简介

spark--Actions算子--countByKey