
Spark
晟翊zzZ
这个作者很懒,什么都没留下…
展开
-
大数据之Spark Streaming调优
减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间:① 数据接收的并行水平通过网络(如kafka,flume,socket等)接收数据需要这些数据反序列化并被保存到Spark中。如果数据接收成为系统的瓶颈,就要考虑并行地接收数据。注意,每个输入DStream创建一个receiver(运行在worker机器上)接收单个数据流。创建多个输入DStream并配置它们可以从源中接收不同...原创 2019-11-24 21:03:55 · 213 阅读 · 0 评论 -
大数据之Spark Streaming(二)
输入DStreams和接收器输入DStreams表示从数据源获取输入数据流的DStreams。在NetworkWordCount例子中,lines表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联,这个Receiver从源中获取数据,并将数据存入内存中用于处理。输入DStreams表示从数据源获取的原始数据流。Spark ...原创 2019-11-24 20:26:43 · 241 阅读 · 0 评论 -
大数据之Spark Streaming
Spark Streaming简介Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高级函数(如map,reduce,join和window)开发的复杂算法进行流数据处理。最后,处理后的数据可以被推送到文件系统,数据库和实时仪表板。而且,您还...原创 2019-11-21 17:53:31 · 188 阅读 · 0 评论 -
SparkSQL案例
import java.text.SimpleDateFormatimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSession/** * @Autho: Administrator and wind * @Version: 2019/11/19 & 1.0 * * Spark...原创 2019-11-20 20:42:24 · 365 阅读 · 0 评论 -
大数据之SparkSQL优化
SparkSQL性能优化在内存中缓存数据性能调优主要是将数据放入内存中操作。通过spark.cacheTable(“tableName”)或者dataFrame.cache()。使用spark.uncacheTable(“tableName”)来从内存中去除tableDemo案例从Oracle数据库中读取数据,生成DataFrameval oracleDF = spark.read.f...原创 2019-11-20 20:41:00 · 388 阅读 · 0 评论 -
大数据之Spark(三)
Spark SQL基础Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。Spark SQL的特点:容易整合(集成)统一的数据访问方式兼容Hive标准的数据连接基本概念:Datasets和DataFramesDataFrameDataFrame是组织成命...原创 2019-11-17 23:07:15 · 254 阅读 · 0 评论 -
Spark基础编程案例
Spark基础编程案例案例一:求网站的访问量求出访问量最高的两个网页要求显示:网页名称、访问量原创 2019-11-13 22:20:25 · 381 阅读 · 1 评论 -
大数据之Spark(二)
Spark的算子RDD基础什么是RDD?RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RD...原创 2019-11-11 21:00:26 · 256 阅读 · 0 评论 -
大数据之Spark(一)
什么是Spark?官网:http://spark.apache.org我的翻译:Spark是一个针对大规模数据处理的快速通用引擎Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包...原创 2019-11-10 22:34:15 · 386 阅读 · 0 评论