
Spark
rong_code
这个作者很懒,什么都没留下…
展开
-
spark-shell启动spark报错
spark-shell启动spark报错 前言 离线安装好CDH、Coudera Manager之后,通过Coudera Manager安装所有自带的应用,包括hdfs、hive、yarn、spark、hbase等应用,过程很是波折,此处就不抱怨了,直接进入主题。 描述 在安装有spark的节点上,通过spark-shell启动spark,满怀期待的启动spark,but,来了个晴...原创 2019-11-05 14:34:35 · 1942 阅读 · 0 评论 -
spark sql 综合实例
该文主要展示的是spark sql 例子 (内容是找了份oracle的例子,翻译成spark sql的) 1、需要准备好四张表,既四个文本文件逗号分隔 2、为这四张表创建好schema,并注册成表 3、时间处理有小部分改动 准备的四张表 image.png image.png image.png image.png 四张表中的数据 ...原创 2019-03-09 14:00:19 · 512 阅读 · 1 评论 -
Spark SQL 教程
一、什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。 image.png 二、为什么要学习Spark SQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduc...原创 2019-03-09 14:01:51 · 225 阅读 · 0 评论 -
SparkStreaming 窗口操作
热点搜索词滑动统计,每隔10秒钟,统计最近60秒钟的搜索词的搜索频次,并打印出排名最靠前的3个搜索词以及出现次数 普通SparkStreaming处理方式,如果将时间间隔设置成60s,无法每隔10s输出一次结果;如果将时间间隔设置成60s,同时使用updatebyKeyState,那么统计的是持续的累加结果,无法做到统计60s之内的结果,此时就需要使用滑动窗口来实现。 Streaming提...原创 2019-03-09 14:02:21 · 586 阅读 · 1 评论 -
SparkStreaming-----SparkStreaming教程
概要 Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处理过的数据可以被推送到文件系统,数据库和HDFS。 imag...原创 2019-03-08 17:37:25 · 348 阅读 · 0 评论 -
Spark中广播变量和累加器
一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。 累机器相当于统筹大变量,常用于计数,统计。 二、具体原理 1、广播变量 广播变量理解图 image 注意事项 1、能不能将一个RDD使用广播变量广播出去? 不能,因为RDD是不存储数据的。可以将RDD的结果广播出去。 2、 广播变量只能在...原创 2019-03-08 17:36:11 · 151 阅读 · 0 评论 -
Spark-RDD持久化
(1) persist算子 使用方法: var rdd = sc.textFile("test") rdd = rdd.persist(StorageLevel.MEMORY_ONLY) val count = rdd.count() //或者其他操作 StorageLevel说明: StorageLevel的构造函数: class StorageLevel private( ...原创 2019-03-08 17:32:59 · 280 阅读 · 0 评论 -
Spark运行原理
本文主要分以下章节: 一、Spark专业术语定义 二、 Spark的任务提交机制 一、Spark专业术语定义 1、Application:Spark应用程序 指的是用户编写的Spark应用程序,包含了Driver功能代码和分布在集群中多个节点上运行的Executor代码。 Spark应用程序,由一个或多个作业JOB组成,如下图所示: image 2、Driver:驱动程序 S...原创 2019-03-08 17:31:45 · 310 阅读 · 0 评论 -
二种方法实现Spark计算WordCount
1.spark-shell val lines = sc.textFile("hdfs://spark1:9000/spark.txt") val words = lines.flatMap(line => line.split(" ")) val pairs = words.map(word => (word, 1)) val wordCounts = pairs.reduceB...原创 2019-02-27 19:53:00 · 315 阅读 · 0 评论 -
spark history server配置使用
问题描述 在Spark安装成功后,无论是通过spark-submit工具还是通过Intellij IDEA提交任务,只要在Spark应用程序运行期间,都可以通过WebUI控制台页面来查看具体的运行细节,在浏览器中通过地址:http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束,该Web界面也就失效了,无法继续查看监控集群信息。无法回顾刚刚运...原创 2019-02-27 19:45:53 · 200 阅读 · 0 评论 -
Spark完全分布式集群搭建
环境准备 服务器集群 我用的CentOS-6.6版本的4个虚拟机,主机名为hadoop01、hadoop02、hadoop03、hadoop04,另外我会使用hadoop用户搭建集群(生产环境中root用户不是可以任意使用的) spark安装包 下载地址:https://mirrors.aliyun.com/apache/spark/ 我用的spark-2.2.0-bin-h...原创 2019-02-27 19:44:06 · 542 阅读 · 0 评论 -
spark单机版intelij开发(含maven)
https://www.jianshu.com/p/200473f264bchttps://blog.csdn.net/a2011480169/article/details/52712421 参考博客: 1、http://wwwlouxuemingcom.blog.163.com/blog/static/20974782201321953144457/ 2、http://blog.csdn.n...原创 2019-02-27 19:41:05 · 175 阅读 · 0 评论 -
26 -大数据 centos spark单机版伪分布式模式(1)
Spark的部署方式包括Standalone、YARN、Mesos,在我们学习Spark编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。 1.2 Spark 部署依赖 Spark Standalone的运行依赖于JDK、Scala,本来是不依赖于Hadoop的,但Spark自带的许多演示程序都依赖于Hadoop HDFS,因此我们也部署了伪分布式的Hadoop。 本次部署是在cen...原创 2019-02-27 19:37:06 · 348 阅读 · 0 评论