
spark
文章平均质量分 58
王树民
大JAVA
展开
-
SparkSQL 中group by、grouping sets、rollup和cube方法详解
在平时的工作中,经常有按照不同维度筛选和统计数据的需求。拿视频会员订单数据来说吧,运营人员要查看深圳市的成功下单数或则深圳市某一种产品的成功下单数或者某一种产品的所有成功下单数时,每天的订单数又很大,现查的话按照不同的维度去查询又很慢。此时本篇文章或许会帮助到你。group by:主要用来对查询的结果进行分组,相同组合的分组条件在结果集中只显示一行记录。可以添加聚合函数。grouping sets:对分组集中指定的组表达式的每个子集执行group by,grou...原创 2020-11-20 19:31:26 · 1615 阅读 · 0 评论 -
window下Sparksql 无法获取文件权限问题
Caused by: java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: (null) entry in command string: null ls -F D:\tmp\hiveCaused by: java.lang.RuntimeException: Error while running command to get file ...原创 2020-11-16 13:19:00 · 1076 阅读 · 0 评论 -
Eclipse报错Project configuration is not up-to-date with pom.xml
Eclipse报错Project configuration is not up-to-date with pom.xml1.问题Description Resource Path Location Type Project configuration is not up-to-date with pom.xml. Select: Maven->Update Project... from ...转载 2018-05-21 13:52:42 · 1015 阅读 · 0 评论 -
Caused by: java.lang.ClassNotFoundException: scala.collection.GenTraversableOnce$class
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties18/04/21 19:05:26 INFO SparkContext: Running Spark version 1.6.2Exception in thread "main" java.lang.NoClassDefFoundError...原创 2018-04-21 19:10:26 · 9852 阅读 · 0 评论 -
从MySQL中加载数据(Spark Shell方式)和 将数据写入到MySQL中(打jar包方式)
1. 数据源1.1. JDBCSpark SQL可以通过JDBC从关系型数据库中读取数据的方式创建DataFrame,通过对DataFrame一系列的计算后,还可以将数据再写回关系型数据库中。1.1.1. 从MySQL中加载数据(Spark Shell方式)1.启动Spark Shell,必须指定mysql连接驱动jar包/usr/local/spark-1.5.2-bin-hadoop2.6/b...原创 2018-04-21 17:36:58 · 1953 阅读 · 0 评论 -
遇到的问题及解决思路
Spark on Yarn遇到的问题及解决思路 [复制链接] pig21781主题2768帖子1万积分超级版主积分16951收听TA发消息电梯直达楼主 发表于 2014-10-8 00:05:11 | 只看该作者 |只看大图 about云hadoop日志分析问题导读1.Connection Refused可能原因是什么?2.如何判断内存溢出,该如何解决?扩展:3.你认为/etc/hosts配置错...转载 2018-04-19 23:48:25 · 2142 阅读 · 0 评论 -
spark连接问题
18/04/19 23:27:58 INFO master.Master: Registering worker 192.168.72.143:41196 with 4 cores, 2.7 GB RAM18/04/19 23:28:00 INFO master.Master: Registering worker 192.168.72.141:38108 with 4 cores, 2.7 GB...原创 2018-04-19 23:37:44 · 6259 阅读 · 8 评论 -
apache-spark org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120
apache-spark org.apache.spark.rpc.RpcTimeoutException: Cannot receive any reply in 120Ask Questionup vote2down votefavoriteI has configured a spark cluster in standalone mode. I can see that both work...转载 2018-04-19 22:40:57 · 6250 阅读 · 0 评论 -
tomap 和tolist
cala> lst0.grouped(4)res228: Iterator[List[Int]] = non-empty iteratorscala> res228.toListres229: List[List[Int]] = List(List(1, 2, 3, 4), List(5, 6))scala> lst0.grouped(2)res230: Iterator[Lis...原创 2018-04-22 22:45:14 · 1794 阅读 · 0 评论 -
debug和编译环境
原创 2018-04-08 13:38:56 · 299 阅读 · 0 评论 -
Scala IDE for Eclipse 之spark scala语言开发环境搭建------遇到问题记录
Scala IDE for Eclipse 之spark scala语言开发环境搭建------遇到问题记录2016年12月29日 19:37:551922人阅读 评论(0) 收藏 举报 分类:Spark(10) 版权声明:你好,欢迎来到我的博客。 https://blog.csdn.net/zwyjg/article/details/53931573spark开发都建议使用idea,但是使用不...转载 2018-04-08 13:39:13 · 2619 阅读 · 0 评论 -
Eclipse+maven+scala+spark环境搭建
Eclipse+maven+scala+spark环境搭建标签: eclipse scala maven spark2016年08月09日 18:30:193407人阅读 评论(0) 收藏 举报 分类:Spark(2) 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/daiyutage/article/details/52165141目录(?)[-...转载 2018-04-07 11:49:42 · 579 阅读 · 0 评论 -
安装Scala的Eclipse插件
一、下载Scala软件准备:Eclipse Juno版本(4.2版本),可以直接点击这里下载:Eclipse 4.2Scala 2.9.3版本,Window安装程序可以直接点击这里下载:Scala 2.9.3Eclipse Scala IDE插件,可直接点击这里下载:Scala IDE(for Scala 2.9.x and EclipseJuno)但是Scala最方便的安装方式是通过IDE安装,...原创 2018-04-07 11:14:23 · 4432 阅读 · 0 评论 -
class"javax.servlet.ServletRegistration"'s signer information does notmatch signer information of ot
ERROR spark.SparkContext: Errorinitializing SparkContext.java.lang.SecurityException:class"javax.servlet.ServletRegistration"'s signer information does notmatch signer information of other classes in ...转载 2018-04-21 19:30:10 · 3493 阅读 · 0 评论 -
initial job has not accepted any resources的spark错误解决办法
initial job has not accepted any resources的spark错误解决办法原创 2016年03月04日 16:57:35标签:spark /多个程序 /同步提交1936在运行多个spark应用程序的时候,经常会出现initial job has not accepted any resources的错误。而如果用spark-submit方式提交的话,经常是结果不显...转载 2018-04-21 19:42:54 · 4909 阅读 · 2 评论 -
spark问题
【腾讯云】买域名送云解析+SSL证书+建站!>>> 摘要: 根据开发测试锁遇到的一些问题总结记录 注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面...转载 2018-04-21 21:27:34 · 523 阅读 · 0 评论 -
Hive + Sqoop + MySQL + Spark
予早 关注2018.12.22 17:31* 字数 363 阅读 293评论 0喜欢 0安装 Hive +Sqoop+MySQL+Spark 先将 system_logs.sql 导入 MySQL,使用 Sqoop 将 MySQL 中的数据导入 Hive 使用 spark 读取 Hive 中的数据,完成以下要求: 使用 Spark 分别计算 Hive 数据中 params ...转载 2019-02-11 17:13:07 · 1348 阅读 · 0 评论 -
通过公共API访问导入数据到OpenTSDB
更新时间: 2018-09-26 10:56查看PDFSQL应用使用SQL方式编写一个完整的对接OpenTSDB代码的步骤如下:创建SparkSession。 import org.apache.spark.sql.SparkSessionval sparkSession = SparkSession.builder().getOrCreate() ...转载 2019-01-08 08:38:26 · 1106 阅读 · 1 评论 -
Spark core优化配置参数
Spark core优化配置参数2018年06月08日 12:30:27 张行之 阅读数:674 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_33689414/article/details/80621578Spark core优化配置参数应用属性 描述 spark.driver.cores 在集群模式下管...原创 2018-12-25 15:24:54 · 439 阅读 · 0 评论 -
spark高可用集群搭建及运行测试
文中的所有操作都是在之前的文章spark集群的搭建基础上建立的,重复操作已经简写;之前的配置中使用了master01、slave01、slave02、slave03; 本篇文章还要添加master02和CloudDeskTop两个节点,并配置好运行环境; 一、流程:1、在搭建高可用集群之前需要先配置高可用,首先在master01上: [hadoop@master0...转载 2018-12-21 13:01:37 · 258 阅读 · 0 评论 -
Spark(一): 基本架构及原理
2017年03月08日 11:26:45 风语飘摇 阅读数:99174 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用...转载 2018-12-26 17:22:15 · 462 阅读 · 0 评论 -
spark 的各种参数配置
2018年01月03日 11:19:46 hankl1990 阅读数:1784https://www.jianshu.com/p/9b243c0a7410 1 spark on yarn常用属性介绍属性名 默认值 属性说明 spark.yarn.am.memory 512m 在客户端模式(client mode)下,yarn应用ma...原创 2018-12-26 16:55:29 · 2618 阅读 · 0 评论 -
spark运行方式及其常用参数
2016年09月19日 18:27:47 jiewuyou 阅读数:1224 标签: spark 更多个人分类: 云计算所属专栏: spark私房菜本文将介绍spark的几种运行方式,及常用的参数yarn cluster模式例行任务一般会采用这种方式运行指定固定的executor数作业常用的参数都在其中指定了,后面的运行脚本会省略spark-submit \...转载 2018-12-26 16:46:48 · 964 阅读 · 0 评论 -
spark-shell运行spark任务参数设置
2016年09月23日 11:02:02 zrc199021 阅读数:12548之前初学spark用spark-shell执行小程序的时候, 每次执行action操作(比如count,collect或者println),都会报错:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check you...转载 2018-12-26 16:27:41 · 2977 阅读 · 0 评论 -
Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程
Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点 之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。...转载 2018-12-20 10:47:28 · 795 阅读 · 1 评论 -
专注于Scala语言、Hadoop及Spark大数据处理技术
摇摆少年梦的技术博客专注于Scala语言、Hadoop及Spark大数据处理技术RSS订阅只看原创排序:默认按更新时间按访问量原 Spark修炼之道(进阶篇)——Spark入门到精通:第十二节 Spark Streaming—— DStream Window操作作者:周志湖 微信号:zhouzhihubeyond本节主要内容 Window Operation 入门案例 1. Window Oper...转载 2018-07-16 11:08:59 · 865 阅读 · 0 评论 -
Scala eclipse 错误 -找不到或无法加载主类
Scala eclipse 错误 -找不到或无法加载主类原创 2016年12月28日 15:45:45标签:spark3913scala的项目有错误,运行时,显示找不到无法加载主类 eclipse的代码没有错误,原因是,java跟scala的类写在了同项目下 混合java 和scala 不编译的问题 我的做法是: 右键项目-properties-scala Compiler -Build mana...转载 2018-04-07 11:08:03 · 1778 阅读 · 0 评论 -
win10 系统 eclipse配置scala+spark开发环境
win10 系统 eclipse配置scala+spark开发环境翻译 2017年09月27日 23:00:06标签:win10 系统 eclipse配置sc252第一步:安装JDK (1)下载JDK(1.7以上版本) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html (2)配置环境变量(...转载 2018-04-07 09:50:04 · 377 阅读 · 0 评论 -
查数据println(res171.map(_.toBuffer).toBuffer)
scala> scala> val rdd2 = sc.textFile("hdfs://centosnode1:9000/person.json")scala> rdd2.collectres159: Array[String] = Array(1201 satish8 21, 1202 tom 21, 1203 xiaoming 22, 1204 satish1 21, 12...原创 2018-04-22 21:49:28 · 1067 阅读 · 0 评论 -
结果报了如上的错误信息,把mvn去掉即可。
Unknown lifecycle phase "mvn". You must specify a valid lifecycle phase or a goal in the format <plugin-prefix>:<goal> or <plugin-group-id>:<plugin-artifact-id>[:<plugin-ver...转载 2018-04-08 13:38:33 · 262 阅读 · 0 评论 -
eclipse构建maven scala 项目 编译成功
eclipse构建maven scala 项目 编译成功原创 2016年07月05日 13:28:36标签:spark /scala8310一、安装eclipse scala插件系统:win7eclipse版本:Luna Release(4.4.0)maven是从EclipseMarket中安装的2. 安装m2e-scalaurl是:http://alchim31.free.fr/m2e-scal...转载 2018-04-08 13:38:45 · 3144 阅读 · 0 评论 -
eclipse.ini
-vmC:/Program Files (x86)/Java/jdk1.7.0_72/bin-startupplugins/org.eclipse.equinox.launcher_1.3.100.v20150511-1540.jar--launcher.libraryplugins/org.eclipse.equinox.launcher.win32.win32.x86_1.1.300.v201...原创 2018-04-08 13:38:51 · 420 阅读 · 0 评论 -
忽然遇到报错:ERROR spark.SparkContext: Error initializing SparkContext.
忽然遇到报错:ERROR spark.SparkContext: Error initializing SparkContext.原创 2016年05月06日 15:36:1210022java.lang.IllegalArgumentException: System memory 100663296 must be at least 4.718592E8. Please use a large...转载 2018-03-18 10:56:29 · 25278 阅读 · 0 评论 -
spark 启动
总用量 0[wangshumin@CentOSNode1 logs]$ kill -9 32377[wangshumin@CentOSNode1 logs]$ jps29777 DFSZKFailoverController29362 NameNode29075 JournalNode32547 Jps31837 ResourceManager[wangshumin@CentOSNode1 log...原创 2018-03-11 18:02:26 · 440 阅读 · 0 评论 -
IntelliJ Idea 常用快捷键最全的集合
IntelliJ Idea 常用快捷键最全的集合转载 2015年12月27日 18:17:57标签:IntelliJ Idea /快捷键最全整理9369 转载:http://my.oschina.net/dyyweb/blog/494504IntelliJ Idea 常用快捷键 列表(实战终极总结!!!!)1. -----------自动代码--------常用的有fori/sout/psvm+T...转载 2018-03-17 20:43:50 · 298 阅读 · 0 评论 -
spark-submit
-rwxr-xr-x. 1 wangshumin wangshumin 1084 6月 22 2016 stop-mesos-shuffle-service.sh-rwxr-xr-x. 1 wangshumin wangshumin 1067 6月 22 2016 stop-shuffle-service.sh-rwxr-xr-x. 1 wangshumin wangshumin 1557 6...原创 2018-03-17 11:44:24 · 540 阅读 · 0 评论 -
org.apache.hadoop.security.AccessControlException: Permission denied: user=yuanZmy, access=WRITE,
org.apache.hadoop.security.AccessControlException: Permission denied: user=yuanZmy, access=WRITE,原创 2016年12月18日 12:24:07标签:hdfs /permission denied /java509org.apache.hadoop.security.AccessControlExcep...转载 2018-03-17 11:17:02 · 479 阅读 · 0 评论 -
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries在已经搭建好的集群环境Centos6.6+Hadoop2.7+Hbase0.98+Spark1.3.1下,在Win7系统Intellij开发工具中调试Spark读取Hbase。运行直接报错:123456789101...转载 2018-03-17 10:45:41 · 432 阅读 · 0 评论 -
idea
java.lang.IllegalArgumentException: System memory 468189184 must be at least 4.718592E8原创 2016年03月03日 12:30:146051在Eclipse里开发spark项目,尝试直接在spark里运行程序的时候,遇到下面这个报错:ERROR SparkContext: Error initializing ...原创 2018-03-17 09:16:11 · 169 阅读 · 0 评论 -
hadoop和spark主备HA配置说明
hadoop和spark主备HA配置说明1. 环境说明 集群中包括4个节点:2个Master(主备),2个Salve,节点之间局域网连接,可以相互ping通。节点IP地址分布如下: Hadoop HA集群:IP地址hostnamerole10.12.0.240masterActiveNameNode10.12.0.243 standyMasterStandByNameNode10.12.0....转载 2018-03-11 13:23:26 · 792 阅读 · 0 评论