- 博客(27)
- 资源 (5)
- 收藏
- 关注
原创 spark常用命令
查看报错日志:yarn logs applicationIDspark2-submit --master yarn --class com.hik.ReadHdfs test-1.0-SNAPSHOT.jar进入$SPARK_HOME目录,输入bin/spark-submit --help可以得到该命令的使用帮助。hadoop@wyy :/app/hadoop/spark100$ bin/spark-submit --helpUsage: spark-submit [options] <ap
2021-05-17 14:05:42
1686
原创 hadoop常用命令
1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。2、单进程启动。sbin/start-dfs.sh--------------- sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ... sbin/hadoop-daemons.sh --conf...
2021-05-17 14:02:01
332
原创 hive常用命令
hive -e "select * from ..." > /tmp/datahive -f 文件INSERT OVERWRITE TABLE employeesPARTITION (country = 'US', state = 'OR')SELECT * FROM staged_employees seWHERE se.cnty = 'US' AND se.st = 'OR';假如需要对多个分区执行,需要扫描表多次FROM staged_employees seINSERT .
2021-05-11 11:29:42
195
原创 sql常用函数
find:查找文件:find ./actions/ -name Constract.php查找包含leyangjun字母的文件:find /etc -name '*leyangjun*'查找srm开头的文件:find/etc -name 'srm*'我们要在/usr目录及子目录下查找文件名包含“leyangjun”关键字的文件:find /usr -print |grep leyangjungrep:在Constract.php文件中查找字符leyangjun的行:grep 'leyangjun
2021-05-11 09:47:53
165
原创 kafka常用命令
windows:1.启动zk zkserver2.启动Kafka .\bin\windows\kafka-server-start.bat .\config\server.properties3.创建主题 kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic OUT_TOPIC4. 列出主题kafka-topic.bat -...
2021-05-11 09:45:48
1117
原创 sparkSQL多条记录列转行
val view = ss.sql( """ | select field1,concat_ws(",",collect_set(field2)) as convert_field | from t1 | where field1 is not null | group by field1 |""".stripMargin)
2021-05-10 11:20:30
217
原创 sparkSQL根据一个字段分隔转多行
代码: val row2columnStr = """ |select * from temp_view |lateral view explode(split(field, ',')) tmpTable as result_view """.stripMargin
2021-05-10 10:55:19
713
原创 spark读写kudu2
maven依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/ma
2021-05-10 10:25:32
227
原创 java RestHighLevelClient方式操作es
之前有写过一篇文章,介绍使用继承ElasticsearchRepository类或者使用ElasticSearchTemplate的方式进行CRUD,但是因为API更新不及时,逐渐不用了。目前还是推荐使用官方的API,即RestHighLevelClient的方式查询。使用过程中遇到一些坑,记录下maven依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifact
2020-12-07 11:37:29
2602
原创 Connection reset by peer错误解决,亲测好使
查询时后台服务器报错如下:2020-06-29T10:02:29.110+08:00 ERROR [http-nio-8048-exec-8] [c.h.idatafusion.interceptor.GlobalExceptionHandler:91] [0x0e509999] - 0x0e509999org.apache.catalina.connector.ClientAbortException: java.io.IOException: Connection reset by pee
2020-06-29 15:41:14
10806
1
原创 sparkSQL行转列,列转行
在用spark进行数据处理过程中,避免不了行转列和列传行的操作,特此记录:1.列传行:这里举的例子是certificate_id ,telephone_number 每个身份证号可能对应多个手机号码df.createTempView("tmp") val result = sparkSession.sql( """ | select certifi...
2020-04-14 16:01:46
2058
原创 sparkStreaming读kafka
windows环境本地起kafka producer进行测试,windows环境安装启动kafka可参照这篇博客:https://blog.csdn.net/shenyanwei/article/details/90374859代码如下:import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.ka...
2020-01-10 09:31:15
200
原创 spark读写Hbase数据
计算结果数据需要写入Hbase,特此记录首先贴出hbase需要的maven依赖<hbase.version>1.2.3</hbase.version> <dependency> <groupId>org.apache.hbase</groupId> <artif...
2019-12-05 16:45:34
290
原创 java常用日期转换工具
项目开发经常需要日期转换,发现java.time包的API很好用,特此记录import java.text.SimpleDateFormat;import java.time.LocalDate;import java.time.ZoneId;import java.time.format.DateTimeFormatter;import java.util.Calendar;im...
2019-12-02 11:19:25
228
原创 spark读写kudu
package sparkUtilimport org.apache.kudu.spark.kudu.KuduContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkKudu { //kuduMasters and tableName val kud...
2019-09-24 22:39:25
2393
2
原创 spark读写Hive
package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkHive { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf() sp...
2019-09-24 22:36:18
224
原创 spark读写hdfs
package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}object SparkHDFS { def main(args: Array[String]): Unit = { val sparkConf = new SparkCo...
2019-09-24 22:24:07
471
原创 spark读写ES
直接上代码:package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.elasticsearch.spark.sql.{EsSparkSQL, SparkDataFrameFunctions}object SparkES { def ...
2019-09-24 22:23:07
1065
原创 spark将Rdd转成list和set
有需求要将Rdd转成list,上网查资料实现都很复杂,后来发现其实是非常简单的,collect()完已经就是Array了,看源码 /** * Return an array that contains all of the elements in this RDD. * * @note This method should only be used if the resu...
2019-08-21 22:53:07
13386
3
原创 Spark读取kudu,将Row类型Rdd转成其它类型
import org.apache.kudu.spark.kudu.KuduContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport scala.collection.mutable.ArrayBufferobject Spark_kudu { val kuduM...
2019-08-21 22:31:02
1690
原创 Spark算子
Transformations转换算子Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。filter过滤符合条件的记录数,true保留,false过滤掉。map将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。特点:输入一条,输出...
2019-08-11 23:05:06
126
原创 Spark cache,persist,checkpoint区别与联系
控制算子有三种,cache,persist,checkpoint,以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。cache默认将RDD的数据持久化到内存中。cache是懒执行。注意:chche () = pers...
2019-08-11 17:36:33
465
转载 hadoop常用命令总结
1、启动hadoopstart-all.sh等价于start-dfs.sh + start-yarn.sh3、常用命令 1、查看指定目录下内容 hdfs dfs –ls [文件目录] hdfs dfs -ls -R / //显式目录结构 eg: hdfs dfs –ls /user/wangkai.pt 2...
2019-08-11 17:26:19
347
原创 windows下搭建spark开发环境
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...
2019-07-09 19:57:43
317
1
原创 swagger
今天发现了一个问题,不知道是不是swagger的bug程序中字段如下:@ApiModelProperty(value = "结束时间", dataType = "date")@JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss", timezone = "GMT+8")private Date endTime;启动swagger后Model Schem...
2019-07-08 20:59:11
188
原创 ElasticSearch总结
这段时间一直在用ES,主要对在SpringBoot中Java对ES的CRUD做下总结,分为两种方式继承ElasticsearchRepository类采用这种方式具体创作实体类和大部分CRUD可以参考下面这篇文章,讲的比较详细,本文主要讲一下另一种方式。https://blog.csdn.net/chen_2890/article/details/83895646有个需...
2019-07-06 10:31:07
603
1
原创 数据仓库,ETL,kudu,impala,pg,elasticsearch,kettle
最近几天实习了解一些基础概念然后再理解业务,主要有以下:数据仓库,ETL,kudu,impala,pg,elasticsearch,kettle以后的工作应该是围绕数据展开的,1.数据源-> 2.ETL -> 3.数据仓库存储与管理-> 4.OLAP -> 5.BI工具数据仓库主要与数据库相对应,是OLAP和OLTP的关系ETL一句话概括就是:将数据从O...
2019-06-01 16:46:09
982
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人