我是浣熊的微笑-CSDN博客

原创 spark常用命令

查看报错日志：yarn logs applicationIDspark2-submit --master yarn --class com.hik.ReadHdfs test-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit --help可以得到该命令的使用帮助。hadoop@wyy :/app/hadoop/spark100$ bin/spark-submit --helpUsage: spark-submit [options] <ap

2021-05-17 14:05:42 1686

原创 hadoop常用命令

1、启动hadoop所有进程start-all.sh等价于start-dfs.sh + start-yarn.sh但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。2、单进程启动。sbin/start-dfs.sh--------------- sbin/hadoop-daemons.sh --config .. --hostname .. start namenode ... sbin/hadoop-daemons.sh --conf...

2021-05-17 14:02:01 332

原创 hive常用命令

hive -e "select * from ..." > /tmp/datahive -f 文件INSERT OVERWRITE TABLE employeesPARTITION (country = 'US', state = 'OR')SELECT * FROM staged_employees seWHERE se.cnty = 'US' AND se.st = 'OR';假如需要对多个分区执行，需要扫描表多次FROM staged_employees seINSERT .

2021-05-11 11:29:42 195

原创 sql常用函数

find：查找文件：find ./actions/ -name Constract.php查找包含leyangjun字母的文件：find /etc -name '*leyangjun*'查找srm开头的文件：find/etc -name 'srm*'我们要在/usr目录及子目录下查找文件名包含“leyangjun”关键字的文件：find /usr -print |grep leyangjungrep：在Constract.php文件中查找字符leyangjun的行：grep 'leyangjun

2021-05-11 09:47:53 165

原创 kafka常用命令

windows:1.启动zk zkserver2.启动Kafka .\bin\windows\kafka-server-start.bat .\config\server.properties3.创建主题 kafka-topics.bat --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic OUT_TOPIC4. 列出主题kafka-topic.bat -...

2021-05-11 09:45:48 1117

原创 sparkSQL多条记录列转行

2021-05-10 11:20:30 217

原创 sparkSQL根据一个字段分隔转多行

代码： val row2columnStr = """ |select * from temp_view |lateral view explode(split(field, ',')) tmpTable as result_view """.stripMargin

2021-05-10 10:55:19 713

原创 spark读写kudu2

maven依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/ma

2021-05-10 10:25:32 227

原创 java RestHighLevelClient方式操作es

之前有写过一篇文章，介绍使用继承ElasticsearchRepository类或者使用ElasticSearchTemplate的方式进行CRUD，但是因为API更新不及时，逐渐不用了。目前还是推荐使用官方的API，即RestHighLevelClient的方式查询。使用过程中遇到一些坑，记录下maven依赖<dependency> <groupId>org.elasticsearch.client</groupId> <artifact

2020-12-07 11:37:29 2602

原创 Connection reset by peer错误解决，亲测好使

查询时后台服务器报错如下：2020-06-29T10:02:29.110+08:00 ERROR [http-nio-8048-exec-8] [c.h.idatafusion.interceptor.GlobalExceptionHandler:91] [0x0e509999] - 0x0e509999org.apache.catalina.connector.ClientAbortException: java.io.IOException: Connection reset by pee

2020-06-29 15:41:14 10806 1

原创 sparkSQL行转列，列转行

在用spark进行数据处理过程中，避免不了行转列和列传行的操作，特此记录：1.列传行：这里举的例子是certificate_id ,telephone_number 每个身份证号可能对应多个手机号码df.createTempView("tmp") val result = sparkSession.sql( """ | select certifi...

2020-04-14 16:01:46 2058

原创 sparkStreaming读kafka

windows环境本地起kafka producer进行测试，windows环境安装启动kafka可参照这篇博客：https://blog.csdn.net/shenyanwei/article/details/90374859代码如下：import org.apache.kafka.clients.consumer.ConsumerConfigimport org.apache.ka...

2020-01-10 09:31:15 200

原创 spark读写Hbase数据

计算结果数据需要写入Hbase，特此记录首先贴出hbase需要的maven依赖<hbase.version>1.2.3</hbase.version> <dependency> <groupId>org.apache.hbase</groupId> <artif...

2019-12-05 16:45:34 290

原创 java常用日期转换工具

项目开发经常需要日期转换，发现java.time包的API很好用，特此记录import java.text.SimpleDateFormat;import java.time.LocalDate;import java.time.ZoneId;import java.time.format.DateTimeFormatter;import java.util.Calendar;im...

2019-12-02 11:19:25 228

原创 spark读写kudu

package sparkUtilimport org.apache.kudu.spark.kudu.KuduContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkKudu { //kuduMasters and tableName val kud...

2019-09-24 22:39:25 2393 2

原创 spark读写Hive

package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkHive { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf() sp...

2019-09-24 22:36:18 224

原创 spark读写hdfs

package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}object SparkHDFS { def main(args: Array[String]): Unit = { val sparkConf = new SparkCo...

2019-09-24 22:24:07 471

原创 spark读写ES

直接上代码：package sparkUtilimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.elasticsearch.spark.sql.{EsSparkSQL, SparkDataFrameFunctions}object SparkES { def ...

2019-09-24 22:23:07 1065

原创 spark将Rdd转成list和set

有需求要将Rdd转成list，上网查资料实现都很复杂，后来发现其实是非常简单的，collect()完已经就是Array了，看源码 /** * Return an array that contains all of the elements in this RDD. * * @note This method should only be used if the resu...

2019-08-21 22:53:07 13386 3

原创 Spark读取kudu，将Row类型Rdd转成其它类型

import org.apache.kudu.spark.kudu.KuduContextimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport scala.collection.mutable.ArrayBufferobject Spark_kudu { val kuduM...

2019-08-21 22:31:02 1690

原创 Spark算子

Transformations转换算子Transformations类算子是一类算子（函数）叫做转换算子，如map,flatMap,reduceByKey等。Transformations算子是延迟执行，也叫懒加载执行。filter过滤符合条件的记录数，true保留，false过滤掉。map将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。特点：输入一条，输出...

2019-08-11 23:05:06 126

原创 Spark cache,persist,checkpoint区别与联系

控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘，还能切断RDD之间的依赖关系。cache默认将RDD的数据持久化到内存中。cache是懒执行。注意：chche () = pers...

2019-08-11 17:36:33 465

转载 hadoop常用命令总结

1、启动hadoopstart-all.sh等价于start-dfs.sh + start-yarn.sh3、常用命令 1、查看指定目录下内容 hdfs dfs –ls [文件目录] hdfs dfs -ls -R / //显式目录结构 eg: hdfs dfs –ls /user/wangkai.pt 2...

2019-08-11 17:26:19 347

原创 windows下搭建spark开发环境

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...

2019-07-09 19:57:43 317 1

原创 swagger

今天发现了一个问题，不知道是不是swagger的bug程序中字段如下：@ApiModelProperty(value = "结束时间", dataType = "date")@JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss", timezone = "GMT+8")private Date endTime;启动swagger后Model Schem...

2019-07-08 20:59:11 188

原创 ElasticSearch总结

这段时间一直在用ES，主要对在SpringBoot中Java对ES的CRUD做下总结，分为两种方式继承ElasticsearchRepository类采用这种方式具体创作实体类和大部分CRUD可以参考下面这篇文章，讲的比较详细，本文主要讲一下另一种方式。https://blog.csdn.net/chen_2890/article/details/83895646有个需...

2019-07-06 10:31:07 603 1

原创数据仓库，ETL，kudu，impala，pg，elasticsearch，kettle

最近几天实习了解一些基础概念然后再理解业务，主要有以下：数据仓库，ETL，kudu，impala，pg，elasticsearch，kettle以后的工作应该是围绕数据展开的，1.数据源-> 2.ETL -> 3.数据仓库存储与管理-> 4.OLAP -> 5.BI工具数据仓库主要与数据库相对应，是OLAP和OLTP的关系ETL一句话概括就是：将数据从O...

2019-06-01 16:46:09 982

学习进步