- 博客(251)
- 资源 (65)
- 收藏
- 关注
原创 HDFS EC文件损坏恢复方法
恢复思路,屏蔽损坏的datanode节点,强制数据从好节点上读取,这里需要用到hdfs api的方式处理,修改了hdfs client的逻辑,增加skip ip参数进行跳过损坏的ip。是在进行读数据的时候发现数据损坏,这是很严重的问题。然后再对文件进行验证,目前我实现了 orc parquet text textGzip的表验证,如果验证到最后,还是不能读取则文件确实损坏了3个节点的数据。如果坏块没有全部损坏,比如RS-3-2-1024K的,只有2个节点损坏,这种情况还是能恢复的。
2024-06-28 18:29:19
330
1
原创 spark UDAF根据某列去重求合 distinct sum
spark UDAF根据某列去重求合 distinct sum例子:package spark.groupzbimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.types._import org.apache.spark.sql.{Row, SparkSession}/** * creat...
2020-03-20 10:49:19
1150
原创 spark UDAF 自定义聚合函数 UserDefinedAggregateFunction 带条件的去重操作
需求:按餐品分组,并求出无优惠金额的订单数。package cd.custom.jde.job.udfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apac...
2020-02-12 01:36:12
980
原创 spark json字符串转dataframe,dataframe结构转json处理
spark json字会串转dataframe,dataframe结构转json处理package mongoimport org.apache.spark.sql.SparkSessionobject InsertTable { def main(args: Array[String]): Unit = { val spark = SparkSession.build...
2019-10-22 11:27:52
2717
1
原创 spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql
spark streaming拉取kafka数据, 结合sparkSql dataframe hive存储计算,输出到mysql.数据清洗过程比较复杂,没办法,上游给的屡一样的数据,正则去解析并全量按时间取最新一条去重。每天kafka数据5千万条。1分钟要刷一次,看上去还可以满足。只有屡一样去堆代码了。package biReportJob.streamingimport jav...
2019-08-15 17:52:29
1320
原创 spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案
spark 10分钟计算一次mongodb当天日志数据,日志为字符串格式,按订单号去重,取时间最近的订单,优化方案问题:解析字符串,构建spark dataframe结果集,全量去重,数据量过多,解析复杂,导致从早上1分钟到晚上30分钟才能跑完一次任务。spark streaming的接收源一般是推来的,不像kafka会推过来,然后再根据偏移量来记录刻度,优化方案:按小时去清理数据,把解...
2019-08-12 18:39:55
710
原创 spark streaming 自定义接收数据源Receiver测试
spark streaming 自定义接收数据源Receiver测试package orderimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * c...
2019-08-12 16:45:18
1710
原创 scala spark 手动构建DataFrame复杂类型,arrayType,StructType
scala spark 手动构建DataFrame复杂类型,arrayType,StructTypepackage biReportJob.ztimport org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.functions._import org.a...
2019-07-29 18:35:52
7453
原创 python json 字符串,字典转换操作,json Decimal类型处理问题。
python json 字符串,字典转换操作,json Decimal类型处理问题,中文乱码问题。python json转换有点小费尽,这里标记一下。JSON: TypeError: Decimal('34.3') is not JSON serializable [duplicate]import jsonfrom api_py_connector.cdCconnector.ap...
2019-07-26 11:44:36
3342
原创 sbt多环境打包自定义插件
好久没写博客了,但这个sbt太坑了,本来一个小小的功能,看了好久的文档才弄出来。sbt打包scala语言 sarpk jar时 多环境的的问题。于是自已写了一个插件具体代码请查看github :https://github.com/liangrui1988/sbtEnvironment...
2019-06-05 13:04:26
380
原创 postgresql partition by over 窗口函数(分组求数量 并求某个条件之上的数量和)
-- 角色活越等级分布,并累加大于(含当前等级)的角色数量select server_id,lv, os,rid,chn,num , sum(num) over(PARTITION BY server_id,os,rid,chn order by (lv)::int desc ) lv_sum from( SELECT server_id,cont->>'lv' lv,co...
2018-03-29 17:20:32
15555
原创 java排查一个线上死循环cpu暴涨的过程
问题,打一个页面cpu暴涨,打开一次就涨100%,一会系统就卡的不行了。排查方法,因为是线上的linux,没有用jvm监控工具rim链接上去。只好用命令排查:top cpu排序,一个java进程cpu到500%了,什么鬼.....查到对应java进程jps || ps -aux | grep 端口 pid=13455查看进程中线程使用情况 T排
2018-02-01 16:46:49
2899
原创 flume拉取日志压测数据分析
DEUBG模式拉取(消耗模式),内存缓存模式,批量100条写入(可调大)52G日志开始增量到70G 137个log文件 11:29开始抽样:63737900条 表数据=29 GB 索引+表数据=39 GB67338900条 表数据=31 GB 索引+表数据=41 GB82897700条 表数据=38 GB 索引+表数据=51 GB111146500条 表
2018-01-22 15:31:56
1436
原创 java8 lambda小试牛刀,利用Stream把list转map,并将两个list的数据对象合并起来
java8 lambda小试牛刀,利用Stream把list转map,并将两个list的数据对象合并起来
2017-03-17 16:07:41
44127
3
原创 java 把一个大list分成N个小list,然后用map存储的小方法
java 把一个大list分成N个小list,然后用map存储的小方法
2016-12-07 16:03:05
3474
1
原创 完美企业后台管理项目架构,apache shiro,bootstrap,spring,springMVC,mybatis,github,gradle
java后台管理系统 演示用户 test test http://111.231.84.136:9829/zdata完美企业后台管理架构项目,经历几个月的业余时间,已经成形。分享出来,后续会继续完善,我不会写教程,如果有人需要了解,我又有时间的话,那时再出一份文档讲解吧。因本人不是专业前端,采用jquery+bootstrap。这里没有JSP标签,虽然也写了很久JSP,但对于它和后台偶合的...
2016-06-09 16:02:13
5498
原创 jquery validate 自定义验证小数前面9位,小数后面2位的js
jquery validate 自定义验证小数前面9位,小数后面2位的js
2016-05-17 19:36:22
9032
原创 apache HttpClients实例,传入json对象。对应的springMvc通过HandlerMethodArgumentResolver解析两个对象绑定
apache HttpClients实例,传入json对象。对应的springMvc通过HandlerMethodArgumentResolver解析两个对象绑定
2016-04-19 18:36:00
1245
深入剖析Nginx
2015-04-27
maven分模块开发例子小项目案例spring+springmvc+hibernate
2014-08-14
axis1.4部署webSevice项目测试(已有所相关的jar包)+开发指南+源码+部署相关配置wsdd文件,内有说明
2013-12-29
jquery easyUI JS库和API 附加日期控件库My97DatePickerBeta.zip
2013-12-20
jbpm4.4项目测试源码下载,
2013-09-22
SSH+jquery+springScurity权限管理+fusion+jasperreport报表+webService调用天气预报+完整分页 整合小型OA
2013-09-06
SSH+jquery+springScurity权限管理+jasperreport报表+webService调用天气预报+完整分页 整合小型OA项目源码
2013-09-06
SSH+jquery+springScurity权限管理+jasperreport报表+webService调用天气预报+完整分页 整合小型OA
2013-09-05
spring Scurity终于测试OK了
2013-08-12
spring-security-sample案例代码
2013-08-10
struts2验证+拦截器+国际化+下载excle文档+struts2二级联动+ongl表达试+ssh集成 项目下载
2013-08-06
struts2验证+拦截器+国际化+下载excle文档+ssh集成.rar
2013-08-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人