- 博客(159)
- 资源 (1)
- 收藏
- 关注
原创 Doris重建ROUTINE任务过程
删除任务 STOP ROUTINE LOAD FOR flydata_game_dwh_v1.kjob_rt_ods_log_aa_action;查看建任务脚本 SHOW CREATE ROUTINE LOAD FOR kjob_rt_ods_log_aa_action_v1。查看任务 SHOW ROUTINE LOAD。
2025-05-13 14:53:17
64
原创 Doris数据导出本地
需要开启fe.conf的 enable_outfile_to_local=true,初次需要重启fe。临时数据可以导出到tmp目录下,这样可以快速验证;假如其他目录需要保证权限相关设置合理。
2025-05-12 14:03:33
50
原创 doris __internal_schema表修复
集群升级导致__internal_schema的__internal_schema.audit_log和__internal_schema.column_statistics表损坏,并且无法修复;
2025-05-10 17:27:41
78
原创 Doris常用配置项优化
设置最大的routine_load_job: max_routine_load_job_num=1000。启用 SQL 模式的缓存: cache_enable_sql_mode=true。设置允许并发更新:enable_concurrent_update=true。开启文件导出本地:enable_outfile_to_local=true。开启binlog:enable_feature_binlog=true。开启binlog:enable_feature_binlog=true。
2025-04-24 09:42:58
114
原创 Dolphinscheduler3.2.1运行Java Jar路径重复的BUG修复问题
解决办法:修改源码重新编译Dolphinscheduler3.2.1,替换dolphinscheduler-task-api-3.2.1.jar。由于路径重复导致无法正确读取到Jar。
2025-04-13 16:56:13
234
原创 高性能采集服务上线回顾
进行对应的数据压缩是大数据量传输的前提条件,业界用得比较多的压缩算法有gzip、lz4、snappy、zstd。Kafka Broker 的 socket.request.max.bytes=204857600(200M),配合写入端进行性能优化。(2)网络缓冲区,批次大小不能超过网络缓冲区,网络缓冲区最大依赖于操作系统的tcp和kafka broker配置。对于上报的数据压缩提需要校验上传文件的最大值,以及解压后数据大小,防止非法请求,循环解压浪费大量cpu和存储资源。kafka配置优化(生产者优化)
2025-03-03 11:52:18
365
原创 Doris 游戏数据分析实战,计算留存
基于Doris BitMap函数计算留存率,Doris拥有丰富的BitMap函数,计算留存使用到的有:bitmap_union、intersect_count、bitmap_intersect等;其中核心思路就是:第一天与第二天的交集就是第二天的留存;第一天与第三天的交集就是第三天留存;以此类推,采用BitMap函数交集可以快速计算留存。4、假如初始事件是A,回访事件是A, 计算目标留存。5、假如初始事件是A,回访事件是B, 计算目标留存。3、将埋点数据表导入BitMap表。
2024-11-07 09:54:54
487
原创 Flink on yarn模式下,JobManager异常退出问题
这个问题排除了很久,其中更换了Flink版本,也更换了Hadoop版本一直无法解决,JobManager跑着跑着就异常退出了。其实提交Flink on Yarn的Pro-Job程序,从开始到结束都有心跳异常的错误。最后超过默认的超时时间180s就开始协商退出了,所以程序每次跑3分钟后就开始退出了。是客户端与jobmanager心跳超时,协商退出的jobmanager。Flink 1.13.1、Flink1.15.2、Flink1.16.3都不存在以上问题。网上搜了一圈,都说内存不足、资源不足,配置错误。
2024-10-24 18:19:07
962
原创 大数据埋点方案Openresty+Nginx+Lua踩坑日志
翻看了一些资料,个人理解是 其实with-http_gunzip_module模块是帮前端进行解压的,比如nginx location代理接口进行了gz数据压缩,代理一层的对外接口就可以自动解压了。容易踩坑点:询问gbt的时候会提示使用nginx的with-http_gunzip_module模块,设置gunzip on;来自动解压,但是尝试多次后都无法成功。将zlib.so文件放到openresty的lualib目录下,供全局加载到。确保luajit的依赖存在,在cmake检查的时候会显示出来;
2024-09-30 10:22:53
753
原创 Doris的Routine Load方式消费Kafka数据进入Doris
最后kafka的数据就可以源源不断的存储到doris表里面了。假设kafka已有嵌套JSON数据格式为。
2024-09-24 14:23:02
1046
原创 HBase解决热点问题
5、预分区:根据已有数据结构进行预分区,比如全国身份证写入,可以根据省份标识分区。6、重新负载均衡:没发生提前更改写入策略,一旦发生可以重新负载分区。1、翻转时间戳:比如说用户可以把注册时间反转拼接在前面。3、哈希值:将rowkey直接进行哈希值。4、分割写入:把日期拼接作为前缀。2、加盐:加固定盐在前面。
2024-08-05 16:14:08
274
原创 yolov8训练模型(Yolov8+roboflow)
2、下载标注后的数据集,选择自己想要的格式进行下载标注好后的格式数据。注册账号、上传数据进行标注。5、训练好后生成runs文件夹。7、使用自定义模型进行预测。6、用测试集验证模型。
2023-04-04 16:46:23
854
原创 PDF免费转word方法
平时偶尔需要将PDF文档转换为word,现在将自己经常用的几个在线 PDF转word网站分享一下。1、DeftPDF | Free PDF Software to Edit, Convert, Sign & More.An all-in-one free online PDF editor that does not require subscriptions or installations! DeftPDF is a free online tool that makes editing a
2022-05-25 11:44:51
532
1
原创 docker安装mysql
拉取镜像docker pull mysql:5.7.36启动容器:docker run -p 3316:3306 --name mysql5.7.36 \-v /home/project/docker-workplace/mysql/log:/var/log/mysql \-v /home/project/docker-workplace/mysql/data:/var/lib/mysql \-v /home/project/docker-workplace/mysql/conf:/etc
2022-05-20 14:02:38
276
原创 实践自定义String类
1.包名非java.lang是可以的2.包名是java.lang包名是java.lang下的所有类在自定义加载器中进行加载的时候都会触发安全检查,提示禁止使用java.lang包名直接运行该自定义的java.lang下的类,名字相同会进行双亲加载,加载父辈的类如String。这时候就会提示找不到main方法,没有机会加载到该类。名字不同的时候,有机会加载 ,但还是会在加载的时候进行安全验证。破坏双亲加载的例子:tomcat、JNDI、JDBC等...
2022-01-06 15:32:37
512
原创 简历筛选总结
一、简历准备阶段简历三要素:1. 自我技能介绍、项目经验介绍;2. 历任公司介绍,也就是出身;3. 说明毕业学校,还是出身;以上三点是hr快速筛选简历的依据,第一点要和公司要求尽可能匹配。第二点要尽可能突出公司优势和业绩,老总面大多数只聊聊过往经历和所呆过的平台大小。第三点毕业院校和专业也要明确一下。以上ok基本会过初筛。后续就看个人能力和临场发挥了。二、面试准备阶段1.自我介绍2.项目介绍项目需要反复思考,不留死角。多埋点,让面试官踩。3.基础理论要尽可能准备到
2021-11-04 18:30:19
815
原创 垃圾回收三色标记算法总结
判断哪些对象需要被垃圾回收?引用计数会导致循环引用,所以一般都是可达性分析。可达性分析是从GC Root出发,进行三色标记算法。CMS就是使用标记清除算法,整个过程就是一个三色标记流程。初始标记 STW,标记GC ROOT为黑色,GC ROOT关联的为灰色并发标记 扫描整个引用链,没有子节点为黑,有子节点为灰色重标记 STW 修复变动的并发清除 开始正式清除,清除白色的三色标记的遗留问题:多标 or 漏标多标下次垃...
2021-09-13 10:26:54
213
原创 ClickHouse安装部署
安装前准备:1.clickhouse需要SSE 4.2支持grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"2.关闭防火墙systemctl stop firewalld.service systemctl disable firewalld.service3.安装包准备(https://packagecloud.io/Altinity/cl
2021-09-09 11:10:34
327
原创 ROI区域定位工具
由于暂时没有实现led灯的定位,所以这里放上led灯ROI定位工具代码。# -*- coding: utf-8 -*-"""Class definition of YOLO_v3 style detection model on image and video"""import cv2import OperationMysql as mySqlimg = cv2.imread('images/test.jpg')op_mysql = mySql.OperationMysql()#f
2021-05-13 10:30:00
1172
1
原创 led指示灯识别功能
led指示灯识别可以实现led的八种灯光颜色识别以及灯光闪烁识别。可用于大型设备的led灯光自动化监控。暂未实现led定位识别。本代码使用python编写,依赖opencv来进行颜色识别。 依赖open cv 3.4.1,太高可能会报错pip3 install opencv_python==3.4.2.16# -*- coding: utf-8 -*-"""图片测试"""import cv2import numpy as npimport collectionsimport Op
2021-05-13 10:23:36
3468
3
原创 elasticsearch源码目录结构说明
源码目录结构 1. distribution模块 distribution的英文分发的意思,这里是的作用是打包各类压缩发布包。要与distributed进行区别,它是分布式。打包方式如下图:点击build.grad...
2021-03-18 17:57:10
532
原创 git删除文件夹
方法一这里以删除 test文件夹为案例git rm -r --cached test //--cached不会把本地的test删除git commit -m 'delete test dir'git push -u origin master123方法二如果误提交的文件夹比较多,方法一也较繁琐直接修改.gitignore文件,将不需要的文件过滤掉,然后执行命令:git rm -r --cached .git add .git commitgit push -u origin.
2021-02-26 11:52:42
4763
原创 centOS7安装 mysql-community-release-el7-5.noarch.rpm 包
一、rpm包1、wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm(下载rpm)2、rpm -ivh mysql-community-release-el7-5.noarch.rpm(安装rpm包)3、yum install mysql-server (安装)二、操作MySQL1、service mysql start(启动数据库)2、service mysql status(查看数据库状态)..
2020-10-22 15:59:45
3993
原创 多线程的理解
结论: 只有线程数接近CPU核心才会发挥更高性能.只考虑CPU的话,多个线程串行执行永远时间分片执行要快. 但是实际线程运行会涉及到内存,网络,磁盘各种因素. 会造成多种堵塞. CPU就不能充分利用起来. 所以有了CPU时间分片, 当A线程堵塞的时候,可以执行B线程.换句话说:是堵塞创造了更多的执行机会,这时候多线程才能发挥更好的性能...
2020-08-21 10:07:16
145
原创 Linux IO性能查看
1.top 命令 wa值越高 ,可能磁盘IO越大,但是网络IO也会导致该值高,所以只是说可能。2.sar -d -p 1 2其中, “-d”参数代表查看磁盘性能,“-p”参数代表将 dev 设备按照 sda,sdb……名称显示,“1”代表每隔1s采取一次数值,“2”代表总共采取2次数值。await svctm %utilawait大于svctm代表 IO队列等待过长,需要换磁盘。 两者持平比较好%util 100% 代表满负荷工作,需要通过优化程序或者更换磁盘解决...
2020-05-21 17:29:46
532
原创 MYSQL同步数据到ES
1.MYSQL的数据同步通常采用binlog进行同步。所有的数据库操作都会写binlog日志,所以采用binlog的方式去做数据复制是非常好的。2.比如要做ES的订单查询系统,可以使用binlog去做数据同步,当数据发生变化,数据量将会采用binglog的方式将数据写到ES达到同步的目的。3.工具:开源组件Canal。 go-mysql-elasticsearch...
2020-03-17 17:19:42
2333
原创 接手一个Elasticsearch集群,如何进行优化
1.从内存消耗上进行存储优化2.从磁盘上进行优化3.从搜索上进行优化4.从写入上进行优化5.从稳定性上进行优化6.从机器上进行优化内存优化:三种cache的优化:1)filter cache/query cache2)request cache 默认不开启,实时数据失效快,没开启一般不用优化3)fielddata cache与doc_valueses2...
2020-01-02 14:55:37
173
原创 Linux更换repo源
1.https://opsx.alibaba.com/mirror 阿里有各个版本的更新方法2.yum makecache 慢慢等待
2019-10-31 15:18:45
3225
原创 Mysql主从配置
0.关闭主从机器的防火墙。1.安装wget http://repo.mysql.com/mysql57-community-release-el7-10.noarch.rpmrpm -Uvh mysql57-community-release-el7-10.noarch.rpmyum install -y mysql-community-server2.获取密码并且更改...
2019-06-12 16:36:48
127
原创 ElasticSearch QueryCache源码理解(基于6.0.0-rc2版本)
对于频繁的查询,查询结果缓存是提高效率的有效做法。ElasticSearch缓存分为node缓存与index缓存;其中node缓存:1.query缓存(是属于lucene的)2.field缓存3.request缓存以下分析一下QueryCache;QueryCache是主要dsl的子查询语句的结果集缓存,对于后续相同的查询可以直接取缓存数据以上是核心三种缓存的源...
2019-04-17 19:08:10
651
原创 Elasticsearch存储分析
1.lucene存储结构倒排索引逻辑结构 关键字 文章号【出现频率】 出现位置 guangzhou 1【2】 2,6 hadoop 1【3】,3【5】 1,5,8 1,2,5,9,10 part 2【2】,7【1】 12,54 11 room 2【1】,2【2】 ...
2019-04-12 10:43:17
346
原创 Elasticsearch(源码编译)
1.下载elasticsearch-6.0.0-rc2源码包2.下载安装Gradle,并且配置环境变量3.修改maven源,使用阿里的网速好,修改以下两个文件 elasticsearch\benchmarks\build.gradle elasticsearch\client\benchmark\build.gradle buildscript { repo...
2019-03-18 16:46:55
470
原创 Elasticsearch 内存分配
1.只能分配机器的一半内存给Elasticsearch。另一半要给Lucene。Lucene存储于堆外内存。2.机器内存即使很充足,也不要分配内存超过32G给Elasticsearch,堆内存小于32G的时候会使用内存对象指针压缩技术。给31G最安全内存交换会强烈影响Elasticsearch性能。什么情况下会发生内存交换:机器内存不足时发生内存交换SWAP。...
2018-09-10 13:48:02
560
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人