hunter127-CSDN博客

原创 Doris重建ROUTINE任务过程

删除任务 STOP ROUTINE LOAD FOR flydata_game_dwh_v1.kjob_rt_ods_log_aa_action;查看建任务脚本 SHOW CREATE ROUTINE LOAD FOR kjob_rt_ods_log_aa_action_v1。查看任务 SHOW ROUTINE LOAD。

2025-05-13 14:53:17 64

原创 doris主键模型开启部分列更新

给定部分列时默认行为是整行写入。开启部分列更新，假如不开启。

2025-05-13 14:09:23 132

原创 Doris数据导出本地

需要开启fe.conf的 enable_outfile_to_local=true,初次需要重启fe。临时数据可以导出到tmp目录下，这样可以快速验证；假如其他目录需要保证权限相关设置合理。

2025-05-12 14:03:33 50

原创 doris __internal_schema表修复

集群升级导致__internal_schema的__internal_schema.audit_log和__internal_schema.column_statistics表损坏，并且无法修复；

2025-05-10 17:27:41 78

设置最大的routine_load_job: max_routine_load_job_num=1000。启用 SQL 模式的缓存: cache_enable_sql_mode=true。设置允许并发更新：enable_concurrent_update=true。开启文件导出本地：enable_outfile_to_local=true。开启binlog:enable_feature_binlog=true。开启binlog：enable_feature_binlog=true。

2025-04-24 09:42:58 114

原创 Dolphinscheduler3.2.1运行Java Jar路径重复的BUG修复问题

解决办法：修改源码重新编译Dolphinscheduler3.2.1，替换dolphinscheduler-task-api-3.2.1.jar。由于路径重复导致无法正确读取到Jar。

2025-04-13 16:56:13 234

原创高性能采集服务上线回顾

进行对应的数据压缩是大数据量传输的前提条件，业界用得比较多的压缩算法有gzip、lz4、snappy、zstd。Kafka Broker 的 socket.request.max.bytes=204857600（200M），配合写入端进行性能优化。（2）网络缓冲区，批次大小不能超过网络缓冲区，网络缓冲区最大依赖于操作系统的tcp和kafka broker配置。对于上报的数据压缩提需要校验上传文件的最大值，以及解压后数据大小，防止非法请求，循环解压浪费大量cpu和存储资源。kafka配置优化（生产者优化）

2025-03-03 11:52:18 365

原创 Doris 游戏数据分析实战，计算留存

基于Doris BitMap函数计算留存率，Doris拥有丰富的BitMap函数，计算留存使用到的有：bitmap_union、intersect_count、bitmap_intersect等；其中核心思路就是：第一天与第二天的交集就是第二天的留存；第一天与第三天的交集就是第三天留存；以此类推，采用BitMap函数交集可以快速计算留存。4、假如初始事件是A，回访事件是A, 计算目标留存。5、假如初始事件是A，回访事件是B, 计算目标留存。3、将埋点数据表导入BitMap表。

2024-11-07 09:54:54 487

原创 Apache Calcite创建Case When函数

Apache Calcite 1.26.0版本生成这样一个sql函数。

2024-10-30 18:34:17 151

原创 Flink on yarn模式下，JobManager异常退出问题

这个问题排除了很久，其中更换了Flink版本，也更换了Hadoop版本一直无法解决，JobManager跑着跑着就异常退出了。其实提交Flink on Yarn的Pro-Job程序，从开始到结束都有心跳异常的错误。最后超过默认的超时时间180s就开始协商退出了，所以程序每次跑3分钟后就开始退出了。是客户端与jobmanager心跳超时，协商退出的jobmanager。Flink 1.13.1、Flink1.15.2、Flink1.16.3都不存在以上问题。网上搜了一圈，都说内存不足、资源不足，配置错误。

2024-10-24 18:19:07 962

原创 Flink on Yarn日志冲突解决办法

provided

2024-10-22 10:53:18 172

原创大数据埋点方案Openresty+Nginx+Lua踩坑日志

翻看了一些资料，个人理解是其实with-http_gunzip_module模块是帮前端进行解压的，比如nginx location代理接口进行了gz数据压缩，代理一层的对外接口就可以自动解压了。容易踩坑点：询问gbt的时候会提示使用nginx的with-http_gunzip_module模块，设置gunzip on;来自动解压，但是尝试多次后都无法成功。将zlib.so文件放到openresty的lualib目录下，供全局加载到。确保luajit的依赖存在，在cmake检查的时候会显示出来；

2024-09-30 10:22:53 753

原创 Doris的Routine Load方式消费Kafka数据进入Doris

最后kafka的数据就可以源源不断的存储到doris表里面了。假设kafka已有嵌套JSON数据格式为。

2024-09-24 14:23:02 1046

原创 CoAP协议的Java开源实现Californium，DTLS加密

4、启动Spring Boot应用。

2024-08-11 17:39:40 385

原创 HBase解决热点问题

5、预分区：根据已有数据结构进行预分区，比如全国身份证写入，可以根据省份标识分区。6、重新负载均衡：没发生提前更改写入策略，一旦发生可以重新负载分区。1、翻转时间戳：比如说用户可以把注册时间反转拼接在前面。3、哈希值：将rowkey直接进行哈希值。4、分割写入：把日期拼接作为前缀。2、加盐：加固定盐在前面。

2024-08-05 16:14:08 274

原创使用CUDA过程中出现异常

解决办法：

2024-01-29 18:49:54 564 2

原创 yolov8训练模型（Yolov8+roboflow）

2、下载标注后的数据集，选择自己想要的格式进行下载标注好后的格式数据。注册账号、上传数据进行标注。5、训练好后生成runs文件夹。7、使用自定义模型进行预测。6、用测试集验证模型。

2023-04-04 16:46:23 854

原创 PDF免费转word方法

平时偶尔需要将PDF文档转换为word，现在将自己经常用的几个在线 PDF转word网站分享一下。1、DeftPDF | Free PDF Software to Edit, Convert, Sign & More.An all-in-one free online PDF editor that does not require subscriptions or installations! DeftPDF is a free online tool that makes editing a

2022-05-25 11:44:51 532 1

原创 docker安装mysql

拉取镜像docker pull mysql:5.7.36启动容器：docker run -p 3316:3306 --name mysql5.7.36 \-v /home/project/docker-workplace/mysql/log:/var/log/mysql \-v /home/project/docker-workplace/mysql/data:/var/lib/mysql \-v /home/project/docker-workplace/mysql/conf:/etc

2022-05-20 14:02:38 276

原创实践自定义String类

1.包名非java.lang是可以的2.包名是java.lang包名是java.lang下的所有类在自定义加载器中进行加载的时候都会触发安全检查，提示禁止使用java.lang包名直接运行该自定义的java.lang下的类，名字相同会进行双亲加载，加载父辈的类如String。这时候就会提示找不到main方法，没有机会加载到该类。名字不同的时候，有机会加载，但还是会在加载的时候进行安全验证。破坏双亲加载的例子：tomcat、JNDI、JDBC等...

2022-01-06 15:32:37 512

原创简历筛选总结

一、简历准备阶段简历三要素：1. 自我技能介绍、项目经验介绍；2. 历任公司介绍，也就是出身；3. 说明毕业学校，还是出身；以上三点是hr快速筛选简历的依据，第一点要和公司要求尽可能匹配。第二点要尽可能突出公司优势和业绩，老总面大多数只聊聊过往经历和所呆过的平台大小。第三点毕业院校和专业也要明确一下。以上ok基本会过初筛。后续就看个人能力和临场发挥了。二、面试准备阶段1.自我介绍2.项目介绍项目需要反复思考，不留死角。多埋点，让面试官踩。3.基础理论要尽可能准备到

2021-11-04 18:30:19 815

原创垃圾回收三色标记算法总结

判断哪些对象需要被垃圾回收？引用计数会导致循环引用，所以一般都是可达性分析。可达性分析是从GC Root出发，进行三色标记算法。CMS就是使用标记清除算法，整个过程就是一个三色标记流程。初始标记 STW，标记GC ROOT为黑色，GC ROOT关联的为灰色并发标记扫描整个引用链，没有子节点为黑，有子节点为灰色重标记 STW 修复变动的并发清除开始正式清除，清除白色的三色标记的遗留问题：多标 or 漏标多标下次垃...

2021-09-13 10:26:54 213

原创 ClickHouse安装部署

安装前准备：1.clickhouse需要SSE 4.2支持grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"2.关闭防火墙systemctl stop firewalld.service systemctl disable firewalld.service3.安装包准备（https://packagecloud.io/Altinity/cl

2021-09-09 11:10:34 327

原创 ROI区域定位工具

由于暂时没有实现led灯的定位，所以这里放上led灯ROI定位工具代码。# -*- coding: utf-8 -*-"""Class definition of YOLO_v3 style detection model on image and video"""import cv2import OperationMysql as mySqlimg = cv2.imread('images/test.jpg')op_mysql = mySql.OperationMysql()#f

2021-05-13 10:30:00 1172 1

原创 led指示灯识别功能

led指示灯识别可以实现led的八种灯光颜色识别以及灯光闪烁识别。可用于大型设备的led灯光自动化监控。暂未实现led定位识别。本代码使用python编写，依赖opencv来进行颜色识别。依赖open cv 3.4.1，太高可能会报错pip3 install opencv_python==3.4.2.16# -*- coding: utf-8 -*-"""图片测试"""import cv2import numpy as npimport collectionsimport Op

2021-05-13 10:23:36 3468 3

原创 elasticsearch源码目录结构说明

源码目录结构 1. distribution模块 distribution的英文分发的意思，这里是的作用是打包各类压缩发布包。要与distributed进行区别，它是分布式。打包方式如下图：点击build.grad...

2021-03-18 17:57:10 532

原创 git删除文件夹

方法一这里以删除 test文件夹为案例git rm -r --cached test //--cached不会把本地的test删除git commit -m 'delete test dir'git push -u origin master123方法二如果误提交的文件夹比较多，方法一也较繁琐直接修改.gitignore文件,将不需要的文件过滤掉，然后执行命令:git rm -r --cached .git add .git commitgit push -u origin.

2021-02-26 11:52:42 4763

原创 centOS7安装 mysql-community-release-el7-5.noarch.rpm 包

一、rpm包1、wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm（下载rpm）2、rpm -ivh mysql-community-release-el7-5.noarch.rpm（安装rpm包）3、yum install mysql-server （安装）二、操作MySQL1、service mysql start(启动数据库)2、service mysql status（查看数据库状态）..

2020-10-22 15:59:45 3993

原创多线程的理解

结论: 只有线程数接近CPU核心才会发挥更高性能.只考虑CPU的话,多个线程串行执行永远时间分片执行要快. 但是实际线程运行会涉及到内存,网络,磁盘各种因素. 会造成多种堵塞. CPU就不能充分利用起来. 所以有了CPU时间分片, 当A线程堵塞的时候,可以执行B线程.换句话说:是堵塞创造了更多的执行机会,这时候多线程才能发挥更好的性能...

2020-08-21 10:07:16 145

原创 Linux IO性能查看

1.top 命令 wa值越高，可能磁盘IO越大，但是网络IO也会导致该值高，所以只是说可能。2.sar -d -p 1 2其中， “-d”参数代表查看磁盘性能，“-p”参数代表将 dev 设备按照 sda，sdb……名称显示，“1”代表每隔1s采取一次数值，“2”代表总共采取2次数值。await svctm %utilawait大于svctm代表 IO队列等待过长，需要换磁盘。两者持平比较好%util 100% 代表满负荷工作，需要通过优化程序或者更换磁盘解决...

2020-05-21 17:29:46 532

原创 MYSQL同步数据到ES

1.MYSQL的数据同步通常采用binlog进行同步。所有的数据库操作都会写binlog日志，所以采用binlog的方式去做数据复制是非常好的。2.比如要做ES的订单查询系统，可以使用binlog去做数据同步，当数据发生变化，数据量将会采用binglog的方式将数据写到ES达到同步的目的。3.工具：开源组件Canal。 go-mysql-elasticsearch...

2020-03-17 17:19:42 2333

原创接手一个Elasticsearch集群，如何进行优化

1.从内存消耗上进行存储优化2.从磁盘上进行优化3.从搜索上进行优化4.从写入上进行优化5.从稳定性上进行优化6.从机器上进行优化内存优化：三种cache的优化：1）filter cache/query cache2）request cache 默认不开启，实时数据失效快，没开启一般不用优化3）fielddata cache与doc_valueses2...

2020-01-02 14:55:37 173

原创 Linux更换repo源

1.https://opsx.alibaba.com/mirror 阿里有各个版本的更新方法2.yum makecache 慢慢等待

2019-10-31 15:18:45 3225

原创 Mysql主从配置

0.关闭主从机器的防火墙。1.安装wget http://repo.mysql.com/mysql57-community-release-el7-10.noarch.rpmrpm -Uvh mysql57-community-release-el7-10.noarch.rpmyum install -y mysql-community-server2.获取密码并且更改...

2019-06-12 16:36:48 127

原创 ElasticSearch QueryCache源码理解(基于6.0.0-rc2版本)

对于频繁的查询，查询结果缓存是提高效率的有效做法。ElasticSearch缓存分为node缓存与index缓存；其中node缓存：1.query缓存（是属于lucene的）2.field缓存3.request缓存以下分析一下QueryCache；QueryCache是主要dsl的子查询语句的结果集缓存，对于后续相同的查询可以直接取缓存数据以上是核心三种缓存的源...

2019-04-17 19:08:10 651

原创 Elasticsearch存储分析

1.lucene存储结构倒排索引逻辑结构关键字文章号【出现频率】出现位置 guangzhou 1【2】 2,6 hadoop 1【3】,3【5】 1,5,8 1,2,5,9,10 part 2【2】，7【1】 12,54 11 room 2【1】，2【2】 ...

2019-04-12 10:43:17 346

原创 Elasticsearch（源码编译）

1.下载elasticsearch-6.0.0-rc2源码包2.下载安装Gradle，并且配置环境变量3.修改maven源，使用阿里的网速好，修改以下两个文件 elasticsearch\benchmarks\build.gradle elasticsearch\client\benchmark\build.gradle buildscript { repo...

2019-03-18 16:46:55 470

原创 Elasticsearch 内存分配

1.只能分配机器的一半内存给Elasticsearch。另一半要给Lucene。Lucene存储于堆外内存。2.机器内存即使很充足，也不要分配内存超过32G给Elasticsearch，堆内存小于32G的时候会使用内存对象指针压缩技术。给31G最安全内存交换会强烈影响Elasticsearch性能。什么情况下会发生内存交换：机器内存不足时发生内存交换SWAP。...

2018-09-10 13:48:02 560

hadoop2.6conf下的正确配置文件

空空如也