自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(159)
  • 资源 (1)
  • 收藏
  • 关注

原创 Doris RoutineLoad部分列更新案例

指定过滤条件进行部分列更新。

2025-05-13 15:23:20 39

原创 Doris重建ROUTINE任务过程

删除任务 STOP ROUTINE LOAD FOR flydata_game_dwh_v1.kjob_rt_ods_log_aa_action;查看建任务脚本 SHOW CREATE ROUTINE LOAD FOR kjob_rt_ods_log_aa_action_v1。查看任务 SHOW ROUTINE LOAD。

2025-05-13 14:53:17 64

原创 doris主键模型开启部分列更新

给定部分列时默认行为是整行写入。开启部分列更新,假如不开启。

2025-05-13 14:09:23 132

原创 Doris数据导出本地

需要开启fe.conf的 enable_outfile_to_local=true,初次需要重启fe。临时数据可以导出到tmp目录下,这样可以快速验证;假如其他目录需要保证权限相关设置合理。

2025-05-12 14:03:33 50

原创 doris __internal_schema表修复

集群升级导致__internal_schema的__internal_schema.audit_log和__internal_schema.column_statistics表损坏,并且无法修复;

2025-05-10 17:27:41 78

原创 Doris严格模式

关闭严格模式,可以插入空数据。

2025-05-10 14:27:40 254

原创 Doris常用配置项优化

设置最大的routine_load_job: max_routine_load_job_num=1000。启用 SQL 模式的缓存: cache_enable_sql_mode=true。设置允许并发更新:enable_concurrent_update=true。开启文件导出本地:enable_outfile_to_local=true。开启binlog:enable_feature_binlog=true。开启binlog:enable_feature_binlog=true。

2025-04-24 09:42:58 114

原创 Dolphinscheduler3.2.1运行Java Jar路径重复的BUG修复问题

解决办法:修改源码重新编译Dolphinscheduler3.2.1,替换dolphinscheduler-task-api-3.2.1.jar。由于路径重复导致无法正确读取到Jar。

2025-04-13 16:56:13 234

原创 高性能采集服务上线回顾

进行对应的数据压缩是大数据量传输的前提条件,业界用得比较多的压缩算法有gzip、lz4、snappy、zstd。Kafka Broker 的 socket.request.max.bytes=204857600(200M),配合写入端进行性能优化。(2)网络缓冲区,批次大小不能超过网络缓冲区,网络缓冲区最大依赖于操作系统的tcp和kafka broker配置。对于上报的数据压缩提需要校验上传文件的最大值,以及解压后数据大小,防止非法请求,循环解压浪费大量cpu和存储资源。kafka配置优化(生产者优化)

2025-03-03 11:52:18 365

原创 Doris 游戏数据分析实战,计算留存

基于Doris BitMap函数计算留存率,Doris拥有丰富的BitMap函数,计算留存使用到的有:bitmap_union、intersect_count、bitmap_intersect等;其中核心思路就是:第一天与第二天的交集就是第二天的留存;第一天与第三天的交集就是第三天留存;以此类推,采用BitMap函数交集可以快速计算留存。4、假如初始事件是A,回访事件是A, 计算目标留存。5、假如初始事件是A,回访事件是B, 计算目标留存。3、将埋点数据表导入BitMap表。

2024-11-07 09:54:54 487

原创 Apache Calcite创建Case When函数

Apache Calcite 1.26.0版本 生成这样一个sql函数。

2024-10-30 18:34:17 151

原创 Flink on yarn模式下,JobManager异常退出问题

这个问题排除了很久,其中更换了Flink版本,也更换了Hadoop版本一直无法解决,JobManager跑着跑着就异常退出了。其实提交Flink on Yarn的Pro-Job程序,从开始到结束都有心跳异常的错误。最后超过默认的超时时间180s就开始协商退出了,所以程序每次跑3分钟后就开始退出了。是客户端与jobmanager心跳超时,协商退出的jobmanager。Flink 1.13.1、Flink1.15.2、Flink1.16.3都不存在以上问题。网上搜了一圈,都说内存不足、资源不足,配置错误。

2024-10-24 18:19:07 962

原创 Flink on Yarn日志冲突解决办法

provided

2024-10-22 10:53:18 172

原创 大数据埋点方案Openresty+Nginx+Lua踩坑日志

翻看了一些资料,个人理解是 其实with-http_gunzip_module模块是帮前端进行解压的,比如nginx location代理接口进行了gz数据压缩,代理一层的对外接口就可以自动解压了。容易踩坑点:询问gbt的时候会提示使用nginx的with-http_gunzip_module模块,设置gunzip on;来自动解压,但是尝试多次后都无法成功。将zlib.so文件放到openresty的lualib目录下,供全局加载到。确保luajit的依赖存在,在cmake检查的时候会显示出来;

2024-09-30 10:22:53 753

原创 Doris的Routine Load方式消费Kafka数据进入Doris

最后kafka的数据就可以源源不断的存储到doris表里面了。假设kafka已有嵌套JSON数据格式为。

2024-09-24 14:23:02 1046

原创 CoAP协议的Java开源实现Californium,DTLS加密

4、启动Spring Boot应用。

2024-08-11 17:39:40 385

原创 HBase解决热点问题

5、预分区:根据已有数据结构进行预分区,比如全国身份证写入,可以根据省份标识分区。6、重新负载均衡:没发生提前更改写入策略,一旦发生可以重新负载分区。1、翻转时间戳:比如说用户可以把注册时间反转拼接在前面。3、哈希值:将rowkey直接进行哈希值。4、分割写入:把日期拼接作为前缀。2、加盐:加固定盐在前面。

2024-08-05 16:14:08 274

原创 使用CUDA过程中出现异常

解决办法:

2024-01-29 18:49:54 564 2

原创 yolov8训练模型(Yolov8+roboflow)

2、下载标注后的数据集,选择自己想要的格式进行下载标注好后的格式数据。注册账号、上传数据进行标注。5、训练好后生成runs文件夹。7、使用自定义模型进行预测。6、用测试集验证模型。

2023-04-04 16:46:23 854

原创 PDF免费转word方法

平时偶尔需要将PDF文档转换为word,现在将自己经常用的几个在线 PDF转word网站分享一下。1、DeftPDF | Free PDF Software to Edit, Convert, Sign & More.An all-in-one free online PDF editor that does not require subscriptions or installations! DeftPDF is a free online tool that makes editing a

2022-05-25 11:44:51 532 1

原创 docker安装mysql

拉取镜像docker pull mysql:5.7.36启动容器:docker run -p 3316:3306 --name mysql5.7.36 \-v /home/project/docker-workplace/mysql/log:/var/log/mysql \-v /home/project/docker-workplace/mysql/data:/var/lib/mysql \-v /home/project/docker-workplace/mysql/conf:/etc

2022-05-20 14:02:38 276

原创 实践自定义String类

1.包名非java.lang是可以的2.包名是java.lang包名是java.lang下的所有类在自定义加载器中进行加载的时候都会触发安全检查,提示禁止使用java.lang包名直接运行该自定义的java.lang下的类,名字相同会进行双亲加载,加载父辈的类如String。这时候就会提示找不到main方法,没有机会加载到该类。名字不同的时候,有机会加载 ,但还是会在加载的时候进行安全验证。破坏双亲加载的例子:tomcat、JNDI、JDBC等...

2022-01-06 15:32:37 512

原创 简历筛选总结

一、简历准备阶段简历三要素:1. 自我技能介绍、项目经验介绍;2. 历任公司介绍,也就是出身;3. 说明毕业学校,还是出身;以上三点是hr快速筛选简历的依据,第一点要和公司要求尽可能匹配。第二点要尽可能突出公司优势和业绩,老总面大多数只聊聊过往经历和所呆过的平台大小。第三点毕业院校和专业也要明确一下。以上ok基本会过初筛。后续就看个人能力和临场发挥了。二、面试准备阶段1.自我介绍2.项目介绍项目需要反复思考,不留死角。多埋点,让面试官踩。3.基础理论要尽可能准备到

2021-11-04 18:30:19 815

原创 垃圾回收三色标记算法总结

判断哪些对象需要被垃圾回收?引用计数会导致循环引用,所以一般都是可达性分析。可达性分析是从GC Root出发,进行三色标记算法。CMS就是使用标记清除算法,整个过程就是一个三色标记流程。初始标记 STW,标记GC ROOT为黑色,GC ROOT关联的为灰色并发标记 扫描整个引用链,没有子节点为黑,有子节点为灰色重标记 STW 修复变动的并发清除 开始正式清除,清除白色的三色标记的遗留问题:多标 or 漏标多标下次垃...

2021-09-13 10:26:54 213

原创 ClickHouse安装部署

安装前准备:1.clickhouse需要SSE 4.2支持grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"2.关闭防火墙systemctl stop firewalld.service systemctl disable firewalld.service3.安装包准备(https://packagecloud.io/Altinity/cl

2021-09-09 11:10:34 327

原创 ROI区域定位工具

由于暂时没有实现led灯的定位,所以这里放上led灯ROI定位工具代码。# -*- coding: utf-8 -*-"""Class definition of YOLO_v3 style detection model on image and video"""import cv2import OperationMysql as mySqlimg = cv2.imread('images/test.jpg')op_mysql = mySql.OperationMysql()#f

2021-05-13 10:30:00 1172 1

原创 led指示灯识别功能

led指示灯识别可以实现led的八种灯光颜色识别以及灯光闪烁识别。可用于大型设备的led灯光自动化监控。暂未实现led定位识别。本代码使用python编写,依赖opencv来进行颜色识别。 依赖open cv 3.4.1,太高可能会报错pip3 install opencv_python==3.4.2.16# -*- coding: utf-8 -*-"""图片测试"""import cv2import numpy as npimport collectionsimport Op

2021-05-13 10:23:36 3468 3

原创 elasticsearch源码目录结构说明

源码目录结构 1. distribution模块 distribution的英文分发的意思,这里是的作用是打包各类压缩发布包。要与distributed进行区别,它是分布式。打包方式如下图:点击build.grad...

2021-03-18 17:57:10 532

原创 git删除文件夹

方法一这里以删除 test文件夹为案例git rm -r --cached test //--cached不会把本地的test删除git commit -m 'delete test dir'git push -u origin master123方法二如果误提交的文件夹比较多,方法一也较繁琐直接修改.gitignore文件,将不需要的文件过滤掉,然后执行命令:git rm -r --cached .git add .git commitgit push -u origin.

2021-02-26 11:52:42 4763

原创 centOS7安装 mysql-community-release-el7-5.noarch.rpm 包

一、rpm包1、wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm(下载rpm)2、rpm -ivh mysql-community-release-el7-5.noarch.rpm(安装rpm包)3、yum install mysql-server (安装)二、操作MySQL1、service mysql start(启动数据库)2、service mysql status(查看数据库状态)..

2020-10-22 15:59:45 3993

原创 多线程的理解

结论: 只有线程数接近CPU核心才会发挥更高性能.只考虑CPU的话,多个线程串行执行永远时间分片执行要快. 但是实际线程运行会涉及到内存,网络,磁盘各种因素. 会造成多种堵塞. CPU就不能充分利用起来. 所以有了CPU时间分片, 当A线程堵塞的时候,可以执行B线程.换句话说:是堵塞创造了更多的执行机会,这时候多线程才能发挥更好的性能...

2020-08-21 10:07:16 145

原创 Linux IO性能查看

1.top 命令 wa值越高 ,可能磁盘IO越大,但是网络IO也会导致该值高,所以只是说可能。2.sar -d -p 1 2其中, “-d”参数代表查看磁盘性能,“-p”参数代表将 dev 设备按照 sda,sdb……名称显示,“1”代表每隔1s采取一次数值,“2”代表总共采取2次数值。await svctm %utilawait大于svctm代表 IO队列等待过长,需要换磁盘。 两者持平比较好%util 100% 代表满负荷工作,需要通过优化程序或者更换磁盘解决...

2020-05-21 17:29:46 532

原创 MYSQL同步数据到ES

1.MYSQL的数据同步通常采用binlog进行同步。所有的数据库操作都会写binlog日志,所以采用binlog的方式去做数据复制是非常好的。2.比如要做ES的订单查询系统,可以使用binlog去做数据同步,当数据发生变化,数据量将会采用binglog的方式将数据写到ES达到同步的目的。3.工具:开源组件Canal。 go-mysql-elasticsearch...

2020-03-17 17:19:42 2333

原创 接手一个Elasticsearch集群,如何进行优化

1.从内存消耗上进行存储优化2.从磁盘上进行优化3.从搜索上进行优化4.从写入上进行优化5.从稳定性上进行优化6.从机器上进行优化内存优化:三种cache的优化:1)filter cache/query cache2)request cache 默认不开启,实时数据失效快,没开启一般不用优化3)fielddata cache与doc_valueses2...

2020-01-02 14:55:37 173

原创 Linux更换repo源

1.https://opsx.alibaba.com/mirror 阿里有各个版本的更新方法2.yum makecache 慢慢等待

2019-10-31 15:18:45 3225

原创 Mysql主从配置

0.关闭主从机器的防火墙。1.安装wget http://repo.mysql.com/mysql57-community-release-el7-10.noarch.rpmrpm -Uvh mysql57-community-release-el7-10.noarch.rpmyum install -y mysql-community-server2.获取密码并且更改...

2019-06-12 16:36:48 127

原创 ElasticSearch QueryCache源码理解(基于6.0.0-rc2版本)

对于频繁的查询,查询结果缓存是提高效率的有效做法。ElasticSearch缓存分为node缓存与index缓存;其中node缓存:1.query缓存(是属于lucene的)2.field缓存3.request缓存以下分析一下QueryCache;QueryCache是主要dsl的子查询语句的结果集缓存,对于后续相同的查询可以直接取缓存数据以上是核心三种缓存的源...

2019-04-17 19:08:10 651

原创 Elasticsearch存储分析

1.lucene存储结构倒排索引逻辑结构 关键字 文章号【出现频率】 出现位置 guangzhou 1【2】 2,6 hadoop 1【3】,3【5】 1,5,8 1,2,5,9,10 part 2【2】,7【1】 12,54 11 room 2【1】,2【2】 ...

2019-04-12 10:43:17 346

原创 Elasticsearch(源码编译)

1.下载elasticsearch-6.0.0-rc2源码包2.下载安装Gradle,并且配置环境变量3.修改maven源,使用阿里的网速好,修改以下两个文件 elasticsearch\benchmarks\build.gradle elasticsearch\client\benchmark\build.gradle buildscript { repo...

2019-03-18 16:46:55 470

原创 Elasticsearch 内存分配

1.只能分配机器的一半内存给Elasticsearch。另一半要给Lucene。Lucene存储于堆外内存。2.机器内存即使很充足,也不要分配内存超过32G给Elasticsearch,堆内存小于32G的时候会使用内存对象指针压缩技术。给31G最安全内存交换会强烈影响Elasticsearch性能。什么情况下会发生内存交换:机器内存不足时发生内存交换SWAP。...

2018-09-10 13:48:02 560

hadoop2.6conf下的正确配置文件

hadoop2.6 conf下的正确配置文件,下载后可以直接覆盖使用。配置文件里有一些配置讲解。方便学习了解

2015-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除