自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(387)
  • 收藏
  • 关注

原创 防止HTTPS页面通过<iframe>标签嵌入HTTP内容

防止HTTPS页面通过<iframe>标签嵌入HTTP内容出于安全考虑,现代浏览器实施了严格的规则来防止HTTPS页面通过<iframe>标签嵌入HTTP内容。这种行为主要是为了防止所谓的“混合内容”问题,即在一个安全(加密)的页面中加载非安全(未加密)的内容。这样做可能会暴露用户数据,并降低整体安全性。

2025-04-30 15:01:51 545

原创 orc识别文字的原理

OCR(Optical Character Recognition,光学字符识别)技术是一种将印刷体或手写体文本转换为机器编码文本的技术。在OCR技术中,识别文字的过程涉及多个步骤,主要包括图像预处理、特征提取、字符识别和后处理。

2025-04-29 08:42:21 401

原创 token 数量的计算

Token 是自然语言处理(NLP)中的基本单位。它可以是一个单词、子词(subword)、字符,甚至是标点符号。不同的模型和编码方案对 token 的定义可能不同。例如:编码器的核心功能是实现。

2025-04-27 14:08:03 733

原创 PaddleX的安装

请参考下述命令,使用飞桨框架官方 Docker 镜像,创建一个名为。的容器,并将当前工作目录映射到容器内的。1、安装PaddlePaddle。查看 docker 版本。

2025-04-27 09:50:37 560

原创 OCR(Optical Character Recognition),光学字符识别

使用OCR技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用。字符切割:对图像中的文本进行字符级的切割,尤其注意字符粘连等问题。文字识别阶段:包含特征提取、字符识别、版面恢复、后处理等子步骤。版面恢复:识别原文档的排版,按照原排版的格式将识别结果输出。、二值化、图像降噪、分类法,识别出字符。

2025-04-25 13:32:00 402

原创 String.length() 方法返回的是字符串中的 字符数,而不是字节数

返回的是UTF-16 代码单元的数量,也就是字符数。对于常见的汉字,通常是一个代码单元(2 字节),计为 1 个字符。对于特殊字符(如表情符号或扩展区字符),可能需要两个代码单元(4 字节),计为 2 个字符。

2025-04-23 09:39:17 192

原创 ES 参数调优

【代码】ES 参数调优。

2025-04-07 10:33:24 395

原创 Markdown 表格的基本格式

Markdown 表格的基本格式如下:markdown复制| 标题1 | 标题2 | 标题3 || 内容1 | 内容2 | 内容3 || 内容4 | 内容5 | 内容6 |

2025-03-27 10:21:10 749

原创 ES 加入高亮设置

这是实现跨字段高亮的关键设置,允许在。字段上高亮,即使查询的是其他字段(如。- 当没有匹配时返回的文本长度。- 控制每个高亮片段的大小。- 控制返回的高亮片段数量。

2025-03-25 15:37:10 491

原创 ES 字段的映射定义了字段的类型及其行为

例如,可以按 content_answer.keyword 对文档进行排序,或者对 content_answer.keyword 的值进行计数统计。例如,查询关键字 "测试" 可以匹配到字段值 "这是测试文本",因为分词器会将 "这是测试文本" 分割为 ["这是", "测试", "文本"]。例如,如果字段值是 "这是测试文本",分词器可能会将其分割为 ["这是", "测试", "文本"]。例如,查询字段值 "这是测试文本" 只能匹配到完全相同的字段值,而不能匹配到部分匹配的内容。

2025-03-25 13:50:20 510

原创 阿里云服务器部署 六 PaddleNLP词向量服务

curl -X POST http://172.16.108.44:6001/ -H 'Content-Type: application/json' -d '{"data":[{"text": "智能大屏"}, {"text": "智能销售"}]}'发现少了GLIBCXX_3.4.20,解决方法是升级libstdc++安装paddlenlp2.5.2。安装paddlepaddle。升级libstdc++

2025-03-21 14:22:20 417

原创 Systemd 是 Linux 系统的 ‌核心服务管理工具‌,负责管理系统的启动、服务生命周期和资源分配

Systemd是 Linux 系统的 ‌‌,负责管理系统的启动、服务生命周期和资源分配。它替代了传统的SysV init系统,提供更高效、统一的服务管理方式。

2025-03-21 13:18:52 415

原创 阿里云服务器部署 五 Nginx + springboot

Nginx的部分配置。

2025-03-21 10:08:11 216

原创 阿里云服务器环境部署 四 MySQL主从配置

MySQL配置主从由于担心单点的mysql会有风险,所以需要部署一个mysql 的slave由于已经在44上部署了mysql,所以只能修改配置后在43上再部署一个mysql的从库。

2025-03-19 09:51:23 443

原创 Linux 内存解读

≈ 12G (系统"真正可用"内存 = Free + 可回收的 Buff/Cache)= 17G (已使用的内存,含应用程序 + 部分缓存)= 9G (内核缓存,可被快速回收)= 4G (完全未被使用的内存)= 30G (物理内存总量)

2025-03-18 14:52:39 221

原创 阿里云服务器环境部署 三 Minio文件服务集群的搭建

sudo yum install tree 安装tree命令。1、三台机器 配置 vim /etc/hosts。二、编写docker-compose.yml 文件。1、不带nginx的minio。1、带nginx的minio。创建相关目录并上传文件。

2025-03-18 13:30:21 368

原创 docker 命令里 --restart=unless-stopped 参数的作用

如果 Elasticsearch 因配置错误(如内存不足、数据损坏)启动失败,容器会无限重启。:若宿主机资源不足(如内存),可能导致 Elasticsearch 反复崩溃重启,需合理分配资源(如。:当容器意外退出(如进程崩溃、宿主机重启等)时,Docker 会自动重启容器。:确保 Elasticsearch 服务高可用,避免因意外崩溃导致服务不可用。:宿主机重启后,容器自动恢复,无需人工干预。时,容器才会保持停止状态。

2025-03-18 09:53:17 581

原创 阿里云服务器环境部署 二 ES集群+Kibana部署

ES部署一、准备工作提前开放三台服务器的9200、9300端口,需要配置的服务器额外开放5601端口。只需要配置一个kibana即可连接es集群。创建es网卡二、安装 elasticsearch 8.14创建目录1、docker 拉取ES镜像3个节点都要拉取。

2025-03-18 09:31:19 329

原创 阿里云服务器环境部署 一 Docker Jdk

ifconfig 查看内网IP地址。1、修改hostname。重新ssh链接 即可。

2025-03-17 10:30:48 233

原创 阿里云服务器挂载磁盘

阿里云服务器挂载磁盘进入阿里云服务器后发现磁盘不够,需要把600G的磁盘加入进来。bash复制bash复制验证挂载是否成功:bash复制复制。

2025-03-17 08:54:41 393

原创 Tomcat迁移至Undertow

2、将代码中涉及到tomcat的jar改为Undertow,或避免异常。

2025-03-12 11:04:32 179

原创 Springboot + minio

【代码】Springboot + minio。

2025-03-07 16:23:24 240

原创 DeepSeek java 流式接口开发

【代码】DeepSeek java 流式接入。

2025-03-06 08:48:12 1209

原创 org.apache.logging.log4j.LoggingException: log4j-slf4j-impl cannot be present with log4j-to-slf4j

.. 1 more。

2025-03-03 15:14:06 368

原创 SpringBoot项目集成DeepSeek-R1接口指南

【代码】SpringBoot项目集成DeepSeek-R1接口指南。

2025-03-03 09:05:50 271

原创 DeepSeek R1本地部署(windows)

本地部署 DeepSeek 可以让你在自己的设备上运行 AI 模型,避免网络延迟和隐私问题。以下是一个简洁的本地部署教程,帮助你快速上手。

2025-02-28 17:20:29 404

原创 DeepSeek技术架构学习

DeepSeek技术架构学习。

2025-02-28 11:36:35 294

原创 在AI中,tokens是自然语言处理(NLP)的基本单位,用于文本的分割和处理。

‌ Tokens可以是单个单词、字符、子词或标点符号,具体形式取决于使用的分词方法。‌12。

2025-02-28 11:29:10 527

原创 DeepSeek入门学习

DeepSeek-R1 凭借创新的技术实现重大突破。在极少量标注数据的基础上,通过深度优化的后训练阶段,显著提升了模型的推理能力。在数学运算、代码生成、自然语言推理等核心领域,其表现均达到了与 OpenAI o1 正式版相当的水平。​深度搜索有服务器繁忙的情况​。

2025-02-27 17:39:59 1104

原创 mysql 数据导出到文件

mysql -u 用户名 -p --batch --silent 数据库名 -e "SELECT kid, title, question FROM knowledge_base_faq_batch WHERE label = '帮助中心FAQ' LIMIT 1000;mysql -u 用户名 -p 数据库名 -e "SELECT kid, title, question FROM knowledge_base_faq_batch WHERE label = '帮助中心FAQ' LIMIT 1000;

2025-02-06 11:35:27 751

原创 Hanlp的学习

其中数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的,用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除。

2025-01-17 09:19:23 186

原创 从AI原理到模型演进及代码实践 的学习二

Transformer仅一个Encoder模块就可以工作,可以处理信息抽取、识别、主体识别等任务,比如 BERT(Bidirectional Encoder Representations from Transformers)是只使用了Encoder,可以从给定的文本段落中找到并提取出回答问题的文本片段,目标是识别或检索信息,而不是生成新的文本序列。

2025-01-16 10:38:19 202

原创 从AI原理到模型演进及代码实践 的学习一

初探神经网络(原理)上图就是一个人脑的神经元,由多个树突、轴突和细胞核构成,其中树突用来接收电信号、经细胞核加工(激活)信号、最后由轴突输出电信号,人脑大概860亿个神经元细胞,突触相互连接,形成拓扑结构。每个神经元大约有1163~11628个突触,突触总量在14~15个数量级,放电频繁大约在400~500Hz,每秒最高计算量大约40万亿次,换算成当前流行词汇,大脑大概等价于100T参数模型(140B逊爆了),而且有别当前大模型中ReLU激活函数,大脑惰性计算是不用算0值的,效率更高。

2025-01-16 09:15:56 742

原创 CNCF云原生计算基金会

CNCF旨在促进和支持开源技术的发展,特别是那些支持云原生(cloud native)应用开发、部署和运行的技术栈。CNCF还负责组织一些主要的会议和活动,如KubeCon + CloudNativeCon系列,以汇集成千上万的技术专家、开发者和爱好者共同讨论云原生技术的最新发展和最佳实践。- **Kubernetes**:一个用于自动化部署、扩展和管理容器化应用程序的开源平台。- **Prometheus**:一个开源的监控系统和报警工具包。- **gRPC**:一个高性能、开源和通用的RPC框架。

2025-01-15 16:39:28 669

原创 APM服务端

一些知名的APM工具供应商包括Dynatrace、New Relic、AppDynamics等,它们提供了全面的APM解决方案,涵盖了从前端到后端的全方位性能监控。5. **诊断工具**:提供深入的问题诊断功能,如分布式追踪、堆栈跟踪等,以加速故障排除过程。2. **数据分析与处理**:对收集的数据进行清洗、聚合和分析,以便发现性能趋势和异常。3. **可视化展示**:提供直观的仪表盘和报告,便于理解和跟踪应用性能指标。1. **数据采集**:通过在应用程序中部署的代理或探针收集性能数据。

2025-01-15 15:08:41 215

原创 Apache PAIMON 学习

Paimon在最新的版本当中也会推出Paimon object Table,希望通过Object Table管理非简化的数据,包括在OOS或者HDFS上的图片,视频,文件,音频之类的文件。拿到这些原数据之后就可以通过包括pySpark ,Flink SQL ,Spark SQL 等,通过这种结构化的处理,读表知道有哪些文件,这些文件的文件大小可以做一些过滤,也可以把这些文件读出来做一些处理,所以通过这样的方式把非结构化和结构化的SQL的处理,或者结构化的计算引擎的处理结合到一起,让整个结构化的处理更简单。

2025-01-14 17:03:17 1520

原创 OCI 通常指的是开放容器计划(Open Container Initiative),这是一个轻量级、开放的治理结构(即Linux基金会的一个项目),旨在围绕容器格式和运行时制定行业标准。

OCI 通常指的是开放容器计划(Open Container Initiative),这是一个轻量级、开放的治理结构(即Linux基金会的一个项目),旨在围绕容器格式和运行时制定行业标准。OCI的目标是推动容器技术的标准化,使得不同的组织和技术能够更好地协作,减少供应商锁定的风险,并促进容器技术的创新和发展。2. **运行时规范(Runtime Specification)**:描述了容器运行时的行为,也就是如何在宿主机操作系统上创建并运行一个或多个隔离的环境(即容器)。

2025-01-14 16:19:32 513

原创 CRD是Custom Resource Definitions(自定义资源定义)的缩写,这是Kubernetes中的一个概念。

截至2025年,随着越来越多的企业和组织采用Kubernetes作为其基础设施的核心组件,CRD的使用也变得更加广泛和成熟,支持更加复杂的应用场景和服务模式。3. **编写控制器**:通常情况下,仅定义CRD是不够的,还需要编写一个控制器来监听这些自定义资源的变化,并根据其状态执行相应的操作。1. **定义CRD**:首先需要创建一个YAML文件来定义你的CRD。4. **使用自定义资源**:一旦CRD和控制器就位,就可以像使用任何其他Kubernetes资源一样创建、更新和删除这些自定义资源了。

2025-01-14 16:18:22 173

原创 WebAssembly(简称Wasm)是一种用于基于栈的虚拟机的二进制指令格式,它作为便携式编译目标,允许高级语言如C、C++和Rust等被编译成可以在网页上高效运行的代码。

6. **标准和浏览器支持**:WebAssembly是一个开放标准,由W3C的WebAssembly工作组开发维护。所有主流浏览器都已实现了对WebAssembly的支持。5. **易于集成**:WebAssembly可以直接从JavaScript调用,并且可以像操作普通JavaScript对象一样操作WebAssembly导出的功能。1. **高性能**:WebAssembly代码可以非常接近原生应用的速度执行,这使得它非常适合计算密集型的应用程序,如游戏、视频编辑和CAD应用等。

2025-01-14 16:17:19 420

原创 WebAssembly

6. **标准和浏览器支持**:WebAssembly是一个开放标准,由W3C的WebAssembly工作组开发维护。所有主流浏览器都已实现了对WebAssembly的支持。5. **易于集成**:WebAssembly可以直接从JavaScript调用,并且可以像操作普通JavaScript对象一样操作WebAssembly导出的功能。1. **高性能**:WebAssembly代码可以非常接近原生应用的速度执行,这使得它非常适合计算密集型的应用程序,如游戏、视频编辑和CAD应用等。

2025-01-14 16:02:37 268

中国城市经纬度和部分城市邮编

中国城市经纬度和部分城市邮编

2024-01-05

大数据平台集群整体规划文档

大数据平台集群整体规划文档

2023-10-09

大数据集群规划和配置文档

大数据集群规划和配置文档

2023-08-14

大数据集群规划和配置文档

大数据集群规划和配置文档

2023-08-14

Doris 1.2.4.1 Dockerfile制作 init-fe.sh 和 init-be.sh

Doris 1.2.4.1 Dockerfile制作 init-fe.sh 和 init-be.sh

2023-08-03

Doris 1.2.4.1 Dockerfile制作 init-fe.sh

Doris 1.2.4.1 Dockerfile制作 init-fe.sh

2023-08-03

Doris 1.2.4.1 Dockerfile制作 init-be.sh

Doris 1.2.4.1 Dockerfile制作 init-be.sh

2023-08-02

Dinky plugins的依赖jar包

Dinky plugins的依赖jar包

2023-06-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除