- 博客(387)
- 收藏
- 关注
原创 防止HTTPS页面通过<iframe>标签嵌入HTTP内容
防止HTTPS页面通过<iframe>标签嵌入HTTP内容出于安全考虑,现代浏览器实施了严格的规则来防止HTTPS页面通过<iframe>标签嵌入HTTP内容。这种行为主要是为了防止所谓的“混合内容”问题,即在一个安全(加密)的页面中加载非安全(未加密)的内容。这样做可能会暴露用户数据,并降低整体安全性。
2025-04-30 15:01:51
545
原创 orc识别文字的原理
OCR(Optical Character Recognition,光学字符识别)技术是一种将印刷体或手写体文本转换为机器编码文本的技术。在OCR技术中,识别文字的过程涉及多个步骤,主要包括图像预处理、特征提取、字符识别和后处理。
2025-04-29 08:42:21
401
原创 token 数量的计算
Token 是自然语言处理(NLP)中的基本单位。它可以是一个单词、子词(subword)、字符,甚至是标点符号。不同的模型和编码方案对 token 的定义可能不同。例如:编码器的核心功能是实现。
2025-04-27 14:08:03
733
原创 PaddleX的安装
请参考下述命令,使用飞桨框架官方 Docker 镜像,创建一个名为。的容器,并将当前工作目录映射到容器内的。1、安装PaddlePaddle。查看 docker 版本。
2025-04-27 09:50:37
560
原创 OCR(Optical Character Recognition),光学字符识别
使用OCR技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用。字符切割:对图像中的文本进行字符级的切割,尤其注意字符粘连等问题。文字识别阶段:包含特征提取、字符识别、版面恢复、后处理等子步骤。版面恢复:识别原文档的排版,按照原排版的格式将识别结果输出。、二值化、图像降噪、分类法,识别出字符。
2025-04-25 13:32:00
402
原创 String.length() 方法返回的是字符串中的 字符数,而不是字节数
返回的是UTF-16 代码单元的数量,也就是字符数。对于常见的汉字,通常是一个代码单元(2 字节),计为 1 个字符。对于特殊字符(如表情符号或扩展区字符),可能需要两个代码单元(4 字节),计为 2 个字符。
2025-04-23 09:39:17
192
原创 Markdown 表格的基本格式
Markdown 表格的基本格式如下:markdown复制| 标题1 | 标题2 | 标题3 || 内容1 | 内容2 | 内容3 || 内容4 | 内容5 | 内容6 |
2025-03-27 10:21:10
749
原创 ES 加入高亮设置
这是实现跨字段高亮的关键设置,允许在。字段上高亮,即使查询的是其他字段(如。- 当没有匹配时返回的文本长度。- 控制每个高亮片段的大小。- 控制返回的高亮片段数量。
2025-03-25 15:37:10
491
原创 ES 字段的映射定义了字段的类型及其行为
例如,可以按 content_answer.keyword 对文档进行排序,或者对 content_answer.keyword 的值进行计数统计。例如,查询关键字 "测试" 可以匹配到字段值 "这是测试文本",因为分词器会将 "这是测试文本" 分割为 ["这是", "测试", "文本"]。例如,如果字段值是 "这是测试文本",分词器可能会将其分割为 ["这是", "测试", "文本"]。例如,查询字段值 "这是测试文本" 只能匹配到完全相同的字段值,而不能匹配到部分匹配的内容。
2025-03-25 13:50:20
510
原创 阿里云服务器部署 六 PaddleNLP词向量服务
curl -X POST http://172.16.108.44:6001/ -H 'Content-Type: application/json' -d '{"data":[{"text": "智能大屏"}, {"text": "智能销售"}]}'发现少了GLIBCXX_3.4.20,解决方法是升级libstdc++安装paddlenlp2.5.2。安装paddlepaddle。升级libstdc++
2025-03-21 14:22:20
417
原创 Systemd 是 Linux 系统的 核心服务管理工具,负责管理系统的启动、服务生命周期和资源分配
Systemd是 Linux 系统的 ,负责管理系统的启动、服务生命周期和资源分配。它替代了传统的SysV init系统,提供更高效、统一的服务管理方式。
2025-03-21 13:18:52
415
原创 阿里云服务器环境部署 四 MySQL主从配置
MySQL配置主从由于担心单点的mysql会有风险,所以需要部署一个mysql 的slave由于已经在44上部署了mysql,所以只能修改配置后在43上再部署一个mysql的从库。
2025-03-19 09:51:23
443
原创 Linux 内存解读
≈ 12G (系统"真正可用"内存 = Free + 可回收的 Buff/Cache)= 17G (已使用的内存,含应用程序 + 部分缓存)= 9G (内核缓存,可被快速回收)= 4G (完全未被使用的内存)= 30G (物理内存总量)
2025-03-18 14:52:39
221
原创 阿里云服务器环境部署 三 Minio文件服务集群的搭建
sudo yum install tree 安装tree命令。1、三台机器 配置 vim /etc/hosts。二、编写docker-compose.yml 文件。1、不带nginx的minio。1、带nginx的minio。创建相关目录并上传文件。
2025-03-18 13:30:21
368
原创 docker 命令里 --restart=unless-stopped 参数的作用
如果 Elasticsearch 因配置错误(如内存不足、数据损坏)启动失败,容器会无限重启。:若宿主机资源不足(如内存),可能导致 Elasticsearch 反复崩溃重启,需合理分配资源(如。:当容器意外退出(如进程崩溃、宿主机重启等)时,Docker 会自动重启容器。:确保 Elasticsearch 服务高可用,避免因意外崩溃导致服务不可用。:宿主机重启后,容器自动恢复,无需人工干预。时,容器才会保持停止状态。
2025-03-18 09:53:17
581
原创 阿里云服务器环境部署 二 ES集群+Kibana部署
ES部署一、准备工作提前开放三台服务器的9200、9300端口,需要配置的服务器额外开放5601端口。只需要配置一个kibana即可连接es集群。创建es网卡二、安装 elasticsearch 8.14创建目录1、docker 拉取ES镜像3个节点都要拉取。
2025-03-18 09:31:19
329
原创 阿里云服务器挂载磁盘
阿里云服务器挂载磁盘进入阿里云服务器后发现磁盘不够,需要把600G的磁盘加入进来。bash复制bash复制验证挂载是否成功:bash复制复制。
2025-03-17 08:54:41
393
原创 org.apache.logging.log4j.LoggingException: log4j-slf4j-impl cannot be present with log4j-to-slf4j
.. 1 more。
2025-03-03 15:14:06
368
原创 DeepSeek R1本地部署(windows)
本地部署 DeepSeek 可以让你在自己的设备上运行 AI 模型,避免网络延迟和隐私问题。以下是一个简洁的本地部署教程,帮助你快速上手。
2025-02-28 17:20:29
404
原创 在AI中,tokens是自然语言处理(NLP)的基本单位,用于文本的分割和处理。
Tokens可以是单个单词、字符、子词或标点符号,具体形式取决于使用的分词方法。12。
2025-02-28 11:29:10
527
原创 DeepSeek入门学习
DeepSeek-R1 凭借创新的技术实现重大突破。在极少量标注数据的基础上,通过深度优化的后训练阶段,显著提升了模型的推理能力。在数学运算、代码生成、自然语言推理等核心领域,其表现均达到了与 OpenAI o1 正式版相当的水平。深度搜索有服务器繁忙的情况。
2025-02-27 17:39:59
1104
原创 mysql 数据导出到文件
mysql -u 用户名 -p --batch --silent 数据库名 -e "SELECT kid, title, question FROM knowledge_base_faq_batch WHERE label = '帮助中心FAQ' LIMIT 1000;mysql -u 用户名 -p 数据库名 -e "SELECT kid, title, question FROM knowledge_base_faq_batch WHERE label = '帮助中心FAQ' LIMIT 1000;
2025-02-06 11:35:27
751
原创 Hanlp的学习
其中数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的,用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除。
2025-01-17 09:19:23
186
原创 从AI原理到模型演进及代码实践 的学习二
Transformer仅一个Encoder模块就可以工作,可以处理信息抽取、识别、主体识别等任务,比如 BERT(Bidirectional Encoder Representations from Transformers)是只使用了Encoder,可以从给定的文本段落中找到并提取出回答问题的文本片段,目标是识别或检索信息,而不是生成新的文本序列。
2025-01-16 10:38:19
202
原创 从AI原理到模型演进及代码实践 的学习一
初探神经网络(原理)上图就是一个人脑的神经元,由多个树突、轴突和细胞核构成,其中树突用来接收电信号、经细胞核加工(激活)信号、最后由轴突输出电信号,人脑大概860亿个神经元细胞,突触相互连接,形成拓扑结构。每个神经元大约有1163~11628个突触,突触总量在14~15个数量级,放电频繁大约在400~500Hz,每秒最高计算量大约40万亿次,换算成当前流行词汇,大脑大概等价于100T参数模型(140B逊爆了),而且有别当前大模型中ReLU激活函数,大脑惰性计算是不用算0值的,效率更高。
2025-01-16 09:15:56
742
原创 CNCF云原生计算基金会
CNCF旨在促进和支持开源技术的发展,特别是那些支持云原生(cloud native)应用开发、部署和运行的技术栈。CNCF还负责组织一些主要的会议和活动,如KubeCon + CloudNativeCon系列,以汇集成千上万的技术专家、开发者和爱好者共同讨论云原生技术的最新发展和最佳实践。- **Kubernetes**:一个用于自动化部署、扩展和管理容器化应用程序的开源平台。- **Prometheus**:一个开源的监控系统和报警工具包。- **gRPC**:一个高性能、开源和通用的RPC框架。
2025-01-15 16:39:28
669
原创 APM服务端
一些知名的APM工具供应商包括Dynatrace、New Relic、AppDynamics等,它们提供了全面的APM解决方案,涵盖了从前端到后端的全方位性能监控。5. **诊断工具**:提供深入的问题诊断功能,如分布式追踪、堆栈跟踪等,以加速故障排除过程。2. **数据分析与处理**:对收集的数据进行清洗、聚合和分析,以便发现性能趋势和异常。3. **可视化展示**:提供直观的仪表盘和报告,便于理解和跟踪应用性能指标。1. **数据采集**:通过在应用程序中部署的代理或探针收集性能数据。
2025-01-15 15:08:41
215
原创 Apache PAIMON 学习
Paimon在最新的版本当中也会推出Paimon object Table,希望通过Object Table管理非简化的数据,包括在OOS或者HDFS上的图片,视频,文件,音频之类的文件。拿到这些原数据之后就可以通过包括pySpark ,Flink SQL ,Spark SQL 等,通过这种结构化的处理,读表知道有哪些文件,这些文件的文件大小可以做一些过滤,也可以把这些文件读出来做一些处理,所以通过这样的方式把非结构化和结构化的SQL的处理,或者结构化的计算引擎的处理结合到一起,让整个结构化的处理更简单。
2025-01-14 17:03:17
1520
原创 OCI 通常指的是开放容器计划(Open Container Initiative),这是一个轻量级、开放的治理结构(即Linux基金会的一个项目),旨在围绕容器格式和运行时制定行业标准。
OCI 通常指的是开放容器计划(Open Container Initiative),这是一个轻量级、开放的治理结构(即Linux基金会的一个项目),旨在围绕容器格式和运行时制定行业标准。OCI的目标是推动容器技术的标准化,使得不同的组织和技术能够更好地协作,减少供应商锁定的风险,并促进容器技术的创新和发展。2. **运行时规范(Runtime Specification)**:描述了容器运行时的行为,也就是如何在宿主机操作系统上创建并运行一个或多个隔离的环境(即容器)。
2025-01-14 16:19:32
513
原创 CRD是Custom Resource Definitions(自定义资源定义)的缩写,这是Kubernetes中的一个概念。
截至2025年,随着越来越多的企业和组织采用Kubernetes作为其基础设施的核心组件,CRD的使用也变得更加广泛和成熟,支持更加复杂的应用场景和服务模式。3. **编写控制器**:通常情况下,仅定义CRD是不够的,还需要编写一个控制器来监听这些自定义资源的变化,并根据其状态执行相应的操作。1. **定义CRD**:首先需要创建一个YAML文件来定义你的CRD。4. **使用自定义资源**:一旦CRD和控制器就位,就可以像使用任何其他Kubernetes资源一样创建、更新和删除这些自定义资源了。
2025-01-14 16:18:22
173
原创 WebAssembly(简称Wasm)是一种用于基于栈的虚拟机的二进制指令格式,它作为便携式编译目标,允许高级语言如C、C++和Rust等被编译成可以在网页上高效运行的代码。
6. **标准和浏览器支持**:WebAssembly是一个开放标准,由W3C的WebAssembly工作组开发维护。所有主流浏览器都已实现了对WebAssembly的支持。5. **易于集成**:WebAssembly可以直接从JavaScript调用,并且可以像操作普通JavaScript对象一样操作WebAssembly导出的功能。1. **高性能**:WebAssembly代码可以非常接近原生应用的速度执行,这使得它非常适合计算密集型的应用程序,如游戏、视频编辑和CAD应用等。
2025-01-14 16:17:19
420
原创 WebAssembly
6. **标准和浏览器支持**:WebAssembly是一个开放标准,由W3C的WebAssembly工作组开发维护。所有主流浏览器都已实现了对WebAssembly的支持。5. **易于集成**:WebAssembly可以直接从JavaScript调用,并且可以像操作普通JavaScript对象一样操作WebAssembly导出的功能。1. **高性能**:WebAssembly代码可以非常接近原生应用的速度执行,这使得它非常适合计算密集型的应用程序,如游戏、视频编辑和CAD应用等。
2025-01-14 16:02:37
268
Doris 1.2.4.1 Dockerfile制作 init-fe.sh 和 init-be.sh
2023-08-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人