Elastic 中国社区官方博客

关于 Elastic Stack 及相关的任何技术

  • 博客(2667)
  • 收藏
  • 关注

原创 Elastic 线下 Meetup 将于 2026 年 1 月 10 号下午在北京举行

2026年ElasticMeetup北京站将于1月10日在腾讯北京总部举办。活动邀请Elastic、腾讯及新智锦绣专家分享前沿技术,包括Elasticsearch向量搜索与AI应用、MCP超级大脑在智能运维中的实践、腾讯云ES的AI能力建设,以及搜索范式从排序到过滤的转变等主题。现场提供茶歇交流机会,并有抽奖环节。报名需实名登记,成功报名后需联系工作人员获取访客码。活动详情及报名链接:https://elastic.huodongxing.com/event/5835577361800

2025-11-24 07:53:17 2045

原创 Elastic:如何成为一名 Elastic 认证工程师,Elastic 认证分析师及 Elastic 认证可观测性工程师

Elasticsearch 无疑是是目前世界上最为流行的大数据搜索引擎。根据 DB - Engines 的统计,Elasticsearch 雄踞排行榜第一名,并且市场还在不断地扩大:能够成为一名 Elastic 认证工程师也是很多开发者的梦想。这个代表了 Elastic 的最高认证,在业界也得到了很高的认知度。得到认证的工程师,必须除了具有丰富的 Elastic Stack 知识,而且必须有丰富的操作及有效的解决问题的能力。拥有这个认证证书,也代表了个人及公司的荣誉。针对个人的好处是,你可以..

2020-10-28 11:54:13 26801 19

原创 Elastic:开发者上手指南

你们好,我是Elastic的刘晓国。如果大家想开始学习Elastic的话,那么这里将是你理想的学习园地。在我的博客几乎涵盖了你想学习的许多方面。在这里,我来讲述一下作为一个菜鸟该如何阅读我的这些博客文章。我们可以按照如下的步骤来学习:1)Elasticsearch简介:对Elasticsearch做了一个简单的介绍2)Elasticsearch中的一些重要概念:cluster,n..........................................................

2020-02-25 20:01:55 169632 105

原创 Elastic:培训视频 - ​在生产环境中配置 Fleet Server 和 Elastic Agent 之间的安全

在这篇文章中,我将会把我写的有些内容录制成视频,供大家参考。希望对大家有所帮助。优酷的视频频道地址在这里。Elastic 简介及Elastic Stack 安装:优酷,腾讯 Elastic Stack docker 部署:优酷,腾讯 Elasticsearch中的一些重要概念(Cluster/Shards/Replica/Document/Type/Index):优酷,腾讯 开始使用El...............

2020-01-06 15:31:54 18378 12

原创 Elasticsearch 简介

Elasticsearch是一个非常强大的搜索引擎。它目前被广泛地使用于各个IT公司。Elasticsearch是由Elastic公司创建并开源维护的。它的开源代码位于https://github.com/elastic/elasticsearch。同时,Elastic公司也拥有Logstash及Kibana开源项目。这个三个开源项目组合在一起,就形成了 ELK软件栈。他们三个共同形成了一个强大的...

2019-08-08 16:04:31 175913 32

原创 Elasticsearch:在 Streams 中使用 ML 自动化 log 解析

本文介绍了一种混合机器学习方法,通过日志格式指纹识别(LFF)技术实现自动化日志解析和分区。该方法首先对原始日志进行预处理,生成结构化"指纹"以分组相关日志,再结合大语言模型(LLM)生成解析规则。实验采用Loghub数据集,涵盖分布式系统、服务器、操作系统等多领域日志,结果显示该方法在日志解析准确率达94%,分区准确率达91%。相比传统手工规则,这种自动化方案更具鲁棒性和可扩展性,能有效应对微服务环境中的日志处理挑战。文章还详细介绍了LFF的实现原理及其作为独立工具或管道组件的多用途性

2026-01-03 09:49:27 761

原创 Jina 模型的介绍,它们的功能,以及在 Elasticsearch 中的使用

Elastic与Jina合作推出的多模态AI模型为Elasticsearch提供了强大的语义搜索能力。该系列模型包含三大类:1)语义嵌入模型(如jina-embeddings-v4),支持文本/图像的多模态嵌入;2)重排序模型(如jina-reranker-v3),提升搜索结果精度;3)小型生成语言模型(如jina-vlm),用于特定任务处理。这些模型采用创新技术如Matryoshka表示学习和LoRA适配器,在保持高性能的同时降低资源消耗。通过Elastic Inference Service,用户可原生

2026-01-02 08:46:49 1236 1

原创 如何使用 LangChain 和 Elasticsearch 构建 agent 知识库

本文介绍了如何利用Elasticsearch构建一个智能代理知识库系统。该系统通过结合大型语言模型(LLM)的决策能力和检索增强生成(RAG)技术,实现了更精准的信息检索。作者以潜水知识库为例,整合了美国海军潜水手册、潜水安全手册和Google搜索API三个数据源,使用LangChain框架创建代理工具集。测试表明,该系统能根据查询意图智能选择数据源,避免无关信息干扰,并能处理超出知识库范围的问题。相比传统RAG模型,这种代理知识库具有更高的灵活性和准确性,为构建专业领域智能助手提供了有效方案。

2026-01-01 13:38:09 1022

原创 NeurIPS 2025 亮点:从模型融合到深度学习代码

摘要:Elastic工程师分享了参加NeurIPS 2025会议的收获,重点介绍了模型合并(model merging)、代码嵌入(code embeddings)等前沿AI技术。会议展示了理论研究和应用实践的平衡发展,包括扩散语言模型、基于激活的模型合并方法SuperCLIP等创新成果。特别提到Jina团队开发的紧凑高效代码嵌入模型,可用于代码检索和IT领域的RAG应用。会议反映出AI研究持续快速增长,虽然跟踪所有进展颇具挑战,但为搜索AI领域带来新机遇。

2025-12-31 08:31:36 723

原创 Elastic 即代码:自动化的不只是基础设施

摘要:本文介绍了如何通过Terraform实现"Elastic即代码"的自动化管理方案。作者展示了如何用Terraform的ElasticCloud和ElasticStack提供者,仅用一条terraform apply命令就能创建完整的Elastic环境,包括云集群、ILM策略、索引模板和安全检测规则。这种方案解决了Kibana手动操作带来的版本控制缺失、变更不可追溯等问题,实现了从基础设施到应用配置的完整代码化管理。文章详细演示了五个步骤的具体实现,并强调了代码化管理带来的可回滚、可

2025-12-30 14:29:19 813

原创 使用 Elasticsearch 中的结构化输出创建可靠的 agents

本文探讨了结构化输出在AI智能体系统中的重要性及其实现方法。结构化输出通过预定义schema确保LLM响应符合特定格式,提高系统可靠性。文章介绍了使用Zod(JavaScript)和Pydantic(Python)等工具创建schema的技术细节,并展示了如何将Elasticsearch作为上下文引擎与结构化输出结合使用。虽然结构化输出能保证数据格式,但仍存在内容正确性、复杂schema处理等限制。这种模式将LLM从对话工具转变为可集成到系统中的可靠组件,为AI系统开发提供了类似OpenAPI的标准化契约。

2025-12-30 08:35:36 1133

原创 Elasticsearch:使用 Agent Builder 的 A2A 实现 - 开发者的圣诞颂歌

摘要:《A2A的十二天》项目以经典圣诞颂歌为灵感,展示了Google的Agent-to-Agent(A2A)协议应用。该项目构建了一个由12个礼物agent、1个协调agent和1个Elastic远程agent组成的系统,通过标准化协议实现分布式协作。核心创新包括: 采用AgentCards实现自动化发现与集成 本地与云端agent无缝通信 模块化架构支持灵活扩展 项目演示了A2A协议在混合云架构、AI微服务等场景的应用潜力,为开发者提供了理解多agent系统的实践案例。所有代码已开源,鼓励开发者探索改进。

2025-12-29 07:04:48 1397

原创 圣诞树周围喵喵叫:用 Elastic Observability 跟踪虚拟猫

本文介绍了如何利用OpenTelemetry框架实现对虚拟宠物MeowPy的监测。通过日志、追踪和指标三大观察性要素,详细展示了Python应用的监测设置方法,包括自动和手动监测配置。文章以虚拟猫的自主行为为例,演示了非确定性系统的监控方案,并提供了Kibana可视化示例。最后总结了观察性最佳实践,强调这些方法同样适用于现实中的物联网场景,如智能宠物项圈和农业监测系统。

2025-12-28 07:58:16 876

原创 Elasticsearch:性能悖论 - 当更慢的代码并不会拖慢你

本文分享了Elastic工程师开发GZIP压缩日志摄取功能的性能优化过程。最初预计该功能会降低ElasticAgent和Filebeat的日志处理性能,但基准测试结果出人意料:在4150个小文件场景中,GZIP文件处理反而略快于纯文本文件,而在48GB大文件场景中两者性能相当。分析发现,虽然filestream读取GZIP文件确实更慢,但由于Pipeline队列成为瓶颈,整体性能未受影响。内存方面,每个GZIP文件会多消耗约100KB内存,但在大文件场景中可忽略不计。文章强调性能优化应全面测量,局部性能变化

2025-12-28 07:31:04 1025

原创 使用 LocalAI 和 Elasticsearch 构建本地 RAG 应用

本文详细介绍了使用LocalAI部署Qwen3-32B大模型并构建RAG应用的完整流程。主要内容包括:1) 安装Elasticsearch和Kibana 9.0.1;2) 配置加密密钥和白金版试用功能;3) 部署Elasticsearch自带的.multilingual-e5-small向量模型;4) 通过Docker或brew安装LocalAI服务;5) 下载并验证Qwen3-32B模型;6) 创建Elasticsearch连接器。特别指出在macOS M3 Pro上使用Metal加速后,推理速度从0.1

2025-12-27 16:08:43 1141

原创 更快、更清晰地在 Discover 中分析 traces

摘要:Elastic在Discover中推出Observability功能,支持一站式分析traces。用户可查看tracetimelines、关联errors/logs及spans指标,无需切换界面。通过duration过滤慢请求,检查spans属性定位延迟原因。新增的flyout功能允许直接分析latency模式、timeline预览、完整trace视图及相关logs/errors,保持上下文连贯。这些改进显著提升了trace调查效率,未来将继续增强分析体验。

2025-12-27 07:49:52 931

原创 使用 Elastic Cloud Serverless 扩展批量索引

摘要:Elastic Cloud Serverless采用split-tier架构,将indexing和search任务分离并独立扩展,由专用nodepools管理资源。indexing层根据负载自动扩展,search层随数据量增长而扩展。平台完全托管,用户无需管理。优化建议包括:从最小资源开始,调优bulk size和workers;使用datastreams处理大规模数据;通过分散客户端负载触发扩展;利用Elasticsearch Rally进行基准测试。文中还提供了测试脚本示例,展示了多进程index

2025-12-27 07:37:40 758

原创 Elasticsearch:2025年的企业搜索 - 是否需要进行抓取?

企业搜索面临抓取与联合搜索的权衡:传统抓取方式(如Elastic Workplace Search)通过连接器获取数据存入Elasticsearch,实现灵活搜索和低成本扩展,但存在同步延迟、数据过时和权限同步难题。联合搜索(如Slack/GMail连接器)通过实时API查询确保数据新鲜度和精准权限控制,但依赖第三方API质量且易受系统故障影响。随着LLM和MCP协议发展,AI辅助的分布式搜索成为趋势,结合抓取(静态内容)与联合搜索(动态数据)能提供最优体验。Elastic Agent Builder平台支

2025-12-26 08:10:48 698

原创 Elasticsearch:在 X-mas 吃一些更健康的东西

本文介绍了如何使用Elastic Cloud Serverless构建一个低成本的多语言语义搜索系统,帮助用户在假期购物时快速找到所需水果。通过semantic_text字段类型和内置的Jina多语言密集向量模型,系统可以自动识别不同语言(如英语、法语、德语、西班牙语)的商品名称。文章演示了如何创建商品索引并实现跨语言搜索(如用波兰语"owoce"搜索水果),展示了Elasticsearch在语义搜索方面的改进,包括无需安装模型、自动处理多语言等优势。最后指出这种方案比传统方法更简单高效

2025-12-26 07:41:13 502

原创 Elasticsearch:圣诞晚餐 BBQ - 图像识别

本文详细介绍了如何在本地搭建Elasticsearch图像搜索系统。主要内容包括:安装Elasticsearch 8.17.1和Kibana,配置加密密钥;创建API密钥并下载示例代码;设置Python环境并创建5个索引;导入31万+名人面部特征数据;最后通过Docker启动搜索应用。文中提供了完整的配置命令和操作步骤,包括索引创建、数据导入以及API调用方法,最终实现可在localhost:16700访问的图像搜索演示系统。

2025-12-25 16:32:18 1095

原创 Elasticsearch:圣诞晚餐 BBQ

摘要:VectorFaces是一个基于Elasticsearch向量能力的人脸识别演示系统,使用IMDB-WIKI数据集中的120万名人脸部embedding。系统采用四种量化技术(BBQ、DiskBBQ、int8、int4)实现高效搜索,允许用户调整参数(如size、k、num_candidates)来平衡速度与准确性。该系统支持单CPU运行,并提供了延迟和内存使用统计功能,便于比较不同量化方法的性能表现。开发者还详细说明了参数调整方法,帮助用户优化搜索效果。

2025-12-25 07:36:31 1294

原创 使用 OpenLit、 OpenTelemetry 和 Elastic 的 AI Agent 可观测性

本文介绍了如何使用OpenLit和OpenTelemetry实现对AI代理的观测。通过为一个旅行规划器应用添加埋点,展示了如何生成遥测数据来诊断问题。OpenLit提供SDK支持Python和TypeScript,可追踪LLM和向量数据库交互。文章详细说明了安装配置步骤,包括初始化OpenLit、发送追踪数据到Elastic、启用评估功能检测不准确内容,以及设置Guardrails防止敏感信息泄露。这些工具帮助开发者在节日期间更好地监控AI应用运行状况。

2025-12-24 14:39:36 724

原创 使用 Elasticsearch 的 Profile API 对比 dense vector 搜索性能

本文介绍了如何使用Elasticsearch的Profile API来分析不同dense_vector配置的性能差异。通过四个实验对比了flat向量与HNSW量化向量、分片策略、过滤器应用以及缓存对查询性能的影响。实验结果表明:HNSW量化向量搜索速度比flat向量快约140倍;不合理的分片策略会增加查询延迟;预过滤能显著减少向量操作次数;缓存查询比冷查询快33倍。文章还详细解析了Profile API返回的关键指标含义,包括向量搜索时间、操作次数等,并展示了如何利用Kibana的可视化工具更直观地分析性能

2025-12-24 07:22:31 1061

原创 Elasticsearch:使用 ES|QL 与 dense_vector 字段

本文介绍了Elasticsearch ES|QL中新增的向量搜索功能,包括对dense_vector字段的原生支持以及KNN函数和向量相似度函数的使用。通过创建包含3维向量的产品索引示例,演示了如何执行近似最近邻搜索(KNN)和精确搜索(向量相似度函数),并展示了如何结合传统过滤条件进行高效查询。文章还介绍了可选参数微调、TEXT_EMBEDDING函数等高级功能,强调ES|QL为语义搜索提供了灵活控制,适用于推荐系统、语义搜索引擎等场景。

2025-12-23 14:34:29 944

原创 在 Elasticsearch 中通过乘法增强来影响 BM25 排名

本文探讨了Elasticsearch中BM25评分模型与业务指标结合的优化方法。传统加法增强方式(如should子句、rank_feature)会导致排名不稳定,因为其固定数值在不同查询场景中对BM25分数的影响不成比例。相比之下,乘法增强通过function_score实现,能够保持BM25的几何结构,提供可控、可预测的排名调整。文章通过电商搜索案例说明,乘法增强能按比例调整分数(如品牌提升50%),在保留文本相关性的同时实现业务目标,避免加法方法导致的排名不可控问题。这种架构分离了业务决策与评分实现,使

2025-12-23 09:26:05 774

原创 通过将 OpenTelemetry Collector 用作框架,释放其强大功能

摘要:OpenTelemetry Collector不仅是一个遥测路由器,更是一个可扩展框架,支持用户通过自定义组件满足特定需求。文章介绍了如何开发自定义Processor组件,包括配置结构、处理逻辑和工厂模式实现,并演示了如何构建和运行包含自定义组件的Collector。这种扩展能力使得Collector可以处理特殊协议、实现数据清洗或适配专属后端系统。Elastic的OpenTelemetry发行版就是基于此框架构建的自定义实现。该机制为开发者提供了灵活解决观测性需求的技术路径。

2025-12-22 15:56:23 852

原创 使用 Elasticsearch Agent Builder 构建对话式费用助手,结合 Telegram, n8n 和 AWS Bedrock

本文介绍了一个基于自然语言交互的个人财务管理工具。该系统通过Telegram聊天界面接收语音或文本指令,利用n8n工作流编排器、AWS Bedrock(Claude3.5 Sonnet)和Elasticsearch等技术栈实现费用数据的智能管理。主要功能包括:1)自然语言处理,识别"添加费用"或"查询支出"等指令;2)语音转文本处理;3)结构化数据存储与语义搜索;4)通过AgentBuilder执行ES|QL查询。项目提供Colab一键部署方案,支持用户通过对话方式记

2025-12-22 14:01:47 1221

原创 让我们把这个 expense 工具从 n8n 迁移到 Elastic One Workflow

摘要:本文介绍了作者基于Elastic OneWorkflow、Gemini和Telegram构建的对话式费用助手系统。该系统通过Telegram接收用户输入(支持语音和文本),使用Gemini进行意图分类和信息提取,将结构化费用数据与语义嵌入一起存储在Elasticsearch中,并通过ES|QL工具进行分析查询。与原有n8n方案相比,该实现将所有组件整合在Elastic生态内,虽然目前功能相对简化(采用轮询机制而非webhooks),但展示了Elastic平台在整合AI代理和工作流方面的潜力。文章详细说

2025-12-21 12:04:17 856

原创 Kibana:使用 ES|QL 构建地图,对国家或地区的指标进行对比

本文介绍了使用Elasticsearch和Kibana构建国家/地区指标对比地图的教程。通过ES|QL新增函数LOOKUPJOIN和ST_GEOTILE,演示了创建choropleth图层(按网络流量着色)、添加文档点图层(显示单个日志)和聚合数据图层(显示网格化统计)的步骤。特别展示了如何通过人口数据对流量指标进行标准化处理,使国家间的比较更加公平。教程详细说明了从上传地理数据、创建索引到构建地图可视化的完整流程,并强调了性能优化考虑。

2025-12-20 16:20:20 1230

原创 使用 Node.js Elasticsearch 客户端索引大型 CSV 文件

摘要:本文介绍了使用Elasticsearch Node.js客户端批量索引大型CSV文件的方法。通过bulk API可将JSON文档批量索引到Elasticsearch,对于内存受限的大文件,建议使用bulk helper实现流式处理。文章提供了两种方案:1)一次性加载CSV并转换为JSON对象进行索引;2)使用流式处理,通过设置flushBytes参数分批发送请求。后者能有效处理内存不足的情况,同时保持代码简洁性。

2025-12-20 12:09:30 510

原创 Elasticsearch Serverless 定价解析:VCUs 和 ECUs 说明

Elasticsearch Serverless定价机制详解:基于VCU和ECU的弹性计费模式 摘要:Elasticsearch Serverless采用创新的VCU(虚拟计算单元)和ECU(Elastic消费单位)定价模型。Search、Ingest和ML三种VCU类型分别对应不同工作负载,计费基于实际分配资源而非固定用量。Search VCU计算考虑交互式数据集大小、搜索负载和SearchPower设置,采用阶梯式扩容而非线性增长。存储按月计费,AI工作负载可选择按token付费的Elastic推理服务

2025-12-20 09:05:55 846

原创 Elasticsearch:构建一个 AI 驱动的电子邮件钓鱼检测

使用 n8n 和 Elastic Agent Builder 构建一个 AI 驱动的电子邮件钓鱼检测系统。钓鱼攻击仍然主导着网络安全威胁形势,攻击者越来越多地使用复杂的社会工程技术来绕过传统过滤器。作为一名使用 Elastic 技术的安全从业者,我构建了一个自动化的钓鱼检测与分析系统,将 n8n 工作流自动化与 Elastic 的 AI 驱动的 Agent Builder 相结合。本文将介绍该系统的架构、实现方式,以及对三个月内 44 封钓鱼邮件进行分析所获得的真实洞察。

2025-12-19 17:55:16 1108

原创 Kibana 数据可视化的新配色方案 —— 我们如何以及为什么创建它

Kibana数据可视化推出全新配色方案,作为设计系统视觉刷新的一部分。该方案基于Elastic品牌形象,在OKLCH色彩空间通过数学生成10种色调,包含5种基础色的深浅组合。新方案解决了旧系统无法支持复杂场景的问题,提升了一致性和可访问性(WCAG标准4.5:1对比度),同时优化了堆叠图表等场景的可读性。方案于2024年11月测试,2025年4月随Kibana9.0正式发布,为严重性等级等场景提供了统一处理标准。团队将持续迭代改进可视化体验。

2025-12-19 09:47:09 771

原创 Observability:和你的 AutoOps 聊聊

摘要:Elastic的AutoOps通过实时收集和分析集群指标,帮助诊断Elasticsearch问题并提供解决方案。系统会记录问题事件并按严重程度分类显示。借助ElasticAI,离散事件被关联成连贯故事,快速识别根因。通过ElasticAgentBuilder的聊天交互,用户能在短时间内处理大量事件,如解决节点搜索队列过高、数据节点负载不平衡等问题。AI驱动的AutoOps显著加快了集群恢复过程,未来将引入AI助手进一步优化问题诊断。

2025-12-19 09:16:54 993

原创 Elastic 在 AWS re:Invent:总结一年在 agentic AI 创新中的合作

Elastic 的能力(包括向量数据库和上下文工程)与 AWS 服务的集成,帮助客户更快、更灵活地构建智能、可扩展且安全的应用。我们持续的合作在 2025 年再次推动了与 AWS 的显著创新。本文重点介绍我们在 2025 年与 AWS 的持续合作,帮助你充分利用 AI 的力量。

2025-12-19 07:49:48 978

原创 使用 LocalAI 和 Elasticsearch 构建本地 RAG 个人知识助手

本文介绍了如何利用Elasticsearch和LocalAI构建本地私有RAG(检索增强生成)系统。该系统使用e5-small模型生成嵌入,dolphin3.0-qwen2.5-0.5b模型进行文本生成,完全运行在中端笔记本上,无需云端服务。文章详细说明了系统配置步骤,包括Elasticsearch实例设置、模型选择比较、数据处理流程和性能测试结果。测试显示该系统能在17秒内完成查询响应,同时保持数据隐私和离线可用性。通过对比不同模型(如smollm2-1.7b-instruct和llama-smoltal

2025-12-19 07:03:27 1673

原创 Elasticsearch:你是说,用于混合搜索(hybrid search)

摘要:Elastic推出简化混合搜索体验的新功能,通过semantic_text字段和检索器实现文本与语义搜索的无缝结合。新功能支持开箱即用的语义搜索,提供RRF和linear等检索器简化得分组合,并引入ES|QL查询语言支持FORK/FUSE等高级操作。系统既提供默认设置也支持深度定制,让用户能根据查询特征智能选择搜索方式。目前该功能已在Elastic{ON}活动中展示,开发者可通过文档探索更多定制可能性。(149字)

2025-12-18 11:58:33 986

原创 在 Kibana 中可视化你的 Bosch Smart Home 数据

摘要:shc2es工具可将Bosch智能家居控制器的本地API数据导入Elasticsearch,实现时间序列可视化。该工具通过长轮询获取温度、湿度等设备状态数据,转换为NDJSON格式后存入Elasticsearch,并预置Kibana仪表板展示房间温度变化等指标。安装配置简单,首次运行需配对控制器,支持OpenTelemetry集成监控。用户可自定义查询和可视化,轻松分析智能家居运行数据。(149字)

2025-12-18 11:29:45 670

原创 通过 Elasticsearch 中的 function score query 按利润和受欢迎程度提升电商搜索效果

本文介绍了如何在Elasticsearch中使用function_score查询,将BM25文本相关性与业务指标(如利润率和产品受欢迎度)相结合,优化电商搜索排序。通过field_value_factor和ln1p对数缩放,实现了平滑可控的分数提升,同时保持结果的可解释性。文章提供了具体实现步骤、公式解释和参数调优建议,并比较了与rank_feature方法的差异,最终展示了如何构建兼顾用户需求和业务目标的智能搜索系统。

2025-12-18 10:49:02 1015

原创 Elasticsearch:在分析过程中对数字进行标准化

本文探讨了全文搜索中数字标准化处理的问题。针对不同地区数字格式差异(如1.4m和1,4m)、用户输入习惯(点号和逗号混用)以及前导/尾随零等问题,作者提出使用Elasticsearch的keep_types和pattern_replace等token过滤器构建分析链的解决方案。通过正则表达式统一数字格式、去除前导零和简化尾随零,实现了数字的标准化处理。文章还讨论了实际应用中可能遇到的特殊情况(如007与7的区分)和优化建议,强调需要根据具体场景调整处理逻辑。最后指出可通过condition过滤器确保仅对数字

2025-12-17 10:04:52 594

01 - AI 驱动 - 搜索的未来 -刘晓国 武汉 20250329

内容概要:本文由Elastic中国社区首席布道师刘晓国主讲,探讨了AI驱动的搜索技术的发展方向,特别是Elasticsearch在向量搜索和语义搜索方面的创新。文章详细介绍了向量搜索的基本概念、实现方法以及具体应用场景,如图片相似度搜索、混合搜索、语义搜索等。此外,还讨论了Elasticsearch在硬件加速、模型管理、推理API等方面的最新进展,以及如何通过Retrieval Augmented Generation (RAG) 技术提升搜索质量和安全性。 适合人群:对AI驱动的搜索技术感兴趣的开发者、数据科学家、企业IT决策者。 使用场景及目标:适用于需要高效、精准搜索的企业级应用,尤其是涉及大规模非结构化数据处理的场景。目标是帮助用户更好地理解和应用最新的搜索技术,提升业务效率和用户体验。 其他说明:文中提供了丰富的技术细节和实例,包括向量相似度计算、模型训练与部署、搜索架构优化等方面的内容。同时,还提到了Elasticsearch与其他AI工具和服务的集成,如OpenAI的CLIP模型、HuggingFace等。

2025-03-31

02 - ES 在绿盟企业安全平台的应用实践 - 陆攀 武汉 20250329

内容概要:本文详细介绍了Elasticsearch(ES)在绿盟企业安全平台中的大规模应用及其优化路径。首先概述了安全大数据分析的典型场景和所面临的技术挑战,如PB级别的数据量、Ad-hoc查询性能、集群稳定性和运维成本等问题。接着阐述了ES集群的具体应用场景,包括日志查询、仪表盘展示和事件告警等功能模块。针对这些问题,文中提出了多项优化措施,如多实例部署、角色分离、master节点升级、_id移除到堆外、引入混合存储等方法,有效提升了系统的稳定性和性能。最后还讨论了写入性能方面的改进,如避免多盘陷阱、采用本地写入方式、实施预判引擎以及调整动态mapping设置等。 适合人群:从事信息安全领域的技术人员,尤其是负责大型分布式系统架构设计和技术选型的专业人士。 使用场景及目标:适用于需要处理海量日志数据的企业级安全平台建设,旨在提高数据分析效率、增强系统可靠性和降低运营维护难度。 其他说明:本文不仅提供了理论指导,还分享了许多实际案例和具体实施方案,对于希望深入了解ES集群管理和调优的读者来说非常有价值。

2025-03-31

03 - Agentic RAG 构建之路 - 李捷 武汉 20250329

内容概要:本文详细介绍了Elasticsearch(ES)作为构建Agentic RAG(检索增强生成)系统的理想引擎的原因。首先探讨了传统RAG系统的局限性,然后重点阐述了ES如何通过其强大的查询规划、工具使用、动态查询规划以及数据超融合等功能克服这些问题。文中还展示了具体的案例研究,如财务风险报告、生产线良品率分析、市场销售情况评估等,强调了ES在处理复杂查询、多源数据融合和实时数据分析方面的卓越表现。此外,文章讨论了ES提供的多种查询语言和支持的广泛功能,如多模态嵌入、GPU加速、自动分块策略等,进一步证明了它在构建高效、灵活的Agentic RAG系统中的独特地位。 适合人群:对构建高级检索增强生成系统感兴趣的开发者和技术决策者,尤其是那些希望利用Elasticsearch提升数据处理能力和智能化水平的专业人士。 使用场景及目标:适用于需要处理大量异构数据的企业,旨在提高数据检索效率、增强分析能力、优化业务流程。具体应用场景包括但不限于财务风险管理、生产质量监控、市场营销分析等。 其他说明:文章不仅深入剖析了技术细节,还提供了实际操作指南和最佳实践建议,帮助读者更好地理解和应用

2025-03-31

04 - 腾讯云 ES AI 搜索优化实践 - 刘忠奇 武汉 20250329

内容概要:本文详细介绍了腾讯云Elasticsearch(ES)在AI搜索优化方面的实践成果。首先探讨了一站式RAG(检索增强生成)架构的应用案例,如微信读书‘AI问书’和敦煌数字藏经阁,展示了其在智能检索、问答系统等方面的能力。接着阐述了向量裁剪技术,通过多种索引方式(无向量索引、Flat向量索引、HNSW向量索引等)显著降低了存储成本,最高可达90%。最后介绍了多算法融合排序框架,包括rank_fusion、score_fusion和rerank_fusion三种方法,提升了搜索结果的准确性和召回率。此外,还涉及了嵌入推理、对话推理等功能模块,进一步增强了系统的灵活性和实用性。 适合人群:从事搜索引擎开发的技术人员,尤其是对Elasticsearch及其AI增强功能感兴趣的研究者和从业者。 使用场景及目标:①希望通过RAG架构实现高效智能检索和问答系统的开发人员;②需要降低向量存储成本的数据科学家和技术经理;③希望提高搜索结果质量和用户体验的产品经理和运营人员。 其他说明:文中提到的具体技术细节和应用场景有助于读者深入了解腾讯云ES在AI搜索领域的最新进展和技术优势。

2025-03-31

05 -Elasticsearch 存算分离架构在小米的应用实践 - 周明裕 郑钧元 武汉 20250329

介绍了 ElasticSearch 服务存算分离架构在小米的技术演进过程和实现思路,日志场景可实现单集群 50% 成本优化,提升整体技术性价比

2025-03-31

05-ES AI Assistant集成 DeepSeek QwQ,搭建智能运维助手 槐新 杭州 20250419与应用场景演示

内容概要:本文详细介绍了如何通过集成DeepSeek/QwQ模型搭建基于Elasticsearch(ES)的智能运维助手,以提升运维效率和问题解决能力。文章首先阐述了大语言模型(LLM)在知识问答场景中的局限性,如幻觉问题、知识受限等,进而引出检索增强生成(RAG)技术的优势,包括实时更新知识库、可解释性和减少幻觉。接着,文章介绍了新一代AI搜索应用——Agentic RAG,它通过引入人工智能代理,实现了多源协同检索、多轮交互和复杂任务处理的能力。此外,文章还展示了Elasticsearch的功能及其与DeepSeek/QwQ的深度集成,具体包括实时状态诊断、动态生成可视化数据看板、智能查询构建等。最后,通过几个实际应用场景的演示,如集群运维、可视化分析和DSL查询生成,展示了该智能运维助手的强大功能。 适合人群:具有运维经验的IT工程师、系统管理员以及对Elasticsearch和AI技术感兴趣的开发者。 使用场景及目标:①通过自然语言指令自动构建精准查询语句,实现查询构建-执行-优化的全流程自动化;②辅助集群运维和索引管理,提供智能建议,降低技术门槛;③进行可视化分析,帮助用户快速理解日志信息,生成相关图表;④支持多模态向量搜索,提升搜索精度和开发体验。 阅读建议:由于本文涉及大量技术细节和实际操作步骤,建议读者在阅读时结合实际案例进行理解和实践,尤其是对Elasticsearch和AI技术的应用有初步了解的读者,可以通过动手实验加深理解。

2025-04-19

ES/Ksibana 双MCP框架下的新一代AiOps实践 Luke 线上 20250521

内容概要:本文介绍了Elasticsearch和Kibana在双MCP框架下实现的新一代AIOps实践。作者Luke Azmat Ablat是AI解决方案架构师,专注于Elasticsearch在AI领域的应用,特别是在低资源语言搜索体验和复杂混合搜索方面的优化。文中强调了MCP(模型上下文协议)的重要性,它由Anthropic提出并被广泛认可,旨在统一AI模型与外部数据源的交互方式。通过MCP协议,Elasticsearch和Kibana能更好地结合LLM能力,实现分钟级别的故障排查和根因分析,极大提升了AIOps效率。具体应用包括实时搜索、可视化管理和智能交互,涵盖从集群状态检查到异常区域深度调查等多个场景。; 适合人群:对AI运维(AIOps)、Elasticsearch和Kibana有研究兴趣或工作需求的技术人员,尤其是从事IT运维、数据管理和AI开发的专业人士。; 使用场景及目标:①利用MCP协议整合Elasticsearch和Kibana,实现高效的自动化根因分析;②通过自然语言交互简化集群管理和数据分析流程;③优化数据洞察,提高故障排查速度,从数小时甚至数天缩短到几分钟。; 其他说明:本文不仅探讨了技术理论,还提供了实战演示,展示了如何在现有环境中部署和使用MCP框架。未来计划包括开源大模型记忆模块和支持中英混合搜索等功能,进一步扩展Elasticsearch的应用范围。

2025-05-22

03-Elasticsearch 数据流转之道 - 从写入到查询的技术探秘 尚雷.南京 20250628

内容概要:本文深入探讨了Elasticsearch的数据流转机制,从写入到查询的全过程进行了技术剖析。首先强调了关注数据流转的重要性,包括性能优化、瓶颈识别、资源配置和成本控制。接着介绍了Elasticsearch如何基于PacificA算法进行改进,以适应互联网级别的数据架构需求。文章详细解析了Elasticsearch的写入和读取流程,包括路由机制、刷新与合并操作,以及不同写入模式的选择。最后通过实际案例展示了性能优化的具体方法,如合理设置副本数量、优化索引大小和管理操作系统缓存。 适合人群:具备一定Elasticsearch使用经验的开发人员和技术管理人员,尤其是对性能优化和架构设计有需求的用户。 使用场景及目标:①理解Elasticsearch内部机制,识别性能瓶颈并进行优化;②掌握写入和查询流程,合理配置系统资源;③通过实际案例学习如何优化索引、副本设置和缓存管理,提高系统稳定性和响应速度。 阅读建议:本文内容较为深入,建议读者结合自身应用场景,重点关注与自身业务相关的性能优化部分,并尝试在实际环境中应用所学知识,进行针对性的调整和测试。

2025-06-28

【AIOps领域】基于M02-双 MCP 赋能ES Luke 南京 20250628CP框架的Elasticsearch与Kibana智能根因分析系统设计:提升企业数据洞察效率和自动化运维能力

内容概要:本文介绍了在双 MCP框架下,Elasticsearch (ES) 和 Kibana 新一代 AIOps 实践的发展和应用。文章首先概述了项目背景,指出尽管 ES 已经在自动化根因分析、动态数据洞察等方面展现了巨大潜力,但其在 AI 领域的应用尚未得到充分挖掘。接着,文章详细解释了 MCP(模型上下文协议)的概念及其重要性,强调它是 AI 助手与外部数据源无缝交互的关键协议,类似于 AI 领域的“USB-C”或“HTTP”协议。MCP 定义了应用程序和 AI 模型间交换上下文信息的标准方式,简化了 AI 应用的开发和集成。文中还展示了如何通过 MCP 实现 ES 和 Kibana 的智能交互,具体包括资源读取、工具调用、提示模板等功能,并通过实际案例演示了利用 LLM 和 MCP 快速处理安全事件的流程。最后,文章展望了未来的发展方向,如开源 ES 的大模型记忆模块和开发专门的 MCP 客户端。 适合人群:对 AIOps、Elasticsearch、Kibana 或 AI 技术感兴趣的 IT 专业人员,特别是那些希望提高数据分析效率、优化系统管理和提升安全性的技术人员。 使用场景及目标:①利用 MCP 实现 ES 和 Kibana 与 LLM 的无缝对接,加速故障排查和根因分析,将工作量从数小时甚至几天缩短至分钟级别;②通过自然语言交互方式,使 AI 能够理解和生成数据洞察,优化数据可视化;③构建高效的数据驱动 AI 解决方案,提升企业在复杂 IT 环境中的问题诊断和优化能力。 其他说明:文章由 AI 解决方案架构师 Luke Azmat Ablat 主讲,他专注于 ES 在 AI 领域的应用,曾主导多个相关项目并推动了 ES/Kibana MCP Server 开源项目的发展。读者可以通过官方 GitHub 获取更多关于 MCP 社区和项目的最新进展。

2025-06-28

Elasticsearch 可搜索快照 - 降本增效的实践与探索 线上 夏乔 20250717

内容概要:本文详细介绍了Elasticsearch可搜索快照技术,旨在解决大规模Elasticsearch集群中历史归档数据带来的高存储成本、低访问效率和大运维压力的问题。文章首先分析了痛点,包括TB级数据积累导致的历史归档数据占比高、存储成本高、访问效率低等问题。接着介绍了现有Hot-Warm-Cold架构结合ILM的局限性,并提出可搜索快照作为改进方案。可搜索快照允许直接在低成本对象存储上的快照数据中进行搜索,无需预先恢复索引,具有降低存储成本、计算与存储分离、可在线访问归档数据和简化运维等优势。文章还详细解释了可搜索快照的工作原理,包括快照创建、挂载、按需加载和缓存机制。 适合人群:Elasticsearch集群管理员、运维工程师、系统架构师和技术决策者。 使用场景及目标:①适用于日志、指标、APM数据的长期归档与分析;②用于合规性与审计;③作为灾难恢复的只读副本;④支持跨集群搜索历史数据;⑤通过计算与存储分离,实现资源独立扩展,降低运维压力。 其他说明:本文不仅介绍了可搜索快照的技术细节,还通过实际案例展示了其在降本增效方面的显著效果。建议读者结合自身集群情况,评估并实施可搜索快照,以优化数据管理和降低总体拥有成本。

2025-07-18

Elasticsearch 8.17 Logsdb:企业降本增效利器 程地华 线上 20250416

内容概要:本文介绍了Elasticsearch 8.17 LogsDB作为企业降本增效的利器,主要针对传统日志存储面临的高昂成本和低效查询性能的问题。Elasticsearch 8.17 LogsDB通过多种优化技术,如合成源优化、压缩算法优化、索引排序优化、块编解码器优化、压缩和分段合并优化,显著降低了日志数据的存储需求,提升了查询效率。具体而言,合成源优化去除了不必要的行存,压缩算法优化实现了快速无损压缩,索引排序优化提高了存储效率,块编解码器优化针对不同字段提供不同的编码策略,压缩优化了词典,分段合并优化则通过删除冗余信息节省空间。性能对比显示,LogsDB在系统日志、应用程序日志和审计日志三种类型的日志存储优化效果显著。应用场景包括大规模日志存储、企业级日志管理和实时日志监控与分析。 适合人群:从事日志管理和数据分析的技术人员,尤其是关注日志存储成本和查询性能的企业IT管理者和技术团队。 使用场景及目标:①大规模日志存储:显著减少存储空间,降低存储成本;②企业级日志管理:提高存储效率,优化查询性能,简化管理流程;③实时日志监控与分析:高效处理和查询海量日志数据,快速发现和解决问题。 其他说明:本文详细介绍了如何创建索引生命周期、索引模板、数据流以及配置写入等具体操作步骤,为企业提供了完整的实施指南。通过这些优化措施,企业可以在整个索引生命周期中持续受益,进一步降低总拥有成本。

2025-04-17

00-Elastic Pioneer-项目

内容概要:Elastic China Pioneer Program(先锋者计划)是Elastic中国发起的大使招募计划,旨在汇聚生态伙伴、用户及开发者力量,共同推广Elastic搜索技术。该计划明确了Pioneer的使命为传播Elastic技术魅力、分享应用心得,助力Elastic在中国市场的发展。Pioneer可通过发表演讲、撰写文章、录制视频、GitHub代码贡献、提供解决方案等方式获取积分,不同形式的贡献对应不同分值。活动设有严格的审核机制,确保公平公正,参与者可凭作品质量获得相应积分,有广泛影响力的贡献还能得到额外奖励。此外,该计划还设立了月度和年度榜单机制,月度榜单每月评选一次,年度榜单前三名可获直通Elastic ON新加坡站等丰厚奖励,所有奖励均与积分挂钩,鼓励持续贡献。 适合人群:热爱Elastic技术,愿意为其发声的生态伙伴、广大用户及社区开发者。 使用场景及目标:①通过多种方式宣传推广Elastic技术,扩大其在中国市场的影响力;②激励更多人参与到Elastic的技术生态建设中来,推动Elastic技术的发展。 其他说明:活动期间,Elastic官方有权对提交内容进行二次加工、修改、传播,优秀内容将通过官方渠道推广分享。

2025-04-19

04-Higress x Elasticsearch构建更智能的AI网关 程治玮 20250419

介绍 Higress AI 网关在推理服务场景下提供的多模型适配、故障切换、多租户管理、Token 限流与内容安全等核心能力,并深度集成 Elasticsearch 实现语义化缓存、RAG 搜索和可观测等高级功能。

2025-04-19

04-ES日志集群大规模迁移实践-李猛-南京-20250618

内容概要:本文详细介绍了ES(Elasticsearch)日志集群的大规模迁移实践,由Elastic Stack实战专家李猛分享。迁移背景涵盖现有集群架构、日志规模、性能需求及新集群架构特点。针对迁移方案,文中对比了Reindex、Backup&Restore、Logstash/三方工具以及CCR四种方法,最终确定以CCR为主、Reindex为辅的组合策略。迁移实践中,重点讲述了CCR配置、任务脚本编写与执行的具体步骤。同时,针对迁移过程中遇到的新旧集群并行切换、CCR并行与索引限制、旧集群架构限制、迁移时间段限制、超大索引、数据一致性及硬件问题进行了深入剖析。最后,探讨了ES运维工具包(如数据比对脚本、CCR创建+取消工具)的应用。 适合人群:具备一定Elasticsearch使用经验,从事日志管理、运维工作的技术人员。 使用场景及目标:①了解ES日志集群大规模迁移的完整流程与关键步骤;②掌握不同迁移方案的选择依据及其优缺点;③解决迁移过程中可能遇到的技术难题;④提升ES集群运维效率与稳定性。 阅读建议:本文内容详实,技术细节丰富,在阅读时应重点关注迁移方案的选择依据、实际操作步骤以及遇到的问题和解决方案。建议读者结合自身实际情况,参考文中提供的具体案例和技术手段,逐步理解和掌握ES日志集群迁移的相关知识。

2025-06-28

【大数据知识库】基于Qwen2.5-14B与Elasticsearch的智能问答系统设计:传统检索与向量检索对比及RAG架构应用

内容概要:本文详细介绍了基于Qwen2.5-14B与Elasticsearch的大数据知识库智能问答系统。首先,文章对比了传统检索和向量检索的特点,指出向量检索在语义理解和复杂查询方面的优势。接着,阐述了RAG(检索增强生成)架构的工作流程及其核心价值,包括提高回答准确性、实时更新知识库、减少生成内容的虚构风险等。最后,重点介绍了基于大模型和Elasticsearch构建的智能问答系统的技术方案和实测效果,展示了其在处理多格式文档、专业术语理解等方面的高效性,并提出了进一步优化的方向,如模型微调、向量化改进和文档切分粒度调整。 适合人群:对大数据处理、自然语言处理和智能问答系统感兴趣的开发人员、数据科学家和技术爱好者。 使用场景及目标:①构建针对非公开文档的高效、精准、自然语言交互式智能知识问答系统;②支持多格式文档的统一处理与检索;③提升企业内部知识管理和信息获取的效率;④应用于客服机器人、知识问答、技术支持、教育与学习等领域。 其他说明:本文不仅介绍了技术原理,还提供了具体的实施步骤和代码示例,如使用FSCrawler进行文档摄取、利用text2vec模型进行向量化等。此外,文章强调了系统在实测中的高效性和准确性,并展望了未来的技术优化方向,鼓励读者结合自身业务场景深入探索和实践。

2025-07-10

01-AI 驱动 - 搜索的未来 刘晓国 南京 20250628

1)为什么需要向量搜索? 2)RAG 是什么? 3)Elastic 在向量搜索上的最新进展 4)案例分析

2025-06-28

腾讯云 ES AI 搜索优化实践 刘忠奇 线上 20250605

1. RAG 架构的搜索增强实践 2. 自研 v-pack 插件向量增强技术解析 * 存储降本九成:向量裁剪技术 * 准召提升手段:多算法融合排序框架

2025-06-05

03-Elasticsearch跨境电商搜索优化实践 欧阳楚才 杭州 20250419

内容概要:本文由欧阳楚才分享,主要介绍了Elasticsearch在跨境电商搜索优化中的实践。文章首先指出跨境电商搜索面临的问题,如搜索词意图丰富、分词准确性、搜索关键词多义等,随后详细阐述了搜索业务架构,包括意图识别、类目预测、实体识别、同义词扩展、分词处理、尺寸识别、停用词过滤、词干提取等方面的技术细节。接着,文章探讨了搜索召回和排序机制,强调了通过字段加权计算相关性评分和点击率预测CTR模型来优化搜索结果的重要性。最后,还涉及了性能压测、商品属性字段聚合优化以及数据埋点等内容,旨在提升搜索服务的整体性能和用户体验。; 适合人群:从事跨境电商、搜索引擎优化、Elasticsearch技术应用的相关从业人员,尤其是有一定Elasticsearch基础的研发人员和技术管理者。; 使用场景及目标:①理解和解决跨境电商搜索中的常见问题,如搜索词意图识别、多语种分词、关键词多义性等;②掌握通过类目预测、实体识别、同义词扩展等方法提高搜索召回率和准确性的技术手段;③学习如何通过性能压测、数据埋点等手段优化搜索服务的性能和用户体验。; 其他说明:本文提供了丰富的实际案例和技术细节,建议读者结合自身业务场景进行实践,并参考文中提供的具体配置和优化方法,不断调整和改进搜索系统。

2025-04-19

01-AI 驱动 - 搜索的未来 刘晓国 杭州 20250419

1)为什么需要向量搜索? 2)RAG 是什么? 3)Elastic 在向量搜索上的最新进展 4)案例分析

2025-04-19

02-阿里云Elasticsearch向量引擎百亿级数据优化实践 魏子珺 杭州 20250419

深度解析阿里云 Elasticsearch 向量引擎从8.0到8.x最新版本的技术跃迁,揭秘 Elasticsearch 向量引擎如何处理百亿级向量数据。分享向量引擎与文本搜索、AI 模型的无缝整合方案,探讨如何通过混合检索能力优化 RAG(检索增强生成)、Deep Search 等企业级场景。

2025-04-19

01-Elasticsearch-KNN详解 - 刘琪 线上 20251218

内容概要:本文详细介绍了Elasticsearch中KNN(K-最近邻)向量搜索的原理、发展历程及其在实际场景中的应用。重点讲解了KNN的基本概念、HNSW(分层可导航小世界)算法的工作机制,以及近似KNN与精确KNN的区别。文章还涵盖了Elasticsearch中KNN的实现方式,包括dense_vector字段类型配置、索引创建、数据写入与查询语法,并通过以图搜图的Demo展示了从模型选型(如ResNet50)、数据预处理到向量检索的完整流程。同时对比了两种KNN搜索方法在准确性、性能和适用场景上的差异,强调了近似KNN在大规模高维数据下的高效性与灵活性。; 适合人群:具备一定Elasticsearch和机器学习基础知识,从事搜索、推荐系统或向量数据库相关工作的研发人员,尤其是工作1-3年的中初级工程师; 使用场景及目标:① 实现基于语义的图像、文本相似性搜索;② 构建推荐系统或FAQ问答系统中的向量检索模块;③ 理解HNSW等近似算法在Elasticsearch中的工程实现与性能调优; 阅读建议:此资源结合理论与实战,建议读者在理解KNN与HNSW原理的基础上,动手搭建实验环境,复现文中索引配置、pipeline构建及查询示例,重点关注num_candidates、k、similarity等参数对召回率与性能的影响。

2025-12-19

03-阿里云AI搜索年度总结和展望 - 张粲宇 西安 20251206

内容概要:本文系统回顾了阿里云AI搜索在2025年度的技术发展与行业趋势,重点阐述了AI搜索从传统信息检索向任务型智能代理(Agentic Search)的演进路径。文章介绍了RAG技术的阶段性发展(Native RAG至Agentic RAG),并深入剖析了AI搜索三大核心要素——数据基建、AI能力与引擎技术的融合创新。通过阿里云Elasticsearch的产品升级与FalconSeek云原生引擎的性能优化,展示了在向量检索、多模态搜索、混合检索等方面的领先能力。结合客户在云文档、日志分析、游戏、电商及智驾等场景的实践案例,验证了AI搜索在降本增效、统一架构与智能化升级方面的显著价值。同时,展望了以大模型和Agent技术驱动的未来搜索形态,提出AI搜索将从被动响应转向主动任务执行,实现复杂问题的多步推理与工具协同。; 适合人群:从事搜索、推荐、大数据与AI平台研发的技术人员,尤其是云计算、企业级服务、智能搜索应用领域的架构师与技术管理者。; 使用场景及目标:①了解AI搜索技术演进脉络及RAG、Agentic Search等前沿方向;②掌握云原生环境下高性能检索引擎的架构设计与优化方法;③借鉴AI搜索在多模态、语义理解、向量检索等场景的落地实践,推动企业智能化升级。; 阅读建议:此资源以技术演进与实际案例相结合,不仅呈现产品能力,更强调底层架构创新与业务场景适配,建议结合自身业务需求重点关注向量检索优化、存算分离架构及AI开放平台集成方案,并参考客户实践进行技术选型与架构设计。

2025-12-06

02-ElasticSearch在专利与教育场景中的语义检索实践 - 王传健 西安1206

内容概要:本文介绍了ElasticSearch在专利与教育两个垂直领域的语义检索实践,重点探讨了如何应对行业特有的数据异质性、语义复杂性和查询多样性挑战。作者分享了从传统BM25检索到混合检索(Hybrid)、多路召回+精排、LLM融合BM25,再到Multi-Agent RAG的技术演进路径,提出了基于意图识别的查询路由机制和精细化的精排服务部署方案,并总结了在数据预处理、索引设计、词典构建与Embedding模型优化方面的实战经验与避坑建议。; 适合人群:具备一定搜索系统或NLP基础,从事搜索推荐、知识库构建、语义检索相关工作的工程师和技术人员,尤其是关注垂直领域AI应用的从业者;; 使用场景及目标:①提升专利检索中的同义词召回率与查全查准平衡;②解决教育场景中题目变体、OCR噪声、多模态输入等复杂问题;③构建高精度垂直领域知识检索系统;④探索LLM与传统检索技术融合落地路径; 阅读建议:本文侧重于工程实践与架构设计,建议结合自身业务场景对比不同技术路线的适用性,重点关注多路召回策略、查询路由设计及模型微调优化方法,并在实际系统中逐步迭代验证。

2025-12-06

01-AI 驱动 - 搜索的未来 - 刘晓国 西安 20251206

内容概要:本文深入探讨了AI驱动下的搜索技术演进,重点介绍了向量搜索的原理及其在Elasticsearch中的实现方式。文章从传统关键词搜索过渡到语义搜索、向量搜索及混合搜索(Hybrid Search),详细讲解了稠密向量与稀疏向量的区别、向量相似度计算方法(如余弦相似度、L2距离等),以及如何利用Elasticsearch进行图像和文本的语义匹配。同时,介绍了检索增强生成(RAG)和Agentic RAG的概念与架构,阐述了如何通过向量数据库结合大语言模型提升回答准确性和上下文相关性,并展示了Elasticsearch在模型管理、自动分块、语义字段处理、重排序(rerank)等方面的能力。此外,还涵盖了硬件加速、量化压缩、并发优化等向量引擎最新进展。; 适合人群:具备一定搜索或大数据

2025-12-06

Elasticsearch 8 四大工程 - 朱杰 20251202

内容概要:本文介绍了Elasticsearch 8的四大核心工程升级,包括全新构建的原生向量引擎、计算引擎ES|QL、云原生Serverless架构,以及面向时序数据(TSDB)和日志数据(LogsDB)的专用数据库优化。重点阐述了Elasticsearch如何通过硬件加速(CPU/GPU)、向量量化、并发优化等技术提升向量检索性能,并介绍ES|QL作为统一搜索与分析语言在语法、函数、性能方面的优势。同时展示了Serverless架构下的存算分离设计、基于对象存储的分片机制与计费模式,以及TSDB和LogsDB在数据压缩、索引优化和存储效率上的显著提升。; 适合人群:具备一定Elasticsearch使用经验的开发者、架构师及运维人员,尤其是关注向量检索、日志与时序数据分析、云原生部署的技术决策者;工作年限在2年以上的技术人员更为适宜; 使用场景及目标:① 构建支持生成式AI的混合搜索系统(文本+向量+稀疏向量);② 实现高性能向量数据库用于语义检索与RAG场景;③ 在大规模日志和指标场景下实现高效存储与查询;④ 探索Serverless化部署以降低运维复杂度并优化成本; 阅读建议:建议结合Elastic官方文档与实际案例进行对照学习,重点关注各新特性在性能测试中的表现及其适用边界,实践中应充分评估硬件支持条件(如GPU)与订阅版本限制(如企业功能)。

2025-12-02

Elasticsearch 新一代查询语言- ES-QL 介绍与实战 -夏乔 - 20251120

内容概要:本文介绍了Elasticsearch推出的新一代查询语言ES|QL,旨在解决现有查询语言(如Query DSL、SQL等)在可读性、性能和功能覆盖上的局限。ES|QL采用管道式声明语法(FROM | WHERE | EVAL | STATS),以表格模型处理数据,支持从搜索到分析再到可视化的全流程统一操作。其拥有独立于Search的查询引擎,通过谓词下推、列裁剪和算子优化提升执行效率,并深度集成于Observability、Security等场景。文章详细讲解了ES|QL的架构原理、执行流程、语法结构及常用命令,并展示了实际应用示例,同时指出其当前的限制与最佳使用建议。; 适合人群:具备Elasticsearch基础的数据分析师、运维人员、安全专家及开发人员,尤其是关注日志分析、指标统计与威胁检测的技术从业者; 使用场景及目标:① 替代复杂嵌套的DSL实现高效的数据过滤、转换与聚合分析;② 在单一语句中完成数据检索、丰富化(enrich/join)、统计计算与结果可视化,提升查询可读性和开发效率;③ 适用于可观测性、安全调查和运营报表等需要快速迭代查询的场景; 阅读建议:学习时应结合Kibana实践ES|QL语法,注意控制查询时间范围、尽早过滤数据并限制返回结果规模,避免全量扫描。同时需明确ES|QL目前不适用于大规模导出或高级搜索功能(如相关性排序、向量检索),应根据场景合理选择Query DSL或ES|QL。

2025-11-20

01-AI 驱动 - 搜索的未来 刘晓国 深圳 20250727

1)为什么需要向量搜索? 2)RAG 是什么? 3)Elastic 在向量搜索上的最新进展 4)案例分析

2025-07-30

02-腾讯云 ES 百亿级 AI Search 优化实践 陈曦 深圳 20250727

分享腾讯云 ES 如何通过文本语义理解、向量空间建模与AI推理能力的三位一体架构,助力 IMA/微信读书/视频号等头部产品实现多模态检索能力。在生成式AI重塑产业格局的当下,我们正推动搜索技术从「信息匹配」向「认知理解」的范式转移,打造业界领先的「搜索即服务」智能基座。

2025-07-30

03-Elastic - Agentic RAG 构建之路 李捷 深圳 20250727

内容概要:本文详细介绍了Elastic-Agentic RAG的构建路径及其优势。RAG(Retrieval-Augmented Generation)是一种结合检索和生成模型的技术,而Agentic RAG进一步增强了这种能力,使其能够处理更复杂的企业级应用场景。文章首先探讨了RAG的局限性,指出传统的RAG主要局限于特定的知识库检索,难以应对多源数据融合、复杂格式处理以及实时数据查询等问题。接着,文章阐述了构建Agentic RAG所需的引擎,强调了其需要具备的进阶能力,如多步推理、动态任务规划、复杂数据处理和跨源协作检索等。此外,文中还展示了Elasticsearch在生成式AI应用中的全面功能,包括创建向量嵌入、混合搜索、灵活选择嵌入模型、过滤和切片等功能,突出了Elasticsearch相较于其他向量数据库的优势。最后,文章通过案例研究,如微信读书的智能阅读实践和敦煌数字藏经阁的RAG问答实践,展示了Elastic-Agentic RAG的实际应用效果,如提高客户和员工满意度、降低风险和总拥有成本等。 适合人群:对企业级AI应用感兴趣的IT专业人士、数据科学家、架构师以及希望了解如何利用AI技术优化业务流程的管理人员。 使用场景及目标:①解决企业内部复杂的数据处理和查询需求,如财务风险报告、生产良品率分析等;②实现多源数据的无缝整合,打破数据孤岛,提高数据利用率;③通过智能化的查询和分析工具,提升业务决策的速度和准确性;④构建高效、安全、可扩展的AI基础设施,支持企业的长期发展。 其他说明:Elastic-Agentic RAG不仅是一个技术解决方案,更是企业数字化转型的重要工具。它帮助企业更好地理解和利用自身

2025-07-30

01-ElasticsearchCCR详解 线上 刘琪 20250820

本次直播,我们将深入浅出,从 Elasticsearch CCR(跨集群复制)功能的底层原理到实际操作,带你全面掌握这一运维利器!无论你是运维新手还是资深专家,都能从中收获实用技巧,轻松应对高可用、高可靠的业务场景! - 深度解析:揭秘 CCR 核心机制,透彻理解数据复制全流程 - 实战演练:从零到精通,现场演示配置与优化技巧 - 场景方案:两地三中心高可用架构的最佳实践 - 互动答疑:直击数据同步与指标汇总痛点,实时解答你的疑问

2025-08-21

01-ES AI Assistant集成 DeepSeek-Qwen3,搭建智能运维助手 - 槐新 线上 20250903

内容概要:本文介绍了如何通过集成DeepSeek和Qwen3大语言模型,基于Elasticsearch构建智能运维助手AI Assistant。重点阐述了Agentic RAG(检索增强生成)技术相较于传统RAG的优势,包括多轮交互、动态决策、多源数据协同和工具调用能力,提升复杂任务处理效率。结合Elasticsearch的向量检索、文本搜索与机器学习能力,AI Assistant可实现自然语言驱动的集群诊断、查询语句生成、可视化分析及运维建议,显著降低技术门槛。文章还提供了从服务开通到Connector配置的完整操作流程,并通过多个场景演示了其在集群运维、日志分析和DSL生成中的实际应用。; 适合人群:具备一定Elasticsearch使用经验的运维工程师、搜索开发人员及对AI智能运维感兴趣的中高级技术人员;熟悉大模型应用与RAG技术的技术决策者或架构师。; 使用场景及目标:①利用自然语言实现Elasticsearch集群状态诊断与优化建议;②自动生成DSL查询语句并解释执行结果;③基于日志和业务数据进行智能分析与可视化图表生成;④提升运维效率,实现异常检测、根因分析与自动化响应。; 阅读建议:建议结合阿里云Elasticsearch 8.15及以上版本实践,按照文档步骤配置Connector并进行交互测试,重点关注Agentic RAG在真实运维场景中的动态规划与多工具协同能力,同时可拓展至安全分析与业务洞察领域。

2025-09-03

01-AI 驱动 - 搜索的未来 刘晓国 成都 20250906

内容概要:本文深入探讨了AI驱动下搜索技术的未来发展,重点介绍了向量搜索的核心原理及其在Elasticsearch中的实现方式。内容涵盖向量搜索的基础知识、语义搜索、混合搜索(Hybrid Search)、检索增强生成(RAG)等关键技术,详细讲解了稠密向量与稀疏向量的处理、嵌入模型的应用、kNN近似最近邻搜索、倒数排序融合(RRF)、学习排序(LTR)以及语义重排序等机制。同时展示了如何利用Elasticsearch实现图像相似性搜索、自动分块的semantic_text字段、多阶段检索器(Retrievers)和端到端RAG系统构建,强调了Elasticsearch在向量数据库能力上的持续优化与硬件加速进展。; 适合人群:具备一定搜索或大数据技术基础,从事搜索系统、推荐系统、AI应用开发的相关技术人员,尤其是对语义搜索、向量检索、RAG架构感兴趣的工程师和架构师;工作年限建议1-5年; 使用场景及目标:①理解向量搜索与传统关键词搜索的融合机制;②掌握在Elasticsearch中实现语义搜索、图像相似性搜索与RAG系统的完整流程;③优化搜索相关性排序,提升生成式AI应用中答案的准确性和上下文相关性; 阅读建议:建议结合Elastic官方文档与演示环境(如eden.elastic.dev)进行实践操作,重点关注模型部署、inference pipeline配置、kNN与RRF检索策略的调优,并深入理解向量索引的存储与性能优化机制。

2025-09-08

腾讯云 ES 百亿级 AI Search 优化实践 - 陈曦 - 20251112

内容概要:本文介绍了腾讯云 Elasticsearch(ES)在百亿级数据规模下的 AI Search 优化实践,重点围绕其自研的高性能混合检索引擎、全链路原子服务及多个标杆案例展开。通过存算分离、堆外内存优化、索引压缩、查询裁剪、CBO 查询计划优化、Multi-path 并行检索、量化裁剪和 GPU 加速推理等核心技术,实现了存储成本降低 50%-80%、查询性能提升 2-10 倍、写入性能提升 1-10 倍、稳定性提升 5 倍以上的显著效果。同时,腾讯云 ES 构建了一站式企业级 AI Search 解决方案,支持文本、向量、多模态混合检索与 RAG 应用,深度融合 NER、Embedding、Rerank 等原子能力,并已在微信读书、IMA 智能工作台、天眼查、敦煌数字藏经洞等多个高要求场景成功落地。; 适合人群:从事搜索、推荐、大数据与 AI 相关工作的中高级研发人员、架构师及技术决策者,尤其适用于需要构建企业级智能检索系统的团队; 使用场景及目标:① 构建高性能、低成本的 AI 搜索系统;② 实现文本与向量混合检索、RAG 问答、智能客服、知识库检索等应用场景;③ 优化现有 ES 集群在大规模、高并发下的性能与稳定性; 阅读建议:本文技术深度较高,建议结合实际业务场景重点关注混合检索优化、GPU 推理加速、全链路原子服务设计等内容,并参考标杆案例进行架构对标与性能调优。

2025-11-12

04-Elasticsearch 在日志系统的应用 石樊 深圳 20250727

内容概要:本文详细介绍了富途网络科技有限公司在其日志系统中应用Elasticsearch(ES)的经验,涵盖日志系统的架构、遇到的问题及其解决方案,以及引入ES serverless的原因和效果。富途的日志系统包括SDK、公共组件、Nginx及第三方日志的采集,支持JSON、行采集、分隔符采集等多种格式,确保日志的结构化和字段一致性。针对日志流量波动导致的ES稳定性问题,采用kafka弹性流量、logstash容器自动扩缩容、ES serverless等措施,解决了写入延迟和索引滚动时的短暂写入阻塞。此外,还解决了日志写入时的类型冲突问题,并通过引入ES serverless降低了运维复杂度和成本。未来,富途计划利用ES的文本分类聚合功能,支持日志聚类和AI分析。 适用人群:从事日志系统开发、运维的技术人员,尤其是对Elasticsearch有需求或正在使用的企业IT团队。 使用场景及目标:①解决日志系统中常见的流量波动、类型冲突等问题;②优化日志系统的性能和成本;③探索日志系统的未来发展,如日志聚类和AI分析。 其他说明:本文不仅提供了技术实现的具体方法,还分享了

2025-07-30

02-让成本更极致,腾讯云ES serverless一站式日志分析介绍-张小伟 成都 20250906

内容概要:本文介绍了腾讯云ES Serverless一站式日志分析服务的设计理念、产品功能、底层能力及最佳实践。该服务通过存算分离、自动弹性伸缩、完全免运维等核心技术,实现按需使用、按量付费的极致成本控制,支持日志分析、实时搜索、安全分析等场景。平台集成自治索引、智能链路调度和故障自愈能力,提供端到端SLA保障,兼容开源ES API和ELK生态,助力用户快速构建稳定可靠的一站式日志分析系统。; 适合人群:具备一定云计算和日志分析基础,从事运维、开发或架构设计工作1-3年的技术人员;关注成本优化与系统稳定性的企业技术决策者。; 使用场景及目标:①应对业务流量波峰波谷明显的日志场景,实现零运维下的自动弹性伸缩;②简化ELK链路部署,降低自建集群的运维复杂度与资源浪费;③提升查询性能与写入稳定性,满足高并发日志处理需求; 阅读建议:此资源适合结合实际日志分析场景进行对照学习,重点关注Serverless架构如何解决传统ES集群的运维难题,并理解其在成本、性能、易用性之间的平衡设计。

2025-09-08

03-Agentic RAG 构建之路 李捷 成都 20250906

内容概要:本文深入探讨了从传统RAG向Agentic RAG演进的技术路径与核心能力需求,提出Agentic RAG应具备规划、记忆、执行与反思能力,形成类“智能大脑”的架构。文章系统阐述了构建Agentic RAG所需的四大关键能力:全域数据融合能力,实现知识、业务、运营与安全数据的统一对话;深度查询与分析能力,支持统计分析、数据挖掘与复杂查询语言;LLM原生友好设计,提供可被大模型理解的工具集与声明式工作流语言;企业级可靠性与安全性,涵盖端到端可观测性与全面的LLM安全防护。并以Elasticsearch为例,展示了其如何通过Search AI平台整合搜索、分析、向量处理与安全能力,支撑Agentic RAG的构建,实现业务价值提升。; 适合人群:具备一定AI与系统架构知识的企业技术决策者、AI平台开发者、搜索与推荐系统工程师,以及关注RAG技术演进与落地的中高级研发人员。; 使用场景及目标:①指导企业构建具备多步推理、动态规划与跨源协作能力的下一代RAG系统;②评估与选型支持Agentic RAG的底层引擎平台,重点考察数据融合、分析能力、LLM友好性与安全性;③理解Elasticsearch等一体化平台如何整合向量搜索、ES|QL分析、MCP工具调用与可观测性,实现从简单问答到智能决策的跃迁。; 阅读建议:此资源以架构演进和平台能力为核心,建议结合实际业务场景,重点关注四大能力的落地要求与对比分析,理解“一站式AI平台”相较于单点向量数据库的优势,并参考Elastic的技术实现路径进行系统设计与技术选型。

2025-09-08

Elastic Support 概述 - 潘宁,赵守连,李洋 20251028

内容概要:本文介绍了Elastic支持服务的整体架构与核心功能,涵盖全球覆盖、产品专长和优质客户体验三大支柱。重点展示了Elastic AI支持助手的演进路径及其在智能搜索、语义理解和生成式AI方面的应用,同时详细说明了支持门户的功能、案例提交流程及严重性分级机制。通过真实用例演示,深入剖析了ELK多产品环境下数据接入失败与时断时续问题的排查过程,涉及配置兼容性、性能瓶颈、分片策略、ILM设计缺陷等多个技术层面,并给出了系统性的优化方案。; 适合人群:使用Elastic Stack(如Elasticsearch、Kibana、Logstash等)的技术人员、运维工程师、架构师以及企业IT决策者,尤其是面临复杂环境故障排查与性能调优挑战的中高级技术人员;同时也适用于关注AI驱动技术支持发展的技术管理者。; 使用场景及目标:① 学习如何高效利用Elastic支持门户和服务体系解决实际问题;② 掌握常见数据接入异常与性能瓶颈的分析思路与调优方法;③ 了解AI支持助手的工作原理及其在技术支持中的应用场景;④ 提升对DSE(指定支持工程师)服务价值的理解,优化企业级支持资源配置。; 阅读建议:建议结合Elastic官方文档与支持门户实践操作,重点关注故障排查逻辑与性能优化策略,在真实环境中验证文中提出的配置调整与架构改进措施,以增强问题诊断能力与系统稳定性。

2025-10-28

Elasticsearch APM 和 EDOT 的实践与探索

内容概要:本文介绍了Elastic APM与OpenTelemetry(OTel)的基本概念、核心组件及其在可观测性领域的应用,重点阐述了Elastic如何通过原生支持OTLP协议实现与OpenTelemetry的无缝集成,并推出专为其优化的Elastic OpenTelemetry发行版(EDOT)。文章详细说明了APM的核心事件类型(Transaction、Span、Error、Metrics),OpenTelemetry的工作原理与优势,以及EDOT的架构、支持的SDK版本和部署实践。同时展示了如何通过Docker Compose搭建演示环境,实现日志、指标和追踪数据的采集与可视化。; 适合人群:具备一定可观测性基础知识,从事DevOps、SRE、后端开发或系统监控相关工作的技术人员,尤其是正在评估或实施OpenTelemetry与Elastic集成方案的团队。; 使用场景及目标:①理解APM在分布式系统性能监控中的作用;②掌握OpenTelemetry作为标准化遥测数据采集框架的优势;③实现从传统APM向OpenTelemetry的平滑迁移;④利用EDOT构建统一、可扩展的可观测性平台; 阅读建议:建议结合官方文档和演示仓库实际操作部署流程,重点关注EDOTCollector配置、环境变量替换与Elasticsearch集成细节,深入理解数据流路径与语义规范一致性设计。

2025-09-25

01-基于Elastic地理位置检索-搜索附近 j九川 线上 20250806

内容概要:本文详细介绍了基于Elasticsearch的地理位置检索技术,特别是“搜索附近”的应用场景。文章首先介绍了讲师背景,包括丰富的行业经验和多个知名平台的认证。接着阐述了地理位置检索在实际生活中的多种应用,如地理围栏、社交APP的“附近的人”、疫情追踪、物流追踪等。随后对比了不同技术方案(MySQL/PostgreSQL、Redis GEO、Elasticsearch、MongoDB、PostGIS)在查询性能、扩展性、功能性和适用数据量方面的优劣,强调了Elasticsearch在复杂搜索和地理信息处理上的优势。最后深入讲解了Elasticsearch支持的地理位置检索类型,包括`geo_point`、`geo_shape`和`geo_polygon`,并展示了具体的使用案例和技术细节。 适合人群:具备一定编程基础,尤其是对地理信息系统和Elasticsearch感兴趣的开发人员和技术爱好者。 使用场景及目标:①实现基于地理位置的搜索功能,如“搜索附近的XX”(医院、外卖、学校、商场等);②构建地理围栏,监控用户是否进入特定区域;③进行实时轨迹分析和安全预警;④优化LBS(基于位置的服务)系统的性能和扩展性。 阅读建议:本文不仅提供了Elasticsearch地理位置检索的技术实现方法,还对比了多种技术方案,因此在阅读时应重点关注Elasticsearch的优势及其具体应用场景,并结合实际项目需求选择合适的技术方案。此外,对于地理坐标系统(如WGS84、GCJ-02、BD-09等)的理解也有助于更好地掌握地理位置检索技术。

2025-08-07

01-基于Elastic地理位置检索-搜索附近 j九川 线上 20250806.zip

01-基于Elastic地理位置检索-搜索附近 j九川 线上 20250806.zip

2025-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除