本文是《RAG 技术详解》系列最终篇,讲解如何为一个 RAG 系统设计自动评估机制、构建用户反馈闭环、引入 LLM 自监督评估链,最终实现一个能“自诊断、自优化、自演进”的智能问答系统。
一、RAG 为何需要反馈与评估机制?
在真实应用中,RAG 系统并不是一上线就“万无一失”的:
- ❌ 有时上下文不相关
- ❌ 有时 LLM 编造了回答
- ❌ 有时格式不一致,用户体验差
- ❌ 有时查不出答案却装作有
问题不是 Bug,而是数据与提示策略不足以支撑用户意图。
为了让系统不断提升,需要:
🔁 自动评估 → 用户反馈采集 → 精排/Prompt优化 → 模型选择优化
二、三种主流评估方法概览
方法 | 优点 | 缺点 |
---|---|---|
人工评估 | 最真实,语义精准 | 成本高,难以规模化 |
规则评估 | 快速、可控 | 易过拟合、语义覆盖差 |