利用大语言模型来评估文本质量,是当下最前沿的创新评估手段。其核心原理在于,先通过一个大语言模型生成文本内容,随后利用另一个大语言模型(或由同一模型)对该文本进行质量评价。接下来,让我们看看《AI原生应用开发:提示工程原理与实战》一书中提到的4种利用大语言模型进行评估的方法。
1.一致性评估
这种方法通过判断生成答案内容与标准答案是否一致性来评估,是一种简单直接的评估方式。然而,这种方法取决于人工提前已经标注好了标准答案,如下面这个例子。
# 任务描述
作为一名测试评估专家,请评估以下“答案内容”与“标准答案”是否一致。
# 答案内容
地球是太阳系中的第三颗行星,以其丰富的水资源和多样的生命形式而闻名。
# 标准答案
地球位于太阳系的第三轨道上,是唯一已知拥有生命的星球,其表面有大量的水。
# 评估结论
评估结论:一致/基本一致/不一致
评估依据:
输出结果:
评估结论:基本一致
评估依据:答案和标准答案都指出了地球在太阳系中的位置(第三或第三轨道上),都提到了地球拥有丰富的水资源(答案中提到的“丰富的水资源”与标准答案中的“表面有大量的水”相对应),以及地球与生命有关(答案中的“多样的生命形式”与标准答案中的“唯一已知拥有生命的星球”相呼应)。尽管两者在表述上有所不同,但它们所传达的核心信息是相似的,因此可以认为两者基本一致。不过,答案中并未明确指出地球是“唯一”已知拥有生命的星球,这是与标准答案的一个细微差别,但这个差别不足以改变两者基本一致的结论。
2. 关键点覆盖评估
这种评估方法关注的是大语言模型生成的答案是否覆盖了给定的评估关键点。通过对比答案内容和评估关键点,可以判断答案的完整性和准确性。例如,以下是一个评估示例。
# 任务描述
作为一名测试评估专家,请你细阅以下“提问”和“答案内容”,评估“答案内容”是否覆盖“答案关键点”。
# 提问
描述一下太阳能板的工作原理及其对环境的好处。
# 答案内容
太阳能板通过其表面的光伏细胞将太阳光转换为电能。这些细胞是由半导体材料制成,当太阳光照射到这些细胞上时,就会激发电子,从而产生电流。太阳能板的使用可以减少对化石燃料的依赖,从而减少温室气体排放和空气污染,对抗气候变化有积极作用。
# 答案关键点
关键点1:答案需要提到光伏细胞的作用。
关键点2:答案需要提到能量转换过程。
# 输出格式
关键点x: 覆盖/部分覆盖/未覆盖;理由
# 评估结论
->
输出结果:
关键点1: 覆盖;理由是答案内容中明确提到了光伏细胞将太阳光转换为电能的作用,这些细胞由半导体材料制成,能够激发电子产生电流。
关键点2: 覆盖;理由是答案内容中描述了能量转换过程,即太阳光照射到光伏细胞上,激发电子,从而产生电流。
3.答案对比评估
该方法是通过对比不同版本的生成答案来进行评估的,其主要目的是判断当前版本答案是不是比之前一个版本更好。为了满足评估的需求,我们既可以制定清晰的评判标准,也可以借助大语言模型自身所具备的自主判断力,如下面这个例子。
# 任务描述
作为一名测试评估专家,请你细阅以下两段答案,并评估哪一段文本的表述更为出色。
# 提问
描述一下熊猫的特点和它们与中国的关系。
# 答案1
熊猫是一种非常可爱的动物,它们的毛色是黑白相间的,它们的眼睛也是黑白相间的,它们的鼻子也是黑白相间的,它们的耳朵也是黑白相间的,它们的尾巴也是黑白相间的,它们的脚掌也是黑白相间的,它们的肚子也是黑白相间的,它们的背部也是黑白相间的。它们喜欢吃竹子,竹子是一种非常好吃的植物,它们有很多竹节,竹节里面有很多水分和营养,熊猫每天要吃很多竹子,才能保持健康和活力。熊猫是中国的国宝,中国人非常喜欢熊猫,熊猫也非常喜欢中国人,它们和中国人有着深厚的感情和友谊。
# 答案2
熊猫是一种极为可爱的动物,其毛色独特,黑白相间,这种鲜明的色彩对比同样体现在它们的眼睛、鼻子、耳朵、尾巴、脚掌、肚子,以及背部。它们对竹子情有独钟,这种植物不仅美味,而且富含水分和营养,熊猫每日需大量摄取以保持健康和活力。作为中国的国宝,熊猫深受国人喜爱,而它们也同样对中国人怀有深厚的感情,彼此间建立了牢固的友谊。
# 评估结论
更出色的答案是:答案x
理由是:
输出结果:
更出色的是:答案2
理由是:答案2的表述更为简洁且流畅。相较于答案1中多次重复“黑白相间”的描述,答案2通过一句“其毛色独特,黑白相间,这种鲜明的色彩对比同样体现在它们的眼睛、鼻子、耳朵、尾巴、脚掌、肚子,以及背部”进行了有效的整合,避免了冗余。同时,答案2在描述熊猫与中国的关系时,语言也更为精炼和富有感情,使得整体阅读体验更佳。
4.多维度打分评估
多维度打分是一种全面的评估方法,他依靠大语言模型自有的评估和推理能力从多个角度对文本进行评估,如准确性、完整性、拟人性、易懂性等。这种方法需要明确每个维度的具体标准,如下面这个例子。
# 任务描述
作为一名测试评估专家,请你参照以下评估准则,对客服回复话术进行全面的质量评价。每个评价指标都将分为三个等级:满意/一般/不满意,具体的评估标准如下所示。
# 评估标准
准确性:话术是否准确回答了用户的问题或解决了用户的疑惑。
完整性:答案是否涵盖了问题的所有关键方面,提供了用户需要的所有信息。
拟人性:答案是否符合人设,包括语言风格、工作情境,思维模式。
易懂性:答案是否使用了清晰、简洁的语言,答案的组织是否有条理,便于用户理解。
# 客户提问
如何在APP开电子发票?
# 回复内容
尊敬的用户,您好。针对您提出的在我们的APP中申请电子发票的流程,以下是您需要遵循的步骤:首先,启动应用程序并导航至“账单概览”区域。在此,您将找到一个名为“账单处理中心”的选项,点击进入后,系统会展示一系列可供开票的账单记录。选择相应记录后,点击界面下方的“发票生成器”按钮,进入下一阶段。此时,您需要在“电子邮件传输节点”处输入您的邮箱信息,以便我们将生成的电子发票通过“数据传输协议”发送至您的邮箱。在整个过程中,如果您遇到任何技术性障碍或操作疑问,我们的“客户支持枢纽”随时待命,为您提供专业的解答与支持。请记得,我们的目标是确保您的体验尽可能地顺畅无阻。
# 评估结果
->
输出结果:
准确性:满意(话术详细且准确地回答了用户如何在APP中申请电子发票的问题)
完整性:满意(话术完整地介绍了在APP中申请电子发票的所有关键步骤)
拟人性:一般(虽然话术提供了详尽的步骤,但使用了较为正式和技术性的语言,可能给用户带来一定距离感,与日常交流的语言风格有一定差异)
易懂性:一般(虽然话术详细介绍了操作步骤,但使用了一些技术性的词汇,如“电子邮件传输节点”、“数据传输协议”,可能对非技术用户来说理解起来有一定难度)
利用大语言模型进行评估极大地提高了效率,降低了人工评估的成本。然而,它是否能在准确性和质量上超越人类评估尚无定论,这主要受到以下因素的影响:
- 主观性:大语言模型评估同人类评估一样面临主观性挑战。不同的评估者(无论是人类还是模型)可能会根据不同的标准或偏好来评判文本质量。
- 模型偏好:每个大语言模型在训练后都会形成自己的知识领域和偏好特征。这些特征可能导致模型在评估时产生偏见,例如更偏好自己生成的文本或更长的文本。
总体而言,利用大语言模型进行文本评估是一个充满潜力的方法,但仍需进一步研究和改进以提高其准确性和可靠性。
5.深入阅读
模型效果评估(Model Evaluation)是AI原生应用落地的一个关键环节。它涉及对训练好的模型进行全面的性能分析和效果评估。通过使用各种评估技术手段和评估指标,衡量模型的准确度、可靠性、泛化能力等关键特性,从而帮助开发者理解和改进模型,确保模型能够满足业务实际需求。
为了更深入地了解这一领域,我们强烈推荐《AI原生应用开发:提示工程原理与实践》(京东图书:https://item.jd.com/14373635.html)一书。该书详尽地探讨了基于大语言模型构建AI原生应用时的评估挑战,包括评估指标的选择、评估方法的运用等关键问题。通过阅读此书,读者可以获取到关于如何更有效地利用大语言模型进行评估的宝贵洞见。