Large Language Models as Evaluators for Recommendation Explanations

本文是LLM系列文章,针对《Large Language Models as Evaluators for Recommendation Explanations》的翻译。

摘要

推荐系统的可解释性已经引起了学术界和工业界的极大关注。已经为可解释的建议做出了许多努力,但评估解释的质量仍然是一个具有挑战性且尚未解决的问题。近年来,利用LLM作为评估者在自然语言处理任务(如情感分类、信息提取)中提供了一条很有前途的途径,因为它们在指令遵循和常识推理方面具有强大的能力。然而,评估推荐解释性文本与这些NLG任务不同,因为其标准与人类感知有关,通常是主观的。
在本文中,我们研究LLM是否可以作为推荐解释的评估者。为了回答这个问题,我们利用真实的用户对先前工作中给出的解释的反馈,并额外收集第三方注释和LLM评估。我们设计并应用了一种三级元评估策略来衡量评估者标签与用户提供的基本事实之间的相关性。我们的实验表明,LLM,如GPT4,可以通过适当的提示和设置提供可比较的评估。我们还提供了将人类标签与LLM评估过程相结合的进一步见解,并利用多个异质LLM评估者的集合来提高评估的准确性和稳定性。我们的研究验证了利用LLM作为评估者可以是一种准确、可重复和具有成本效益的解决方案,用于评估推荐解释文本。我们的代码在这里可用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值