A Literature Review and Framework for Human Evaluation of Generative Large Language Models

本文是LLM系列文章,针对《A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare》的翻译。

医疗保健中生成式大型语言模型的人类评估文献综述和框架

摘要

随着生成式人工智能 (AI),尤其是大型语言模型 (LLM),继续渗透到医疗保健领域,用人工专家评估来补充传统的自动评估仍然至关重要。理解和评估生成的文本对于确保安全性、可靠性和有效性至关重要。然而,人工评估的繁琐、耗时和非标准化性质为在实践中广泛采用 LLM 带来了重大障碍。本研究回顾了关于医疗保健领域 LLM 人类评估方法的现有文献。我们强调了对标准化和一致的人工评估方法的显着需求。我们广泛的文献检索遵循系统评价和荟萃分析的首选报告项目 (PRISMA) 指南,涵盖 2018 年 1 月至 2024 年 2 月的出版物。这篇综述全面概述了各种医疗保健应用中使用的人体评估方法。该分析考察了各种医学专业对 LLM 的人类评估,涉及评估维度、样本类型和大小、评估者的选择和招募、框架和指标、评估过程以及结果的统计分析等因素。借鉴这些研究中强调的各种评估策略,我们提出了一个全面而实用的生成式 LLM 人类评估框架,命名为 QUEST:信息质量、理解和推理、表达风格和角色、安全和伤害以及信任和信心。该框架旨在通过定义明确的评估维度和提供详细的指南,提高生成式 LLM 在不同医疗保健应用中的人类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值