本文是LLM系列文章,针对《Answering real-world clinical questions using large language model based systems》的翻译。
摘要
由于缺乏相关和值得信赖的文献,以及难以将针对特定患者的现有研究置于背景中,指导医疗保健决策的证据往往受到限制。大型语言模型 (LLM) 可以通过总结已发表的文献或根据真实世界数据 (RWD) 生成新研究来潜在地解决这两个挑战。我们评估了 5 个基于 LLM 的系统回答 50 个临床问题的能力,并让 9 名独立医生审查了回答的相关性、可靠性和可操作性。就目前而言,通用 LLM(ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5)很少产生被认为相关且基于证据的答案 (2% - 10%)。相比之下,基于检索增强一代 (RAG) 和代理 LLM 系统为 24% (OpenEvidence) 到 58% (ChatRWD) 的问题生成了相关且基于证据的答案。与其他 LLM 相比,只有代理 ChatRWD 能够回答新问题(65% 对 0-9%)。这些结果表明,虽然通用 LLM 不应按原样使用,但基于 RAG 的专门构建的证据总结系统以及协同作用生成新证据的系统将提高患者护理相关证据的可用性。