DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models

UnknownBody

于 2024-06-03 14:03:08 发布

阅读量156

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/139412652

LLM Daily 同时被 3 个专栏收录

1296 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM Evaluation

86 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM hallucination

30 篇文章

订阅专栏

DiaHalu是首个对话级幻觉评估基准，用于检测大型语言模型（LLM）的幻觉问题。该基准通过模拟人机交互，覆盖四个对话领域和五个幻觉类型，挑战现有LLM的真实性和忠实性。实验表明DiaHalu对进一步研究具有重要价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models》的翻译。

摘要

由于近年来大型语言模型（LLM）取得了显著的成功，幻觉问题仍然是一个挑战，因此提出了许多检测幻觉的基准。尽管如此，其中一些基准并不是LLM自然生成的，而是有意诱导的。此外，许多人只关注真实性幻觉，而忽视了忠实性幻觉。此外，尽管对话模式在LLM时代得到了更广泛的应用，但目前的基准只集中在句子层面和段落层面的幻觉。在这项研究中，我们提出了DiaHalu，这是我们所知的第一个对话级幻觉评估基准。最初，我们将收集的主题集成到系统提示中，并促进两个ChatGPT3.5之间的对话。随后，我们手动修改不符合人类语言约定的内容，然后重新生成LLM，模拟真实的人机交互场景。最后，专业学者对数据集中的所有样本进行注释。DiaHalu涵盖了四个常见的多回合对话领域和五种幻觉亚型，从真实性和忠实性幻觉扩展而来。在数据集上通过一些著名的LLM和检测方法进行的实验表明，DiaHalu是一个具有挑战性的基准，对进一步研究具有重要价值。