本文是LLM系列文章,针对《Beyond the Answers: Reviewing the Rationality of Multiple Choice Question Answering for the Evaluation of Large Language Models》的翻译。
超越答案:考察大型语言模型评价中选择题的合理性
摘要
在自然语言处理(NLP)领域,大型语言模型(LLM)促成了范式的转变,显著提高了自然语言生成任务的性能。尽管取得了这些进展,但LLM的全面评估仍然是社区面临的不可避免的挑战。最近,将多选问题回答(MCQA)作为LLM的基准已经获得了相当大的吸引力。本研究探讨了MCQA作为LLM评估方法的合理性。如果LLM真正理解问题的语义,那么它们的性能应该在源自相同问题的各种配置中表现出一致性。与这一预期相反,我们的实证研究结果表明,LLM反应的一致性存在显著差异,我们将其定义为LLM的再反应VAriability Syndrome(REVAS),这表明当前基于MCQA的基准可能无法充分捕捉LLM的真实能力,这突出了在评估LLM的性能时需要更稳健的评估机制。