Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization

在这里插入图片描述

文章主要内容总结

本文针对对话摘要任务,首次系统评估了推理型大语言模型(LLMs,如OpenAI-o1、DeepSeek-R1、QwQ-32B)与非推理型LLMs在三种主流范式(通用型、角色导向型、查询导向型对话摘要)中的表现。研究覆盖多语言、多领域和不同摘要长度,基于SAMSum、DialogSum、CSDS、QMSum等基准数据集,结合LLM自动评估指标和类人评估标准进行分析。

核心发现显示:与其他推理密集型任务不同,显式的逐步推理(如思维链)并未持续提升对话摘要质量;推理型LLMs反而更易出现冗长、事实不一致和摘要不够简洁等问题,其表现常落后于非推理型LLMs(如GPT-4o、DeepSeek-V3)。通过场景分析和案例研究,文章进一步揭示了显式推理在复杂对话场景中失效或起反作用的原因,为对话摘要的模型设计和评估提供了新见解。

创新点

  1. 建立统一评估框架:涵盖通用型、角色导向型、查询导向型三种对话摘要范式,明确各范式的定义和场景映射。
  2. 首次大规模系统评估:对比主流推理型与非推理型LLMs在多语言、多领域、多摘要类型数据集上的表现,填补了对话摘要领域对推理型LLMs评估的空白。
  3. 揭示评估挑战与实践启示:指出当前自动评估和LLM-based评估的局限性,为针对复杂对话摘要需求的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值