文章主要内容总结
本文针对对话摘要任务,首次系统评估了推理型大语言模型(LLMs,如OpenAI-o1、DeepSeek-R1、QwQ-32B)与非推理型LLMs在三种主流范式(通用型、角色导向型、查询导向型对话摘要)中的表现。研究覆盖多语言、多领域和不同摘要长度,基于SAMSum、DialogSum、CSDS、QMSum等基准数据集,结合LLM自动评估指标和类人评估标准进行分析。
核心发现显示:与其他推理密集型任务不同,显式的逐步推理(如思维链)并未持续提升对话摘要质量;推理型LLMs反而更易出现冗长、事实不一致和摘要不够简洁等问题,其表现常落后于非推理型LLMs(如GPT-4o、DeepSeek-V3)。通过场景分析和案例研究,文章进一步揭示了显式推理在复杂对话场景中失效或起反作用的原因,为对话摘要的模型设计和评估提供了新见解。
创新点
- 建立统一评估框架:涵盖通用型、角色导向型、查询导向型三种对话摘要范式,明确各范式的定义和场景映射。
- 首次大规模系统评估:对比主流推理型与非推理型LLMs在多语言、多领域、多摘要类型数据集上的表现,填补了对话摘要领域对推理型LLMs评估的空白。
- 揭示评估挑战与实践启示:指出当前自动评估和LLM-based评估的局限性,为针对复杂对话摘要需求的