本文是LLM系列文章,针对《Improving the Robustness of Large Language Models via Consistency Alignment》的翻译。
通过一致性对齐提高大型语言模型的鲁棒性
摘要
大型语言模型(LLM)在遵循用户指令和生成有用的响应方面取得了巨大成功。尽管如此,它们的鲁棒性仍远未达到最佳状态,因为它们可能会由于口头指令的微小变化而产生明显不一致的响应。最近的文献探讨了这一不一致性问题,强调了持续改进响应生成稳健性的重要性。然而,仍然缺乏系统的分析和解决方案。在本文中,我们定量地定义了不一致性问题,并提出了一个由指令增强监督微调和一致性对齐训练组成的两阶段训练框架。第一阶段通过类似的指令扩充帮助模型概括以下指令。在第二阶段,我们提高了多样性,并通过区分相似反应中的细微差异,帮助模型了解哪些反应更符合人类的期望。训练过程是在不参考外部人力偏好资源的情况下,通过从第一阶段训练的模型中推断出的自我奖励来完成的。我们对最近公开的LLM进行了广泛的实验,以完成指令跟随任务,并证明了我们的训练框架的有效性。