文章主要内容总结
本文聚焦于大语言模型(LLMs)与人类偏好对齐的难题,提出了潜在偏好编码框架(Latent Preference Coding, LPC)。传统方法依赖单一奖励函数,难以捕捉人类偏好的多维度和冲突性(如“帮助性”与“安全性”的权衡)。LPC通过离散潜在代码建模偏好背后的隐含因素及其组合,无需预定义奖励函数和人工权重,可自动从数据中推断因素及其重要性。
核心方法
- 离散潜在空间:引入包含K个代码的代码本,每个代码代表一个影响整体偏好的潜在因素。
- 变分推理:通过后验网络 q ( z ∣ x ,