文章主要内容总结
本文围绕大语言模型(LLMs)的量化感知训练(QAT)展开研究,重点探讨4-bit精度(W4A4)下的缩放规律。通过268次QAT实验,分析了模型规模(N)、训练数据量(D)和量化粒度(G)对量化误差的影响,并提出统一的缩放定律。核心发现包括:
- 量化误差的影响因素:误差随模型规模增大而减小,随训练数据量和量化粒度粗化而增大。
- 误差分解:权重和激活误差均遵循整体趋势,但敏感度不同。权重误差对训练数据更敏感,而激活误差(尤其是FC2层输入)是W4A4的主要瓶颈。
- 混合精度优化:对FC2层输入采用8-bit量化可显著降低激活误差,使权重和激活误差接近,且在大数据量下权重误差逐渐主导。
文章创新点
-
统一缩放定律
提出首个同时考虑模型规模、训练数据量和量化粒度的QAT缩放定律,公式为: