Chinese-LLaMA-Alpaca-2模型的测评

最新推荐文章于 2024-10-17 14:47:13 发布

才神

最新推荐文章于 2024-10-17 14:47:13 发布

阅读量1.3k

点赞数 1

分类专栏： GPT ChatGLM AI心理学文章标签： llama

本文链接：https://blog.csdn.net/chaishen10000/article/details/132742476

版权

48 篇文章

订阅专栏

30 篇文章

订阅专栏

16 篇文章

订阅专栏

FastchatChatbotArena提供了一个模型对战平台，展示了不同模型在胜率、Elo评分等指标上的表现，同时介绍了C-Eval和CMMLU等客观评测工具，以及量化精度的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Fastchat Chatbot Arena推出了模型在线对战平台，可浏览和评测模型回复质量。对战平台提供了胜率、Elo评分等评测指标，并且可以查看两两模型的对战胜率等结果。生成回复具有随机性，受解码超参、随机种子等因素影响，因此相关评测并非绝对严谨，结果仅供晾晒参考。

⚔️ 模型竞技场：http://llm-arena.ymcui.com

以上结果截至2023年9月1日。最新结果请进入⚔️竞技场进行查看。

C-Eval是一个全面的中文基础模型评估套件，其中验证集和测试集分别包含1.3K和12.3K个选择题，涵盖52个学科。实验结果以“zero-shot / 5-shot”进行呈现。C-Eval推理代码请参考本项目：📖GitHub Wiki

LLaMA Models	Valid	Test	Alpaca Models	Valid	Test
Chinese-LLaMA-2-13B	40.6 / 42.7	38.0 / 41.6	Chinese-Alpaca-2-13B	44.3 / 45.9	42.6 / 44.0
Chinese-LLaMA-2-7B	28.2 / 36.0	30.3 / 34.2	Chinese-Alpaca-2-7B	41.3 / 42.9	40.3 / 39.5
Chinese-LLaMA-Plus-33B	37.4 / 40.0	35.7 / 38.3	Chinese-Alpaca-Plus-33B	46.5 / 46.3	44.9 / 43.5
Chinese-LLaMA-Plus-13B	27.3 / 34.0	27.8 / 33.3	Chinese-Alpaca-Plus-13B	43.3 / 42.4	41.5 / 39.9
Chinese-LLaMA-Plus-7B	27.3 / 28.3	26.9 / 28.4	Chinese-Alpaca-Plus-7B	36.7 / 32.9	36.4 / 32.3

CMMLU是另一个综合性中文评测数据集，专门用于评估语言模型在中文语境下的知识和推理能力，涵盖了从基础学科到高级专业水平的67个主题，共计11.5K个选择题。CMMLU推理代码请参考本项目：📖GitHub Wiki

LLaMA Models	Test (0/few-shot)	Alpaca Models	Test (0/few-shot)
Chinese-LLaMA-2-13B	38.9 / 42.5	Chinese-Alpaca-2-13B	43.2 / 45.5
Chinese-LLaMA-2-7B	27.9 / 34.1	Chinese-Alpaca-2-7B	40.0 / 41.8
Chinese-LLaMA-Plus-33B	35.2 / 38.8	Chinese-Alpaca-Plus-33B	46.6 / 45.3
Chinese-LLaMA-Plus-13B	29.6 / 34.0	Chinese-Alpaca-Plus-13B	40.6 / 39.9
Chinese-LLaMA-Plus-7B	25.4 / 26.3	Chinese-Alpaca-Plus-7B	36.8 / 32.6

LongBench是一个大模型长文本理解能力的评测基准，由6大类、20个不同的任务组成，多数任务的平均长度在5K-15K之间，共包含约4.75K条测试数据。LongBench推理代码请参考本项目：📖GitHub Wiki

Models	单文档QA	多文档QA	摘要	Few-shot学习	代码补全	合成任务	Avg
Chinese-Alpaca-2-13B-16K	48.1	26.0	12.8	23.3	45.5	21.5	29.5
Chinese-Alpaca-2-13B	38.4	20.0	12.2	18.0	46.2	9.0	24.0
Chinese-Alpaca-2-7B-16K	46.6	23.6	14.5	29.0	47.1	9.0	28.3
Chinese-Alpaca-2-7B	32.0	17.2	11.5	21.5	48.8	5.0	22.7
Chinese-LLaMA-2-13B-16K	37.3	18.1	3.4	30.8	13.0	3.0	17.6
Chinese-LLaMA-2-13B	26.7	14.0	4.4	16.3	9.8	5.5	12.8
Chinese-LLaMA-2-7B-16K	33.7	16.5	5.3	24.3	9.9	4.2	15.6
Chinese-LLaMA-2-7B	20.7	14.5	6.5	12.8	11.5	5.3	11.9

以Chinese-LLaMA-2-7B为例，对比不同精度下的模型大小、PPL（困惑度）、C-Eval效果，方便用户了解量化精度损失。PPL以4K上下文大小计算，C-Eval汇报的是valid集合上zero-shot和5-shot结果。

精度	模型大小	PPL	C-Eval
FP16	12.9 GB	9.373	28.2 / 36.0
8-bit量化	6.8 GB	9.476	26.8 / 35.4
4-bit量化	3.7 GB	10.132	25.5 / 32.8

特别地，以下是在llama.cpp下不同量化方法的评测数据，供用户参考，速度以ms/tok计，测试设备为M1 Max。具体细节见📖GitHub Wiki

llama.cpp	F16	Q2_K	Q3_K	Q4_0	Q4_1	Q4_K	Q5_0	Q5_1	Q5_K	Q6_K	Q8_0
PPL	9.128	11.107	9.576	9.476	9.576	9.240	9.156	9.213	9.168	9.133	9.129
Size	12.91G	2.41G	3.18G	3.69G	4.08G	3.92G	4.47G	4.86G	4.59G	5.30G	6.81G
CPU Speed	117	42	51	39	44	43	48	51	50	54	65
GPU Speed	53	19	21	17	18	20	x	x	25	26	x