lm-evaluation-harness概述和安装

最新推荐文章于 2025-05-04 20:16:06 发布

编程百晓君

最新推荐文章于 2025-05-04 20:16:06 发布

阅读量1.2k

点赞数 16

分类专栏：大模型文章标签：深度学习

本文链接：https://blog.csdn.net/CodingSir168/article/details/144436448

版权

大模型专栏收录该内容

1 篇文章

订阅专栏

晓君一到，编程开窍！
Hello，编程百晓君团队由一群平均10年以上程序员组成，开发实战与带队经验兼备，一直在编程领域深研不辍。
我们专注分享编程干货，涵盖Java、Python、职场就业、前端、鸿蒙、人工智能等领域知识，从基础概念到高阶技巧，全方位助力大家提升编程技能。
无论你是编程小白渴望入门，还是高手寻求突破，这里都有你所需。
期待与大家紧密互动，携手共进。
努力无关早晚，编程之路，有百晓君相伴，定能助你披荆斩棘，开启精彩代码人生！

一.概述

1.1 lm-evaluation-harness

lm-evaluation-harness提供了一个统一的框架，用于测试生成式语言模型在大量不同评估任务上的表现。

Harness 是 EleutherAI 开源的 LLM 评估框架，对应的代码库为：GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard （a Hugging Face Space by open-llm-leaderboard）后端使用的评估框架，在很多论文中被使用。

该框架提供了一个统一的接口，用于在大量不同的评估任务上测试生成语言模型。它支持多种语言模型，包括通过 Hugging Face 的 transformers 库加载的模型、GPT-NeoX 和 Megatron-DeepSpeed 等

源码地址：GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.

如果不好访问，可以直接访问这个地址：GitCode - 全球开发者的开源社区,开源代码托管平台

1.2 特性

超过60个标准学术基准测试，涵盖数百种子任务和变体。
支持通过transformers加载的模型（包括AutoGPTQ量化）、GPT-NeoX和Megatron-DeepSpeed，具备灵活的、与标记无关的接口。
支持使用vLLM实现快速、内存高效的推理。
支持OpenAI和TextSynth等商业API。
支持对HuggingFace的PEFT库所支持的适配器（例如LoRA）进行评估。
支持本地模型和基准测试。
使用公共可访问的提示进行评估，确保实验的可复现性和论文间的可比较性。
方便支持自定义提示和评估指标

1.3 功能特点

1.广泛的基准测试：lm-evaluation-harness包含多个标准的自然语言生成（NLG）评估任务，如BLEU、ROUGE、METEOR等，同时也引入了一些更为复杂的评估指标，如GLUE、SuperGLUE和Hugging Face的Evaluator。
2.易于集成：用户可以轻松添加新的任务或自定义评估方法，只需提供输入和参考文本即可。
3.并行化处理：支持多线程或多进程并行计算，大大提高了大规模模型评估的速度。
4.可扩展性：兼容不同来源的语言模型，包括Hugging Face Model Hub上的预训练模型和其他基于Transformer的模型