晓君一到,编程开窍!
Hello,编程百晓君团队由一群平均10年以上程序员组成,开发实战与带队经验兼备,一直在编程领域深研不辍。
我们专注分享编程干货,涵盖Java、Python、职场就业、前端、鸿蒙、人工智能等领域知识,从基础概念到高阶技巧,全方位助力大家提升编程技能。
无论你是编程小白渴望入门,还是高手寻求突破,这里都有你所需。
期待与大家紧密互动,携手共进。
努力无关早晚,编程之路,有百晓君相伴,定能助你披荆斩棘,开启精彩代码人生!
一.概述
1.1 lm-evaluation-harness
lm-evaluation-harness提供了一个统一的框架,用于测试生成式语言模型在大量不同评估任务上的表现。
Harness 是 EleutherAI 开源的 LLM 评估框架,对应的代码库为:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard (a Hugging Face Space by open-llm-leaderboard)后端使用的评估框架,在很多论文中被使用。
该框架提供了一个统一的接口,用于在大量不同的评估任务上测试生成语言模型。它支持多种语言模型,包括通过 Hugging Face 的 transformers 库加载的模型、GPT-NeoX 和 Megatron-DeepSpeed 等
源码地址:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.
如果不好访问,可以直接访问这个地址:GitCode - 全球开发者的开源社区,开源代码托管平台
1.2 特性
超过60个标准学术基准测试,涵盖数百种子任务和变体。
支持通过transformers加载的模型(包括AutoGPTQ量化)、GPT-NeoX和Megatron-DeepSpeed,具备灵活的、与标记无关的接口。
支持使用vLLM实现快速、内存高效的推理。
支持OpenAI和TextSynth等商业API。
支持对HuggingFace的PEFT库所支持的适配器(例如LoRA)进行评估。
支持本地模型和基准测试。
使用公共可访问的提示进行评估,确保实验的可复现性和论文间的可比较性。
方便支持自定义提示和评估指标
1.3 功能特点
1.广泛的基准测试:lm-evaluation-harness包含多个标准的自然语言生成(NLG)评估任务,如BLEU、ROUGE、METEOR等,同时也引入了一些更为复杂的评估指标,如GLUE、SuperGLUE和Hugging Face的Evaluator。
2.易于集成:用户可以轻松添加新的任务或自定义评估方法,只需提供输入和参考文本即可。
3.并行化处理:支持多线程或多进程并行计算,大大提高了大规模模型评估的速度。
4.可扩展性:兼容不同来源的语言模型,包括Hugging Face Model Hub上的预训练模型和其他基于Transformer的模型
二.安装
0.准备
在开始安装之前,请确保您的系统满足以下要求:
Python 3.7 或更高版本 Git
1.克隆项目
git clone https://gitcode.com/gh_mirrors/lm/lm-evaluation-harness.git
2.初始化
cd lm-evaluation-harness-main
pip install -e .
3.验证是否安装成功
lm_eval --help
如果安装成功,将看到帮助信息,其中列出了所有可用的命令和选项
好啦,本篇就到这,简单了解下lm-evaluation-harness框架,并且可以在本地安装成功,后续操作,敬请期待哈!