本文是LLM系列文章,针对《MCEVAL: Massively Multilingual Code Evaluation》的翻译。
摘要
代码大语言模型(LLM)在代码理解、完成和生成任务方面取得了显著进展。编程基准测试由一系列代码挑战和相应的测试用例组成,是评估不同LLM在此类任务中的能力的标准。然而,大多数现有的基准测试主要集中在Python上,并且仍然局限于有限数量的语言,其中其他语言是从Python示例翻译而来的(例如MultiPL-e),这降低了数据的多样性。为了进一步促进代码LLM的研究,我们提出了一个大规模的多语言代码基准测试,涵盖40种编程语言(MCEVAL)和16K测试样本,大大突破了多语言场景中代码LLMs的极限。该基准测试包含具有挑战性的代码完成、理解和生成评估任务,以及精心策划的大规模多语言教学语料库MCEVAL-INSTRUCT。此外,我们还介绍了一种经过MCEVAL-INSTRUCT培训的有效多语言编码器MCODER,以支持多语言编程语言生成。MCEVAL上的大量实验结果表明,在许多语言中,开源模型和闭源LLM(如GPT系列模型)之间仍然有一段艰难的旅程。教学语料库、评估基准和排行榜在https://mceval.github.io/</