本文是LLM系列文章,针对《Executing Natural Language-Described Algorithms with Large Language Models: An Investigation》的翻译。
摘要
执行用自然语言描述的计算机程序一直是计算机科学的追求。随着大型语言模型(LLM)所表现出的增强的自然语言理解能力的出现,实现这一目标的道路已经阐明。在本文中,我们试图检验当今LLM理解和执行自然语言中概述的算法的能力。我们建立了一个算法测试集,该测试集来源于著名的教科书《算法导论》,其中包含许多具有代表性的广泛使用的算法。为了系统地评估LLM的代码执行能力,我们选择了30种算法,总共生成了300个随机采样实例,并评估了流行的LLM是否能够理解和执行这些算法。我们的研究结果表明,LLM,尤其是GPT-4,可以有效地执行用自然语言描述的程序,只要不涉及大量的数字计算。我们相信,我们的发现有助于评估LLM的代码执行能力,并将鼓励对LLM的计算能力进行进一步的研究和应用。我们的代码和数据在https://github.com/MrZhengXin/natural_language_program可用。