Executing Natural Language-Described Algorithms with Large Language Models: An Investigation

本文探讨了大型语言模型(LLM)执行自然语言描述算法的能力,通过建立算法测试集评估了LLM,特别是GPT-4在理解和执行这类程序上的效果。研究结果显示,LLM能有效执行非数值密集型算法,展现了类似冯-诺依曼机器的功能,为LLM在计算能力方面的研究和应用提供了新视角。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Executing Natural Language-Described Algorithms with Large Language Models: An Investigation》的翻译。

用大型语言模型执行自然语言描述算法的研究

摘要

执行用自然语言描述的计算机程序一直是计算机科学的追求。随着大型语言模型(LLM)所表现出的增强的自然语言理解能力的出现,实现这一目标的道路已经阐明。在本文中,我们试图检验当今LLM理解和执行自然语言中概述的算法的能力。我们建立了一个算法测试集,该测试集来源于著名的教科书《算法导论》,其中包含许多具有代表性的广泛使用的算法。为了系统地评估LLM的代码执行能力,我们选择了30种算法,总共生成了300个随机采样实例,并评估了流行的LLM是否能够理解和执行这些算法。我们的研究结果表明,LLM,尤其是GPT-4,可以有效地执行用自然语言描述的程序,只要不涉及大量的数字计算。我们相信,我们的发现有助于评估LLM的代码执行能力,并将鼓励对LLM的计算能力进行进一步的研究和应用。我们的代码和数据在https://github.com/MrZhengXin/natural_language_program可用。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值