突发!OpenAI发布最强推理模型o1:具备奥数金牌水平,推理极限超博士~

北京时间9月13日凌晨,美国OpenAI公司发布了最新的模型技术产品o1,包括两个版本:o1-previewo1-mini。前者具备高级推理功能,在处理数学、编程和科学问题上能力显著提升,性能接近理科博士的水平;后者是一款更小巧、专为代码生成优化的模型。

ee500edbe8c5a15d339792838b6f15b2.png

这正是此前传言中具备强大推理能力的“Strawberry”项目。有人认为,o1代表的是Orion大模型的缩写。

ce260d1cef21b0772140af19e1e5e6f9.jpeg

OpenAI表示,对于复杂推理任务而言,新模型标志着AI能力的一个全新高度,因此决定将计数重置为1,给它一个不同于“GPT-4”系列的全新名称。同时,这也意味着AI时代的新起点即将到来,能够处理通用复杂推理的大模型正在崭露头角。

需要注意的是,o1目前的聊天体验依然较为基础,尚不具备浏览网页或处理文件分析的功能。虽然支持图像分析,但该功能暂时关闭,正在进行进一步测试。此外,o1也有使用限制:目前o1-preview每周消息限额为30条,o1-mini为每周50条。

9bad063e599e3a00ced3e37d038332e4.png

从即日起,o1-preview和o1-mini版本已在ChatGPT Plus/Team和API接口上架,企业和教育用户将于下周初获得优先访问权。

OpenAI CEO萨姆·奥尔特曼(Sam Altman)表示,“这是我们迄今为止最强大、最稳定的模型系列o1,也是我们目前最优秀的推理模型。尽管o1还有缺陷和局限,但其表现依然令人印象深刻。”

4b2323fb989374583ed4602ff3fd188d.png具体来说,o1能解决比之前的GPT模型更难的科学、编程和数学问题。

OpenAI的研究负责人Jerry Tworek透露,o1模型的训练方式与之前的产品有着根本性的不同。此前的GPT模型主要是模仿训练数据中的模式,而o1则专注于独立解决问题。在强化学习过程中,AI通过奖励和惩罚机制学习“思维链”方式处理问题,就像人类一样拆解和分析问题。

逻辑推理题方面,我们沿用了一些「过往真题」:
爱丽丝有 4 个兄弟,她还有 1 个姐妹。爱丽丝的兄弟有多少个姐妹?
你可能会奇怪,这不是很简单吗?——答案是 2,加上爱丽丝自己。

GPT-o1回答:

0fb8390565db07a92e0c0e2520e61b2d.jpeg

GPT-4o 答错了。

da6101c0d22f0a2b14051f91220a9d38.jpeg


o1上线后,ChatGPT能够在回答问题前进行深思熟虑,而不是直接输出答案。这种变化类似于人类大脑中的系统1和系统2:ChatGPT已经从仅依赖快速、自动、直观但容易出错的系统1,进化到能够使用缓慢、深思熟虑且可靠的系统2思维。这种能力让它可以解决以往无法处理的问题。

所谓推理大模型,就是AI在回答问题前会花更多时间进行思考,类似于人类的思考过程,而不是单纯预测单词生成序列。用户甚至可以看到AI“思考”的过程,比如AI会表示“我在考虑这样做是否可行”、“时间紧迫,我得尽快给出答案”等。OpenAI明确表示,这些并非AI的原始思维链,而是“模型生成的摘要”,并坦言这里包含一些保持“竞争优势”的因素。

8112e13e9f3adac0b6caef05c98d1d19.png

根据测试结果,在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解答了13%的问题,而o1模型则正确解答了83%的问题。在编程能力测试Codeforces中,o1模型的表现达到了89百分位,而GPT-4o仅为11百分位。

OpenAI发现,随着更多的强化学习和思考时间的增加,o1的性能持续提升。此外,扩展这种方法的限制与大模型预训练的限制差别很大,OpenAI仍在进行深入研究。

4a9349dfc888db80a84645ad27ba5f94.png

根据OpenAI发布的技术文件,实验结果表明,o1在某些测试中已经超越了人类专家,表现接近理科博士水平,并成为第一个在相关基准测试中达到这一成就的模型。下一版本的更新中,AI在物理、化学和生物学的挑战性测试中将表现出与博士生水平相当的能力。

除o1-preview外,OpenAI同步推出了o1-mini模型,该版本更快、更便宜,价格比preview版本低了80%,适合需要推理但不需要大量世界知识的场景使用。

显然,虽然OpenAI o1目前还无法解决所有问题,但其显著增强的推理能力在科学、编程和数学等专业领域有了更大的应用前景,并且提升了AI代理技术的上限和下限,显著增强了科学研究和生产效率。对于消费级应用,影响暂时有限。

英伟达首席科学家Jim Fan表示,新的o1需要更多的算力和数据,并且可能形成数据飞轮效应,正确答案及其背后的思考过程将成为训练数据,不断改进推理核心。类似于AlphaGo的价值网络通过蒙特卡洛树搜索(MCTS)生成更精确的数据并逐渐完善。

OpenAI o1系列模型显著增强了推理能力,并宣布了新的扩展范式:通过强化学习解锁推理时间计算能力。

9月11日,OpenAI正计划以1500亿美元估值进行新一轮融资,预计将从苹果、英伟达、微软等投资者处筹集65亿美元。同时,OpenAI正在与银行商谈,通过循环信贷安排的形式借款50亿美元。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值