北京时间9月13日凌晨,美国OpenAI公司发布了最新的模型技术产品o1,包括两个版本:o1-preview
和o1-mini
。前者具备高级推理功能,在处理数学、编程和科学问题上能力显著提升,性能接近理科博士的水平;后者是一款更小巧、专为代码生成优化的模型。
这正是此前传言中具备强大推理能力的“Strawberry
”项目。有人认为,o1代表的是Orion大模型的缩写。
OpenAI表示,对于复杂推理任务而言,新模型标志着AI能力的一个全新高度,因此决定将计数重置为1,给它一个不同于“GPT-4”系列的全新名称。同时,这也意味着AI时代的新起点即将到来,能够处理通用复杂推理的大模型正在崭露头角。
需要注意的是,o1目前的聊天体验依然较为基础,尚不具备浏览网页或处理文件分析的功能。虽然支持图像分析,但该功能暂时关闭,正在进行进一步测试。此外,o1也有使用限制:目前o1-preview每周消息限额为30条,o1-mini为每周50条。
从即日起,o1-preview和o1-mini版本已在ChatGPT Plus/Team和API接口上架,企业和教育用户将于下周初获得优先访问权。
OpenAI CEO萨姆·奥尔特曼(Sam Altman)表示,“这是我们迄今为止最强大、最稳定的模型系列o1,也是我们目前最优秀的推理模型。尽管o1还有缺陷和局限,但其表现依然令人印象深刻。”
具体来说,o1能解决比之前的GPT模型更难的科学、编程和数学问题。
OpenAI的研究负责人Jerry Tworek透露,o1模型的训练方式与之前的产品有着根本性的不同。此前的GPT模型主要是模仿训练数据中的模式,而o1则专注于独立解决问题。在强化学习过程中,AI通过奖励和惩罚机制学习“思维链”方式处理问题,就像人类一样拆解和分析问题。
逻辑推理题方面,我们沿用了一些「过往真题」:
爱丽丝有 4 个兄弟,她还有 1 个姐妹。爱丽丝的兄弟有多少个姐妹?
你可能会奇怪,这不是很简单吗?——答案是 2,加上爱丽丝自己。
GPT-o1回答:
GPT-4o 答错了。
o1上线后,ChatGPT能够在回答问题前进行深思熟虑,而不是直接输出答案。这种变化类似于人类大脑中的系统1和系统2:ChatGPT已经从仅依赖快速、自动、直观但容易出错的系统1,进化到能够使用缓慢、深思熟虑且可靠的系统2思维。这种能力让它可以解决以往无法处理的问题。
所谓推理大模型,就是AI在回答问题前会花更多时间进行思考,类似于人类的思考过程,而不是单纯预测单词生成序列。用户甚至可以看到AI“思考”的过程,比如AI会表示“我在考虑这样做是否可行”、“时间紧迫,我得尽快给出答案”等。OpenAI明确表示,这些并非AI的原始思维链,而是“模型生成的摘要”,并坦言这里包含一些保持“竞争优势”的因素。
根据测试结果,在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解答了13%的问题,而o1模型则正确解答了83%的问题。在编程能力测试Codeforces中,o1模型的表现达到了89百分位,而GPT-4o仅为11百分位。
OpenAI发现,随着更多的强化学习和思考时间的增加,o1的性能持续提升。此外,扩展这种方法的限制与大模型预训练的限制差别很大,OpenAI仍在进行深入研究。
根据OpenAI发布的技术文件,实验结果表明,o1在某些测试中已经超越了人类专家,表现接近理科博士水平,并成为第一个在相关基准测试中达到这一成就的模型。下一版本的更新中,AI在物理、化学和生物学的挑战性测试中将表现出与博士生水平相当的能力。
除o1-preview外,OpenAI同步推出了o1-mini模型,该版本更快、更便宜,价格比preview版本低了80%,适合需要推理但不需要大量世界知识的场景使用。
显然,虽然OpenAI o1目前还无法解决所有问题,但其显著增强的推理能力在科学、编程和数学等专业领域有了更大的应用前景,并且提升了AI代理技术的上限和下限,显著增强了科学研究和生产效率。对于消费级应用,影响暂时有限。
英伟达首席科学家Jim Fan表示,新的o1需要更多的算力和数据,并且可能形成数据飞轮效应,正确答案及其背后的思考过程将成为训练数据,不断改进推理核心。类似于AlphaGo的价值网络通过蒙特卡洛树搜索(MCTS)生成更精确的数据并逐渐完善。
OpenAI o1系列模型显著增强了推理能力,并宣布了新的扩展范式:通过强化学习解锁推理时间计算能力。
9月11日,OpenAI正计划以1500亿美元估值进行新一轮融资,预计将从苹果、英伟达、微软等投资者处筹集65亿美元。同时,OpenAI正在与银行商谈,通过循环信贷安排的形式借款50亿美元。