突发！OpenAI发布最强推理模型o1：具备奥数金牌水平，推理极限超博士~-CSDN博客

北京时间9月13日凌晨，美国OpenAI公司发布了最新的模型技术产品o1，包括两个版本：o1-preview和o1-mini。前者具备高级推理功能，在处理数学、编程和科学问题上能力显著提升，性能接近理科博士的水平；后者是一款更小巧、专为代码生成优化的模型。

这正是此前传言中具备强大推理能力的“Strawberry”项目。有人认为，o1代表的是Orion大模型的缩写。

OpenAI表示，对于复杂推理任务而言，新模型标志着AI能力的一个全新高度，因此决定将计数重置为1，给它一个不同于“GPT-4”系列的全新名称。同时，这也意味着AI时代的新起点即将到来，能够处理通用复杂推理的大模型正在崭露头角。

需要注意的是，o1目前的聊天体验依然较为基础，尚不具备浏览网页或处理文件分析的功能。虽然支持图像分析，但该功能暂时关闭，正在进行进一步测试。此外，o1也有使用限制：目前o1-preview每周消息限额为30条，o1-mini为每周50条。

从即日起，o1-preview和o1-mini版本已在ChatGPT Plus/Team和API接口上架，企业和教育用户将于下周初获得优先访问权。

OpenAI CEO萨姆·奥尔特曼（Sam Altman）表示，“这是我们迄今为止最强大、最稳定的模型系列o1，也是我们目前最优秀的推理模型。尽管o1还有缺陷和局限，但其表现依然令人印象深刻。”

具体来说，o1能解决比之前的GPT模型更难的科学、编程和数学问题。

OpenAI的研究负责人Jerry Tworek透露，o1模型的训练方式与之前的产品有着根本性的不同。此前的GPT模型主要是模仿训练数据中的模式，而o1则专注于独立解决问题。在强化学习过程中，AI通过奖励和惩罚机制学习“思维链”方式处理问题，就像人类一样拆解和分析问题。

逻辑推理题方面，我们沿用了一些「过往真题」：
爱丽丝有 4 个兄弟，她还有 1 个姐妹。爱丽丝的兄弟有多少个姐妹？
你可能会奇怪，这不是很简单吗？——答案是 2，加上爱丽丝自己。

GPT-o1回答：

GPT-4o 答错了。

o1上线后，ChatGPT能够在回答问题前进行深思熟虑，而不是直接输出答案。这种变化类似于人类大脑中的系统1和系统2：ChatGPT已经从仅依赖快速、自动、直观但容易出错的系统1，进化到能够使用缓慢、深思熟虑且可靠的系统2思维。这种能力让它可以解决以往无法处理的问题。

所谓推理大模型，就是AI在回答问题前会花更多时间进行思考，类似于人类的思考过程，而不是单纯预测单词生成序列。用户甚至可以看到AI“思考”的过程，比如AI会表示“我在考虑这样做是否可行”、“时间紧迫，我得尽快给出答案”等。OpenAI明确表示，这些并非AI的原始思维链，而是“模型生成的摘要”，并坦言这里包含一些保持“竞争优势”的因素。