DeepSeek-R1重磅升级！发布数小时撼动全球：单挑Claude 4的国产最强推理模型

算家计算

于 2025-05-29 15:35:14 发布

阅读量487

点赞数 8

分类专栏：话题文章文章标签： DeepSeek-R1升级 Claude 4 开源大模型人工智能算家云租算力，到算家云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SJJS_1/article/details/148311481

版权

话题文章专栏收录该内容

120 篇文章

订阅专栏

北京时间凌晨时分，DeepSeek 再次选择深夜放大招——全新升级的 DeepSeek-R1-0528 模型低调开源上线，权重文件已连夜登陆 Hugging Face。

没有发布会，没有铺天盖地的通稿，但还是让整个 AI 圈瞬间沸腾。短短几小时内，“编程能力强到离谱”“思考时间长达25分钟”“前端代码一次生成完美运行”等评价如潮水般涌来。

在LiveCodeBench 榜单上，R1-0528 一举冲到第四位，性能直逼 OpenAI 的o3-mini（High）和o4-mini（Medium），甚至超越了 Google 的 Gemini 2.5 Flash。

升级版在代码生成质量方面实现全面提升。当用户要求构建一个单词评分系统时，R1-0528 在简洁思考后，直接输出两个完整文件——代码文件与测试文件。并且这两个文件第一次运行就毫无差错，无需编辑、不用调试。

这种“一次生成即完美”的能力，即便在顶尖模型中也非常罕见。

在另一次对比测试中，R1-0528 与 Claude 4 Sonnet 同台竞技生成前端页面。无论是光线在墙上的漫反射模拟、撞击后球的运动方向计算，还是控制面板的美观程度，R1-0528 全面胜出。

另一方面，新模型还展现出独特的长时思考能力，单个任务处理时间可达 30-60 分钟。

当面对“9.9 - 9.11 等于多少”这类陷阱题时，它被认为是唯一能持续给出正确答案的模型。而在解析复杂族谱关系这类需要多步推理的任务中，R1-0528 通过数学符号化思考，成功梳理出“我的妈妈的爸爸的儿子的侄女的孙子的爷爷的舅舅的外孙女的姑姑”究竟是谁。

DeepSeek 的更新距离 AI 编程王者 Claude 4 发布仅仅过去一个月。作为开源和闭源领域两大强者，放在一起对比是不可避免的。

根据网友实测，升级版 DeepSeek-R1 在前端编码方面，表现优于Claude 4 Sonnet。

那么，和旗舰型号 Opus 4 相比，两者相差多少呢？

Claude 4 旗舰型号 Opus 4 在真实工程测试 SWE-bench 中拿下72.5%的高分，在终端编码任务 Term-bench 中更达到 43.2% 的准确率。

它的核心武器是混合推理架构：既能秒回简单问题，又能进入“扩展思考模式”，在复杂任务中暂停、调用工具、深入推演。这种设计让 Claude 4 能处理从快速问答到系统架构设计的全频谱需求。

同时，持续专注能力是 Claude 4 的另一杀手锏。日本乐天集团的一项测试中，Opus 4 独立完成了一项耗时 7 小时的开源重构任务，性能毫无衰减。

当两款顶级模型在相同任务上正面交锋，差异才真正显现：

在深度研究任务上，Gemini 2.5 Pro 和 Claude 4 展现传统优势——响应更快、引用学术文献更规范。而 DeepSeek-R1 虽然在结构化分析上表现不俗，但在学术严谨性上稍逊一筹。

在智能体任务规划方面，Claude 4 凭借其工具链整合能力，可生成包含工具链、用户角色和流程交接的完整方案，甚至直接输出信息图。DeepSeek-R1 目前更擅长单一任务的深度解决而非系统级规划。

然而，作为开源之神的存在，DeepSeek 已经取得了巨大胜利，要知道，Claude Opus 4 每百万 token 收费高达 15 美元（输入）/75 美元（输出）。

而且，这次只是小版本升级，真正的大招——DeepSeek-R2，还没有正式发布。

DeepSeek 此次升级延续了“低调发布，高调性能”的风格。虽然官方未高调宣传，但在 Hugging Face 上，开发者们纷纷连夜下载测试，论坛讨论热火朝天。

而 Claude 4 背后是 Anthropic 清晰的AGI路线图——选择编程这一高度结构化领域作为突破口，让 AI 逐步接管复杂认知任务。

更重要这场深夜突袭的意义早已超越版本号之争——它又一次见证国产 AI 的高光时刻，全球 AI 竞技场中的多极时代已经到来。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。