北京时间凌晨时分,DeepSeek 再次选择深夜放大招——全新升级的 DeepSeek-R1-0528 模型低调开源上线,权重文件已连夜登陆 Hugging Face。
没有发布会,没有铺天盖地的通稿,但还是让整个 AI 圈瞬间沸腾。短短几小时内,“编程能力强到离谱”“思考时间长达25分钟”“前端代码一次生成完美运行”等评价如潮水般涌来。
在LiveCodeBench 榜单上,R1-0528 一举冲到第四位,性能直逼 OpenAI 的o3-mini(High)和o4-mini(Medium),甚至超越了 Google 的 Gemini 2.5 Flash。
升级版在代码生成质量方面实现全面提升。当用户要求构建一个单词评分系统时,R1-0528 在简洁思考后,直接输出两个完整文件——代码文件与测试文件。并且这两个文件第一次运行就毫无差错,无需编辑、不用调试。
这种“一次生成即完美”的能力,即便在顶尖模型中也非常罕见。
在另一次对比测试中,R1-0528 与 Claude 4 Sonnet 同台竞技生成前端页面。无论是光线在墙上的漫反射模拟、撞击后球的运动方向计算,还是控制面板的美观程度,R1-0528 全面胜出。
另一方面,新模型还展现出独特的长时思考能力,单个任务处理时间可达 30-60 分钟。
当面对“9.9 - 9.11 等于多少”这类陷阱题时,它被认为是唯一能持续给出正确答案的模型 。而在解析复杂族谱关系这类需要多步推理的任务中,R1-0528 通过数学符号化思考,成功梳理出“我的妈妈的爸爸的儿子的侄女的孙子的爷爷的舅舅的外孙女的姑姑”究竟是谁。
DeepSeek 的更新距离 AI 编程王者 Claude 4 发布仅仅过去一个月。作为开源和闭源领域两大强者,放在一起对比是不可避免的。
根据网友实测,升级版 DeepSeek-R1 在前端编码方面,表现优于Claude 4 Sonnet。
那么,和旗舰型号 Opus 4 相比,两者相差多少呢?
Claude 4 旗舰型号 Opus 4 在真实工程测试 SWE-bench 中拿下72.5%的高分,在终端编码任务 Term-bench 中更达到 43.2% 的准确率。
它的核心武器是混合推理架构:既能秒回简单问题,又能进入“扩展思考模式”,在复杂任务中暂停、调用工具、深入推演。这种设计让 Claude 4 能处理从快速问答到系统架构设计的全频谱需求。
同时,持续专注能力是 Claude 4 的另一杀手锏。日本乐天集团的一项测试中,Opus 4 独立完成了一项耗时 7 小时的开源重构任务,性能毫无衰减。
当两款顶级模型在相同任务上正面交锋,差异才真正显现:
在深度研究任务上,Gemini 2.5 Pro 和 Claude 4 展现传统优势——响应更快、引用学术文献更规范。而 DeepSeek-R1 虽然在结构化分析上表现不俗,但在学术严谨性上稍逊一筹。
在智能体任务规划方面,Claude 4 凭借其工具链整合能力,可生成包含工具链、用户角色和流程交接的完整方案,甚至直接输出信息图。DeepSeek-R1 目前更擅长单一任务的深度解决而非系统级规划。
然而,作为开源之神的存在,DeepSeek 已经取得了巨大胜利,要知道,Claude Opus 4 每百万 token 收费高达 15 美元(输入)/75 美元(输出)。
而且,这次只是小版本升级,真正的大招——DeepSeek-R2,还没有正式发布。
DeepSeek 此次升级延续了“低调发布,高调性能”的风格。虽然官方未高调宣传,但在 Hugging Face 上,开发者们纷纷连夜下载测试,论坛讨论热火朝天。
而 Claude 4 背后是 Anthropic 清晰的AGI路线图——选择编程这一高度结构化领域作为突破口,让 AI 逐步接管复杂认知任务。
更重要这场深夜突袭的意义早已超越版本号之争——它又一次见证国产 AI 的高光时刻,全球 AI 竞技场中的多极时代已经到来。