数学、代码能力国内前三，腾讯混元T1最新测评成绩出炉

tencent__open

于 2025-04-02 14:19:19 发布

阅读量52

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMzYwMjkzOQ==&mid=2247493800&idx=1&sn=e56bde90a87195734e365010248cbea0&chksm=971fa84d6984e26f31f16f0218764a9df3ef7df57201e15ffb836e0be294eb47b1c8b71a6de5&scene=126&sessionid=0

版权

中文大模型测评基准SuperCLUE 发布了数学推理和代码能力两项测评的最新成绩。

代码能力方面：腾讯混元T1在项目级代码生成中以77.94分排行国内第二，领先第三名的QwQ-32B 1.39 分。

数学推理方面：腾讯混元T1 以87.31分居国内第二，总分领先GPT o1 、Claude 等海外头部模型。

数学推理与代码能力作为评估推理模型的两大核心维度，本次测评：

代码能力以项目级代码生成 SuperCLUE-Project为测评基准，涵盖功能完整性、代码质量、用户体验多个维度，涉及游戏开发、工具和管理系统等5大类应用场景。

数学推理以全国高中数学竞赛测评集MathCLUE为基准，涵盖平面几何、代数、初等数论以及组合问题4大维度，每个维度之下有数个子维度，全面考察大模型在数学推理任务的综合表现。

腾讯自研的深度推理模型T1正式版于 3 月 21 日发布，吐字快、能秒回，还擅长超长文处理，已经在腾讯元宝、IMA等应用上线，并支持通过腾讯云API 调用。

关注腾讯开源公众号

获取更多最新腾讯官方开源信息！

加微信进群即可了解更多“腾讯开源新动态”！

添加微信请备注：腾讯开源

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。