数学、代码能力国内前三,腾讯混元T1最新测评成绩出炉

中文大模型测评基准SuperCLUE 发布了数学推理和代码能力两项测评的最新成绩。

代码能力方面:腾讯混元T1在项目级代码生成中以77.94分排行国内第二, 领先第三名的QwQ-32B 1.39 分。

图片

数学推理方面:腾讯混元T1 以87.31分居国内第二,总分领先GPT o1 、Claude 等海外头部模型。

图片

数学推理与代码能力作为评估推理模型的两大核心维度,本次测评:

代码能力以项目级代码生成 SuperCLUE-Project为测评基准,涵盖功能完整性、代码质量、用户体验多个维度,涉及游戏开发、工具和管理系统等5大类应用场景。

数学推理以全国高中数学竞赛测评集MathCLUE为基准,涵盖平面几何、代数、初等数论以及组合问题4大维度,每个维度之下有数个子维度,全面考察大模型在数学推理任务的综合表现。 

腾讯自研的深度推理模型T1正式版于 3 月 21 日发布,吐字快、能秒回,还擅长超长文处理,已经在腾讯元宝IMA等应用上线,并支持通过腾讯云API 调用。


关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

加微信进群即可了解更多“腾讯开源新动态”

图片

添加微信请备注:腾讯开源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值