中文大模型测评基准SuperCLUE 发布了数学推理和代码能力两项测评的最新成绩。
代码能力方面:腾讯混元T1在项目级代码生成中以77.94分排行国内第二, 领先第三名的QwQ-32B 1.39 分。
数学推理方面:腾讯混元T1 以87.31分居国内第二,总分领先GPT o1 、Claude 等海外头部模型。
数学推理与代码能力作为评估推理模型的两大核心维度,本次测评:
代码能力以项目级代码生成 SuperCLUE-Project为测评基准,涵盖功能完整性、代码质量、用户体验多个维度,涉及游戏开发、工具和管理系统等5大类应用场景。
数学推理以全国高中数学竞赛测评集MathCLUE为基准,涵盖平面几何、代数、初等数论以及组合问题4大维度,每个维度之下有数个子维度,全面考察大模型在数学推理任务的综合表现。
腾讯自研的深度推理模型T1正式版于 3 月 21 日发布,吐字快、能秒回,还擅长超长文处理,已经在腾讯元宝、IMA等应用上线,并支持通过腾讯云API 调用。
关注腾讯开源公众号
获取更多最新腾讯官方开源信息!
加微信进群即可了解更多“腾讯开源新动态”!
添加微信请备注:腾讯开源