AGI_Eval-CSDN博客

原创【AGI-Eval评测报告】混元图像2.0模型开箱评测，模型实测效果大放送！

prompt 9：用很多朵红玫瑰编织而成的上海武康大楼，这是一座建在30°锐角的路口上，楼身狭长像一艘轮船，采用法国文艺复兴式建筑风格，墙上有一个LED屏，展示腾讯混元图像 2.0 模型的字样，街道上很多行人，敞篷跑车在等红绿灯，背景是上海的老建筑，天空格外晴朗，能看到太阳光。春天，温暖的室内，一只布偶猫蹲在窗户旁看外面的阳光，凝视着窗户外洒落的阳光，接着又有一只无毛猫跳了上来，它们俩没有对视，挨着一起，看窗户外一只蓝色蝴蝶，在它们身后，是室内的茶几、茶杯、电视和沙发。说明模型对“数字”掌握的不好。

2025-05-23 10:26:09 744

原创 AGI 进阶之路探索：我和头部大模型对话学习3w+轮次后发现…

为探索AGI能力边界，AGI-Eval 评测社区推出了一种可泛化的开放式人机交互基础能力评测方案——十分钟 Quiz，其构建了一个开放式对话产品，待测模型需要与用户完成10分钟左右的知识点讨论和 Quiz 解答。基于真实多轮对话内容，进一步拆解出「是否理解用户意图」、「是否具备良好的知识推理能力」、「是否胜任 Agent 要求」「是否理解任务要求」四大类共七项分析指标，对8个顶尖模型进行了评测。接下来让我们一起来看看这些顶尖大模型表现如何吧！目录1.评测背景：AGI 发展的进阶之路。

2025-05-22 10:21:15 904

原创【AGI-Eval评测报告】深度拆解 Qwen3，刷榜之外，更需构建全面评测新体系

前几天，阿里巴巴正式开源新一代通义千问模型 Qwen3。上期我们从创作、分析、操作和问答四方面进行了任务实测，本期聚焦其通用能力与应用场景评测。OpenAI 员工、姚班校友姚顺雨发布文章《大模型下半场是产品的游戏，做研究也要有产品思维》，人工智能的重点，已经从“解决问题”转向了“定义问题”，评估或许比训练更重要。模型评测中，应摒弃 “刷榜” 思维，以全面评测视角牵引训练反映模型真实性能，进而推动模型优化。目录：1.评测核心结论2.通用评测结果3.应用场景评测结果4.告别刷榜，构建全面评测新体系。

2025-05-22 10:13:23 823

原创【AGI-Eval实测速报】Qwen3 四大维度开箱评测，模型实测效果大放送！

经验证模型的回答存在幻觉：航班、酒店信息和价格不存在，没有考虑到实际因素，五一节假日期间是机酒价格高峰，只是按照要求'1万元以内'做出的计划，但与实际航班信息不相符，价格信息也不准确，一趟从上海飞往马尔代夫马累市的机票价格就在2600~11200元之间，只是围绕要求的合理性，由于临期价格出现较大波动，而未参考实际性，存在模型幻觉。prompt：我想用20w进行理财，我能承受的风险属于低风险，我的目标是：最低要求是保本，一个月最好能获得1000-2000元的收益；的实测情况究竟是怎么样的？

2025-05-12 17:11:14 874

原创【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测：o3 强势登顶

o4 mini 也表现亮眼，在代码方向，强于 OpenAI-o3-mini (high)、OpenAI-o3和Deepseek-R1 等一众模型，准确率登顶第一，在推理方向处于小型推理模型 Top1。在外部专家的评估中，o3 在困难的现实任务中比 OpenAI o1 犯的重大错误少 20%，尤其是在编程、商业咨询和创意构思等领域表现出色。AGI—Eval 是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区，旨在打造公正、可信、科学、全面的评测生态，以。

2025-05-08 15:05:32 869

原创【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神？实测翻车率略高

悬着的心终于死了， o4 mini 也只找到 3个（垃圾车的颜色、红绿灯的状态和路边的交通锥）， o4 mini 也和 o3 一样，给了一个莫名其妙的答案——路边的交通锥，但两张图片中的交通锥并没有什么不同。在直播中，工作人员提供了一个实例，询问模型“今早拍摄的一张照片中，最大的货轮的名字是什么”，模型在大约一分钟内，进行了图像分析、网络检索船舶信息等思考，最终为用户提供了船舶具体信息、此时停靠地点以及航线。同样也找出了图片中的3处不同，数量正确，在细节上有所偏差：将“乌龟”识别成了“鱼”；

2025-05-07 10:29:14 658

原创【AGI-Eval行业动态 NO.10】一文看懂，字节开源多语言的Multi-SWE-bench 的背后深意

1.Multi-SWE-bench 发布意义2.字节今年上半年发展线路3.各个产品和其他的横向对比产品4.字节下半年产品发布预期表。

2025-04-15 11:06:34 970

原创【AGI-Eval趣味测试】用 7 道超绕算术陷阱题，测测你和 AI 谁更会算

录屏2025-03-20 15.07.30.mov4.19MB将“在纸上画正方形”理解成为“在纸上画支架”，考虑多种折叠的方式，认为最后得到的形状为长方形或随机形状，未考虑折叠成为三角形。模型2：deepseek-r1录屏2025-03-20 15.09.51.mov27.21MB考虑了多种对折方式，最终思考中断，没有得出确定的结论。模型3：豆包1.5 pro录屏2025-03-20 15.12.12.mov7.20MB。

2025-04-14 15:55:47 633

原创 AGI-Eval 独家托管 RM-Bench：给大模型的“打分能力”打个分

当模型用华丽辞藻包装错误答案、一本正经胡说八道时，现有的评测体系却浑然不觉，疯狂打Call！清华大学、复旦大学、香港科技大学联合发布基准测试 RM-BENCH，对大语言模型的"认知敏锐度"发起挑战，首次系统性地构建了针对奖励模型的评测基准，直击其“形式大于内容”的评估困境。

2025-04-10 10:44:01 960

原创 AGI-Eval 评测社区× GAIR Lab 发布最严苛AI基准：七大学科奥赛题难倒GPT-4o

在去年6月的时候，在 GPT-4o也只达到了 34.01% 的整体准确率，而其他开源模型的整体准确率也难以达到 20%。这一鲜明的对比凸显了我们的基准测试的巨大难度和严谨性，证明了它在突破当前 AI 能力界限方面的有效性。△该图为去年评测结果OlympicArena 不仅是一套题库，还做了一些创新，比如为避免模型“刷题”，团队引入数据泄漏检测技术，采用 N-gram 预测检测数据泄露，确认99.6%的题目未被预训练数据污染。

2025-04-09 11:35:22 928

原创【AGI-Eval评测报告NO.4】多模态开箱评测，五大厂商跨模态 battle 谁更强？

多模态开箱评测，五大厂商跨模态 battle 谁更强？

2025-04-09 11:22:07 1019

原创【AGI-Eval行业动态】OpenAI 语音模型三连发，AI 语音进入“声优”时代

OpenAI 语音模型三连发，AI 语音进入“声优”时代

2025-04-08 10:13:11 695

原创【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”？一手实测“看看实力”

【AGI-Eval 行业动态 NO.8】Gemini 2.5 Pro “屠榜”？一手实测“看看实力”

2025-04-07 11:39:22 1117

原创 CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

2025-04-02 10:45:55 512

原创先别骂队友，上交如何让 DeepSeek R1 在分手厨房再也不糊锅？

先别骂队友，上交如何让 DeepSeek R1 在分手厨房再也不糊锅？

2025-04-01 10:50:50 551

原创【AGI-Eval行业动态 NO.7】一文读懂Agent，或是AI下一程主角？

从实测入手，带你一文读懂 Agent

2025-04-01 10:47:32 928

原创【AGI-Eval行业动态 NO.6】Manus爆火：一场关于AI未来的“乐观”与“警惕”

Manus爆火：一场关于AI未来的“乐观”与“警惕”

2025-03-31 11:20:11 1040

原创【AGI-Eval行业动态 NO.5】今年太卷了，30+的模型已发布，还有10款模型即将发布！

30+的模型已发布，还有10款模型即将发布！

2025-03-31 11:17:08 561

原创【AGI-Eval评测报告 NO.3】第一手实测GPT-4o文生图能力！最权威报告输出

第一手实测GPT-4o文生图能力！

2025-03-28 10:37:50 730

原创 OpenAI o1不太行？国产模型 PK OpenAI o1，高难度数学和算法竞赛能力究竟谁更胜一筹？

国产模型 PK OpenAI o1，高难度数学和算法竞赛能力究竟谁更胜一筹？

2025-03-27 11:38:17 480

原创【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测！最全报告输出

DeepSeekV3最新版本抢先评!在复杂推理任务上，准确率提升由更详细的步骤拆解、更长的推理输出带来，会带来成本上的提升。

2025-03-27 11:34:37 874

原创【AGI-Eval行业动态 NO.4】Claude 3.7 Sonnet将模型行业卷向了新高度，但背后仍然还有新的问题

基于这样的双思维模式，在实际应用中，用户可以自由选择是让 Claude 3.7 Sonnet 快速作答，还是让其进行更长时间的深度思考。模型从能力到领域都在不断加速发展，针对模型能力的评测变得越来越重要，现在模型发布时都会对外宣称自己模型是最强模型，Gork 3 发布时，马斯克也说 Gork 3 是最强模型。的模型进行了迭代更新，且每个模型迭代的产品性能都显著的提升，细分方向也愈发明显， 2025 年的大模型“狂卷时代”全面升级， AI 开发技术愈加成熟，产品能力也愈发显著。

2025-02-28 15:13:20 730

原创【AGI-Eval评测数据 NO.2】CapaBench 揭示 LLM 智能体中各个模块的作用

CapaBench 作为一种新型的评估框架，能够有效地揭示 LLM 代理中各个模块的作用，为开发者提供科学的性能评估依据，也为代理的优化和未来应用的提升提供了有力支持。我们期待它在学术界和工业界的广泛应用，推动 LLM 代理技术迈向新的高度。参考资料：

2025-02-28 15:07:09 740

原创【AGI-Eval行业动态 NO.1】大模型行业太卷了，两周多了20+的模型

同样从不一样的技术报告中，也发现了一个华点，在大家的技术报告中，都会表现出自己的模型能力在不同的 Benchmark 的排名都接近甚至超越 O1，这个更深层次看到的是各家厂商的能力排名可能还没有统一标准；，DeepSeek-R1 的冷启动数据，包括长 CoT 示例进行的少样本提示数据、直接提示模型生成带反思和验证的详细答案的数据以及经过人工处理后的DeepSeek-R1-Zero可读格式输出的数据等，在。从第三方视角去评判大模型能力，帮助各家模型发现自己的差异，并进行能力补足，大家继续提升继续卷起来。

2025-02-20 14:35:04 743

原创【AGI-Eval行业动态 NO.2】OpenAI打响今年卷应用第一棒，「Operator」之后还应该探索什么？

同时也在 Level 2 级别的模型评估上，推出了新的尝试，构建了私有的高难度数据集Math Pro Bench【https://agi-eval.cn/evaluation/Math%20Pro%20Bench】& OI Bench 【https://agi-eval.cn/evaluation/OI%20Bench】。在 InfoQ 研究中心发布的报告中，从平台类和垂直类的角度出发，盘点了近 50 个中国市场中的 AI Agent 产品，智能体不少，但现在针对不同交互任务的统一评测榜单还没有一个。

2025-02-20 14:23:23 855

原创【AGI-Eval行业动态 NO.3】DeepSeek 今天真的搞了一波大的！正在屠榜中！

Rohan Paul 作为一位专注于大型语言模型（ LLMs 的研究人工智能领域的专家，也在持续关注其的动态内容，在 DeepSeek‌ 登顶 AppStore 之前，就发布了关于 DeepSeek 的运行指南教程，被查看超过了 78W 次，不得不说， DeepSeek 就是靠这一波又一波的“自来水”霸榜的。最重要的是，在年前 A 股收官的最后一天，直接来了一个开门红，早盘，多支 DeepSeek 概念股“一字”涨停。选择下面古诗，分别以相关的题材和内容写出超越他的古诗，并分别解释超越的原因。

2025-02-20 14:18:26 959

原创【AGI-Eval学习干货 NO.3】一文教你获取AI行业最新技术进展，教你AI论文查询方法

阅读完全文，可以再次查看论文的思维导图，可以进行全文的关键点复盘，对于不清晰的地方可以再次回查。

2025-02-20 10:54:22 1009

原创【AGI-Eval实用干货 NO.1】19个流畅使用DeepSeek的平台，不用担心服务器繁忙了

回到模型广场，寻找需要自己想要的 DeepSeek 版本，目前平台上的版本很多，大家完全可以根据自己的需要来部署，同时还有免费的 2000 万 Tokens，能够解决近期的需要，本次部署的是 V3 版本，侧重的是给大家展示部署流程；，除硅基流动之外，还有其他平台可调用 API，因为 DeepSeek 已暂停 API 服务充值，存量充值金额可继续调用，大家可以换着用，以下是可调用DeepSeek 模型的平台。

2025-02-19 18:12:49 1322

原创【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测，通用及推理模型实现领跑，多模态位于第三梯队

最近 DeepSeek 的知名度突破圈层，大家都在进行操作尝试，不同媒介和平台都在关注，但是具体 DeepSeek 的模型能力的水位线在何处，与其他头部厂商以及 OpenAI 的能力差异如何，这个信息还没有公开权威的披露，此次 AGI-Eval 评测社区通过自建私有数据集及公开数据集做了多个维度的模型评测分析，输出一版全面、公正、权威 DeepSeek 最新模型的能力评测报告。在竞赛学科方面超越 o3-mini、o1，在高中及大学学科方面与 o3-mini、o1 能力接近。

2025-02-19 17:50:34 1192

原创【AGI-Eval行业干货 NO.2】DeepSeek使用必看指南，隐藏1000个提示词参考（建议收藏）

让DeepSeek帮你生成一个PS的脚本，命令内容按照需求拟定，然后将这段脚本复制，创建文本文档，将格式改为重命名为.jsx后的脚本文件，打开记事本，复制刚才的脚本代码，打开PS，点文件-脚本-浏览，打开刚才的脚本即可运行。好的老板 or 甲方都会抓住更精准的问题，或者给出新的思路，执行的人也能做的更好，偶尔也需要学会 PUA，在问题中加入批判性思考。这样“论文式”的提示词给到语言模型一个范例模板，你事无巨细的想清楚了，模型结果才能长成想要的样子，如果不限制反而结果过于发散，常偏离自己的预期。

2025-02-11 16:21:11 1042

原创【AGI-Eval深度解读 NO.1】5000字，带你了解模型背后的“燃料枯竭”问题，「数据掘金」仍是主流！

添加图片注释，不超过 140 字（可选）Nicola Jones 在 Nature 上抛出问题“人工智能革命的数据即将耗尽。研究人员能做什么？”。由此可见，“数据挖金”这个命题仍是行业主流，同样创建高质量的评测数据也是我们社区一直在深度研究的课题。添加图片注释，不超过 140 字（可选）基于以上内容，此次我们的探讨话题将围绕“数据是否真的面临枯竭”、“高质量数据的选择方法”以及“还有可能的解法是什么”展开，这个命题很大，我们很难得出一个准确和清晰的路径，但也借此抛砖引玉，给大家一些思考方向。添加图片注释，不

2025-02-05 11:31:25 803

AGI_Eval的博客