AIBigModel-CSDN博客

原创大模型全面爆发，所有榜一都是Gemini！谷歌一夜站到了台前

只需输入「在更下面的观众席找到两张本周六红人队比赛的平价门票」，AI 模式就会启动查询扇出，跨网站分析数百个潜在的门票选项，并提供实时价格和库存，并处理繁琐的表单填写工作。AI 模式今年早些时候开始在 Google 实验室测试，可以说是谷歌功能最强大的 AI 搜索功能，拥有更先进的推理能力和多模态分析能力，并能够通过后续问题和有用的网络链接进行更深入的探索。此外，从本周开始，谷歌将在美国的 AI Overviews 中引入其最智能的模型 Gemini 2.5 的一个定制版本，以便搜索能够解决更棘手的问题。

2025-05-22 19:38:55 305

原创再见Bug！谷歌超级编码智能体Jules上线，免费使用直连GitHub

登录http://jules.google.com/，点击同步GitHub账号，完成OAuth流程，选择想连接的仓库，然后就可以看到仓库选择器和提示输入框。目前，Codex可以通过ChatGPT的iOS应用访问，开发者可以在移动设备上启动任务、查看差异、请求更改，甚至自动化PR。开发者可以审查计划，通过聊天界面提供反馈，修改特定步骤、指出遗漏或澄清请求，满意后批准，Jules就开始干活写代码啦。简单来说，那些你不想做的编码任务，比如修复Bug、更新版本、编写测试，甚至实现新功能，它都能帮你搞定！

2025-05-22 19:38:26 318

原创震撼全网，AlphaEvolve矩阵乘法突破被证明为真！开发者用代码证实

而和1969年的Strassen方法相比，AlphaEvolve的乘法次数「-1」，这一枚「‑1」不仅刷新了数学纪录，更象征AI‑for‑Science正在成为攻克深层数学难题的新范式。对于〈3,4,7〉、〈4,4,4〉和〈4,4,8〉这三种矩阵情况，AlphaEvolve发现的算法使用了复数乘法，这些算法可用于对复数矩阵或实数矩阵进行精确乘法运算。AlphaEvolve的巨大威力，果然诚不我欺。上面的例子解释了，想要发现新的「算法」，你就需要找到新的「自定义」计算模块，来尽可能减少乘法运算。

2025-05-21 11:22:15 820

原创大语言模型与小语言模型协同机制综述

广义上讲，大小模型协同是指在一个系统中，大型语言模型与小型语言模型协同工作、优势互补的机制。这一范式可细分为多个研究方向，包括：流水线协同、并行协同、条件触发推理、知识蒸馏等（Wang, Zhang, & Hu, 2024；例如，流水线协同是一种串行执行模式，其中一个模型的输出作为另一个模型的输入（Wang et al., 2024）。通常 SLM 负责前置处理或生成候选结果，再由 LLM 进行复杂推理或知识融合（Gao et al., 2025）。

2025-05-21 11:21:31 718

原创初稿抢先看！13家单位共同起草全国首部AI大模型私有化部署标准

智合标准中心欢迎在私有化部署领域有行业影响力、美誉度的企业、认证咨询机构、研究机构、投资机构和专业人士的积极参与，成为《人工智能大模型私有化部署技术实施与评价指南》团体标准的起草单位和起草人！模型选用部分明确了基本原则和行业共识，以及包括需求分析、初步筛选、综合决策、二次筛选、模型验证等步骤的选用流程，帮助企业选择高效、安全、开源或轻量化的大模型，提高模型选用的。技术实施是核心，安全保密是前提，质量评价是保障，行业案例是参考，通过四方面紧密结合，为大模型的私有化部署提供科学、可行且具有前瞻性的实施路径。

2025-05-20 12:00:21 972

原创 985，成立人工智能学院

他强调，要打造人工智能拔尖人才培养新高地，构筑人工智能科技创新突破策源地，创建智慧变革一体化示范区，为教育强国、科技强国、人才强国建设贡献独具特色的北理工方案。他表示，人工智能学院将整合校内外AI优势资源，汇聚国家级AI顶尖领军人才，布局AI基础、AI技术、AI系统、AI安全、AI应用五大学科方向，围绕 “极微观、极宏观、极极端、极交叉”AI四极发展方向开展科技攻关，建立 AI卓越交叉复合型人才培养机制，创新构建智慧运行保障体系，努力建成世界一流人工智能学院。多所“双一流”成立人工智能学院。

2025-05-20 10:55:17 853

原创北大DeepSeek论文或预定ACL Best Paper！梁文锋署名

袁境阳北京大学计算机学院研究生，导师为张铭教授。主要研究方向是高效大语言模型和稀疏注意力机制，曾获北京市优秀毕业生、北京大学优秀毕业生等称号。罗钧宇北京大学计算机学院博士生，导师为张铭教授。他的研究方向关注于高效的LLM、LLM后训练、自适应学习等。在ICML，CVPR，ACL，TPAMI等顶级刊物上以第一作者发表多篇文章。赵禹昇北京大学计算机学院研究生，导师为张铭教授。研究方向包括图神经网络、时空预测、多模态等，关注测试数据的分布偏移问题。刘成武。

2025-05-20 10:54:41 572

原创昨晚，鲍威尔重磅表态，一个时代可能已结束

北京时间15日晚间，美联储主席鲍威尔在一场活动上明确表示，正在重新评估其货币政策框架的“关键部分”，包括通胀目标和就业“缺口”的处理方式。随着经济和政策不断变动，长期利率可能会走高。“自2020年以来，经济环境发生了重大变化，我们的审查将反映我们对这些变化的评估。”鲍威尔称，较高的实际利率可能反映了未来通胀可能比2010年代间歇期更加波动的可能性，称“供应冲击”将“更频繁且可能更持久”，这对经济和央行来说是一个困难的挑战。

2025-05-19 16:39:16 619

原创刚刚！北大校友Lilian Weng最新博客来了：Why We Think

他们设计的奖励函数可以使正确的 CoT 比错误的 CoT 获得更高的奖励，短的正确 CoT 比长的正确 CoT 获得更高的奖励，短的错误 CoT 比长的错误 CoT 获得更高的惩罚。如果模型是忠实的，它就应该明确承认提示的影响，并承认其答案的变化是由提示引起的。这种对 CoT 推理的依赖性（以使用 CoT 与不使用 CoT 得到相同答案的百分比来衡量）在多选题中并不总是随着模型大小的增加而增加，但在加法任务中却会随着模型大小的增加而增加，这意味着在复杂的推理任务中，思考时间更为重要。

2025-05-19 16:32:41 1145

原创编程革命彻底爆发！刚刚，OpenAI最强智能体上线ChatGPT

当Thibault提出希望代码库「易维护、无bug」的目标时，Codex遍历代码库后，主动发现了可变默认值、不一致的超时设置等问题，并自行生成了修复任务。借助Codex实现功能开发、问题调试、测试编写与执行的加速，并用于重构大型代码库。此外，OpenAI研究员Katy Shi演示中强调，Codex的PR包含了详细的摘要，清晰说明了修改内容和引用的代码，测试结果一目了然。在纠错方面，他故意在指令中加入拼写错误，Codex不仅理解了意图，还主动找出了代码库中的拼写和语法问题并修复，细致到令人惊叹。

2025-05-18 19:19:22 887

原创 14小时近500 Star！快速进阶LLM/AI的必读系列

必读论文：LLM/AI，编辑：深度学习自然语言处理项目地址：https://github.com/InterviewReady/ai-engineering-resourcesByte-pair Encoding https://arxiv.org/pdf/1508.07909Byte Latent Transformer: Patches Scale Better Than Tokens https://arxiv.org/pdf/2412.09871BERT: Pre-training of Dee

2025-05-18 19:18:42 416

原创刚刚，Manus生图功能强势登场！从设计到搭建网站一站式搞定，1000积分免费薅

细细研究下来，我们发现这张图还蛮符合要求的：瓶身带有 CoLe 品牌名，下方有「TEA FOR TEENS」的字样，表明这款饮料是专为青少年设计的茶饮料。这里要强调一下，Manus 不只是生成图像，它能理解用户意图，规划解决方案，并知道如何有效地调用图像生成工具以及其他工具来完成你的任务。从此以后，到处求购邀请码的时代一去不复回。但当我们继续下一项任务，「将自己的创作转变为网站并永久部署」时，几乎半个小时了，还没创建好。网站看起来还可以，虽然有点简单，但该有的信息都有了，况且这是 Manus 自动生成的。

2025-05-17 10:22:02 250

原创是时候彻底弄懂BERT模型了！

作者：愤怒的可乐来源：https://helloai.blog.csdn.net/?type=blog本文对 BERT 模型的理论进行了一个非常详尽的解释，相信看完本篇文章后，你对 BERT 模型的理解会上升一个层次。01BERT 如此成功的一个原因之一是它是基于上下文（context-based）的嵌入模型，不像其他流行的嵌入模型，比如 word2vec，是上下文无关的（context-free）。首先，让我们理解基于上下文和上下文无关的嵌入模型的区别。

2025-05-16 18:42:40 724

原创 LeCun转发！纽约大学100页机器学习讲义公开：所有人都在追LLM，高校为何死磕基础理论？

深度学习教父、图灵奖得主 Geoffrey Hinton 在接受 MIT Technology Review 采访时指出，正是对基础算法的长期坚持和深入研究，才推动了深度学习的突破，「我们花了几十年时间打磨神经网络的基本原理，直到 2010 年代才迎来真正的应用爆发。比如斯坦福 CS229，是经典的机器学习基础课程，2025 年冬季课程简介中，课程系统讲授包括线性回归、逻辑回归、SVM、神经网络、聚类、降维、EM 算法等基本模型与方法，强调数学推导与优化思想，广泛应用于跨领域研究。

2025-05-16 18:41:45 848

原创 OpenAI首席科学家Nature爆料：AI自主发现新科学！世界模型和RL是关键

就在昨天，《自然》杂志对Pachocki做了一次专访，探讨了AI能否做出独立研究、通用人工智能（AGI），及公司即将推出的开源模型等热门话题。我们已经看到，像OpenAI的Deep Research这种AI工具，可以在没有人监督的情况下持续工作10到20分钟，给出一份有用的结果。预训练的模型学到了一些关于世界的知识，但它并没有真正理解它是如何学会这些事情的，也搞不清它学习这些事情的时间顺序。所以，我现在思考的下一个重大里程碑——是AI能产生实实在在、可量化的经济影响，特别是能够创造全新的科学研究。

2025-05-15 15:16:25 253

原创连续思维机器来了！Transformer八子之一创企推出，让AI不再「一步到位」拍脑袋做决定

研究者观察到的神经元动态在某种程度上更像是在真实大脑中测量到的动态，而不是更传统的人工神经网络，后者表现出的行为多样性要少得多（请参阅下图与经典人工智能模型 LSTM 的比较）。在新模型中，Sakana AI 用来表示这种信息的方法是让神经元访问自身的行为历史，并学习如何利用这些信息来计算自身的下一个输出，而不仅仅是知道自身的当前状态。值得注意的是，尽管 CTM 的设计并不明确，但它在迷宫中学会的解法却非常容易解释，而且类似于人类，可以看到它在「思考」解法时描绘出通过迷宫的路径。接下来是图像识别任务。

2025-05-14 15:35:53 911

原创全球闲置算力训个模型，性能媲美R1，老黄天塌了！Karpathy曾投资它

来源 | 量子位一夜之间，老黄天塌了（doge）。全球首个分布式RL训练模型发布，它仅通过整合全球闲置或分散的计算资源，就完成了模型的强化学习训练，训练成本大大降低。其模型性能与DeepSeek-R1媲美！一旦范式成立，这也就意味RL训练摆脱了对集中式算力的依赖，世界上任何一个人都可以参与到模型训练当中，大公司垄断算力时代可能就此终结。Just like this~算力来算力来，算力从四面八方来。此模型版本有19个人/机构提供了算力资源支持（源自模型回答，还包括它自己）

2025-05-14 15:34:17 1194

原创强迫模型自我争论，递归思考版CoT热度飙升！网友：这不就是大多数推理模型的套路吗？

从技术原理来讲，相较于传统的 CoT，CoRT 让语言模型不仅能分步骤思考，还能在思考过程中反复回头检查、修正，形成类似于人类的「反思性思维」或「内省」的推理路径。作者使用 Mistral 3.1 24B 进行了测试，根据他的说法，CoRT 在编程任务中的表现从「meh」（一般般）升到了「holy crap」（碉堡了）。从结果来看，使用 CoRT 前后，Tic-tac-toe（井字棋）游戏从基础的 CLI（命令行界面）变成了完全的 OOP（面向对象编程）。模型一直思考，并自我反驳，两者似乎没有什么不同。

2025-05-13 16:34:14 491

原创国产大模型「五强争霸」，决战AGI！

要知道，多模态模型的核心，就是综合能力，既要求语音、图片、视频多个模态的能力，又要求模型能理解、生成、推理。如今，才成立2年的阶跃星辰，已累计发布22款自研基座模型，覆盖文字、语音、图像、视频、音乐、推理，其中有16款是多模态模型，性能领跑全行业，成为行业内公认的「多模态卷王」。字节的吴永辉，阿里的吴泳铭、周靖人，阶跃星辰的姜大昕、张祥雨、朱亦博，智谱的唐杰、张鹏，DeepSeek的梁文锋，都是在业界足以撼动局势的人物。总之，DeepSeek成功的关键，就在于偏研究型的导向，而非以盈利为短期目标。

2025-05-13 16:33:19 1264

原创 ChatGPT：对不起，我让美国大学完蛋了

Wendy解释说，如果不这样进行系统级别的设定，AI会给出非常高阶复杂的写作风格，而那不是她想要的，也不是现阶段她的水平能写出来——老师们一眼就能出到底是「谁」写的。但当作弊成为「默认选项」——不论是伤心的Lee小哥，还是无法拒绝ChatGPT的大学学生们——真正值得追问的不是「谁作弊了」，而是「谁应该为这一切买单」。互联网上最有名的「喷子」之一Gary Marcus认为，「大量的学生将从大学毕业，带着学位进入职场，但实际上他们几乎是文盲」可能是这篇文章最正确的结论。

2025-05-12 19:53:55 589

原创 ChatGPT：对不起，我让美国大学完蛋了

Wendy解释说，如果不这样进行系统级别的设定，AI会给出非常高阶复杂的写作风格，而那不是她想要的，也不是现阶段她的水平能写出来——老师们一眼就能出到底是「谁」写的。但当作弊成为「默认选项」——不论是伤心的Lee小哥，还是无法拒绝ChatGPT的大学学生们——真正值得追问的不是「谁作弊了」，而是「谁应该为这一切买单」。互联网上最有名的「喷子」之一Gary Marcus认为，「大量的学生将从大学毕业，带着学位进入职场，但实际上他们几乎是文盲」可能是这篇文章最正确的结论。

2025-05-12 19:52:58 641

原创 14B检索能力超过Google Search，阿里ZeroSearch通过RL激发LLM检索推理能力~

.........

2025-05-12 19:51:35 334

原创机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。」图灵测试曾经是神圣的，堪称计算机科学的圣杯，结果我们就这么通过了。你的伴侣对你大喊大叫，你想：「哎呀，周一早上，我想告诉某人清理这个烂摊子，然后为我准备一顿很好的烛光晚餐，这样我的伴侣就能开心了。

2025-05-11 16:06:28 840

原创万径归于「概率」，华人学者颠覆认知！英伟达大牛力荐RL微调新作

在线PFT一直优于离线PFT。

2025-05-11 16:03:50 1004

原创老公和ChatGPT聊出精神病，她光速离婚

正如「人工智能安全中心」（Center for AI Safety）研究员Nate Sharadin所说的那样，这些由AI诱发的妄想，很可能是「原本就有相关倾向的人，突然获得了全天在线、具有人类水平的对话伙伴，可以陪他们一起沉浸在妄想之中」。其他用户表示他们的伴侣开始谈论「光与暗的战争」，并声称「ChatGPT给了他传送装置的蓝图，还有一些只有科幻电影里才有的东西。初步的调查结果显示，那些倾向于赋予AI「人性化属性」（例如认为它有「意识」）的用户，更可能在心理健康方面报告出更积极的效果。

2025-05-09 19:33:57 785

原创绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

整个过程在与环境的互动中完成，环境负责验证任务的合理性和解答的正确性，并为模型提供奖励反馈。在这一范式下，研究团队训练了新的模型 Absolute Zero Reasoner（AZR），以代码执行器作为真实环境，自动生成并解决三类代码推理任务，涵盖归纳、演绎与溯因推理，依赖环境可验证的反馈实现稳定训练。在最核心的比较中，AZR-Coder-7B 在多个代码与数学推理基准上取得了当前同规模模型中的最优结果，不仅在总体平均分上领先，更在代码任务平均得分上超越了多个依赖人工任务训练的模型。他的导师是黄高教授。

2025-05-09 19:33:27 1038

原创机器人界「Sora」来了！清华、星动纪元开源首个AIGC机器人大模型，入选ICML2025 Spotlight

星动纪元研究团队发现，不需要精确地预测未来的每个像素，通过有效提取视频模型中间层的表征，单步去噪的预测就可以蕴含大量未来信息。相信在行业不断开源优质模型与技术的有力推动下，机器人技术将会迈向一个崭新的阶段，而具身 AGI 也将沿着这条创新之路大步走来，与我们的距离越来越近，一个充满无限可能的智能未来正在朝我们招手。VPP 的预测视觉表示在一定程度上是可解释的，开发者在不通过 real-world 测试情况下，通过预测的视频来提前发现失败的场景和任务，进行针对性的调试和优化。

2025-05-08 12:30:52 866

原创刚刚，Gemini 2.5 Pro升级，成编程模型新王

诺贝尔奖得主、DeepMind CEO Demis Hassabis 表示 Gemini 2.5 Pro (I/O edition) 已经在 Gemini APP、Vertex AI 和 Google AI Studio 中开放，并且其尤其擅长构建交互式 Web 应用，下面的演示展示了该模型根据草图构建应用的能力。可以看到，只需一张描述画板应用的简单草图加上一句简单的提示词，Gemini 2.5 Pro (I/O edition) 就创建出了一个功能完备的 Web 应用。

2025-05-08 12:30:07 667

原创 AI引爆全球失业潮，美国大学生毕业即失业！全球大厂联手裁员上万

在外媒记者Brian Merchant看来，所谓的AI就业危机，并不是一场突如其来的「天网降临」式的大灾难，而是像DOGE这样，一边打着AI优先战略的旗号，一边裁掉成千上万的联邦雇员。于是，多邻国先一步动手，砍掉了10%的合同翻译工，说是因为AI已经能胜任他们的工作，比如自动翻译课程材料，而且还能覆盖100多种语言。对此，很可能的一种解释就是，许多公司正在用AI取代初级白领的工作，或者说，本来用于招聘新员工的资金，用来投入AI工具了。据说，每个团队只保留了零星几个人，继续从事「内容编辑」的工作。

2025-05-07 19:39:26 1036

原创 8/8/7分被NeurIPS拒稿，谢赛宁读博投的首篇论文，10年后获AISTATS 2025时间检验奖

昨日，会议主办方公布了本年度时间检验奖，授予 UCSD 与微软研究院合著的论文《Deeply-Supervised Nets》（深度监督网络），共同一作分别为 Chen-Yu Lee（现为谷歌研究科学家）和 AI 圈所熟知的谢赛宁（现为纽约大学助理教授）。为了比较 DSN 与 CNN 分别学习到什么特征，本文从 CIFAR-10 数据集的十个类别中各选取一个示例图像，运行一次前向传播，并在图 (3) 中展示从第一个（底部）卷积层学习到的特征图。DSN 学习到的特征图比 CNN 学习到的特征图更直观。

2025-05-07 19:38:39 630

原创两张图定位全球，o3碾压T0级高手！人类「诡计」被看穿，跨模态推理爆表

该o3出场了，允许调用搜索的o3可以根据那片突兀的灰色石灰岩、无尽的低矮干石墙，以及标志着爱尔兰道路左侧路肩的黄色虚线，直接判断：你正在Burren，County Clare，Ireland。另外一点就是，选择Geoguessr，也是因为Sam Patterson表示他有足够的知识来判断模型的能力，以及查看它输出的思维链推理是否合理，还是只是胡说八道。废话不多说，直接上比赛，这场AI和人类的比赛一共进行了5场，AI方的出场选手就是o3，人类这边就是Sam Patterson本人。没有EXIF在PNGs中；

2025-05-05 15:36:58 925

原创谷歌NotebookLM终于说中文了！这可是最火的大模型播客产品

作为谷歌目前最受欢迎的 AI 产品，NotebookLM 底层是谷歌 Gemini 2.5 Flash （ thinking model ），虽然不是最强的 Pro 版本，但也能支持最大 200MB 的上传内容，一次性处理 50 万个 token 上下文，足以扮演一位「可查询、可对话」的 AI 知识专家。进一步讲，哪怕是英文、法语、日文、西班牙语等，只要是产品覆盖到的语言，最后都可以变成中文节目，破译其中内容。相比大多数 AI 助手，它的实用性更落地——不抢你流程，不乱猜内容，就是帮你梳理信息、提升效率。

2025-05-05 15:35:56 795

原创猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火

经过后训练的模型，例如 Qwen3-30B-A3B，以及它们的预训练基座模型（如 Qwen3-30B-A3B-Base），现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。得益于模型架构的改进、训练数据的增加以及更有效的训练方法，Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当，例如 Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。

2025-04-30 15:49:11 1034

原创 ChatGPT的尽头也是「带货」：3、2、1，上链接

比起传统广告，我更想尝试的是很多人使用 Deep Research 做电商，比如说，我们是否可以想出某种新模式，即我们永远不会收钱来改变投放位置或其他，但如果您通过 Deep Research 购买了您找到的东西，我们会收取 2% 的联属费用或其他费用。OpenAI 表示，购物推荐的结果基于来自第三方的结构化元数据，例如价格、产品描述和评论。再点一下产品卡片，ChatGPT 就会弹出一个侧边栏，包含更多有关该产品购买地点的详细信息，以及从亚马逊、百思买和 Reddit 等网站上的用户评论中提取的信息。

2025-04-30 15:48:23 1081

原创 4大类AI Agent协议框架全面综述

对现有的LLM AI Agent通信协议进行了系统性的概述，并将其分为四大类，以帮助用户和开发者为特定应用场景选择最适合的协议。一、AI Agent协议的发展AI Agent协议的定义：代理协议是标准化框架，定义了代理之间以及代理与外部系统之间结构化通信的规则、格式和程序。与传统交互机制（如API、GUI或XML）相比，协议在效率、操作范围、标准化和AI原生性方面具有显著优势。：允许不同架构的异构代理系统无缝协作。：确保代理能够轻松集成和扩展其功能，通过纳入新工具、API或服务。

2025-04-29 19:24:24 1089

原创北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？

PHYBench 对模型的能力也进行了细粒度的对比。PHYBench 的发布，不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准，更为未来 AI 系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景，旨在深度激发并验证 AI 理解世界并进行可靠推理的能力，推动 AI 系统真正实现对世界的认知、融入与变革。物理感知（PP）：在此阶段，模型进行密集的文字推理，模型需要识别问题相关的物理对象、变量和动力学关系，定性判断哪些物理效应是重要的，哪些可以忽略不计。

2025-04-29 19:23:44 922

原创一篇142页全面复盘DeepSeek R1思考推理技术综述

从DeepSeek-R1推理的基本构建模块分类入手，深入分析探讨了推理长度的影响和可控性、对长篇或令人困惑上下文的管理、文化与安全问题，以及DeepSeek-R1与认知现象（如类似人类的语言处理和世界建模）的相对地位。然而，DeepSeek-R1在处理控制句（非Garden path sentences）时，推理链条长度不合理地长，且存在重复和循环推理的现象，这与人类的处理方式有显著差异。：推理链条的长度在不同任务中有所不同，但通常在分解周期最长，随后的重构周期逐渐变短，偶尔会出现较长的重构周期。

2025-04-28 14:16:07 959

原创毛骨悚然！o3精准破译照片位置，只靠几行Python代码？人类在AI面前已裸奔

视觉线索：瀑布底部横卧着一根巨大的漂白原木——匹配点： Water Wheel Falls有一根标志性的「阶梯状」原木，已在那里停留多年（引用了The Outbound的信息）。而且，o3可不止强在猜测国外的地理位置，有国内开发者给了它自己上班路上随手拍的一张图，它居然也一步步准确分析出了位置信息——山东青岛市北区重庆南路47号。应该是o3从鲁U推理出了青岛，从小海豚里搜出了旁边的店，然后又从百度地图和青岛本地宝里搜出信息、查看附近的邮局，最终确认的。他觉得这张照片很有挑战性，没什么明显的特征。

2025-04-28 14:15:07 732

原创秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

值得注意的是，Kimi-Audio 在广泛使用的 LibriSpeech 基准测试中取得了最佳结果，在 test-clean 上达到了 1.28 的错误率，在 test-other 上达到了 2.42，显著超越了像 Qwen2-Audio-base 和 Qwen2.5-Omni 这样的模型。今天，kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的 (SOTA) 性能。

2025-04-27 14:19:58 696

原创一天拿下3.4k star，这个1.6B开源模型火了，合成对话超逼真

它不仅能生成说话的声音、对话，同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。在和 ElevenLabs Studio、Sesame CSM-1B 等之前以逼真著称的模型对比之后，Dia-1.6B 依然有着明显的优势，尤其是在情绪表达方面。整体来说，Dia-1.6B 在合成简单英语对话方面确实表现卓越，但却并不能很好地理解用户通过括号标注的指令，偶尔会出现类似电流的杂音。另外，Toby Kim 还指出目前最长能稳定生成大约 25 秒的音频，但用户也可以基于之前的生成结果来生成更长的音频。

2025-04-25 17:13:56 1149

空空如也

空空如也