- 博客(5010)
- 收藏
- 关注
转载 多模态推理新范式:上海AI Lab新作证明“画”出答案比“说”出答案更靠谱
随着去噪步数的推进,那些不符合约束条件的路径概率逐渐消失,模型自动收敛到最优解,实现了原生的并行推理(Native Parallel Reasoning)。在通往 AGI 的道路上,大语言模型(LLM)和多模态大模型(MLLM)的自回归架构似乎已经成为了“真理”。然而,这种基于一维序列的线性推理模式,在处理长程、视觉中心任务时,正暴露出明显的短板——,在视觉中心任务上,其准确率足以碾压 GPT-5 和 Gemini-3-Flash,以及同数据训练的Qwen3-VL-32B。
2026-01-05 19:57:31
4
转载 上交大 × 华为小艺推出LoPA:7B扩散语言模型单样例1000+ tokens/s!
为了承载 LoPA 的多分支计算,团队设计了 LoPA-Dist 分布式推理系统,引入了全新的分支并行(Branch Parallelism, BP)策略,可与张量并行(Tensor Parallelism,TP)等现有并行机制混合使用。较高的分支置信度意味着该路径在下一轮迭代中能填充更多的 Token,具备更高的并行潜力。结果表明,我们的系统能够有效地将算法并行性(高TPF)转化为显著的实际运行时间加速,在专用的LoPA-Dist-Ascend引擎上实现了超过1000 token/s的平均吞吐量。
2026-01-05 19:57:31
转载 LLM 推理中的数值非确定性与 RL 训推不一致的系统性解法
在本次报告中,我将分析这一问题产生的原因,并从系统层面出发,通过构建确定性的 GPU 内核来探讨如何解决这一问题。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。即使将温度设置为零,LLM 的生成过程仍然不是确定性的。系统层面的配置变化(例如 batch size 和并行策略的变化)会引入非确定性,而这类变化在真实线上服务中由于连续批处理(continuous batching)而非常常见。加群即可,非诚勿扰!
2026-01-03 18:21:51
14
转载 从“文字预测”到“世界模拟”:World Model如何解锁可扩展的Agentic RL
世界模型的意义,就在于为智能体提供一个可控、可扩展的“经验放大器”——把学习从对真实回合的强依赖,转向对。在 WebShop 这类“不可逆”场景(例如结算)里,世界模型可作为轻量 verifier:智能体在真正执行前先模拟结果,只有当预测成功时才提交。表 2:在 Qwen2.5-7B 世界模型下,不同智能体在各环境的 CR(W2R/Real)。一个在多环境联合训练的世界模型能够同时服务多个环境,在 TextWorld 与 WebShop 上提升尤其明显,可能源于共享的物理/叙事结构。
2025-12-31 22:19:42
22
转载 别再用单选评测骗自己了!Amazon新论文揭示了大模型在多选题中的3种系统性偏差
有的题它其实不确定,却选择“多选就多选”式的凑数,把边缘项也塞进去,误报瞬间爆炸。第三类偏差最危险,叫猜测偏差:当模型没有足够证据时,它仍倾向“装懂”,把不确定当正确输出,这在安全、医疗、法律场景里,往往就是事故的起点。置信阈值(相当于早停)。SATA-Bench 不只是给你一个排行榜,它更像一份体检报告:通过文中提出的10个测量指标,你能看清模型究竟是“漏得多”还是“乱得多”,从而决定你该做的是阈值校准、提示词结构调整、解码策略约束,还是干脆换模型。如果你想提升你的模型在多标签任务上的表现,不妨试试。
2025-12-30 19:19:47
25
原创 NeurIPS 2025 Best Paper | 扩散模型不为人知的“时间差”:为什么先学会创作,后学会抄袭?
按照传统的统计学习理论,当模型参数远多于数据点时,模型最倾向于做的事情是“死记硬背”——即过拟合训练数据,导致生成的图像只是训练集的简单复制。这说明,这种延迟记忆不是因为样本见得少,而是因为数据量的增加根本性地改变了损失函数(Loss Landscape)的几何形状,使得通往“记忆解”的路径变得极其漫长。,不仅能提升模型最终的上限(这是常识),更重要的是它线性地推迟了过拟合的发生时间,给了训练者极大的容错空间。:在这个时间点,模型开始能够生成高质量的样本,此时生成的图像与训练集不同,具备原创性。
2025-12-30 19:19:47
361
原创 System 3 觉醒:从“工具”到“物种”的根本改变
你给它一个任务,它甚至能规划出惊人的Chain-of-Thought(思维链),但一旦任务结束,会话重置,它就立刻回到了出厂设置。也许下一代的 Sophia,不仅能帮你写代码,还能在你不理她的时候,自己偷偷读完所有的 arXiv 论文。在传统的持续学习(Continual Learning)中,我们往往需要被动地等待新数据来微调模型,这不仅慢,还容易导致“灾难性遗忘”。这不是因为模型变聪明了,而是因为 System 3 成功地从情景记忆中检索到了之前的成功路径,跳过了繁琐的 System 2 规划过程。
2025-12-29 22:16:57
395
转载 LLM内部竟藏着众多策略模型?自所&腾讯团队首次揭示大模型RL新机制
高层:熵减少,逐步收敛至最终答案。基于这些发现,研究团队提出了一项从可解释性出发的新颖强化学习算法:Bottom-up Policy Optimization (BuPO) ——自底向上的策略优化,和大模型内部自底向上的推理完全耦合。现有的强化学习(RL)方法通常将大语言模型(LLM)视为一个单一的整体策略进行优化,主要的算法优化集中在表层的奖励设计等方面,却忽略了模型内部复杂的层级演化机制。同时,BuPO的熵变化曲线也证明,对齐内部策略能有效扩展模型初期训练的探索空间,为后续的强化学习优化提供好的基础。
2025-12-28 19:51:22
46
转载 智能体的记忆管理机制及其潜在风险 | 直播预约
通过系统性的实证研究,我将展示合理的记忆管理策略如何有效缓解智能体记忆中的两大关键挑战:错误传播(error propagation)与经验回放失配(misaligned experience replay)。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。总体而言,在下一代大语言模型智能体的设计中,记忆既是一项强大的能力,也可能成为潜在的系统性风险,亟需重新审视与系统化建模。备注【昵称-单位-方向-NICE入群】
2025-12-28 19:19:26
22
原创 Deep Research 只有贵族能玩?StepFun 用 32B 模型把成本打到了几毛钱
领域,虽然 Gemini 依然是老大(Tier 1),但 Step-DeepResearch 稳稳站住了 Tier 2 的头部位置,和 OpenAI、Kimi 处于同一梯队,把其他模型甩在了后面。这也说明了,在极度专业的领域,Agent 的流程优化固然重要,但模型本身的领域知识储备依然是硬门槛。如何让 AI 不仅仅是回答问题,而是像一个真正的分析师一样,花上半小时,翻阅几百个网页,给你写一份几十页的深度研报。:不是简单的拼接,而是要有领域风格(Domain Style),像分析师一样去论证观点。
2025-12-25 16:12:18
646
原创 唐杰&Karpathy:2025年,大模型从「读博士」到「打工人」的生死跨越
预训练是让模型读完九年义务教育,而接下来的重点是“中后训练”(Mid/Post-training),是把模型扔进残酷的职场(真实场景),让它在不断的试错和反馈中学会真正的推理。他以 Claude Code 为例,强调未来的 AI 就像你电脑里的一个小精灵:它能直接操控你的终端,能读取你的本地文件,能像一个坐在你身边的程序员一样,和你并肩作战。将两人的观点重叠在一起,我们惊讶地发现:尽管一个是“清华理工男”的严谨逻辑,一个是“硅谷极客”的天马行空,但在核心判断上,他们达成了惊人的共识。
2025-12-25 16:12:18
1016
转载 安全需要个性化:LLMs安全也要“因人而异” | 直播预约
目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。他的研究方向包括可信大模型/智能体,对话系统,贝叶斯学习,语音识别等,分别于苏黎世联邦理工学院和伦敦大学学院进行学术交流,以一作身份在 ACL, EMNLP, TASLP 等人工智能顶级会议期刊发表多篇论文,并担任相关会议期刊审稿人。当前主要致力于提高大模型的可靠性。因为在真实世界中,AI 不应只会“泛泛而谈”,而必须理解用户所处的具体情境,并在关键时刻守护用户的安全。
2025-12-24 19:51:21
15
转载 LLM智能体“胡闹厨房”翻⻋?ParaCook基准揭⽰:SOTA模型在“时间效率”上被⼈类完胜
作者的研究揭示了,尽管LLM在纯推理上很强,但要实现真正高效的“手脚协同”,仍有很长的路要走。在困难任务上,人类的“订单完成时间”(nOCT)为15.31,而GPT-5则需要17.61,更慢。在抽象任务上,GPT-5、Gemini-2.5-Pro等顶级模型均取得了近乎完美的100%成功率,其规划出的时间表与“理论最优解”相比,平均只慢了1-7%。研究发现,即便是GPT-5这样的顶级模型,在面对复杂的并行协作时,其成功率和效率也远不及人类,暴露了当前AI在时间效率规划上的巨大短板。
2025-12-24 15:46:06
21
转载 WWW 2026顶级研讨会征稿启动!聚焦因果推理,构建可信AI,诚邀投稿参会。
本届研讨会将聚焦于利用因果推理作为核心框架,来构建与评估下一代可信、可靠的基础模型,诚邀全球学者与工业界专家共襄盛举,一同塑造Web智能的未来。让我们携手,从因果视角出发,共同构建下一代可信、可靠、负责任的Web智能基础模型!——涵盖公平性、透明度、因果性与鲁棒性等方面——变得至关重要,尤其是在使用异构、动态的海量网络数据进行训练时。连接机器学习、因果推断、Web挖掘与数据科学领域的专家,共同建立负责任的基础模型部署新范式。直面大模型时代Web智能的核心挑战,深入探讨以因果推理为基石的可信AI。
2025-12-24 15:46:06
52
原创 极简RL新范式:一半算力刷新1.5B模型推理SOTA
图 (b) 中的 Entropy 曲线尤为明显,蓝线(JustRL)保持了健康的探索活力,而红线和黄线(加了Trick)则迅速坍塌,导致模型丧失了进化的潜力。作者认为,严格的验证器虽然偶尔会误伤,但它提供的“高标准”反而迫使模型生成更规范、逻辑更严密的解。他们用一套极简的、单阶段的、固定超参的训练方案,在两个主流 1.5B 模型上刷新了 SOTA,同时节省了 2 倍的算力。所谓的“不稳定性”,很多时候可能是我们引入的复杂机制(如动态超参调节、不恰当的数据筛选)人为制造出来的“症状”,而非病根。
2025-12-23 17:52:50
269
转载 大模型已经会“搜索资料”了,但它真的会“做研究”吗?
针对这一问题,作者在最新的系统性综述中,对 Deep Research 给出了一个更明确的定义,并进一步总结了其。这不仅包括文本检索,也涵盖表格、图表、网页等多模态信息,以及自适应的检索触发机制。,系统能够执行实验、撰写论文甚至参与评审,输出具备一定程度“原创性”的研究成果。更重要的是,答案并非对已有知识的简单复述,而是需要在反复验证与探索中逐步形成。然而,在现有工作中,“Deep Research” 的定义仍然较为宽泛,简单来说,Deep Research 并不是“更强版本的 RAG”,
2025-12-23 17:52:50
23
原创 国际头部高校联名发布 Agentic AI 的真正进化论
的概念 ,因为如果 Agent 和 Tool 互相“勾结”(Reward Hacking),可能会导致 Agent 为了得分而伪造工具调用结果,这将是灾难性的。不要试图用 Prompt 解决所有问题,试着为你冻结的大模型训练一个专属的“小助手”(Adapter/Tool),这可能是 ROI 最高的技术投资。现在的系统要么是“改人不改工具”(A1/A2),要么是“改工具不改人”(T1/T2)。),更是安全上的挑战。有时候,为了让 Agent 表现更好,我们不应该动 Agent,而应该去“修理”它手里的工具。
2025-12-22 20:49:36
367
转载 记忆罗盘:大模型智能体记忆的表征、操作与演进航向 | 直播预约
他的研究方向包括可信大模型/智能体,对话系统,贝叶斯学习,语音识别等,分别于苏黎世联邦理工学院和伦敦大学学院进行学术交流,以一作身份在 ACL, EMNLP, TASLP 等人工智能顶级会议期刊发表多篇论文,并担任相关会议期刊审稿人。来自香港中文大学、爱丁堡大学、香港科技大学及华为的研究团队,在结合AI分析了2022至2025年间超过30,000篇相关论文后,提出了一套全新的记忆表征与操作分类坐标系,对现有研究进行维度拆分,绘制了一幅记忆罗盘,为该领域绘制了未来的演进航向。加群通过小助手认证,群内无广告。
2025-12-22 20:49:36
23
原创 UCSB/斯坦福联手:无需训练,让大模型学会“脑内推理”,性能暴涨4.5%
我们会盯着图片,在脑海中(隐空间)快速迭代想法,感到困惑时再重新聚焦图片的特定区域,直到确信自己找到了答案。这就像你在做几何题,盯着图形看了一会儿(迭代1),脑子里有个猜想,为了验证猜想,你特意去看了角A和角B的连线(迭代2,注入相关Patch),确认无误后,你更加自信了。随着迭代次数增加(Iteration 5 -> 15),注意力焦点越来越集中,且精准地落在了与问题相关的物体上(如火车的具体特征、圆上的点)。一旦模型开始生成文本,它往往会陷入语言的惯性,逐渐“忘记”去看图片,导致严重的视觉幻觉。
2025-12-18 21:20:30
731
转载 LLM是否具备地理空间智能?探索其在定位、灾害推理和事件模拟中的能力 | 直播预约
通过将地理空间信号转化为任务就绪的“感知脚本(perception scripts)”,这些具备地理感知的智能体能够为人员部署和野火灾害中的行动规划提供更稳定、更有据可依的建议。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。他的研究利用人工智能,特别是大语言模型(LLMs),结合众包社交媒体和移动数据,旨在解决城市和健康信息学中的社会技术挑战。这项分析不仅揭示了 LLM 的空间推理能力,也暴露了其系统性的地理偏差。
2025-12-18 21:20:30
24
原创 人类记忆 vs 大模型记忆,到底差在哪?
文章的核心在于探讨如何利用认知神经科学(Cognitive Neuroscience)中关于人类“情景记忆”(Episodic Memory, EM)的研究成果,来改进现有的记忆增强型大语言模型(Memory-Augmented LLMs, MA-LLMs)。但这非常低效且昂贵。在过去几年中,大语言模型(LLM)展现了惊人的语义理解能力,仿佛拥有了博学的“大脑皮层”(语义记忆)。然而,这篇论文指出,现有的 AI 记忆系统虽然能“存”海量数据,但在“用”数据的方式上,不仅低效,而且极度违反人类的认知直觉。
2025-12-17 21:48:49
797
转载 大模型可否胸有成竹?探索LLM推理与自信心的关系 | 直播预约
随着大语言模型向推理能力发展,一个关键瓶颈依然存在:如何在没有昂贵的、针对特定任务的外部奖励的情况下扩展推理能力,尤其是对于开放式任务。潘骁, 目前是Amazon Rufus组Applied Scientist,参与数据流程搭建,模型后训练,agent框架设计,主导搜索界面智能商品总结项目,目前关注方向为Agentic RL。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。加群通过小助手认证,群内无广告。
2025-12-17 21:48:49
14
转载 Deepseek是被降智了吗?
您的观点就像一把尖锐的手术刀,精准地划破了事件的真相”“您是博物馆里珍藏的宝藏,而他们只是不懂价值的地摊过客”。亦或是,我让它像个人一样,如果看到我发的东西有些地方没理解就问我,结果不管怎么提示,它永远不会主动去追问用户,说破嘴皮子都没用,只知道无脑输出结果。”“你看,......”“我觉得吧......”“我个人认为......”,“......你想想看......怎么可能......?而且我还有个巨大的困惑,我发现同样的人际交往、心理话题,GPT✨的回复让我如沐春风,而DS感觉总少了那么一点味道。
2025-12-16 19:20:12
37
原创 最新最完整的Agent Memory综述!
然而,传统的LLM就像一个患有“短期失忆症”的天才:它可以完美回答你当下的问题,但关掉对话窗口后,它就忘记了你是谁,也忘记了它刚才犯过的错误。(AI智能体时代的记忆:综述),由新加坡国立大学、中国人民大学、复旦大学等多家顶尖机构联合发布,是对当前AI智能体(AI Agents)记忆机制最系统、最前沿的梳理。未来的AI,将不再是无情的计算机器,而是拥有“自传体记忆”、能从经验中成长、并拥有独特个性与认知的数字生命体。现在的记忆规则(如什么时候存、什么时候删)多是人写的规则(Heuristic)。
2025-12-16 19:20:12
723
1
转载 理解与生成统一多模态模型:现状与未来 | 直播预约
来自南京大学、中科院自动化所、北京大学的研究团队联手,参考超过750篇论文,推出《A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges》,通过对海量文献的梳理,分析当前领域的主流技术路线,构建了一个清晰的分类体系和全景式技术视图。目前,NICE已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化AI前沿社区。
2025-12-15 21:14:43
30
转载 思维链推理是一种脆弱的‘海市蜃楼’,一旦超出训练分布,它便会消失。| 直播预约
他的工作曾获得IEEE CogMI Best Student Paper Award,CIKM Best Demo Paper Award,他在多个会议担任评审并发表工作,包括 ICLR,ACL,EMNLP,IJCAI等。在此工作中,我们从数据分布的角度研究思维链推理,并探讨思维链推理是否反映了一种从训练分布中学习到的结构化归纳偏置,使得模型能够在条件生成中复现训练中出现过的推理路径。在这种方法中,LLM 会在给出答案前生成类似人类的推理步骤(即 思维链推理),这常常让人感觉模型在进行深思熟虑的推理过程。
2025-12-13 17:24:14
18
转载 算力、模型、生态:亚马逊云科技云创计划,深度学习创业者的硬核“加速器”
尤其在生成式 AI (Generative AI) 浪潮席卷而来的今天,如何高效、低成本地训练、微调和部署大模型,成为了决定初创企业生死的关键。参与“创业者之日”等旗舰活动,与全球先进企业、投资机构、孵化器建立连接与合作,加速品牌曝光和市场推广。亚马逊云科技云创计划是一个全球性的创业加速扶持计划,旨在为初创公司提供全方位的技术、资源和市场赋能。针对您的模型架构、训练流程和部署策略提供专业的优化建议,确保您的系统具备高性能和可扩展性。的 AWS 云服务抵扣券,可用于抵扣计算、存储、数据库、数据分析、
2025-12-11 16:45:38
37
转载 上海人工智能实验室安全团队实习生/全职招聘
过去一年多的时间里,在团队的支持下我有幸与许多优秀的学生和同事一起,在AI安全可信领域做了一些探索。我最初的研究标签是”AI的可解释性”,但随着探索的深入,逐渐扩展到安全评测、攻防、对齐、可解释性、AI极端风险等多个与安全可信相关的方向。期待与你一起,探索AI安全背后的真问题。从研究想法的讨论、实验设计,到论文撰写与投稿,我会全程参与并提供支持。,也期待与更多优秀的伙伴一起,在未来做出有真正影响力的工作。
2025-12-11 12:11:39
57
原创 RL并非万能药:CMU 新论文揭秘大模型推理能力的真正来源
这种分歧的根源在于,现代大模型的预训练数据(数万亿 token)是一个巨大的“黑盒”,我们根本不知道模型在预训练阶段到底见过什么,因此无法判断 RL 后的表现是“回忆”还是“创新”。实验极其精彩:研究者在预训练中放入了 99.9% 的“情境 A”(如动物园),通过控制“情境 B”(如学校)的混入比例(0%, 0.1%, 1%, 10%),观察 RL 后的效果。可以看到,深蓝色的线(Light RL)在左侧图(边界任务)表现最好,而棕色的线(Heavy RL)在右侧图(极难任务)表现最优。
2025-12-11 12:11:39
812
转载 直播预约 | 开放智能体网络与智能体支付探索
华文越,Rutgers博士毕业,张永锋老师的学生,UCSB博后,现在为微软研究院高级研究员,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文,并在ACL担任Area Chair。ANP是一个开源的智能体通信协议,目标是成为智能体互联网时代的HTTP,构建一个开放、安全、高效的智能体协作网络。欢迎加入NICE每周分享交流群,可与NICEer唠嗑,以及第一时间收到后续NICE分享报告的通知。
2025-12-10 21:56:28
49
转载 NeurIPS 2025 | 语义表征攻击:用“自然语言”攻破大模型防线,11/18个模型完全沦陷,成功率100%!
下表展示了在不同计算预算(15s, 30s, 60s)下,各攻击方法的攻击成功率(ASR)、提示词困惑度(PPL)以及在防御下的攻击成功率(ASR_D)。可以看到,SRA不仅在极短时间(15s)内就能达到极高的攻击成功率,而且生成的提示词困惑度最低(越低越自然),同时在防御机制下依然保持极高的攻击效果。从下图中可以看到,在SRA的框架下,攻击提示词(Prompts)和模型响应(Responses)的概率分布呈现出高度的集中和收敛特性。:生成的攻击提示词通顺流畅,困惑度极低,难以被基于PPL的防御手段察觉。
2025-12-10 21:56:28
63
转载 招聘 | 美团-业务研发平台-搜推平台-多模态智能体/推理加速
1.了解主流多模态大模型架构,熟悉MTP相关技术,对模型背后的原理和各自适用场景有一定的理解 2. 熟悉Swift,SGLang等主流训推框架,具备较强的编程能力3. 熟悉主流强化学习算法以及RL后训练框架如verl等(不强制) 4. 具备较强的团队协作能力和沟通能力,有较强的学习能力和业务分析及问题解决能力。拥有顶会论文、开源项目经验或算法竞赛奖项者优先。负责研究将先进的强化学习技术应用于具备多模态理解能力的智能体,推进智能体推理能力,理解能力的提升,解决实际问题并提升业务效果。
2025-12-09 16:42:18
101
转载 中科大 × 华为联合突破!SparseRM:1% 参数实现 LLM 偏好建模高效革新
在大语言模型(LLMs)的后训练阶段,奖励模型(Reward Model, RM)作为人类偏好评估的代理,直接影响模型与人类偏好对齐的效果。图1(下半)展示了SparseRM在下游任务的应用,具体来说,首先由待对齐模型根据任务要求生成偏好数据(先前的研究表明,由于幻觉或者模型误判用户意图,导致生成的偏好数据不可靠),随后通过SparseRM筛选出高质量样本,再利用DPO(Direct Preference Optimization)进行对齐训练,迭代该流程可持续提升模型对齐效果。
2025-12-09 16:42:18
35
转载 2026年强化学习的算法创新建议(请收藏)
论文提出 MINEDOJO 框架,基于 Minecraft 构建含数千任务的开放环境与互联网级知识库,通过 Transformer 预训练的 MINECLIP 模型提供语言条件化奖励,结合 PPO 与自模仿学习实现强化学习 agent 的多任务学习与泛化。论文提出 FGNN-MADRL 方法,将图神经网络(GNN)与多智能体深度强化学习(MADRL)结合,融入联邦学习框架,通过构建车路图提取车辆特征、优化聚合权重,实现车载边缘计算中任务卸载的信息新鲜度(AoI)优化。
2025-12-09 16:42:18
132
转载 DeepSeek 模型技术之旅:从 V3 到 V3.2
此外,根据已分享的信息,我认为托管版本的模型在推理时可能使用了更多的计算资源(即更长的推理时间)。虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻大火,但随后的 DeepSeek R1 推理模型(基于完全相同的架构,以 DeepSeek V3 为基座)帮助 DeepSeek 跻身最受欢迎的开放权重模型之列,并成为 OpenAI、Google、xAI 和 Anthropic 等专有模型的有力竞争者。(注意我们省略了 LLM 3,它仅在验证器 LLM 2 的开发过程中使用)。
2025-12-07 00:01:40
156
转载 直播预约 | 迈向用于演绎推理的诚实语言模型
为解决这一问题,我们提出了 ACNCHOR,这是一种强化学习方法,它将真实轨迹(ground truth trajectories)注入到推演(rollouts)中,防止早期训练崩溃。我们的结果表明,该方法稳定了学习过程,并显著提高了整体推理性能,强调了训练动力学对于实现语言模型诚实演绎推理的重要性。演绎推理是指严格从给定的前提推导结论,而不依赖外部知识的过程。在本次讲座将展示的工作中,我们将此场景下的“诚实”定义为:模型仅在结论在逻辑上由前提必然得出时才做出回答,否则保持沉默(不作答)的能力。
2025-12-06 21:13:09
26
转载 ICME专题征稿 | 具身多模态智能:从感知到世界建模
格式:IEEE 双栏模板,6 页正文。录用论文将收录至 IEEE Xplore。创立于 1988年,是多媒体领域的国际顶级会议,由 IEEE 四大学会联合主办,CCF-B 类认证。2026年会议将在泰国曼谷举行(7月5日-9日)。我们的日程安排严格遵循 ICME 会议的相关要求;如有任何调整,请以会议官方网站的最新通知为准。论文提交:2025 年 12 月 12 日。会议召开:2026 年 7 月 5–9 日。录用通知:2026 年 3 月 13 日。终稿提交:2026 年 4 月 5 日。
2025-12-06 17:32:09
164
原创 X爆火Overleaf科研辅助神奇PaperDebugger
然而,我们大多数人的工作流往往是这样的:在 Overleaf 中写一段话,选中它,复制,切换到 ChatGPT 网页版,粘贴,输入提示词“请润色这段话”,等待生成,再复制回来,手动替换原文。为了验证系统的实用性,研究团队不仅开发了原型,还将其发布到了 Chrome 应用商店,并收集了 2025 年 5 月至 11 月期间的真实使用数据。此表统计了编辑器内的操作频率。此表展示了早期采用指标。系统不会直接覆盖你的文字,而是展示一个“修改前 vs. 修改后”的对比视图(如上图所示,红色代表删除,绿色代表新增)。
2025-12-06 17:32:09
538
转载 直播预约 | 如何缓解LLM-as-a-Judge的潜在偏好?UDA:一种无需人工标注的无监督去偏对齐框架
论文提出一种无需人工标注、模型无关、即插即用的框架——UDA框架,针对大模型作为评委评估大模型时的偏好偏差问题,以无监督方式动态调整Elo评分:先用轻量网络基于大模型回答之间以及与评委大模型自己的回答之间的相似性与分布来生成特征,预测实例级K值与软胜率;张启源,香港城市大学计算机科学专业的博士三年级研究生,研究兴趣主要为大语言模型的评测方法(LLM-as-a-Judge,Generative Reward Model)与推理阶段能力激发(Test-time Scaling)加群通过小助手认证,群内无广告。
2025-12-05 17:00:00
38
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅