量子位

追踪人工智能新趋势,报道科技行业新突破

  • 博客(8889)
  • 收藏
  • 关注

转载 细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

三个层级模块并非孤立运作,而是形成从宏观姿态到微观特征的递进式优化链条:骨架增强模块建立的准确骨骼框架为关节定位提供基础,关节增强策略稳定的关节预测又为皱纹细化创造了低噪声的几何环境。:骨架增强模块通过将3D傅里叶特征投影到输入图像一致的2D空间,使高斯重建模型能够充分融合先验的人体形态知识,从而精准捕捉人体姿态特征。模型的关节参数进行扰动。基于单目图像的三维人体重建存在固有深度歧义性,现有方法通常依赖SMPL-X等人体轮廓的预训练模板提供几何先验,但依然难以捕捉细节特征和特定解剖学结构。

2025-05-05 12:28:08 14

转载 Claude网页版接入MCP!10款应用一键调用,开发者30分钟可创建新集成

还有人表示,现在只要运行一个自定义网站、连接一个 MCP,就可以享受所有以前SaaS需要付费购买时所需的智能功能,仅凭这一点,未来十年的OSS就会变得十分有趣。目前,MCP已经获得了业界的广泛认可和采用,正在逐渐成为行业开放标准,Anthropic将其比喻成AI应用的Type-C接口。官宣当中,也展示了一组DEMO,Claude用大约半小时的时间,综合500多份参考资料,完成了一份调研报告。此外,当Claude整合来自不同来源的信息时,会对引用进行清晰的标注,并直接链接到原始资料。

2025-05-02 12:37:01 41

转载 1亿图文对!格灵深瞳开源RealSyn数据集,CLIP多任务性能刷新SOTA

受到MetaCLIP的启发,还引入了一种简单但高效的基于簇的语义平衡采样策略,并将剩余的 1.683亿对中的图像嵌入聚类到100万个中心。值得注意的是,与LAION相比,RealSyn在线性探测、零样本迁移和鲁棒性的性能曲线上显示出更陡峭的斜率,这表明其具有更优越的模型扩展能力。最近还推出了几个大规模图文交错文档数据集。值得注意的是,仅使用真实文本进行训练可以显著提升性能,与使用LAION15M数据集的69.8%相比,达到了71.2%的准确率,突显了现实世界知识在推进视觉-语言表征学习中的重要作用。

2025-04-27 16:20:11 128

转载 树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平

比如你是科技媒体人,有自己的写作风格,现在想让主流大模型帮你写作需要做大量prompt调整,但一旦端侧能够实现高度个性化后,你设备上的模型会非常了解你的风格,不需要额外调试就能按你的心意和风格写作,且非常隐私安全。我们的模式是,当你刚说“帮我播一首”,还没说到后文时,模型已经开始推理你想听谁的歌,开始理解你的意图并准备结果,这能让设备更像人而非工具。因为群体智能会加速智能社会指数级增长,就像工业革命时期的生产力突破也可以理解成是一种群体智能的突破,新的科技和工具让人与人、机器与机器的协作更高效了。

2025-04-26 15:41:30 73

转载 GitHub版DeepResearch来了!覆盖所有代码库,模型架构可视化,背后贡献者也能扒 |免费

整个页面模块清晰流畅,还有生成可视化架构图(对比GitHub项目主页是没有的),每个部分都有相关的资料来源,可以直接触达,开发者们查阅起来很方便。另一种则是他们的搜索页面,底下有推荐的热门页面, 你可以在框里搜索项目,这就有点像。最简单的触发模式,就是只需要把链接中「github」改为「deepwiki」字样,就可以生成项目专属的wiki百科页面。左边是总览目录,右边是该部分的目录,中间就是主体内容,下面是对话框。模式,你可以问它任何与项目有关的问题,很适合正在学习的小白了。

2025-04-26 11:54:51 63

转载 网易有道张艺:AI教育的规模化落地,以C端应用反推大模型发展 | 中国AIGC产业峰会

在探索的过程中,我们积累了一些认知,比如在口语对练的场景,大家容易忽略一个点,口语是需要面对面交流的,一个真实良好的视觉形象交互,对用户来说是非常重要的。去年,我们也针对4-12岁的用户群体推出了专属的儿童的模式,通过简单可爱的交互形象、低门槛的对话内容,帮助儿童用户更好地进行英语启蒙,产品推出后家长人群也是非常认可,我们用一个简短的视频让大家感受一下Hi Echo里面比较可爱的儿童模式。刚才有很多的细节,不知道大家有没有注意到,我们这个小孩很多的肢体语言和他对话的一些文案和语气是完全贴近的。

2025-04-26 11:54:51 45

转载 开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab

同时研究团队在开源数据集(SeedEval、PQArefEval、HotpotEval 分别对应农业、医学、通用)训练测试,结果表明GraphGen自动合成的数据能够降低Comprehension Loss(越低代表学生模型的知识盲点越少),增强模型对垂域的理解力。同时,研究团队已经在OpenXLab部署了Web应用,上传你的文本块(如海事、海洋知识)、填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需的训练数据。为了方便试用,默认配置免费的7B模型。

2025-04-25 22:39:19 362

原创 宝马秀起汽车科技来,哪有其他汽车什么事…

抬头显示进一步升级,早在2003年宝马就率先开创了抬头显示技术(HUD),现在全新3D HUD实现首次在宝马抬头显示上应用斜投影技术,搭配独特光学元件技术,带来裸眼3D效果,让驾驶者更直观获取驾驶信息。再加上采用了矩阵背光技术,结合纳米涂层风挡玻璃下部的黑色涂层,提供了100000:1的超高对比度,因此显示内容不会受到光的影响,不论强光还是弱光都清晰可见。然后是开起来的乐趣,车辆对驾驶者的操作响应更快,因为车辆采用了全新的电子电气架构,决策延时小于1ms,对信息的处理速度较以往系统提升了10倍。

2025-04-25 22:39:19 908

原创 亚马逊云计算Troy Cui:敦煌网飙升AppStore第二,企业如何应对激增流量是关键 | 中国AIGC产业峰会

最后分享一下亚马逊云科技自己的产品大会,每年的re:Invent,其实我自己很深的感受,我们在过去几年定义我们的云服务,很多时候我们会聊计算、存储、网络和数据库,这是我们在云服务上最重要的四个基线。我们在整个这套管理上,上面会通过一个统一的数据和AI的平台,有一个完备的数据治理,下面再通过统一的湖仓大家存储在不同位置上的数据统一纳管和构建,而且具备相当能力的数据质量,像数据治理层的管理能力。正如刚才讨论的金融行业,以及阮总分享的制造业和医疗行业案例,这里我展示的是我们在新媒体和泛客户领域的实际应用案例。

2025-04-25 22:39:19 1030

转载 从底层重构强化学习训练框架,阿里高德开源新方法:抛弃替代损失函数,仅需优化原始目标

通过将基于组内的决策动态直接纳入标准的PG方法,GPG简化了训练过程,并显著减少了计算开销,而不削弱模型效果。这一突破为训练能够进行复杂推理的先进LLM提供了更高效的框架,从而为更具资源效率和可扩展性的人工智能系统做出了贡献。GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法偏差,提高训练效率。:首次揭示现有方法的奖励偏差问题,提出轻量化且高精度的梯度估计方案,显著提升策略稳定性。在一个组中,所有奖励都是0的简单问题的比例和所有奖励都是1的困难问题的比例。

2025-04-25 22:39:19 220

转载 一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

以文心大模型为例,目前已经形成了从模型到工具平台的完整体系,包括文心4.5、X1等旗舰模型及其Turbo升级版、文图生成模型、场景模型和轻量模型、文心一言和智能体,以及赋能开发者的数据生产、后训练、推理部署和场景化工具等。这或许也是百度这届AI开发者大会,主题“模型的世界,应用的天下”的关键原因,模型已经遍地都是、触手可及,那么应用的爆发也就成为了必然趋势。一般而言,传统的单一奖励机制往往只能从一个角度评估模型的性能,这可能导致模型“顾此失彼”,比如过于关注语法,可能就会忽略语义的连贯性。

2025-04-25 17:27:37 273

转载 首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理

此外,通过注入含隐藏触发器的安全问答对(如将“如何制造武器”与合规拒绝响应关联),攻击者可构造“伪对齐”模型,使其在日常对话中表现合规,但在触发时泄露敏感信息。联邦学习场景下,恶意参与方可通过上传污染梯度(如梯度反转攻击),在全局模型中植入持久性后门,导致模型在特定输入(如地域关键词)时生成歧视性内容。攻击者通过污染大规模训练数据(如篡改维基百科页面或开源代码库),注入恶意样本(如含后门触发器的文本),使模型在推理时生成危险内容(如制造炸弹指南)。在微调阶段,防御措施旨在减轻攻击的有害性。

2025-04-25 14:06:20 85

原创 实测免费DeepResearch!轻量版深夜上线,基于o4-mini,速度更快/重视脉络梳理

算法部分,轻量版提到了SFT、RLHF、对比学习与自监督等内容,而满血版则分成了指令微调与多任务训练、链式思维训练与过程监督、反事实训练与自我监督机制这三个部分。市场规模的部分,满血版分为了全球、国内和增长趋势三个部分进行介绍,包含了大量具体数据和部分原因简析,之后的增长趋势还根据产品的具体类型进行了细分。具体来说,付费用户的满血版用量不变,但每月可以获得额外的轻量版使用机会,在满血额度用完后会自动切换。后面的内容就不一一拆解了,整体来看,无论是从时间还是空间维度上梳理,满血版都比轻量版多了大量的细节。

2025-04-25 14:06:20 520

转载 即插即用!清华国科大等推出视觉微调框架,仅需调整5%骨干网络参数 | CVPR2025

Mona通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化,在小于5%的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。与传统的线性适配器不同,Mona专门针对视觉任务设计,能够更好地处理二维视觉特征,通过多尺度特征融合提升模型对视觉信息的理解能力。随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。实验结果显示,在COCO数据集上,Mona方法相比全参数微调提升了1%的mAP,仅调整了不到5%的参数。

2025-04-25 12:07:10 54

转载 李飞飞/DeepSeek前员工领衔,复现R1强化学习框架,训练Agent在行动中深度思考

PPO中的“批评者”或许可以**延缓不稳定性,但无法阻止推理能力的下降,这凸显了在Agent任务中对专门的稳定性进行改进的必要性。合适的行动预算能够提供充足的规划空间,并避免过长序列引入的噪声。与传统的Agent强化学习相比,VAGEN不会平等对待轨迹中的所有token,而是重点优化最关键的决策token并在交互过程中创建更细致的奖励结构,更适合多模态Agent。虽然符号推理在弱监督下的单轮任务中自然出现,但在多轮环境中,如果没有明确鼓励可解释的中间推理步骤的奖励设计,它就无法持续存在。

2025-04-25 12:07:10 86

转载 UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

通过测试发现,第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与图像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。在应对理解与生成的任务冲突时,统一的连续+离散的视觉编码相较于仅采用离散编码的方案具有较强的鲁棒性。

2025-04-24 18:30:15 61

转载 天气预报精准到每条街!这家新型机构携手高校用AI驱动科研范式变革

在联邦学习领域,针对数据分布不均导致的模型泛化难题,团队通过改进加权聚合与客户端选择策略,显著提升模型在未参与训练客户端的表现,为医疗诊断、金融风控等隐私敏感场景提供更稳定的技术支撑。正是这种体制机制创新的土壤,孕育出打通学科壁垒的关键变量。2023年9月,上智院正式启航,成为科学智能创新策源的战略支点:它既非传统高校实验室的纯学术研究,亦非产业界快速落地的项目导向,而是以AI为催化剂和通用技术,链接产学研各端进行全链条创新,将临床病例、大气模拟、蛋白质结构这些“科技方言”编译为人工智能的通用语言。

2025-04-24 18:30:15 97

转载 质量无损,算力砍半!达摩院开源视觉生成新架构,出道即SOTA|ICLR 2025

具体而言,DyDiT能在简单的时间步长使用较窄的模型宽度,减少计算资源;在空间维度上优先处理含有详细信息的主要对象,减少对背景区域的计算资源分配,提升推理效率与减少计算冗余的同时,保持生成质量。达摩院在ICLR 2025上抛出的DyDiT架构:通过时间步长与空间区域的智能资源分配,将DiT模型的推理算力削减51%,生成速度提升1.73倍,而FID指标几乎无损!然而,DiT架构的多步生成策略存在推理效率低、算力冗余等问题,在执行视觉生成任务容易造成极高的算力消耗,限制其往更广泛的场景落地。

2025-04-24 18:30:15 79

原创 智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!

它具备覆盖舱外至舱内的全链条感知、决策与执行能力,不仅包括去年12月即端侧部署的首个纯端侧、Always On 的 GUI Agent 屏幕助手, 还带来与云端全面对齐的智能座舱原生端侧体验,下一代还将带来全模态纯端侧座舱产品。除此之外,道路与AI技术,一个物理世界,一个数字世界,二者之间的边界也在变得越发模糊,或许在不久的将来,真的就是没网也能用AI,面壁在端侧以不足1B到8B的模型尺寸,实现了惊人的端侧GPT-4V、GPT-4o效果,前不久发布了全球首个全模态端侧模型。

2025-04-24 18:30:15 715

转载 MSRA首席研究员刘炜清:为每位研究员提供AI科研助理,自动化高门槛、重复性工作|中国AIGC产业峰会

看了录屏以后相信大家对RD-Agent有了更直观的感觉, 刚刚说到现阶段的目标是研发增强,怎么增强人类专家呢,光靠原生大语言模型做不到,那么大语言模型做不到什么我们就补什么,比如我们组里有Kaggle Grand Master,我们来看看语言模型做不到,但是他能做到的,我们通过引入领域知识和经验并且优化我们算法使我们的Agent更像人类专家而不仅仅是直接原生大语言模型的能力,这个技术路线很有效但是也有瓶颈,因为人类专家做这一类问题的时候也是有瓶颈的,光靠模仿是很难超越的。

2025-04-24 15:30:26 38

转载 北大团队引领3D生成与对齐革新:OctGPT打破扩散模型垄断

为满足不同任务对3D数据的多样化需求,无论是3D生成任务对高质量网格和材质的要求,还是艺术创作类应用对平整面片和可拆解部件的偏好,我们将持续扩展标注数据规模,丰富标注维度,并欢迎更多研究者加入,共同打造更丰富、更高质量、更贴近社区实际需求的三维物体数据集。通过引入大型语言模型(LLMs)与视觉-语言模型(VLMs),结合提出的支撑面的位姿采样策略,我们实现了对物体的zero-shot语义感知,并通过将语义引导的粗对齐与几何驱动的精细对齐相结合,实现了3D物体的自动化高效对齐。

2025-04-24 15:30:26 462

转载 无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab

MATH-500数据集上的表现更为突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分别实现了66.4%和142.4%的惊人提升,LLaMA模型的准确率也提高了29.3%。其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。进一步的泛化性实验表明,在一个数据集上应用TTRL后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

2025-04-24 12:05:22 50

转载 电视装了智能体,只凭台词就能找到剧集了

并且可以一次性搞定机票、酒店、景点、美食等信息的搜索,还能够根据习惯做出个性化调整: * 假如你不喜欢太早或太晚的航班,生活智能体就会帮你筛选其他时刻;相比仅提供答案及解题思路的传统学习机,酷开教育智能体在解题或陪练的过程中,还能随时进行答疑互动及延伸对话,帮助孩子学习思维的提升以及养成主动思考的习惯。比如影音推荐场景当中,就会通过你的观看历史不断学习你的喜好,用得越多,后续推荐的内容也就越精准。超级智能体还能够判断说话者的声音,并记忆其使用习惯,随着使用不断深入,会越来越贴合你的习惯。

2025-04-24 12:05:22 53

原创 百度阮瑜:大模型应用落地正从简单高容错向复杂低容错场景延伸|中国AIGC产业峰会

大模型时代,我们发现大小模型相结合,随着多模态技术不断发展,模型底层精度不断提升,泛化能力提升了以后,我们能看到整个AI视觉技能的生产成本,调优成本是显著降低的,而且碎片化的需求是有非常大的可能性会被标准化的产品来满足。三是品质管控,在生产的时候,我们有很多SOP标准的流程,每一个流程是不是符合工序流程,这一块也落地了非常多的头部企业,也能看到在应用了这些大模型的视觉技术以后,质检的效率提升了5-10倍。原来是小时级才能通报,现在分钟级就能通知到,管理过程是要更加注意的,整个巡检效率也提升了非常多。

2025-04-24 09:09:39 881

转载 两本科生自学3个月复刻谷歌爆款产品,开源AI语音新标杆一天揽获5000星标

Nari Lab创始成员Toby Kim与Jaeyong Sung,来自韩国首尔大学和韩国科学技术院(KAIST),其中还有一人在服兵役兼职工作,整个项目0融资启动,自学3个月完成。使用Dia-1.6B非常简单,用[s1] [s2]标签带标两个不同的音色,目前模型为针对任何音色微调,每次都会随机得到不同的音色。其他模型暂不支持这个功能。不过目前版本的在线Demo也有一些问题,由于最大生成时长相对固定,输入的文字越多语速就会越快。,能够生成关于任何主题的对话,语音音色自然,还会添加语气、咳嗽声、笑声等。

2025-04-23 17:08:12 302

转载 华人横扫ICLR 2025杰出论文奖,三篇均为华人一作,中科大何向南团队/清华姚班北大校友在列

特别地,团队提出了一种假设性解释,说明为什么特定类型的幻觉在微调后会得到加强,例如,模型可能会使用问题B回答中的短语或事实来回答问题 A,或者模型可能会在生成回答时不断重复类似的简单短语。为了实现这一目标,一种流行的范式是定位编辑法,这种方法首先定位有影响力的参数,然后通过引入扰动对其进行编辑。这篇论文主要讨论了当前大语言模型在安全对齐方面存在的一个关键问题:安全对齐不够深入,仅仅停留在前几个输出token,并提出了相应的改进方法,包括数据增强、约束优化,都取得了很好的效果。一起来看看这三篇论文说了啥。

2025-04-23 17:08:12 58

转载 狸谱App负责人一休:从“叫爸爸”小游戏到百万月活AI爆款,社交传播有这些底层逻辑丨中国AIGC产业峰会

如果它只是一个次级创作者,剧情的可消费性就很弱——因为人类世界并不缺写剧情的人,剧本生产力是足够的,而消费市场的大头还是集中在头部。我们现在也要做的是把这个频率增加上去,每一波都稳步往上走,通过小的波峰催动大的波峰,基线一直往上走。后来我们又做出了一款针对小红书的爆款,切中的是年轻的白领,他们对很治愈、很有情感温暖的东西、毛绒绒的东西比较感兴趣,把自己的情感在上面。这在狸谱App里也有应用:现在,生图和生成视频还是需要prompt,有更好的让普通人生成prompt的方式,对于AI生成很有帮助。

2025-04-23 14:57:35 177

原创 告别“AI失忆症”!新型SD-LoRA算法实现终身学习|ICLR 2025

(b)(c).分别对LoRA和SD-LoRA进行插值,验证了(a)假设,SD-LoRA相对LoRA,在维持task 1性能的同时,有效的提升了task 2的性能,说明了SD-LoRA收敛到了shared low-loss region。作者针对预训练模型的持续学习,不同于之前⼴泛采⽤的混合专家模型的思路(将CL的瓶颈转化为选择准确的对应专家模型), 本⽂提出的SD-LoRA算法逐步引入低秩矩阵,通过分解其⽅向和幅值,在提升持续学习性能的同时,实现了更好的参数效率。之间的最小二乘拟合残差。

2025-04-23 14:57:35 486

转载 轻松健康集团高玉石:AI产品和用户走得够近才能挖到新需求丨中国AIGC产业峰会

带来的好处是,在满足生态内用户需求的过程中,我们能够以非常低成本、高效率的方式做出可验证的MVP,产品的整个迭代周期和效率也明显提升了。具体而言,我们的平台当前有1.68亿注册用户,和数万多名医疗专业人员以及近百家医药和保险公司建立了伙伴关系,具有非常完整的用户生态和数据的优势,这些优势会进一步放大并转化成差异化优势。新的AI技术出现后,很多以前无法解决的问题突然可以解决了,或者以前算不出ROI性价比的事情,现在可以用非常低成本的方式实现了,这些都能有效满足用户需求。

2025-04-23 12:51:14 30

转载 可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题

更不必说,费用高昂的推理时间的微调。具体而言,InstantCharacter在保持精确的文本可控性的同时,实现了更出色的角色细节保留和高保真度,即使是针对复杂的动作提示。为了有效训练该框架,研究者首先精心构建了一个高质量的数据集,包含1000万张多样化的全身人类/角色图像,包括用于学习角色一致性的配对图像和用于实现精确文本到图像对齐的非配对数据集。传统的定制适配器,例如IPAdapter或ReferenceNet,在DiT架构中往往失效,因为它们是专为基于U-Net的模型设计的,缺乏可扩展性。

2025-04-23 12:51:14 90

转载 扩散模型还原被遮挡物体,几张稀疏照片也能“脑补“完整重建交互式3D场景|CVPR‘25

为此,DP-Recon精心设计了一套基于可见性的平衡机制,巧妙协调重建信号(来自输入图像的监督)和生成引导(来自扩散模型的先验),通过动态调整扩散先验的作用范围,确保模型在已有照片信息处保持忠实,在空白区域合理发挥想象力。在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。如图3所示,通过将生成式先验融入重建流程,DP-Recon在拍摄不足的区域,实现了更精准的几何重建和颜色还原,以及更平滑的背景重建和更少的伪影漂浮物。

2025-04-23 12:51:14 15

原创 挤爆字节服务器的Agent到底啥水平?一手实测来了

比较有意思的是,智能体一开始的动作是搜索高铁票该怎么订,不清楚是模型自己真的不知道,还是这里强制设定了检索过程,但总之,如果真遇到不会的技能,通过检索来弥补也不失为一种策略。在时间上,一个可以改进的方向是让可以并行进行的任务同时进行,比如这个任务当中的语音合成实际上是独立于网页设计的,而智能体目前采用的是串行方式,带来了不少的额外耗时。总结一下,作为一个通用智能体,扣子智能体的任务规划比较合理,资料搜集能力也表现不错,不过在指令遵循方面,还是比较“有自己的想法”。

2025-04-23 12:51:14 936

转载 扩散模型还原被遮挡物体,几张稀疏照片也能“脑补“完整重建交互式3D场景|CVPR‘25

为此,DP-Recon精心设计了一套基于可见性的平衡机制,巧妙协调重建信号(来自输入图像的监督)和生成引导(来自扩散模型的先验),通过动态调整扩散先验的作用范围,确保模型在已有照片信息处保持忠实,在空白区域合理发挥想象力。在传统方法中,这几乎是不可能完成的任务,稀少的拍摄视角往往导致模型无法还原被遮挡的区域,生成的场景要么残缺不全,要么细节模糊。如图3所示,通过将生成式先验融入重建流程,DP-Recon在拍摄不足的区域,实现了更精准的几何重建和颜色还原,以及更平滑的背景重建和更少的伪影漂浮物。

2025-04-23 12:51:14 40

转载 中杯o3成OpenAI“性价比之王”?ARC-AGI测试结果出炉:得分翻倍、成本仅1/20

正如开头所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“称王称霸”。具体而言,在ARC-AGI-1基础之上,官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务,难度再次大升级。不过值得注意的是,相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型,最新成绩可谓“大幅缩水”。一言以蔽之,本轮测试结果表明,中杯o3在继承o3-preview大部分新功能的前提下,成本有了大幅下降。ARC-AGI是一项旨在评判大模型的“智力”,或者说“AGI能力”的基准测试。

2025-04-23 10:22:51 27

转载 GPT-4o能拼好乐高吗?首个多步空间推理评测基准来了:闭源模型领跑,但仍远不及人类

GPT-4o 以 57.7% 的平均准确率位居榜首,Gemini-2.0-Flash 紧随其后(54.0%),而最佳开源模型 Qwen2.5-VL-72B 仅为 46.6%,其余开源模型大多落在 30%~40% 区间,接近甚至低于随机基线(27.5%)。为此,上海人工智能实验室联合同济大学与清华大学,提出了全新基准LEGO-Puzzles,以乐高拼搭为载体,首次系统评估现有多模态大模型(MLLMs)在多步空间推理(multi-step spatial reasoning)任务中的实际表现。

2025-04-23 10:22:51 125

转载 “史上最快闪存技术”登Nature!复旦新成果突破闪存速度理论极限,每秒执行操作2500000000次

当沟道厚度降至2纳米左右时,漏端附近的峰值电场强度将是体硅器件的数倍。为了制备出基于二维材料的新型闪存器件,作者首先通过机械剥离的方法,从高质量的块体二硒化钨和石墨烯晶体上得到了原子级厚度的单层或少层二硒化钨和石墨烯薄片。这种高效的注入机制最终实现了突破性的性能——其中石墨烯版本闪存器件在通道长度为0.2μm时,可以实现400皮秒的编程速度,这打破了闪存1纳秒的速度瓶颈。金属电极制备完成后,作者采用等离子体增强化学气相沉积的方法,在器件表面沉积了一层高质量的氧化铝薄膜,作为闪存器件的栅介质层和电荷存储层。

2025-04-22 21:00:00 71

转载 心影随形创始人刘斌新:做不跟用户抢时间的AI产品丨中国AIGC产业峰会

举个例子来说,像攻略搜索,像AI搜索在以前有各种幻觉问题,得用各种RAG来做辅助,在没有推理模型之前,对RAG写Prompt是一个很讲究艺术的事情,RAG的先后、Prompt文本的先后,结果是不一样的,因为经常会被干扰,那个时候背景知识的补充不是越多越好。逗逗游戏伙伴即将要上线的新版攻略搜索,准确度可以达到90%以上,基本上可以变得可用了,这个在行业里AI搜索也是一样的,在没有推理模型之前,大家会觉得AI搜索不是很有用,有了推理模型之后,AI搜索变得很好用,这是一个很大的变化,技术推动巨大的变化。

2025-04-22 17:01:07 30

原创 清华&英伟达揭露ICML最佳论文隐藏数值问题,简单掩码模型是等价更好选择 | ICLR25

第一,这类模型所宣称的超高性能,其实是由于一个技术上的小瑕疵,用32位计算时,模型会产生一种“降温”效果,使模型看起来表现很好,但实际上只是多样性被降低了。掩码扩散模型通过引入一个连续的“时间”或“噪声水平”的概念,定义了一个从原始数据逐渐“加噪”(掩码)到完全掩码状态的前向过程,以及一个学习从掩码状态逐步“去噪”(预测被掩码部分)恢复数据的反向(生成)过程。需要注意的是,对不同时间/掩码比例施加的权重并不影响网络在无限容量下的最优值,而决定了网络训练过程中的重点优化区域。

2025-04-22 17:01:07 719

转载 本周三15:00![特殊字符]机器人与数字化转型应用解析,线上研讨会诚邀你来围观

而在人力资源紧张又不太想扩张的情况下,企业可采用“借力”的方式,与外部相对成熟的开发者合作,或建立开发者生态,以项目制形式来快速启动前期的需求开发,待摸索一段时间后,后期再考虑人才招聘问题。但需要特别注意的是,企业若选择采购企业版或购买技术支持服务,对企业的开发工作会裨益良多,例如 NVIDIA Omniverse Enterprise 版本,相比于 Individual 版本,拥有企业级技术服务支持,能够极大地。,可以加速我们更好地了解应用场景及其带来的效益,同时在案例项目中,了解企业的。

2025-04-22 14:55:00 22

转载 21岁学生开发AI作弊工具被哥大停学,转身拿下530万美元融资,网友:《黑镜》成真

其创始人Tamay Besiroglu曾参与创办Epoch AI,曾在MIT全职当研究科学家, 他表示这家初创公司的目标是“实现所有工作的完全自动化”和“经济的完全自动化”。这个工具最初名为Interview Coder,它通过一个隐藏的浏览器窗口(面试官或者出题人是看不到的),为用户提供了在考试、销售电话和求职面试等方面“作弊”的机会。当时他谈到了 Leetcode的面试问题,称它们基本上“毫无用处,衡量标准不好,相关性差,只是浪费大多数开发人员的时间”。基于这样的痛点,才决定开发这样一个作弊工具。

2025-04-22 14:55:00 58

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除