Amusi（CVer）-CSDN博客

原创计算机视觉的学习资料（更新中）

计算机视觉（Computer Vision）：https://en.wikipedia.org/wiki/Computer_vision计算视觉相关条目：Outline of computer vision Category:Computer vision经典书籍《Multiple View Geometry in Computer Vision Second Edition》计算机视觉圣经全...

2018-01-23 21:09:03 3687 1

转载超越DeepSeek-R1，英伟达开源新王登顶！训练细节全曝光

（OnLine Reward-Policy Optimization）方法，最大化模型在HelpSteer2数据集上的预测奖励，奖励模型使用的是Llama-3.1-Nemotron-70B-Reward。在神经架构搜索（NAS）阶段之后，LN-Super和LN-Ultra都进行了额外的训练，以提升模块之间的兼容性，并恢复在模块替换过程中可能出现的质量损失。，例如DeepSeek-R1-Distilled-Llama-70B，在保持良好指令遵循能力的同时展现出强大的推理能力。

2025-05-11 00:01:58 6

转载新突破！Harmon：协调视觉表征以实现统一多模态理解和生成

MAR 作为一种基于图像掩码建模的生成范式，沿袭了表征学习 MAE 的 Encoder-Decoder 框架，Harmon 的作者们发现 MAR Encoder 在图像生成训练中，同时学会对视觉语义的建模。（2）理解生成统一使用 VQGAN/VAE 表征，如 Transfusion、Show-o、ViLA-u 等，由于 VQGAN/VAE 用于图像压缩，主要表征纹理等细节，缺乏视觉语义的建模，此类方法通常理解能力偏弱。论文链接: https://arxiv.org/abs/2503.21979。

2025-05-11 00:01:58 3

转载 “本科生发14篇SCI论文”？处理结果公布！

据媒体此前报道，刘某乔为重庆大学化学化工学院化学工程与工艺专业2021级学生，发表SCI一区期刊论文5篇、SCI二区期刊论文9篇，获国家发明专利授权3项。指称在使用“不同的实验条件、初始样品、处理过程及测试仪器”情况下，产生的实验结果图谱、结果数据曲线高度相似，相关图片存在“明显的截取篡改、变形拉伸痕迹”。南方都市报报道，9日，记者还获悉了一份发布于2022年的举报信，举报刘某华“存在编造实验内容、变造实验数据等学术不端行为”。近日，一篇获奖文章引发关注，其中介绍，来自重庆大学的本科生刘某乔，

2025-05-11 00:01:58 2

转载 2025顶会上的150个即插即用模块

其中，对比驱动特征聚合模块作为即插即用的特征融合模块，能够有效区分前景和背景特征，从而提升分割精度。论文提出了一种名为BHViT的混合视觉Transformer架构，通过引入即插即用的卷积模块（如多尺度分组空洞卷积模块MSGDC），有效降低了计算复杂度，同时提升了二值化视觉Transformer的性能。论文提出MambaOut模型，移除Mamba模块中的状态空间模型，用门控卷积块替代，验证其在视觉任务（如ImageNet分类）中优于传统视觉Mamba模型，说明在这些任务中SSM并非必要。

2025-05-08 13:05:52 36

转载突发！曝阿里通义薄列峰离职，此前为应用视觉团队负责人

其研究领域包括机器学习、深度学习、计算机视觉、机器人、自然语言处理等多个领域，曾担任包括NeurIPS、CVPR、ICCV、ECCV、AAAI、SDM等在内的顶会程序委员会委员。ChatGPT掀起大模型浪潮之后，阿里重用通义实验室，达摩院原来的多个研究团队，如语言技术实验室、语音实验室、XR实验室等，在阿里云重组成大模型研究部门 “通义实验室”。知情人士透露，他已经加入某互联网大厂，base美国，担任多模态模型部副总经理，负责部门整体工作，直接向公司副总裁汇报。如今，薄列峰离职后的接替人选也成谜。

2025-05-08 13:05:52 16

转载预计190所！大学，批量倒闭

华夏科大方面曾表示，少子化的趋势不可能逆转，华夏属于工科学校，招生情况只会越来越糟糕，因此该校大约从2021年开始集结共识，要引进外部资源，才会慢慢促成与台科大的合作。除了台科大和华夏科大外，筹备合并事宜多年的慈济大学和慈济科技大学，确定2024年8月起合并为新的“慈济大学”，这也是我国台湾省第二起技专和普通大学的合并案。据报道，2023年12月，日本的奈良佐保短期大学、修实短期大学、福冈女学院短期大学、武库川女子大学短期大学部、美作大学短期大学部、铃鹿大学短期大学相继宣布停止招生。

2025-05-08 00:00:04 24

转载 CVPR 2025 | 突破注意力机制！vHeat：基于热传导的视觉表征模型

在 COCO 数据集上， vHeat 也拥有性能优势：在 fine-tune 12 epochs 的情况下，vHeat-T/S/B 分别达到 45.1/46.8/47.7 mAP，超过了 Swin-T/S/B 达 2.4/2.0/0.8 mAP，超过 ConvNeXt-T/S/B 达 0.9/1.4/0.7 mAP。可以明显看出，由于 O (N^1.5) 的计算复杂度，vHeat 相比于对比的模型有更快的推理速度、更低的显存占用以及更少的 FLOPs，并且在图像分辨率越大时，优势会更为明显。

2025-05-08 00:00:04 20

转载突发！OpenAI公布重大公司调整：放弃成为营利性公司

OpenAI的非营利董事会——那个Ilya还在曾短暂解雇Sam Altman的董事会——将继续监督其商业子公司，而这个子公司也将从一个「有上限的盈利企业」转变为像Anthropic和xAI一样的公益公司（PBC）。Sam Altman说，过去他认为OpenAI是唯一的——在看起来可能会有一个主导的AI时代努力，设计一个「限制汇报的公司」是有意义的——但在一个有许多优秀人工智能公司的世界里就没有意义了。以能够获取资源的方式运营，使我们的服务能广泛惠及全人类——这如今需要数千亿美元，未来可能需要数万亿美元。

2025-05-06 13:05:24 49

转载大学导师开会带塑料袋给学生打包茶歇，师兄：导，下回记得用黑色袋子...

虽然心有猛虎，但也要细嗅蔷薇，不要和知名教授抢最后一块三明治，也不能吃完甜点后拿着两根香蕉进会场。有老师去大学演讲，说自己一开始没准备来的，后来听说有茶歇，老师：早说嘛~ 并掏出了自己的打包袋。当然了，茶歇环节也只是供与会人员交流沟通用，希望大家在吃饱的同时，也能学习到很多知识。学术会议上的茶歇已经不仅仅代表着车厘子和小蛋糕了，更是师门的团结，导师的爱护！在会议尾声，悄悄移动至茶歇区附近，选择一个有利位置，暗中观察，等待最佳时机。其实这些东西平时也能吃到，但不知道怎么的，放在茶歇台上，它就是那么的诱人。

2025-05-06 00:01:21 39

转载 8/8/7分被NeurIPS拒稿，谢赛宁读博投的首篇论文，10年后获得时间检验奖！

为了比较 DSN 与 CNN 分别学习到什么特征，本文从 CIFAR-10 数据集的十个类别中各选取一个示例图像，运行一次前向传播，并在图 (3) 中展示从第一个（底部）卷积层学习到的特征图。DSN 学习到的特征图比 CNN 学习到的特征图更直观。无论在 DSN-SVM 与 CNN-SVM 之间，还是 DSN-Softmax 与 CNN-Softmax 之间，本文方法均取得一致性性能提升，并在 MNIST、CIFAR-10、CIFAR-100 及 SVHN 数据集上刷新当前最优纪录。

2025-05-06 00:01:21 37

转载校名确定！这所学院，将更名

学校2016年通过教育部普通高等学校本科教学工作合格评估，2017年增列为贵州省硕士学位授权立项建设单位，2018年被遴选为贵州省应用型转型试点高校，2024年从“省市共建，以市为主”调整为“省政府统筹协调管理、省教育厅主管”的管理体制。、审核评估整改为牵引，以开展深入贯彻中央八项规定精神学习教育为契机，聚焦高质量发展这个首要任务，强内涵、优结构、突特色、提质效，以“拼”的劲头、“闯”的勇气、“实”的作风，推动学校发展再上新台阶。，完整、准确、全面贯彻新发展理念，加快构建新发展格局。

2025-05-05 00:00:00 12

转载 CVPR 2025｜清华&华科大提出INP-Former：超强异常检测新方法！

为解决这一难题，来自清华大学和华中科技大学的研究团队提出了一种全新的方法 ——INP-Former，它能够从单张测试图像中提取内在正常原型（INPs），并利用这些 INPs 指导图像重建，通过重建误差实现异常检测。在我们的研究中，将M设置为6，既能保证性能，又能有效避免异常信息的干扰。INP-Former，该方法通过从单张测试图像中动态提取内在正常原型（INPs），并利用这些INPs指导图像重建，通过重建误差实现异常检测，展现出卓越的性能和强大的泛化能力，为异常检测领域带来了新的突破。

2025-05-05 00:00:00 15

转载 CVPR 2025 最佳论文候选！VGGT：开创高效3D视觉新范式！

有趣的是，研究团队还意外发现，利用模型预测的深度图与相机参数反投影生成的点云，其质量甚至超过直接回归的点图，这一现象揭示了模型对几何一致性内在规律的自发学习能力。其博士工作聚焦于端到端几何推理框架的创新，曾主导开发PoseDiffusion、VGGSfM，以及本次提出的通用3D基础模型VGGT，相关成果均发表于CVPR、ICCV等顶级会议，推动了数据驱动式3D重建技术的演进。视觉重建作为所有 3D 任务的核心，VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的，基础模型的时代。

2025-05-05 00:00:00 19

转载 CVPR 2025 最佳论文候选！LeCun团队提出NWM：导航世界模型

只是 LeCun 团队的这个世界模型更加强调世界模型的导航能力，其能够在已知环境中按照轨迹行进，也能在未知环境中自己寻找前进道路，还能执行路径规划。其中假设，对于导航已知环境，模型的容量是最重要的，图 5 中的结果表明，CDiT 确实在具有多达 1B 个参数的模型中表现更好，同时消耗的 FLOP 不到 ×2。基于过去的观察和目标图像，NWM 可以使用交叉熵方法找到一条轨迹，同时尽可能降低预测图像和目标图像之间的 LPIPS 相似度，实验结果见下表 2，可以看到 NWM 的规划能力足以比肩 SOTA 策略。

2025-05-03 23:59:30 11

转载新一届院士名单，公布

其最突出的发现是：病原体小RNA可迁移至宿主植物并抑制其免疫反应（这一现象被称为跨界RNA干扰），同时植物小RNA也能反向影响病原体毒力，证实了跨界RNA干扰和小RNA运输的双向性。并在2018年，他们三人共同获得了图灵奖，表彰其在DL领域的开创性贡献。一直以来，他本人的研究主要集中于神经网络和深度学习，特别是在上世纪90年代，当这一算法被主流AI界忽略时，依旧坚持不懈推动这一领域的发展。Bengio的学术生涯始于1993年，他在蒙特利尔大学担任教授，并创立了MILA全球最大的大学AI研究机构之一。

2025-05-02 23:59:52 33

转载 NeurIPS 2025 即将截稿！投稿群成立

大家抓紧扫码加入学习！CVer小助手会拉你进入NeurIPS 2025 投稿交流群！CVer小助手会拉你进入ACM MM 2025 投稿交流群！CVer小助手会拉你进入MICCAI 2025 投稿交流群！扫码添加微信，小助手会拉你进NeurIPS 2025交流群。CVer小助手会拉你进入IJCAI 2025 投稿交流群！CVer小助手会拉你进入ICCV 2025 投稿交流群！CVer小助手会拉你进入ICML 2025 投稿交流群！CVer小助手会拉你进入CVPR 2025 投稿交流群！

2025-05-02 23:59:52 42

转载 ICML 2025 | 英伟达提出SANA 1.5：线性扩散Transformer刷新文生图SOTA！

剪枝模型的适配过程非常简单，仅需100步微调，剪枝后的1.6B参数模型就能达到与完整的4.8B参数模型相近的质量，并且优于SANA 1.0的1.6B模型。SANA是一个超高效的文本生成图像框架，能生成高达4096×4096分辨率的图像，不仅画质清晰，还能让图像和输入文本精准匹配，而且生成速度超快，在笔记本电脑的GPU上就能运行。首先，研究者提出了一种高效的模型增长策略，使得SANA可以从1.6B（20层）扩展到4.8B（60层）参数，同时显著减少计算资源消耗，并结合了一种节省内存的8位优化器。

2025-05-02 23:59:52 13

转载清华出手，挖走美国顶尖AI研究者！前DeepMind大佬被抄底，美国人才倒流中国？

因为AI的研究是极度专业化的，项目中损失一名博士生，可能就会让项目倒退数月，甚至数年！OpenAI著名研究科学家Noam Brown爆料称，已经在美国居住了12年的加拿大籍AI研究员，现就职于OpenAI的Kai Chen，近日被美国拒发绿卡。德扑之父Noam Brown表示，Kai Chen是自己共事过的最优秀的AI研究员之一，如今却被迫离开美国，实在让人担忧。甚至，他建议欧洲抓紧时机，趁此时大举抄底美国科学家——开出良好的薪酬，提供足够的研究设施，给予研究自由，他们就会来了！，大家抓紧扫码加入！

2025-05-01 23:59:52 36

转载突发：中科院1区TOP期刊，停止收稿！

涉及美国国家过敏与传染病研究所（NIAID）、美国国家儿童健康与人类发展研究所（NICHD）、美国国家少数族裔健康与健康差距研究所（NIMHD）、美国国家护理研究所（NINR）和美国国家老龄化研究所（NIA）等机构。因此，保持投稿计划的弹性，预设多个目标刊物，或尝试并行投递不同研究方向的工作，是一种更为稳妥的策略。面对EHP与JHP的突发停稿，众多作者尤其是环境、公共卫生方向的科研人员有意于投稿该刊的必然陷入两难：原本计划投递的重要成果，如今肯定不敢再投。，其工作人员的补贴、差旅费也被无限期冻结。

2025-05-01 23:59:52 14

转载 NeurIPS 2025 倒计时！还有ACM MM、ICCV、ICML、MICCAI 微信群！

每天分享最新最优质的AI工作，假期不停更！CVer小助手会拉你进入NeurIPS 2025 投稿交流群！CVer小助手会拉你进入ACM MM 2025 投稿交流群！CVer小助手会拉你进入MICCAI 2025 投稿交流群！扫码添加微信，小助手会拉你进NeurIPS 2025交流群。CVer小助手会拉你进入IJCAI 2025 投稿交流群！CVer小助手会拉你进入ICCV 2025 投稿交流群！CVer小助手会拉你进入ICML 2025 投稿交流群！CVer小助手会拉你进入CVPR 2025 投稿交流群！

2025-04-30 23:59:38 36

转载 CVPR 2025 Oral | 南京大学提出UniAP：分布式训练算法！大模型训练加速3.8倍！

大模型的训练往往采用多机多卡的分布式训练，大模型的分布式训练挑战巨大，即使硬件足够，不熟悉分布式训练的人大概率（实验中验证有 64%-87% 的概率）会因为超参数设置（模型怎么切分和排布、数据怎么切分和排布等）不合理而无法成功运行训练过程。UniAP 是首个能实现层内并行策略（张量并行等）和层间并行策略（流水线并行等）联合优化的工作。而现有的自动并行方法存在的问题是它们要么只考虑层内或层间两类并行策略中的一类并行策略，要么把两类并行策略做分阶段优化而不是联合优化，求解得到的并行策略的训练效率存在提升空间。

2025-04-30 23:59:38 27

转载所有博士满2年直升副教授，无需评审！硕士配偶带入编！一高校招聘引热议

（二）考核面试由二级学院对拟考察的博士进行资格初审，通过资格初审人员进入考核流程，考核工作由招聘学院实施，根据不同岗位需求，一般采取试讲、答辩和实践操作等方式对应聘人员的思想品德、学术背景、科研成果、操作技能和适应工作能力等考核指标进行评价。兰州文理学院是一所以文为主，文、艺、管、工协同发展的地方性、应用型、综合型公办本科院校，教育部对口支援计划高校，硕士学位授予立项建设单位，文旅部非遗传承人群研修基地，首届甘肃省文明校园，新时代甘肃省高校党建示范院校。（主要面向25届、26届及之后的同学）！

2025-04-29 23:59:48 37

转载清华大学王智课题组招收博士后

发表学术论文百余篇，第一作者出版英文专著两部，6次获得重要国际会议、期刊论文奖励，包括多媒体领域高水平会议ACM Multimedia最佳论文奖（国内高校首次第一单位获得），2022年IEEE Transactions on Multimedia唯一最佳论文奖。- 博士后年薪为12万元/年，如获选“博新计划”、“水木学者”等项目，年薪可达到28-30万元/年不等；- 品行端正，身体健康，热爱科研，具有严谨的治学态度和良好的团队合作精神，能够全职从事博士后研究工作。（主要面向25届、26届及之后的同学）！

2025-04-29 23:59:48 20

转载突发！Hinton签署联名信：公开抵制OpenAI重组！10名前OpenAI员工也参与了

为了确保他们在构建AGI的竞赛中的动力永远不会损害他们的使命，他们注册为非营利组织，并在法律和结构上将构建AGI的目标置于使命之下。拟议的重组将颠覆OpenAI的慈善使命。在刚刚签署的公开信中，Hinton表示，OpenAI独特的非营利法律结构是防止商业利益凌驾使命的保障，重组将削弱公众利益的保护机制，违反公司章程，构成对其非营利责任的威胁。他们在公开信的最后写道，OpenAI的成立是为了确保AGI的安全发展并造福全人类，其目前的架构在法律上将营利动机置于「确保AGI的安全发展，造福全人类」的使命之下。

2025-04-29 23:59:48 12

转载复旦大学回应拟录取600万粉丝网红

当晚，拥有百万粉丝的网红“迅猛龙特蕾莎”在直播中分享了自己的分数，其称自己报考了上海一所大学的非全日制MBA（工商管理）硕士，初试成绩总分223分，两科分数分别为管综140分、英语二83分。4月25日，记者登录复旦大学研究生招生网，在2025年拟录取硕士研究生名单公示表格中，发现了一位名叫许某蓥的考生，笔试223分，面试85分，总成绩79.67分，复试院系为管理学院。

2025-04-28 23:59:43 13

转载香港中文大学岳翔宇老师招收博士生/博士后/暑研/科研助理/访问学生/实习生

希望你有扎实的数学、编程和算法基础，有良好的学术阅读和表达能力，有相关领域研究经验或本科成绩优秀。鼓励学生去工业实验室实习并推荐职位（实验室与上海人工智能实验室、字节、腾讯、阿里、华为、快手等工业界和学术界。（主要面向25届、26届及之后的同学）！），和信息工程系的助理教授。优秀实习生将获得强推荐信（此前指导的学生曾获得伯克利，斯坦福等。年春季入学的同学申请。对于优秀的同学，入学时间和。万港元的奖学金，优秀的同学可以申请每年。友好开放的实验室氛围，尊重学生的想法。（主要面向26届及之后的同学）！

2025-04-28 23:59:43

转载 CVPR 2025 | 北大提出SLAM3R：基于单目视频的实时密集3D场景重建

SLAM3R 系统示意图。过去的三十年间，研究者们建立了较为完善的多视角几何理论和计算框架，通常依赖多种算法的集成，包括运动恢复结构（Structure-from-Motion，简称 SfM）、同时定位和地图构建（Simultaneous Localization and Mapping，简称 SLAM）以及多视角立体视觉（Multi-View Stereo，简称 MVS）等。更为重要的是，SLAM3R 的成功展示了纯数据驱动的方法在长视频序列三维几何感知任务中的潜力，为未来重建系统的研究提供了新思路。

2025-04-27 13:06:08 11

转载香港科技大学罗文寒老师招收博士生/RA

（主要面向25届、26届及之后的同学）！）副教授，此前曾任中山大学副教授，在加入中山大学之前，他在腾讯和。、腾讯视频、腾讯元宝、腾讯云、应用宝等多个腾讯产品。具备扎实的编程能力、优异的学术表现和快速学习能力。顶尖大学（如剑桥、牛津、帝国理工等）访问交流机会。（申请截止日期请查看学校官网），特别优秀的可考虑。（主要面向25届、26届及之后的同学）！，他参与开发的技术已应用于微信、：罗文寒老师现任香港科技大学（罗老师在顶级会议和期刊上发表了。、腾讯、华为、快手等）实习机会。良好的沟通能力和时间管理能力。

2025-04-27 13:06:08 5

转载 DeepMind果蝇登上Nature！强化学习再立功！AI模拟飞行，逼真到腿毛颤抖！

(k) 半透明可视化几何体的底视图，浅蓝箭头指示关节：立方体为6自由度自由关节（模拟器中自由质心运动所需，非果蝇内在自由度），箭头为铰链关节（指向正向旋转方向），三铰链关节组等效形成球关节。由于仅凭这些2D关键点的位置，无法明确推断出所有身体自由度（DoFs）的3D姿态，因此研究者采用了一种正则化的逆运动学方法，推断出所有自由度的完整3D飞行器姿态轨迹的近似值。研究团队用高分辨率的体视显微镜，详细扫描了一只雌性果蝇的身体，精确地记录下它的每一条腿、每一片翅膀，甚至每一个关节的细节。

2025-04-25 17:06:20 140

转载北大团队引领3D生成与对齐革新：OctGPT打破扩散模型垄断！

为满足不同任务对3D数据的多样化需求，无论是3D生成任务对高质量网格和材质的要求，还是艺术创作类应用对平整面片和可拆解部件的偏好，我们将持续扩展标注数据规模，丰富标注维度，并欢迎更多研究者加入，共同打造更丰富、更高质量、更贴近社区实际需求的三维物体数据集。通过引入大型语言模型（LLMs）与视觉-语言模型（VLMs），结合提出的支撑面的位姿采样策略，我们实现了对物体的zero-shot语义感知，并通过将语义引导的粗对齐与几何驱动的精细对齐相结合，实现了3D物体的自动化高效对齐。

2025-04-25 17:06:20 173

转载学生论文致谢，影响导师晚评职称一年？网友：你导这辈子抬不起头

自然，向专业人士、直接帮助过指导过你的人、或团队的致谢是首要和至关重要的，这是你成长的基点和摇篮。后面的就更不像话了，“老师若病，我侍药”，老师真病了，你只怕忙工作忙得不见天日，怎么去陪伴老师，能去看望一下就了不得了，不要太夸张，太夸张就显得矫情，显得虚假，再细想想，这句话竟不像好话了。在你工作中，给过你重要的帮助，而在致谢中，你有意或无意疏漏了他们，不向他们致谢，这无疑是对他们为你所付出的一种否定。致谢字数没有严格限制，一句话也行，几千字也可，你想怎么写就怎么写，但是，不管怎么写，不管写成什么样，

2025-04-24 13:05:38 179

转载 ICLR 2025 杰出论文奖出炉！中科大、Meta的SAM 2等工作获奖

从理论上，作者证明了这种投影方式可以确保在查询保留知识时，经过编辑后的大型语言模型的输出保持不变，从而缓解了知识被扰乱的问题。在本文中，研究者通过若干案例分析，解释浅层安全对齐为何会存在，并揭示其如何普遍性地贡献于近年来发现的多种 LLM 脆弱性，包括对对抗性后缀攻击（adversarial suffix attacks）、预填充攻击（prefilling attacks）、解码参数攻击（decoding parameter attacks）和微调攻击（fine-tuning attacks）的易感性。

2025-04-24 13:05:38 80

转载 IndoorMS：首个多光谱室内场景理解语义分割数据集

然而，某些类别如Clutter、Column、Railing和Signage的分割性能仍较低，反映了数据集中的挑战，如类别不平衡和罕见类别的稀缺。数据集提供了19个精细的语义类别，包括墙壁、天花板、地板、门窗等，为复杂的室内场景理解任务提供了挑战。为评估IndoorMS数据集在语义分割任务中的表现，我们使用多种代表性的语义分割框架进行了基准测试，包括ConvNeXt、ResNet、Swin Transformer等编码器与UperNet、BiSeNet、DeepLabV3+等解码器的组合。

2025-04-24 13:05:38 160

转载端侧大模型推理加速神器！显著提升LLM、多模态等应用性能！

深入分享大模型在端侧部署所面临的挑战与机遇，深度解析KleidiAI的原理及提升大模型性能的创新技术，同时结合实际案例演示KleidiAI在自然语言处理、语音识别、多模态等应用中的加速效果，以及在“星睿O6”上的推理框架集成实践，与开发者共同探讨KleidiAI在端侧AI部署中的更多应用。它支持Neon™、SVE2和SME2等关键Arm架构功能，深度集成MNN、Llama.cpp、PyTorch、Tensorflow、MediaPipe等热门AI框架，助力开发者在端侧高效部署主流大模型。

2025-04-23 13:06:01 83

转载 Transformer原作打脸DeepSeek观点？一句Wait就能引发反思，RL都不用

为了全面测量跨领域的反思推理，分类器在BBH、cruxeval-i、cruxeval-o、GSM8K、GSM8K-Platinum和TriviaQA数据集中，区分了显式反思和隐式反思，分别用于情境反思和自我反思。为了识别显式反思的实例，开发了基于提示的语言模型（LLM）分类器，能够检测模型输出是否明确承认错误，并最终解决了提供的对抗性上下文中的错误，无论模型是否得出了正确答案。如图3所示，在GSM8K-Platinum数据集上，随着预训练的增加，不同参数数量的模型，显式反思推理错误，解决了大部分任务实例。

2025-04-23 13:06:01 75

转载顶会爆发！“LSTM+卡尔曼滤波”成论文新赛道

论文提出了一种基于深度学习全球导航卫星系统和惯性导航系统集成算法，通过将DNN嵌入到扩展卡尔曼滤波的流程中，利用CNN提取空间信息，以及LSTM捕捉时间序列的动态特性，从而学习系统中的复杂非线性动态、测量噪声和惯性测量单元（IMU）误差。本文提出了一种结合半迭代扩展卡尔曼滤波（SEKF）和长短期记忆网络（LSTM）的后处理算法，以改善漫射荧光断层成像（DFT）的图像重建质量和速度，通过数值模拟、人体模型和体内实验验证其性能。为了更好地捕捉空间和时间依赖性，作者在深度神经网络的架构中引入了CNN和LSTM。

2025-04-22 13:05:32 83

转载 CVPR 2025 | TASTE-Rob：面向可泛化机器人操作的超大规模人手交互视频数据集

通过模仿学习，如今的机器人能够模仿视频演示中的动作，完成对应的任务。2）覆盖多样化的环境和任务类型；研究团队探索了TASTE-Rob对视频生成质量的帮助：对比了在TASTE-Rob数据集上微调（Coarse-TASTE-Rob）与在Ego4D数据集上微调（ Ego4D-Gen）的视频生成性能，两者间唯一的区别在于所使用的训练数据集不同。研究团队从三个评估维度上探索了三阶段视频生成流程对视频生成质量的帮助：如表 3的视频生成指标和图5所示，视频生成的宏观表现上，该流程能够生成更高质量的手物交互视频。

2025-04-22 13:05:32 440

转载 NeurIPS 2025 投稿群来了！还有MM、ICCV、ICML、MICCAI 微信群！

CVer小助手会拉你进入NeurIPS 2025 投稿交流群！CVer小助手会拉你进入MICCAI 2025 投稿交流群！CVer小助手会拉你进入IJCAI 2025 投稿交流群！CVer小助手会拉你进入ICCV 2025 投稿交流群！CVer小助手会拉你进入ICML 2025 投稿交流群！扫码添加微信，小助手会拉你进MICCAI 2025交流群。CVer小助手会拉你进入CVPR 2025 投稿交流群！扫码添加微信，小助手会拉你进ICML 2025交流群。

2025-04-22 13:05:32 216

转载沉痛哀悼！六院院士，逝世！

2007年获企业家创新发明奖（Chancellor’s Entrepreneurship and Invention Award）、21世纪人才奖（21 for the 21st Century），并获得卡内基－梅隆大学“突出成就毕业生”奖，以及俄罗斯自然科学院Kapitza奖；Ray H．Baughman教授的主要研究方向：纳米自组装、纳米材料工艺、电学/光学/磁学、纳米器件、光学晶体、电化学器件、有机聚合物导体、碳纳米管、人造肌肉、铁电质、碳的新形态、促长材料、固态合成、纳米生物等。

2025-04-22 13:05:32 117

计算机视觉中的多视图几何(中文版)

机器学习实战（中文版+英文版+源代码）

2017年互联网女皇报告中英文完整版

空空如也