我爱计算机视觉-CSDN博客

转载 NeurIPS 2025 | 华中科大等提出NAUTILUS：首个大规模水下多模态模型，破解深海“看图说话”难题

在NautData测试集上，集成了VFE模块的NAUTILUS（以Qwen2.5-VL为基础）在全部八项任务上，性能相比原始的Qwen2.5-VL都有了一致性的提升，并在大多数任务上超越了包括LLaVA-1.5在内的其他基线模型。这个VFE模块是一个即插即用的组件，它的设计思想借鉴了水下成像的物理先验知识。总的来说，NAUTILUS这项工作通过“构建大规模专属数据集”和“设计基于物理先验的即插即用增强模块”这两大贡献，为水下场景理解这一充满挑战的领域，提供了一个强大且可扩展的解决方案。

2025-11-05 00:03:00 254

转载 Sketch-to-Layout，从草图到布局！DeepMind & EPFL 在设计领域的新工作

想象一下，当我们需要设计一张海报、一份文档或一页PPT时，如果不再需要和复杂的软件参数打交道，只需随手画一个草稿，告诉AI“标题放在这里，图片放在那里”，然后AI就能心领神会地生成一个既美观又专业的布局，这将是多么酷的体验！为了验证合成数据的有效性，他们还专门收集了一小部分由人类绘制的草图用于测试，结果证明，用合成数据训练出的模型在真实草图上也表现优异。总的来说，Sketch-to-Layout不仅开创了一个新的研究方向，还通过巧妙的合成数据策略和强大的多模态模型，提供了一个非常实用且高效的解决方案。

2025-11-04 20:16:32 351

转载为物理AI打造世界模型！英伟达发布Cosmos-2.5：模型缩小3.5倍，性能媲美SOTA

CV君认为，NVIDIA这次的工作不仅在模型性能上取得了巨大突破，更重要的是，他们将代码、预训练权重和基准测试全部开源，极大地降低了研究和应用物理AI的门槛。NVIDIA设计了一套复杂的视频处理流水线，对来自不同真实世界来源的原始视频进行筛选、标注和去重，构建了一个为训练世界模型而优化的超大规模数据集。Cosmos-Predict2.5是这次发布的核心，它是一个强大的视频生成模型，能够将文本、图像和视频统一输入，生成高质量、符合物理规律的视频。，模型可以生成多视角的驾驶场景视频，用于感知模型的评估和训练。

2025-11-04 20:16:32 347

转载 NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit：直接噪声对齐让Rectified flow文生图编辑更加准确

通过插值替代近似预测的噪声。假设我们很幸运的取到了那个理想的高斯噪声（即可以以这个高斯噪声为起点生成原图片的那个高斯噪声），那么以这个高斯噪声和原图片插值得到的noisy latent上模型预测的速度(这种 “直接插值生成” 的方式，相当于跳过了传统方法中 “递推近似” 的中间环节，从根源上避免了误差的逐步累积，确保每个时间步的带噪声潜变量都严格贴合真实噪声分布。DNAEdit提出了一种在RF建模下新的获取理想噪声的方案，有效避免了传统的反演导致的累积误差，实现更加精准的初始噪声获取。

2025-11-04 20:16:32 192

转载加速生成新方法H2-Cache：让扩散模型推理速度飙升5.08倍！图像质量几乎无损

上图的定性比较显示，与基线（Baseline）相比，传统的Block Cache和TeaCache方法虽然加速了推理，但图像质量出现了肉眼可见的下降（例如，蘑菇的细节和赛博朋克场景的氛围感）。H2-Cache的设计思想非常巧妙，它没有去发明一个全新的网络结构，而是通过对现有扩散模型计算过程的深刻理解和精细拆解，实现了“鱼与熊掌兼得”的效果。这种分层检查的机制，使得H2-Cache能够在图像结构稳定时实现最大程度的加速，而在结构变化时，又能保守地保留细节计算，从而避免了画质的严重下降。

2025-11-04 07:03:00 70

转载遥感领域新作AFM-Net：融合CNN与Mamba，遥感图像分类精度与效率双丰收

通过类激活图（Class Activation Maps, CAM）的可视化，我们可以看到AFM-Net（右）相比于传统的ResNet-50（左），能够更准确地聚焦于图像中的关键目标区域，这得益于其强大的局部-全局协同表征能力。这样做的好处是，模型可以进行更精细化的分工，让不同的专家专注于学习不同的场景模式，从而提升整体的分类精度。简单来说，AFM-Net 的核心思想是“双管齐下”，它设计了一个巧妙的框架，将擅长捕捉局部纹理的CNN和精于把握全局上下文的Mamba架构高效地结合了起来。

2025-11-04 00:03:00 159

转载多媒体顶会ACM MM 2025 最佳论文公布，从“看懂”到“会用”，再到“会思考”：揭示AI与物理世界融合新篇章

从理解物体功能、模拟人类思维，到革新知识获取方式，ACM Multimedia 2025的获奖作品共同揭示了多媒体技术的核心趋势：构建更智能、更具交互性的桥梁，连接数字世界与物理现实，连接信息与人类认知。本届大会汇聚了全球顶尖的学者与工程师，以超过7100份的论文提交和突破2000人的参会规模，再次证明了其在学术界和工业界的巨大影响力。: 框架在3D点云网络的不同层级上，都将增强后的文本描述与物体的几何形状进行对齐，通过监督对比学习“拉近”匹配的特征，“推远”不匹配的特征，从而建立起更鲁棒的对应关系。

2025-11-03 14:54:20 252

转载顶刊ISPRS (IF 12+) | 400+参考文献，遥感图像超分辨率最新综述！

遥感图像超分辨率（RSISR）是遥感图像处理的核心任务，旨在从低分辨率（LR）图像重建高分辨率（HR）图像，以突破传感器固有的空间分辨率限制。随着深度学习架构不断创新和遥感数据规模扩大，超分技术有望在精度、效率和实用性上实现突破，赋能更广泛的遥感应用。近年来，RSISR研究论文数量呈现爆炸式增长（图2），从2014年的零星发表到2025年的数百篇，凸显了该领域的活跃度和重要性。本综述详细总结了主流遥感数据集（表3），并在论文中提供了下载链接，覆盖多模态和多种分辨率数据，为模型训练和评估提供基础。

2025-11-03 14:54:20 307

转载 AMD发布E-MMDiT：仅304M参数，单节点1.5天训练，实现高效图像合成新基准

比如，第一个模块里1、2、3、4号Token是一组，在下一个模块里，它们可能被分到不同的组里，与5、6、7、8号等Token进行交互。这样一来，只需通过简单的重组，就能实现跨组的信息流动，既节省了计算，又保证了全局信息的有效融合，还不需要像UDiT那样引入额外的深度卷积。因此，如何在保证生成质量的同时，设计出更轻量、更快速的模型，成为了一个极具价值的研究方向。此外，论文还通过一系列详尽的消融实验，验证了多路径压缩、位置强化、ASA、AdaLN-affine等各个设计模块的有效性，展示了其严谨的研究过程。

2025-11-03 14:54:20 51

转载 ICCV 2025 | 卡内基梅隆大学空间可变自动对焦：单次拍摄实现全场景清晰，重新定义计算摄影

上图就展示了对一个倾斜放置的凯旋门模型的不同对焦方式：全清晰、模拟沙姆定律（Scheimpflug principle）的斜向对焦，以及只让凯旋门本身清晰的选择性对焦。从定性对比（如上面的Planes和Flowers场景）可以看出，该方法在处理大景深和复杂场景时，清晰度和细节表现都非常出色，尤其是在避免小光圈带来的衍射模糊方面优势明显。它不仅解决了传统摄影中景深与光圈的矛盾，还赋予了相机前所未有的、控制光场的能力。上图就展示了这种技术的效果：一张全清晰的照片，以及它背后那个神奇的、空间变化的自定义焦平面。

2025-11-02 12:08:12 184

转载 NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE：兼顾显著性与覆盖率，实现高效多模态大模型令牌剪枝

不同于以往只关注“显著性”（saliency）的方法，SCOPE创新地引入了“覆盖率”（coverage）的概念，力求在剪枝的同时，最大程度地保留原始图像的语义完整性。仅基于显著性的方法（Top）选出的令牌高度集中，而SCOPE（Bottom）选出的令牌则更均匀地分布在整个场景中，语义显然更完整。此外，研究者还发现，当令牌数量较多时，很多“尾部”令牌的注意力分数会趋于扁平，很难再通过这点微小的差异来区分它们的重要性。：对于每一个还没被选中的令牌，计算如果将它加入到已选集合中，能带来多大的“覆盖率增益”。

2025-11-02 12:08:12 147

转载 ICLR 2025 | 中科院&哈工大等新发现：模型性能越好，可解释性越强！

上表显示，模型的原始准确率（Acc Ori）越高，基于解释进行预测的准确率（Acc Inte）也越高，并且准确率保持率（ARR）也更高。：将模型复杂的内部表征，投影到这个概念库构成的“概念空间”中，得到一个由少数几个概念组成的“稀疏解释”。：首先，针对特定任务，建立一个由人类可理解的概念组成的库（比如“有翅膀”、“有羽毛”、“红色的”等文本概念，或是一些典型的视觉部件）。上面得到的“稀疏解释”。上图展示了在ImageNet上，不同模型的预测准确率（横轴）和IIS（纵轴）的关系，可以看到明显的正相关性。

2025-11-02 07:03:00 142

转载法国CNRS等提出MIRO：多重奖励预训练，让文生图模型一开始就“有品味”，不仅提升质量还加快训练速度！

目前的文生图大模型，比如Stable Diffusion，通常是在海量的、未经筛选的图文数据对上进行训练的，这保证了其强大的泛化和多样性能力。具体来说，MIRO在预训练阶段，除了输入文本提示（text prompt）和带噪声的图片（noisy image）之外，还引入了一个额外的条件——一个由多个奖励模型打分构成的“奖励向量（reward vector）”。从训练过程中的奖励分数变化曲线可以看出，MIRO相比于基线模型，能够更快地达到更高的奖励分数，这意味着它用更少的训练步数就能学到更好的生成能力。

2025-11-02 00:14:23 88

转载港中文&港科大等提出FullPart：让3D部件生成达到全分辨率精度

这一步的输出，为后续的精细化生成搭建了整体框架。这意味着，无论是巨大的躯干，还是微小的手指，都会在属于自己的“画布”上被精雕细琢，享受同等的、最高的分辨率待遇。这种方法在描述部件的整体布局和大致形状时非常灵活高效，但缺点也同样明显——由于其表示的抽象性，很难捕捉到精细的几何纹理和细节，生成的部件往往显得过于“光滑”或“模糊”。总而言之，FullPart通过一种“分而治之”且“一视同仁”的巧妙策略，成功地在3D部件生成任务中实现了全局一致性与局部高细节的统一，为高质量、可编辑的3D内容创作提供了新的可能。

2025-11-01 12:12:59 75

转载从「会思考」到「善创造」：多模态大模型的深度推理与协同进化

DeepSeek-R1 系列工作的成功表明基于可验证奖励的强化学习（Reinforcement Learning with Veriﬁable Rewards， RLVR）是—种行之有效的大模型后训练方法，能使预训练模型在不依赖大规模、高质量监督数据的情况下，快速习得高级能力或适配到特定场景。无论是Corvid的自我验证，还是CoRL的协同优化，都赋予了模型一种宝贵的“元认知”：与其盲目追求单—的、静态的监督信号，不如赋予其根据上下文动态决策和平衡内部能力的机制。

2025-11-01 12:12:59 124

转载 NeurIPS 2025 | 哈佛大学提出SplitFlow：无需反演的流分解让文生图编辑告别“纠缠”

通过这种方式，SplitFlow 能够抑制语义上的冗余和冲突，同时保留每个编辑指令最核心的意图，从而在保证编辑多样性的同时，也确保了最终结果与完整的、复杂的目标指令高度一致。总的来说，SplitFlow 通过一种新颖的“分而治之”的策略，巧妙地绕开了当前文生图编辑领域的两大核心难题，为实现更自由、更可控的图像内容创作提供了一个非常有前景的新思路。比如你想给“一只猫”加上“一顶帽子”，模型可能会把“帽子”的特征错误地应用到“猫”的身体或背景上，导致不希望的改动。：动态地调整每个子路径的“发言权”。

2025-11-01 07:03:00 81

转载北京智源研究院提出Emu3.5：原生多模态世界模型，推理加速20倍媲美Gemini 2.5

它不仅在生成质量和效率上取得了突破，更重要的是，它通过统一的框架和对长时序视频的学习，为构建真正理解物理世界、具备因果推理能力的通用AI代理（Embodied Agent）铺平了道路。这里的“原生”是关键，意味着它从设计之初就能同时处理和生成视觉（图片/视频）和语言（文字）信息，而不是像很多现有模型那样，通过“胶水”把独立的视觉模型和语言模型粘在一起。这是整个模型的基础。：最后，通过多任务强化学习，进一步提升模型在多模态推理和生成上的表现，使其生成的内容更符合人类的偏好。

2025-11-01 00:04:00 131

转载港科大（广州）等联合发布多模态空间推理综述：为大模型画下空间理解的未来蓝图

作者们绘制了一张时间线，清晰地展示了相关基准的演进历程，从早期的图文对，到如今覆盖视频、音频、3D、交互等多种模态和任务的复杂评测。面对大模型空间推理领域方法众多但缺乏系统性梳理的现状，这篇综述做出的一项关键贡献是作者们构建了一个清晰的分类法（Taxonomy），将复杂的空间推理任务和技术系统地组织起来。论文首先明确了多模态空间推理的范畴，即模型需要从图像、视频、点云、音频、文本等异构输入中，推断出空间关系、位置和动作，并产生可验证的、空间上合理的输出。这背后，空间推理能力是不可或缺的驱动力。

2025-10-31 16:38:42 105

转载谢菲尔德大学提出Region-CAM：mIoU提升13.6%，破解弱监督学习中的目标定位难题

作者认为，网络的不同层级包含了不同尺度的语义信息。CV君认为，Region-CAM的思路非常巧妙，它没有陷入现有CAM方法“如何更好地加权特征”的怪圈，而是回归本源，思考“一张好的激活图应该具备什么要素”，并创造性地提出了“提取+传播”的范式，在多个任务上都取得了显著的成功，为弱监督学习领域提供了一个强大而通用的新工具。可以看到，相较于CAM、Grad-CAM和LayerCAM，Region-CAM生成的激活图明显更完整，轮廓也更清晰，几乎完美地覆盖了整个目标物体，为后续的分割任务打下了坚实的基础。

2025-10-31 16:38:42 80

转载英伟达开源ChronoEdit，让P图学会物理常识，时序推理颠覆图像编辑！

通过将静态图像编辑升维到动态的时间序列上进行推理，模型得以利用在视频数据中学到的物理规律，这对于未来构建更强大的世界模型、实现更真实的物理世界模拟具有非常重要的意义。在“思考”清楚编辑该如何发生之后，为了提高效率，模型会丢弃这些中间的“推理令牌”，然后集中“精力”进一步优化和完善目标帧，最终生成我们所见的、高质量且物理一致的编辑后图像。实验结果表明，ChronoEdit在各项指标上都显著优于当前最先进的基线模型，无论是在通用编辑任务还是在考验物理一致性的任务上，都取得了更高的视觉保真度和物理合理性。

2025-10-31 16:38:42 129

转载 ReDiff：突破并行生成瓶颈，多模态扩散模型生成质量与效率双提升

而 ReDiff 框架，赋予了模型“主动精炼”的能力，让它在生成新词的同时，还能回头审视并修正已经生成的错误内容，主动地改进生成的上下文环境。在并行生成（一次预测多个词）时，这种相互干扰的问题会更严重：模型在某一步生成了一个错误的词，这个错误立刻污染了上下文，导致模型在下一步预测新词时更加困难，更容易出现错误。我们发现，这主要源于“训练-推理差异”：模型在训练时复原[mask]基于的是完全正确的context，但在推理时，它却必须依赖自己上一步生成的、可能包含错误的内容。

2025-10-31 16:38:42 73

转载阿尔伯塔大学提出TrajGATFormer：ADE与FDE降低超35%，精准预测施工现场轨迹

简单来说，TrajGATFormer 这个名字融合了 GAT (Graph Attention Networks, 图注意力网络) 和 Transformer，点明了它的核心技术：利用图网络来理解空间中多个对象（人、障碍物）的相互影响，再用 Transformer 捕捉它们在时间上的运动趋势。最近，来自阿尔伯塔大学的研究者们就带来了一个非常有趣的解决方案，他们提出了一种名为 TrajGATFormer 的新方法，专门用来预测工人和障碍物的运动轨迹。除了冰冷的数字，可视化的结果更能直观地展示模型的效果。

2025-10-31 07:00:00 622

转载 DINO-YOLO：融合自监督学习，让土木工程小样本目标检测精度飙升

简单来说，DINO-YOLO 就是把两种强大的技术——自监督学习的 DINOv3 和高效的 YOLOv12 结合在了一起，专门用来在数据稀缺的土木工程领域做物体检测。因此，当一个大容量的 YOLO 模型在只有几百或几千张图片的数据集上训练时，很容易出现过拟合，模型学到的知识泛化能力很差，一到真实场景就“水土不服”。传统的物体检测模型，像大家熟悉的YOLO系列，虽然强大，但在这种“小样本”的情况下，很容易“吃不饱”，导致性能不佳。当然，性能提升的同时，计算开销也是我们需要关注的。

2025-10-31 07:00:00 201

转载上海交大、宁波东方理工等联手发布UniScenev2：基于全球最大语义占据数据集，革新自动驾驶场景生成

像之前的UniScene等方法，已经证明了这种方法的潜力，它通过先生成占据，再基于占据生成视频和点云，形成了一个层次化的生成流程。当我们在谈论自动驾驶的未来时，高质量、大规模、多样化的模拟场景生成，无疑是推动技术迭代和安全验证的关键。然而，如何生成既真实又丰富的多模态驾驶场景，一直是业界的一大挑战。方面，生成的视频在清晰度（FID）和时序连贯性（FVD）上都表现更优，尤其是在动态物体的结构保持上，效果提升明显。不仅如此，它的分辨率也更高（400x400x32），能够描绘出更清晰的车辆结构和更平滑的路面。

2025-10-31 00:03:00 107

转载 ICCV 2025 | 高德等提出SeqGrowGraph：以链式图扩展革新车道拓扑生成

通过将图的构建过程重塑为一系列增量式的局部扩展，该方法能够精确、灵活地建模包括环路在内的复杂真实世界道路结构，克服了传统方法的局限性。其生成的拓扑网络与真值高度一致，展现了卓越的建模稳定性和可靠性。然而，现有方法常将车道图简化为有向无环图（DAG），这不仅无法表达现实世界中常见的环形结构，还可能因图到序列的转换方式不当而破坏原有的拓扑信息。SeqGrowGraph 将类人的结构化推理方式与强大的序列建模能力相结合，为自动驾驶领域的在线高精地图构建提供了高效、可靠的新范式，推动了相关技术的发展。

2025-10-31 00:03:00 121

转载北大&清华推出RT-DETRv4：大模型甘当陪练，实时检测器性能免费再升级！

可以看到，一个强大的VFM（如DINOv3）作为“教师”，将其提取的高质量语义特征，通过DSI模块“注入”到实时检测器（学生）的深层特征中。对比上（基线模型）下（RT-DETRv4）两行特征图，可以清晰地看到，经过DSI模块增强后，无论是AIFI的输出F5，还是后续融合的特征P3, P4, P5，物体轮廓都更清晰，背景干扰更少，语义表征质量得到了肉眼可见的提升。CV君认为，RT-DETRv4提出的这种“训练时辅助，推理时无踪”的框架，为轻量级模型的发展提供了一个极具价值和可扩展性的新范式。

2025-10-30 16:11:03 212

转载 ACM MM 2025 首届微视觉计算研讨会成功举办

之后，来自武汉大学、中山大学、香港科技大学（广州）、Fraunhofer IGD、郑州大学、四川大学等机构的与会者积极交流，就微视觉计算的关键问题与前沿趋势进行了深入讨论。音视频欺骗检测[1, 2, 3]是一种非接触式检测技术，相比接触式检测（测谎仪、脑电图、近红外光谱等）具有显著优势：1）突破了地理限制，无需面对面接触即可进行分析，具有极高的便捷度和检测效率，更适用于商业谈判和在线面试等场景；2）可以减少被检测者的心理压力，使其在自然环境中表现更为真实，有助于提高检测的准确性。

2025-10-30 16:11:03 81

转载天津大学与快手联手提出GRAG：仅需4行代码，实现图像编辑的“丝滑”微调

最近，基于Transformer的扩散模型（DiT）在图像编辑领域可以说是风生水起，但大家在享受AI带来便利的同时，可能也遇到过一个头疼的问题：生成的图像要么“改过头”，要么“没改到位”，很难精准控制编辑的“力度”。从下面的对比图可以看出，随着引导尺度的增加，CFG的编辑效果很快就“崩了”，而GRAG则能保持平滑、连续的变化，更准确地反映了用户的编辑意图。CV君觉得，GRAG的巧妙之处在于它没有引入复杂的模块，而是从模型内部机制的深刻洞察出发，用一个“四两拨千斤”的方法解决了实际痛点。不同引导策略的对比。

2025-10-30 08:33:52 80

转载美团开源LongCat-Video：136亿参数长视频生成，分钟级推理720p

接着，通过一个精细的视频标注工作流，为每个视频打上丰富的标签。它的亮相，不仅在多个视频生成任务上表现出色，更在高质量长视频的高效生成上取得了显著突破，可以说是向着构建“世界模型”迈出了坚实的一步。在视频续写任务中，LongCat-Video能够生成分钟级别的长视频而质量不衰减，并且支持在生成过程中根据新的指令改变内容，展现了强大的交互生成潜力。这个模型最吸引人的地方在于它用一个统一的架构，同时实现了文生视频、图生视频和视频续写等多种任务，并且能在几分钟内生成720p、30fps的高清视频。

2025-10-29 13:08:46 179

转载 IROS 2025 | 大连理工等提出STG-Avatar：25分钟训练，单目视频实时生成高保真数字人

CV君认为，STG-Avatar的巧妙之处在于它没有试图用一个“万能模型”去解决所有问题，而是将刚性运动和非刚性细节这两个不同性质的问题解耦，并用最适合的技术（LBS和STG）分别应对，最后通过光流进行智能化的资源调配。传统方法，比如基于NeRF（神经辐射场）的技术，虽然能生成高质量的数字人，但训练和渲染速度都太慢，动辄需要几十个小时训练，渲染一帧也要好几秒，离“实时”相去甚远。而STG则在此基础上，对3D高斯球进行时空维度的自适应优化，专门捕捉和补偿LBS无法处理的非刚性变形，比如衣服的褶皱和摆动。

2025-10-29 13:08:46 197

转载普林斯顿大学联手谷歌DeepMind，BOB让少样本细粒度分类精度飙升7.4%

他们提出了一种名为BOB（Beyond Objects）的新方法，旨在解决一个困扰业界已久的难题：如何利用文生图（T2I）模型，为细粒度分类任务生成高质量的训练数据，尤其是在只有少量真实样本（即“少样本学习”）的情况下。它不仅仅是简单地生成图片，而是通过因果干预的思想，从根本上提升了合成数据的质量和多样性，对于推动AIGC技术在严肃的科研和工业场景中的落地，具有非常重要的价值。例如，提示语不再是简单的“一张波音737的照片”，而是“一张波音737的照片，背景是雪山，从侧面拍摄”。：这是BOB最巧妙的一步。

2025-10-29 13:08:46 72

转载中科院SNELLA：视觉模型微调新范式，性能超越SOTA，内存占用降低近40%

SNELLA引入的核函数，相当于将低秩矩阵映射到更高维的空间再做运算，极大地增强了模型的表达能力，让权重的更新更加灵活和强大，从而更好地适应下游任务。CV君认为，SNELLA提出的这种将核方法与动态稀疏性结合的思路非常新颖，它不仅解决了现有稀疏微调方法的痛点，也为未来如何更高效地利用大模型提供了宝贵的启发。但这个过程忽略了微调过程中参数本身的变化，有点“刻舟求剑”的意思，限制了最终的性能。：在每一层内部，所有权重更新的重要性也会被评估，只有那些得分最高的“优胜者”才会被保留，其余的则被置为零。

2025-10-29 13:08:46 42

转载 NeurIPS 2025 | 华科大新作MERGE：生成与感知「即插即用」，一个模型双模切换，性能与效率兼得！

在同一预训练文生图模型PixArt的设置下，与完全微调的Marigold相比，MERGE-B仅用其约18%的可训练参数，就取得了高度可比的深度估计性能，最关键的是，MERGE完整保留了模型的生成能力。面对上述瓶颈，MERGE的作者团队另辟蹊径，其核心思想并非“替换”或“重建”，而是“释放”——他们认为，感知能力作为一种视觉先验，已经潜藏在预训练T2I模型中，只需找到正确的钥匙去解锁。：在视觉效果上，MERGE生成的深度图在细节上更加清晰准确，尤其在处理中空区域、反光表面等传统难题上，表现出强大的鲁棒性。

2025-10-29 00:01:00 65

转载世界模型是否需要显式的 3D？UT Austin 新作 PE-Field 给出答案

通过这样一个看似简单的改动，研究者们不仅让 DiT 获得了 3D 感知与控制能力，还在新视角合成（NVS）与空间感知编辑（spatial-aware editing）等任务中展现出强大潜力。研究者将其中 16 个 head 扩展到 patch-level 以下 1/16 的细节表示，虽然未到 pixel-level，但显著提升了空间精度，同时保持了与原有架构的兼容性。这样一来，Transformer 不需要完全 3D 化，只要在 PE 上动手，就能显式融入 3D 信息，实现对空间层次的建模。

2025-10-28 16:24:58 45

转载 CUPID：单图秒速重建3D，港大提出姿态引导新范式

比如结合了3D GAN或扩散模型，这类方法能够生成完整的3D形状，但常常难以保证生成的三维模型和输入图片在视角、纹理上完全对齐，有时会产生“幻觉”，生成一些不符合实际的细节。总的来说，CUPID通过一个设计精巧的“姿态估计+引导生成”框架，很好地解决了单图3D重建中的核心痛点，在保证重建速度的同时，也实现了非常高的保真度和几何准确性。然后，它会利用这个姿态信息，从2D图像中提取出“姿态对齐”的条件特征，包括高层的语义特征和底层的视觉特征（如颜色、纹理）。后者的目标是创造新物体，而CUPID的目标是。

2025-10-28 16:24:58 91

转载重建超越RAE，还能做编辑！北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统

像VAE这样的早期方法，因其特征缺少语义，导致理解性能较差。在GenEval (0.90) 和WISE (0.63) 图像生成基准上，UniLIP凭借卓越的文图对齐能力，不仅超越了同规模模型，还达到了与BAGEL等更大模型相当的水平。为实现精准编辑，UniLIP设计了双条件架构，同时利用大模型的隐变量（保留图像细节）和查询嵌入（激发推理能力），确保编辑任务的高度一致性。该方法使其在实现高质量图像重建的同时，能完整保留CLIP原有的语义理解性能，成为一个强大的统一编码器，在生成和编辑任务上表现突出。

2025-10-28 16:24:58 39

转载 Feed-Forward 3D综述：三维视觉进入“一步到位”时代

后续工作 MASt3R、Fast3R、CUT3R、SLAM3R、VGGT 等相继提出更高效的多视整合，长序列记忆机制，以及大场景处理能力等。Generative Diffusion-based：以 Zero-1-to-3、SyncDreamer、MVDream、CAT3D、CAT4D 为代表，将图像或视频扩散模型迁移到三维生成领域。论文收录了超过 30 个常用 3D 数据集（见第13页表1），涵盖对象级、室内、室外、静态与动态场景，标注模态包括 RGB、深度、LiDAR、语义与光流等。

2025-10-28 16:24:58 69

转载 ICCV‘25｜开源AI3D数据集Objaverse++：更少的数据，却有更好的生成效果

欣欣在2023年开始筹备这个科研项目，中间一波三折，很幸运得到合作伙伴们的支持：Abaka AI 提供的标注服务，Exascale Labs 的算力和基建，2077AI、Zillow Networks 还有几位艺术家和科研朋友等的帮助。即使目前最大的Objaverse，里头很多扫描入库的模型并不适合生成鲜艳的表面纹理和清晰的拓扑结构。这个分类器也一并开源了出来，供大家自行探索。使用 Objaverse ++ 的数据标注，筛选出 Objaverse 里质量较高的部分，用更少的算力训练出更好的AI。

2025-10-27 14:48:36 43

转载川大等提出LG-CD：一句话精准锁定遥感影像变化，F1分数高达91.83%

CV君认为，这个框架的设计非常巧妙，它没有重新发明轮子，而是聪明地站在了SAM2和CLIP这两个巨人的肩膀上，通过精心设计的适配器和融合模块，成功地将它们的能力迁移到了变化检测这个具体任务上。结果表明，无论是基础的Hiera编码器（SAM2所用），还是新加入的TFAM和V-LFD模块，都对最终性能有显著贡献，证明了设计的合理性。这正是本研究的核心动机。总的来说，LG-CD通过巧妙地结合视觉和语言信息，不仅提升了变化检测的准确性，更重要的是赋予了模型“按需检测”的灵活性，为遥感图像分析领域带来了新的思路。

2025-10-27 14:48:36 143

转载 “压缩不减智”！EPIC让多模态大模型以更少 Token 跑得更快、更稳｜NeurIPS 2025

当视觉Token爆炸成为多模态大模型的最大负担，EPIC提出“渐进一致蒸馏”这一全新思路——不改模型结构、不加参数，却让模型在压缩中越学越强。Token Consistency Distillation (TCD)：让模型在训练初期仅轻微压缩视觉Token，随后逐步提高压缩比例——就像从“低海拔”出发，一步步适应高原。不改变模型结构，不新增参数，而是让模型“自己教自己”，一步步学会在被压缩的视觉世界中保持聪明。多模态大语言模型（MLLMs）正在重塑AI的边界，让模型不仅能理解语言，更能“看懂世界”。

2025-10-27 14:48:36 307

weka使用教程中文版

目录 1. 简介2. 数据格式3.数据准备4. 关联规则（购物篮分析）5. 分类与回归6. 聚类分析

2010-05-19

支持基本RichText编辑功能的消息应用程序附件

注意：这个资源是中兴捧月的一题，我保存下来自己看的，网上可以找到，大家就不要下载了吧请基于高通BREW SDK及模拟器开发包，为类似手机设备这样的小型终端，设计一个支持基本的RichText编辑功能的类似短消息的brew应用程序。初赛要求： 1、该应用第一阶段至少支持消息内容的编辑功能，消息的保存和阅读、删除功能。在编辑界面的任意位置可以实现字符,动画,图片,铃音的插入和删除功能。如下图： 2、界面一级菜单至少包含：新建消息，草稿箱，帮助 3、实现一个编辑功能BREW接口控件，至少支持以下要求：（1）编辑内容时能输入文本，并能设置文本的字体大小（大字体、小字体两种）（2）编辑内容时能能插入图片，图片格式为BMP文件，32x32像素，256色（3）编辑内容时能插入动画，动画格式为4幅（2）要求BMP的图片，当光标移动到动画位置时，能播放动画，当光标移开时，停止播放（4）编辑内容时能插入铃音，铃音格式为标准MIDI文件，大小32k以内，当光标移动到铃音位置时能够播放铃音，当光标移开时，停止播放 4、能将编辑的内容保存到一个草稿箱消息文件，该文件格式可以自己定义，但要保证文本、图片、声音的数据保存完整 5、支持草稿箱阅读保存的内容。所有输入内容能正常显示、播放 6、支持草稿箱删除消息功能实现技术提示信息： BREW SDK 模拟器可以在windows操作系统平台直接运行，可以结合visual studio 6.0 IDE 环境方便代码工程管理和代码调试。BREW应用开发语言为C语言。 BREW SDK已经提供了接口，支持了BMP图片显示及MIDI文件的播放。参考资料信息：可从https://brewx.qualcomm.com/brew/sdk/download.jsp，高通公司的官方网站下载安装。进入网站下载页面后，用自己的电子邮箱地址注册帐号，即可下载BREW SDK。 BREW SDK中已携带参考文档： 1）《BREWSDKUserDocs.chm》 2）《BREWAPIReference.chm》 3）《BREWSDKUserDocs.chm》 3GPP TS 23.040 V530文档（请见附件）： www.3GPP.org，也可在网上找到该文档的其他版本审核标准： 1、设计文档是否有效解决了题目问题，是否清晰反映了设计者的设计思路，文档结构组织是否合理 2、参赛程序对题目所要求功能的实现程度 3、参赛作品是否具有很好的可读性和运行效率，资源占用情况是否合适

2010-06-09

人脸识别预处理人脸裁剪系统Face Cropping人脸裁切

网上有很多人脸数据库，但大部分是未经裁剪处理的，不能直接用于人脸识别试验。而整个网络也几乎找不到人脸裁剪/人脸裁切的工具，广大初入人脸识别研究领域的人不知如何入手。该程序是为人脸识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统，因为大部分人脸数据库都是未经裁剪/裁切的，而去除背景是人脸识别预处理的重要一步。采用OpenCV+MFC制作，不提供源代码。用到的同学可以下载。敬告：因为本程序读取.tif格式图像使用OpenCV函数，而.tif格式本身的复杂性导致没有通用的读取函数，故对有些特殊格式的.tif图像可能会出问题。

2010-05-12

经过裁剪预处理的人脸识别研究用AR数据库

经过裁剪预处理，共有120个人，每人14幅图像，包含图像和.mat数据，可直接用于人脸识别实验。

2010-05-06

经过裁剪预处理的面部表情识别研究用JAFFE数据库

网上JAFFE数据库几乎都是原始数据库，未经人脸裁剪/人脸剪切的，这个数据库是经过预处理的，已经将人脸利于面部表情识别的部分剪切出来，并存成64*82大小图像（详细裁剪算法请参考张一鸣，《面部表情识别》，该裁剪程序可在我的另一个资源里找到），按照类别分成7组，并详细标明各组所属表情分类，可直接用于面部表情识别实验。

2010-05-12

数学建模个人经验谈共九个部分

包括：组队和分工，选题，文献资料查找，论文写作，培训，实践，如何写好数学建模论文和一些个人心得。不是我写的。大家备战数模的可以参考一下。我在本科阶段没有参加过数学建模，因为有一种畏惧感，觉得那是数学学得很好的人才能做得来的。研究生阶段第一次抱着试一试的心态参加了第六届研究生数模，个人感觉没有想象中的那么难，而且所解决的问题很有挑战性也比较有价值，最终拿了个三等奖。研究生建模竞赛的好处是：自己组队，没有指导老师，不会有为了学校获奖老师给学生出方案的情况（可能也会有，不过是不被允许的），更客观。总的来讲，数学建模是体现一个人综合解决问题能力的一个平台，研究生数学建模竞赛更是有很多科研的成分，很有挑战性。

2010-05-19

南京理工大学计算机学院复试上机编程题目

南京理工大学计算机学院复试上机编程题目，需要的可以看看。不过这是前几年的。

2010-05-28

人脸识别研究用ORL数据库

人脸识别 ORL数据库图像和.mat数据不需裁剪和预处理可直接用于实验。

2010-05-06

实对称矩阵相似对角化Matlab程序

实对称矩阵相似对角化Matlab程序，用到的朋友可以下载看看。

2010-05-07

kMeansCluster k均值聚类算法Matlab代码实现

kMeansCluster k均值聚类算法Matlab代码实现，聚类里的经典算法。可以参考应用。

2010-05-09

南京理工大学数据库系统

南京理工大学数据库系统课件和部分练习题，考研的同学可以参考一下。

2010-05-28

经过裁剪预处理的人脸识别研究用FERET数据库

经过裁剪预处理的人脸识别研究用FERET数据库（美国军方数据库），共有200个人，每个人7幅图像，包括图像和.mat数据，可以直接用于人脸识别实验。

2010-05-06

人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切

该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪系统，因为大部分人脸表情数据库都是未经裁剪/裁切的，而去除背景是人脸表情识别预处理的重要一步。网上有很多人脸数据库，但大部分是未经裁剪/人脸裁切处理的，不能直接用于人脸表情识别试验。该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统，因为大部分人脸数据库都是未经裁剪的，而去除背景是人脸表情识别预处理的重要一步。图像归一化为64*82大小，归一化方案请参见张一鸣，《人脸表情识别》。采用OpenCV+MFC制作，不提供源代码。用到的同学可以下载。敬告：因为本程序读取.tif格式图像使用OpenCV函数，而.tif格式本身的复杂性导致没有通用的读取函数，故对有些.tif图像可能会出问题。

2010-05-12

南京理工大学操作系统课件

南京理工大学操作系统课件，考研的同学可以下载参考。

2010-05-28

人脸面部表情识别日本jaffe数据库

人脸表情识别日本jaffe数据库,是表情识别领域应用最为广发的一个数据库之一，总共包含7种表情。

2010-05-12

南京理工大学数据结构

南京理工大学数据结构，考研的同学可以参考一下。

2010-05-28

人脸表情识别论文人脸预处理人脸检测裁剪特征提取模式分类

是篇硕士论文，详细介绍了人脸表情识别的预处理，特征提取，分类识别和系统设计各个阶段，是表情识别入门读物。

2010-05-12

南京理工大学计算机网络课件

南京理工大学计算机网络课件， computer networking，考研的同学可以参考。

2010-05-28

南京理工软件工程讲稿

南京理工软件工程讲稿，考研的可以参考一下。

2010-05-28

2010成都信息工程学院研究生数模赛题

投票倾向问题 2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题

2010-05-19

“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件（请不要下载）

在通信领域，用户在网管界面操作，通过TCP/IP协议给电信设备发送报文，从而配置、维护电信设备。电信设备一般都不具备可视化终端，当电信设备从网管接收到了命令报文后，用户不方便了解电信设备接收到了哪些命令报文、以及处理报文过程是否正常。为了监视电信设备的运行情况，可以在电信设备上运行一个socket服务器，在PC机上运行一个socket客户端，称为命令报文监视器，所有通过网管发给电信设备的命令报文都会通过socket服务器发送给报文监视器，请实现一个这样的命令报文监视器。初赛要求： 1、监视器程序是一个可视化的GUI程序，刚运行时提供输入框让用户输入需要监视的电信设备的IP地址和端口号，然后与电信设备服务器建立socket连接。比如用户输入的IP地址为：192.192.192.1，端口号为8000，用户点击“连接”按钮即可与电信设备服务器建立连接。 2、监视器程序仅仅从socket连接中读取电信设备服务器发来的数据，这些数据是一串连续的ASCII码流。监视程序每次从socket中接收到数据后在数据前面加上时间信息，然后在GUI界面中显示。比如从服务器接收到的报文为“Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12.”，那么在GUI界面中的显示则如下： [10/05/19 03:30:17] Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12. 其中[]里面的是显示接收到的PC机本地时间，其余ASCII字符为报文的内容。监视器程序只管从socket中接收报文，无须通过socket发送报文。 3、当报文内容很多时为了方便用户选择查看有意义的报文，可以对报文进行过滤。支持用户输入需要过滤的字符的关键字。比如输入要过滤的关键字为“nMcuAdrs=0x10301”，那么对于nMcuAdrs=0x10301的报文则不显示，仅显示满足关键字过滤规则的报文。当需要有多个要过滤的关键字时，需要支持一下的规则：（1）与 key1 and key2, 表示既要满足关键字key1也要满足关键字key2 （2）或 key1 or key2, 表示只要满足key1或者kye2任一即可（3）支持与和或的组合，与的优先级高于或。比如 key1 and key2 or key3，表示只要满足key1、key2，或者key3即可（4）括号的优先级高于and。比如 key1 and （key2 or key3），表示满足key1并且满足key2、key3中任一即可。每一个关键字都用双引号括起来，比如输入过滤的字符为“nMcuAdrs=0x10301” and “CmdCode = 0x11ab” ，表示既要满足nMcuAdrs=0x10301也要满足CmdCode = 0x11ab 4、支持监视器收到的所有报文保存到文件中，需要支持用户设置文件所能保存的最大报文数目。比如用户设置最大可以保存100条报文，当超过100报文时新接收到的报文可以覆盖时间最长的报文，例如附件中的文件。实现技术提示信息： 1、编程语言可以任选 2、借用BT原理，当1个监视器程序成功连接上电信设备后即成为种子，让其他的监视器程序连接审核或评分标准： 1、设计合理、简洁，简单、易用 2、设计文档、说明文档清晰 3、软件功能正常、运行高效，无严重BUG

2010-06-12

Automatic visual/IR image registration

A feature-based approach to visual/IR sensor image registra- tion is presented.This new method overcomes the difficulties caused by the discrepancy in data’s gray-scale characteristics and the problem of feature inconsistency.It employs a wavelet-based feature extractor to locate point features from contours based on local statistics of the image intensity.Matching is carried out at multiresolution levels based on point features.A consistency-checking step is involved to eliminate mis- matches.The algorithm is accurate,robust,and fast.It is capable of handling images with considerable translation,scaling,and rotation.De- tails on the registration algorithm including feature extraction,matching, consistency checking,and the image transformation model are dis- cussed.Experimental results using real visual/IR sensor data are presented.

2010-09-25

贝叶斯决策理论机器学习数据挖掘

贝叶斯分类器正态分布决策理论关于分类的错误率分析最小风险Bayes分类器 Bayes分类器算法和例题聂曼－皮尔逊判别准则最大最小判别准则决策树序贯分类

2010-06-29

结合Zernike矩的多尺度模板形状匹配

结合Zernike矩的多尺度模板形状匹配，目标识别形状匹配小波变换 Zernike矩。

2010-09-25

采用LBP金字塔的人脸描述与识别

采用LBP金字塔的人脸描述与识别脸识别多尺度分析 LBP金字塔直方图

2010-09-25

rgb2hsi转换函数Matlab

图像从RGB空间转换到HSI空间，Matlab函数

2010-07-31

流形学习问题manifold study

线性维数约简方法流形和维数约简. 流形学习的一些数学基础. 几种流形学习算法简介：LLE, Isomap, Laplacian Eigenmap. 流形学习问题的简单探讨.

2010-06-29

OpenCV1.0安装文件

在VC6下配置OpenCV1.0文档。 http://www.opencv.org.cn/index.php/VC6%E4%B8%8B%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AEOpenCV1.0

2010-06-25

2010年第七届全国研究生数学建模竞赛试题与附件

2010年第七届全国研究生数学建模竞赛试题与附件包括ABCD四题

2010-09-17

人脸识别现有应用介绍

人脸识别现有应用介绍人脸识别汉王飞瑞斯中控

2011-01-17

“中兴捧月”软件测试自动化附件

软件测试自动化是提升软件测试效率的一个好途径，自动化的实现首先要能够对被测对象进行自动化控制，形成自动化控制工具，完成一些自动化控制功能；一个完整的测试系统可能包括多种自动化控制对象，需要有针对性的构建不同自动化控制工具，同时也需要提供一个集成的平台，使测试人员可以在一个统一的视图上进行自动化测试用例的开发，来实现对不同自动化控制工具的操纵，综合完成一个完整测试用例的执行。这个平台与各自动化控制工具之间形成主从的关系，用例流程中对被测对象的控制功能可以关键字的形式在平台上调用，平台通过指令下发给自动化控制工具进行实际执行并返回结果。在一款C/S形式的任务调度软件的测试过程中引入自动化测试，其中客户端界面上有五个可以输入参数的编辑框（假设均为整数型数据），在设置好一组参数组合后，点击开始处理按钮，客户端会将这些输入参数进行打包并向服务器端提交，服务器端接受申请后进行运算并形成要调度的任务，如果不能完成操作则返回失败信息给客户端，如果能完成操作则在服务器端可以查看到进入任务调度列表的对应任务项（以特定任务ID表示）并返回成功信息给客户端，客户端在接收到返回信息后会根据操作的成功与否显示相应的成功图标或失败图标（成功图标与失败图标是不同控件）。现在要实现对软件输入参数的遍历性测试，一个典型的参数遍历测试步骤如下：（1）对客户端界面的五个参数按照某种组合进行设置（组合数据是在用例设计时已经设计好的一组数据，并对应得出一个应该在服务器端进入任务调度列表的任务ID）（2）点击客户端开始处理按钮（3）判断处理结果，如果显示图标为失败则本次用例失败（4）如果处理结果为成功（显示图标为成功图标），则对服务器端的任务调度列表进行特定任务ID获取并判断，如符合前面参数组合所预期的任务ID则用例成功，否则失败（5）返回到步骤1，按照另一参数组合进行设置，重复1-4步骤，直到组合数据都遍历完（假设已经设计好10组数据组合）（6）最终给出完整测试结果假设已经实现对客户端界面参数读写与控件控制的自动化工具，以及服务器端任务列表内容判断的自动化工具，现在需要设计一个有集成功能的自动化测试平台系统，这个平台能够对控制工具进行指令下发及结果返回，操纵工具实现对测试对象的控制，如前述1-4步骤要完成的功能。所需要的自动化测试平台有如下三个重点要求：（1）能够让用户定制出如上述的测试用例流程，测试用例的实现可以脚本或图形界面形式进行支持，但以最大程度降低用户编写用例的难度为目标（2）以友好界面提供给测试人员进行上述测试用例的实现，以及用例运行和运行结果的显示（3）遍历测试下多种数据组合以合适的方式进行支持，体现数据驱动特点附：软件测试自动化测试数据（见附件）初赛要求： 1、设计自动化测试平台系统框架结构及系统功能，不局限于上述三项要求 2、重点设计上述平台系统三大特性需求所要求的软件功能 3、实现上述设计的DEMO程序实现技术提示信息：编程语言可以任选软件测试自动化相关背景资料可参考：《软件测试自动化技术与实例详解》Addison-Wesley 电子工业出版社《软件测试自动化》Daniel J.Mosley 机械工业出版社审核或评分标准 1、设计合理，有一定应用优势 2、设计文档、说明文档质量 3、软件基本功能实现，无严重BUG

2010-06-12

Zernike矩的快速算法

Zernike矩的快速算法，论文，可以参考下。

2010-09-25

文件批量命名工具FileBatchRemaerExe

文件批量命名工具 FileBatchRemaerExe

2010-07-31

Statistical Pattern Recognition:A Review

The primary goal of pattern recognition is supervised or unsupervised classification.Among the various frameworks in which pattern recognition has been traditionally formulated,the statistical approach has been most intensively studied and used in practice.More recently,neural network techniques and methods imported from statistical learning theory have been receiving increasing attention.The design of a recognition system requires careful attention to the following issues:definition of pattern classes, sensing environment,pattern representation,feature extraction and selection,cluster analysis,classifier design and learning,selection of training and test samples,and performance evaluation.In spite of almost 50 years of research and development in this field,the general problem of recognizing complex patterns with arbitrary orientation,location,and scale remains unsolved.New and emerging applications,such as data mining,web searching,retrieval of multimedia data,face recognition,and cursive handwriting recognition, require robust and efficient pattern recognition techniques.The objective of this review paper is to summarize and compare some of the well-known methods used in various stages of a pattern recognition system and identify research topics and applications which are at the forefront of this exciting and challenging field.

2010-09-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weka使用教程中文版

支持基本RichText编辑功能的消息应用程序附件

人脸识别预处理人脸裁剪系统Face Cropping人脸裁切

经过裁剪预处理的人脸识别研究用AR数据库

经过裁剪预处理的面部表情识别研究用JAFFE数据库

数学建模个人经验谈共九个部分

南京理工大学计算机学院复试上机编程题目

人脸识别研究用ORL数据库

实对称矩阵相似对角化Matlab程序

kMeansCluster k均值聚类算法Matlab代码实现

南京理工大学数据库系统

经过裁剪预处理的人脸识别研究用FERET数据库

人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切

南京理工大学操作系统课件

人脸面部表情识别日本jaffe数据库

南京理工大学数据结构

人脸表情识别论文人脸预处理人脸检测裁剪特征提取模式分类

南京理工大学计算机网络课件

南京理工软件工程讲稿

2010成都信息工程学院研究生数模赛题

“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件（请不要下载）

Automatic visual/IR image registration

贝叶斯决策理论机器学习数据挖掘

结合Zernike矩的多尺度模板形状匹配

采用LBP金字塔的人脸描述与识别

rgb2hsi转换函数Matlab

流形学习问题manifold study

OpenCV1.0安装文件

2010年第七届全国研究生数学建模竞赛试题与附件

人脸识别现有应用介绍

“中兴捧月”软件测试自动化附件

Zernike矩的快速算法

文件批量命名工具FileBatchRemaerExe

Statistical Pattern Recognition:A Review

LBP人脸识别Yale数据库

LBP相关文献及Matlab程序

OpenCV1.2安装文件

联机手写数字识别程序

表达式求值C++代码

handwriten digit recognition by combined classifiers

空空如也