自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3280)
  • 资源 (78)
  • 收藏
  • 关注

转载 CVPR25 | CV 微调卷出天际,Mona:我小,我强,我省资源

随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。Mona 方法通过引入多认知视觉滤波器和优化输入分布,仅调整 5% 的骨干网络参数,就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果,显著降低了适配和存储成本,为视觉模型的高效微调提供了新的思路。

2025-04-25 20:40:23 72

转载 专刊征稿:面向机器人持续感知的具身多模态数据融合

投稿截止:October 20th, 2025。投稿开放:October 1st, 2025。面向机器人持续感知的具身多模态数据融合)欢迎大家关注、转发。》(CCF-C类期刊)上组织的。关注公众号,发现CV技术之美。同济大学MIAS Group。

2025-04-24 16:43:10 39

转载 TMI 2025 | 最新医疗图像分割模型:Zig-RiR,精准分割二维、三维医疗图像

在二维ISIC数据集和三维ACDC, Synapse数据集上,Zig-RiR都表现出极高的分割性能,表明它在提取目标的边界和区域时非常准确。Zig-RiR模型通过创新的嵌套结构和锯齿状扫描设计,成功实现了对二维、三维医疗图像的高效率且精准的分割,为该领域提供了先进的解决方案。,提出一种新颖的医疗图像分割模型 Zigzag RWKV-in-RWKV (Zig-RiR),可用于精准分割二维、三维的医疗图像。Transformer的自注意力机制导致二次方级别的计算复杂度,限制了模型在高分辨率图像上的应用。

2025-04-24 16:43:10 201

转载 ICLR2025 | 打破次元壁!同济提出FaceShot,让表情包、玩具也能“开口说话”!

相比现有方法,FaceShot 在身份保持(ArcFace)、图像质量(HyperIQA)和动作还原(Point Tracking)等多个指标上均取得领先,尤其在结构不规则、风格差异大的角色(如玩偶、卡通形象、动物)上表现更为稳定。

2025-04-23 12:07:02 68

转载 UniToken:为统一多模态理解与生成打造信息完备的视觉表征

通过测试发现,第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与图像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。ViT端到端微调:在模型的全训练流程中,动态微调连续视觉编码器的权重,结合精细的学习率控制策略以避免模型崩溃,进而适应广泛的任务场景。

2025-04-22 14:33:18 57

转载 自回归的捍卫者来了:复旦联手字节Seed开源纯AR图像生成模型

最后是关于效率问题。带着好奇的心态,来自复旦视觉与学习实验室和字节Seed的研究者们希望“验一验”自回归视觉生成模型的能力,他们保持“Next-token prediction”这样简洁优美的形式,而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。离散的token必然带来更多的信息损失:当下改进视觉tokenizer也是一个备受关注的方向,最新的方法无论是离散或连续都可以取得非常好的重建效果(至少不会制约生成模型),因此相信这一点不会是制约两条路线的核心原因;

2025-04-21 19:42:16 86

转载 解锁 AI 开发新高度:AI 工作站与 NVIDIA AI Workbench 全栈解决方案

凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。性能高达上一代的 3 倍,支持 FP4 精度,可缩短 AI 模型处理时间,同时减少显存占用,实现 LLM 和生成式 AI 的本地微调。

2025-04-18 13:27:55 54

转载 斩获GitHub2.2k星!腾讯优图联合南京大学开源实时视频-语音交互大模型VITA-1.5

通过缓解模态之间的固有冲突,VITA-1.5 在视觉和语音理解方面实现了强大的能力,能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA,以及从LLaVA-OV 中采样的子集(如一般图像问答和数学推理数据),用于训练模型回答基于图像的问题,并执行视觉推理任务。在 VITA-1.5 的推理阶段,仅使用 Codec 的解码器。

2025-04-18 13:27:55 528

转载 “实习生也月入过万”,AI行业严重缺人?

全程实战源代码讲解,课程通俗易懂,所有算法均给出相应的实战案例及应用项目,内容覆盖200+案例,30+应用场景。但除了努力之外,我们更应该清楚的知道, 哪些技术需要重点掌握,学习时频繁踩坑,最终浪费大量时间,所以有一套实用的课程用来跟着学习是非常有必要的。我们将由浅入深的讲解视觉必备基础知识点、以及大厂面试必问的实战项目等全面细致的讲解,相信能给你带来启发和收获!拥有 1-3 年工作经验的,10K 是底线,25K 是常态,在 30 岁前年薪 50W+ 的也大有人在。确保你掌握的永远是当下最新最前沿的内容。

2025-04-16 12:31:18 1324

转载 IJCAI 2025 深度伪造检测、定位、可解释性研讨会暨挑战赛正式启动!

同时,研讨会还专设深度伪造检测与定位挑战赛,分设图片赛道和音视频赛道,旨在弥补现有检测算法在精准定位伪造区域与多模态音视频协同伪造识别方面的短板,提升AI时代内容安全水位。研讨会将汇聚全球顶尖学者,共同攻克多模态伪造、弱监督伪造定位、伪造可解释性、生成式AI对抗与防御等核心技术瓶颈,推动建立可验证、可追溯的生成式AI内容安全分析体系。蚂蚁数科联合新加坡科技研究局人工智能前沿研究中心,南洋理工大学,清华大学,中科院自动化所,合肥工业大学,安徽省数字安全重点实验室等多家机构。关注公众号,发现CV技术之美。

2025-04-16 12:31:18 216

转载 画质理解新突破!北大字节提出Q-Insight,让大模型深度思考推理!

通过这种创新思路,Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,有望为图像画质增强、AI内容生成等多个领域提供强有力的技术支撑。Q-Insight首次将强化学习引入图像质量评估任务,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,实现对图像质量的深度理解。评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;

2025-04-15 22:21:14 104

转载 【重温经典】 MOE模型的早期探索—分层深度卷积网络HD-CNN

列(d)-(f):前3个细分类模块得到的Top-5预测结果。这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师(https://i.cs.hku.hk/~yzyu/index.html)在UIUC的博士生严志程主导完成,首次在深度神经网络中成功实现了"分而治之"的层次化推理,并达到了当时十分优秀的性能,成为深度学习模型结构创新的经典案例。区分"苹果"和"公交车"易如反掌,因为二者在很多视觉属性上都有显著的差异,但辨别"苹果"与"橙子"则需要更精细的特征捕捉,因为二者的视觉特征较为接近。

2025-04-12 21:57:41 134

转载 时空理解基准STI-Bench:评估MLLMs的精确时空理解能力

包含8大类挑战性任务,强制模型进行精确定量的估计和预测,例如:物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试,发现它们在STI-Bench上的表现普遍不佳,尤其是在需要精确定量(如距离、运动参数)的任务上得分很低,显示其精确时空理解能力远未达到实际应用的要求。MLLMs真的具备精确时空理解能力吗?最新 AI 进展报道。

2025-04-11 16:34:14 41

转载 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!

整理了180多个基于学习的方法。将一对红外图像和可见光图像进行融合,这一过程称为红外-可见光图像融合,是计算机视觉领域的一个基础性关键的任务,融合图像具有。这些旨在为红外与可见光图像融合领域的研究人员,工程师和爱好者提供一个核心库,促进红外-可见图像融合技术的进步和协作。我们不仅对大量的IVIF方法进行了分类,还对这些方法进行了极为全面的评价,包括配准、融合及其他后续下游操作等任务的。3)为了阐明面向应用的红外与可见光图像融合方法,我们用分层和结构化的方式系统地概述了技术层面和数据集的最新进展。

2025-04-10 22:38:23 88

转载 【前沿解读】CVPR2025 | SAM赋能多模态图像融合:让每一滴语义信息都发挥价值

提出的双层优化驱动蒸馏机制结合创新的三元组损失函数,在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络,使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型,大幅降低了计算复杂度,同时保持了卓越的融合性能,极大提高了模型在实际场景中的应用价值。通过充分利用SAM对分割任务的固有适应性(如图右下角所示),我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能,更确保了实际推理阶段的高效可行性,为多模态图像融合领域提供了新的技术范式。

2025-04-09 16:12:34 234

转载 CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

我们在 PyTorch 中实现了 FoundationStereo 模型,使用混合数据集进行训练,包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。训练时使用 22 次 GRU 迭代更新,而在后续实验中(除非特别说明),我们使用相同的基础模型进行零样本推理,采用 32 次精炼迭代和 416 的最大视差范围。现有方法依赖目标域微调,且受限于网络结构或数据规模。

2025-04-08 21:02:45 536

转载 ACM MM 2025 Grand Challenge | 第二届微动作分析挑战赛(MAC 2025@ACM MM)

微动作(Micro-Action)分析旨在理解人类的非自主行为,在人与人之间的交流和人类情绪状态分析中具有着广泛的应用。本赛道提供了超过17k的微动作视频样本,旨在鼓励参赛者设计鲁棒的微动作识别算法,提高微动作分类的性能。MAC 2025 Camera-ready论文截止:2025年7月29日。MAC 2025源代码提交截止日期:2025年7月11日。MAC 2025论文提交截止日期:2025年7月19日。MAC 2025结果提交截止日期:2025年7月8日。MAC 2025 官方微信交流群:请详见官网。

2025-04-08 21:02:45 128

转载 让AI像人类一样看视频!VideoMind提出长视频推理新范式,性能超越GPT-4o,AK两次转发!代码、数据、Demo全开源!

受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型显著更优的性能,也避免了多模型并行带来的计算开销,从而在确保性能的同时大幅提高了计算效率。

2025-04-07 14:35:44 102

转载 从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架

我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。

2025-04-04 18:38:51 207

转载 TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标,推动小目标检测技术发展

现有数据集多聚焦单一模态(可见光或红外成像),且目标尺寸偏大、场景单一,难以满足实际需求,针对可见光-红外双模态(Visible-Thermal, RGBT)小目标检测的研究却鲜有突破。在无人机监控、自动驾驶、夜间搜救等场景中,小目标检测(如远处行人、微型无人机)一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。115组对齐序列、9.3万帧图像、120万标注,覆盖7类目标(如船舶、汽车、行人等)和8种场景(如海洋、湖泊、城市道路等)。RGBT目标检测(如UA-CMDet、CMA-Det)。

2025-04-02 16:24:32 262

转载 ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI

LOKI涵盖了图像、视频、3D、文本、音频等多个模态,构建了丰富的任务类型与异常注释体系,可系统评估大模型在合成数据检测任务中的能力与局限。LOKI基准引入了多层次的细粒度标注体系,每个数据样本都附带真实/合成标签,并标注了更精细的异常细节,确保模型在识别异常特征时具备更强的可解释性。:LOKI支持主流多模态模型(如GPT-4o、Claude-3、LLaVA等)使用多种数据格式输入,涵盖视频、图像、文本、音频、点云等,全面评估LMM在复杂数据环境下的泛化能力。

2025-04-01 14:01:13 114

转载 南洋理工&普渡大学提出CFG-Zero⋆:在Flow Matching模型中实现更稳健的无分类器引导方法

对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。

2025-03-31 14:02:57 191

转载 拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式

研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处理复杂的物体运动轨迹和多物体轨迹控制方面仍面临挑战,导致生成的视频物体移动轨迹不够精确,或者整体视觉质量较低。

2025-03-28 12:09:27 853

转载 复旦大学团队推出ParaCAD,首个包含尺寸信息标注的CAD参数化理解任务基准数据集!新范式PHT-CAD再创新SOTA!

在评测方面,现有的草图参数化方法使用的评估指标并不一致。此外,为了定量评估几何图层和标注图层关联的准确性,本文引入了一项新的评价指标--尺寸精度(Dimension Accuracy, DA),用于评估预测尺寸与其对应的真实标注之间的对齐情况。在模型训练方面,本文提出了渐进式分层调优(Progressive Hierarchical Tuning, PHT)策略,旨在逐步提升PHT-CAD的能力,使其不仅能更精准地感知单个图元,还能有效地推断出结构约束,并将标注层与对应的几何表示进行精准对齐。

2025-03-27 18:31:49 165

转载 CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛

然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的。为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发。

2025-03-26 17:31:21 246

转载 ICLR 2025 | 视频编辑最新SOTA!VideoGrain免训练实现多粒度视频编辑

此外,本文的方法能够进行多区域编辑,既可以编辑前景也可以编辑背景,如soap-box手推车中,背景变为“森林中的湖上长满苔藓的石桥”(下图5,中右)。:如上图(b)所示,在对DDIM inversion过程中的自注意力特征进行K-Means聚类之后,虽然聚类之后的结果是有清晰的布局信息的,但是无法区域不同的实例(比如“左边的男人”和“右边的男人“)。然而,上图(d)显示,“钢铁侠”和“蜘蛛侠”的权重在左边的男人上重叠,“花朵”的权重泄漏到右边的男人上,导致了(c)中的编辑失败。总体而言,对于多粒度编辑,

2025-03-26 17:31:21 66

转载 告别计算瓶颈!DynamicVis革新遥感图像理解,2Kx2K图像处理仅需800MB显存

此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。

2025-03-25 19:51:13 288

转载 ContinuousSR:从离散低分图像中重建连续高分辨高质量信号

论文提出的ContinuousSR框架,创造性地引入了Pixel-to-Gaussian范式,通过高斯建模直接重建连续的高分辨率信号,从而彻底改变了ASSR任务的实现方式。在高斯核的初始化过程中,作者提出了一种动态偏移策略,使得高斯核可以根据图像内容自适应调整位置,从而在复杂纹理区域分布更多高斯核,大幅提升重建细节的质量。具体来说,论文提出通过2D高斯核来显式表示图像的连续信号。极快的任意比例渲染:在完成高斯场构建后,模型能够以每比例1ms的速度生成HR图像,达到了现有方法的19.5倍加速。

2025-03-24 15:34:33 502

转载 看见未来,感知未来:统一驾驶世界模型UniFuture

此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。:UniFuture通过图像生成和深度感知的结合,不仅提升了生成图像的视觉质量,还确保了深度预测的几何一致性。

2025-03-20 16:35:57 96

转载 第1届ACM Multimedia多模态欺骗检测竞赛(MMDD2025)正式启动!

参与者需要签署协议并下载训练数据和部分评估数据集,将获得带标签的训练数据特征(OpenFace 特征、情感特征和梅尔频谱图等),分类为真实或欺骗,旨在构建鲁棒的AI欺骗检测模型,充分利用多模态特征来准确识别欺骗行为。音视频欺骗检测[1, 2]是一种非接触式检测技术,相比接触式检测(测谎仪、脑电图、近红外光谱等)具有显著优势:1)突破了地理限制,无需面对面接触即可进行分析,具有极高的便捷度和检测效率,更适用于商业谈判和在线面试等场景;第一阶段:2025年3月15日 至 2025年5月15日。

2025-03-17 22:53:41 215

转载 统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍

然而,我们的实验表明,如果使用高质量的 VAE 进行编码,图像分类任务的性能至少可以达到与标准方法相当的水平。,该方法通过在变分自编码器(VAE)的潜在空间中进行潜在掩码建模(Masked Latent Modeling)预训练,预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务,包括图像分类、语义分割以及基于扩散模型的图像生成。在将预训练模型权重适配到下游理解和生成模型时,针对图像分类任务,ViT 编码器的预训练权重可直接继承,无需额外调整,且仍然使用 Class Token 作为最终表征。

2025-03-17 22:53:41 92

转载 图像标注生存指南 3:外观多样性与形变困境

实验表明,在人群监控、植物检测等多目标场景里,面对人与物体外观差异、姿态变化、局部遮挡等常见难题,T-Rex Label 凭借卓越的视觉提示能力,都能够精准识别并框选出姿态复杂或发生变形的目标,显著提升了标注效率与准确率。在诸如温室种植等环境中,作物无论在形状、颜色还是具体株型上都存在差异,而且在生长过程中容易出现弯曲、倒伏或花期变化等形变,这些自然因素要求标注工具能够准确地识别植物被遮挡的部分或微小的局部变形,避免遗漏关键目标。在人员密集的场所,人群的外观和姿态极为复杂。1. 外观多样性造成的特征混淆。

2025-03-15 21:52:11 226

转载 全球顶级AI科学家著作,底层视觉技术10年发展精粹!

关注公众号,发现CV技术之美你是否好奇,那些震撼人心的4K电影画面、细腻入微的人物肖像、高清修复的老照片……背后究竟藏着怎样的科技密码?当代AI技术又是如何悄然渗透进每一个像素的雕琢,成就视觉的奇迹?由全球顶尖AI科学家精心撰写的《底层视觉之美:高清大片背后的人工智能》,将为你揭开这场视觉革命的神秘面纱!为什么值得一读?一部技术史,半卷人文诗不同于冰冷的工具书,这是一场科技与美学的跨界对话。翻开书...

2025-03-13 21:23:11 209 1

转载 图像标注生存指南 2:密集场景难题

关注公众号,发现CV技术之美在计算机视觉的广泛应用领域中,高密度目标场景是另一个制约图像标注效率与准确度提升的关键瓶颈。以公共安全监控为例,在城市的大街小巷,监控摄像头需要捕捉大量行人、车辆的信息;大型活动实时跟踪场景下,要对现场密集的人群、各类设施进行持续监测;物流仓储自动化识别场景里,需要快速准确地识别众多紧密排列的货物、搬运设备等。在这些场景中,目标大量重叠或紧密相邻的现象极为常见,这无疑给...

2025-03-13 21:23:11 58

转载 图像标注生存指南系列 1:光线变化挑战

关注公众号,发现CV技术之美在计算机视觉应用中,光线变化一直是图像标注领域的重要挑战。尤其在自动驾驶、安防监控等包含人、车的高精度场景以及农业等户外监控场景中,复杂的光线变化不仅直接影响数据质量,更会引发特征提取偏差与标注置信度下降。光线作为图像形成的关键要素,其变化直接决定了图像细节的呈现程度、对比度的高低以及色彩的还原效果,具体体现包括:1. 图像质量变化不同的光照条件会导致图像出现过曝或欠曝...

2025-03-12 21:49:32 107

转载 ICLR 2025|腾讯优图实验室6篇论文入选,含多模态大语言模型、人脸识别等研究方向...

关注公众号,发现CV技术之美近日,第 13 届 ICLR(International Conference on Learning Representations)国际学习表征会议公布了论文录用结果。本次大会共收到 11,565 篇有效论文投稿,录用率为 32.08%。ICLR 是人工智能和深度学习领域的重要国际学术会议之一,会议聚焦于表征学习(通常称为深度学习)的前沿研究,涵盖深度学习理论、表征...

2025-03-12 21:49:32 333

转载 CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集...

关注公众号,发现CV技术之美随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。论文地址:https://arxiv.org/pdf/2412.07...

2025-03-11 12:40:40 324

转载 从YOLOv5到YOLO11!改进有多大?

在目标检测领域,YOLO(You Only Look Once)一直是一种突破性算法。自YOLO算法问世以来,它已经演变为许多版本,其中最受欢迎的版本是YOLOv5和YOLOv8。这两个版本都有独特的特点和优势,使它们在各自的领域表现出色。YOLO算法的最大优点就是速度极快,每秒可处理45帧,也能够理解一般的对象表示。从个人学习来看:优秀的计算机视觉工程师,目标检测的学习避免不了,而目标检测的核心...

2025-03-11 12:40:40 116

转载 CVPR 2025 | Mamba和局部自注意力的首次碰撞:一种性能强大的混合视觉架构,代码已开源!...

关注公众号,发现CV技术之美本篇分享 CVPR 2025 论文,俞益洲教授团队提出新型语义分割框架SegMAN,在三大语义分割基准(ADE20K,Cityscapes, COCO-Stuff-164k)测试中展现出了卓越的性能。代码已开源!论文连接:https://arxiv.org/pdf/2412.11890(预印版)代码连接:https://github.com/yunxiangfu2001...

2025-03-10 13:37:30 562

转载 Serge Belongie组和ETH联合 | ICLR 2025 Spotlight:「免费」多模态信息助力3D小样本分割!...

关注公众号,发现CV技术之美突破单模态局限,多模态促进3D小样本分割当人形机器人能够辨识身边的一切,VR/AR设备呈现出定制化的虚拟世界,自动驾驶汽车实时捕捉路面状况,这一切都依赖于对3D场景的精确理解。然而,这种精准的3D理解往往需要大量详细标注的3D数据,极大推高了时间成本和资源消耗,而每当出现新场景或特定目标时,又不得不重复这一繁重过程。Few-shot学习是一种有效的解决思路——通过极少量...

2025-03-08 09:28:13 121

支持基本RichText编辑功能的消息应用程序附件

注意:这个资源是中兴捧月的一题,我保存下来自己看的,网上可以找到,大家就不要下载了吧 请基于高通BREW SDK及模拟器开发包,为类似手机设备这样的小型终端,设计一个支持基本的RichText编辑功能的类似短消息的brew应用程序。 初赛要求: 1、 该应用第一阶段至少支持消息内容的编辑功能,消息的保存和阅读、删除功能。在编辑界面的任意位置可以实现字符,动画,图片,铃音的插入和删除功能。如下图: 2、 界面一级菜单至少包含:新建消息,草稿箱,帮助 3、 实现一个编辑功能BREW接口控件,至少支持以下要求: (1)编辑内容时能输入文本,并能设置文本的字体大小(大字体、小字体两种) (2)编辑内容时能能插入图片,图片格式为BMP文件,32x32像素,256色 (3)编辑内容时能插入动画,动画格式为4幅(2)要求BMP的图片,当光标移动到动画位置时,能播放动画,当光标移开时,停止播放 (4)编辑内容时能插入铃音,铃音格式为标准MIDI文件,大小32k以内,当光标移动到铃音位置时能够播放铃音,当光标移开时,停止播放 4、 能将编辑的内容保存到一个草稿箱消息文件,该文件格式可以自己定义,但要保证文本、图片、声音的数据保存完整 5、 支持草稿箱阅读保存的内容。所有输入内容能正常显示、播放 6、 支持草稿箱删除消息功能 实现技术提示信息: BREW SDK 模拟器可以在windows操作系统平台直接运行,可以结合visual studio 6.0 IDE 环境方便代码工程管理和代码调试。BREW应用开发语言为C语言。 BREW SDK已经提供了接口,支持了BMP图片显示及MIDI文件的播放。 参考资料信息: 可从https://brewx.qualcomm.com/brew/sdk/download.jsp,高通公司的官方网站下载安装。进入网站下载页面后,用自己的电子邮箱地址注册帐号,即可下载BREW SDK。 BREW SDK中已携带参考文档: 1) 《BREWSDKUserDocs.chm》 2) 《BREWAPIReference.chm》 3) 《BREWSDKUserDocs.chm》 3GPP TS 23.040 V530文档(请见附件): www.3GPP.org,也可在网上找到该文档的其他版本 审核标准: 1、 设计文档是否有效解决了题目问题,是否清晰反映了设计者的设计思路,文档结构组织是否合理 2、 参赛程序对题目所要求功能的实现程度 3、 参赛作品是否具有很好的可读性和运行效率,资源占用情况是否合适

2010-06-09

南京理工大学计算机学院复试上机编程题目

南京理工大学计算机学院复试上机编程题目,需要的可以看看。不过这是前几年的。

2010-05-28

南京理工大学数据库系统

南京理工大学数据库系统课件和部分练习题,考研的同学可以参考一下。

2010-05-28

南京理工大学数据结构

南京理工大学数据结构,考研的同学可以参考一下。

2010-05-28

南京理工软件工程讲稿

南京理工软件工程讲稿,考研的可以参考一下。

2010-05-28

南京理工大学操作系统课件

南京理工大学 操作系统 课件,考研的同学可以下载参考。

2010-05-28

南京理工大学计算机网络课件

南京理工大学计算机网络课件, computer networking,考研的同学可以参考。

2010-05-28

数学建模个人经验谈共九个部分

包括:组队和分工,选题,文献资料查找,论文写作,培训,实践,如何写好数学建模论文和一些个人心得。 不是我写的。 大家备战数模的可以参考一下。 我在本科阶段没有参加过数学建模,因为有一种畏惧感,觉得那是数学学得很好的人才能做得来的。研究生阶段第一次抱着试一试的心态参加了第六届研究生数模,个人感觉没有想象中的那么难,而且所解决的问题很有挑战性也比较有价值,最终拿了个三等奖。 研究生建模竞赛的好处是:自己组队,没有指导老师,不会有为了学校获奖老师给学生出方案的情况(可能也会有,不过是不被允许的),更客观。 总的来讲,数学建模是体现一个人综合解决问题能力的一个平台,研究生数学建模竞赛更是有很多科研的成分,很有挑战性。

2010-05-19

2010成都信息工程学院研究生数模赛题

投票倾向问题 2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题2010成都信息工程学院研究生数模赛题

2010-05-19

weka使用教程中文版

目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析

2010-05-19

经过裁剪预处理的面部表情识别研究用JAFFE数据库

网上JAFFE数据库几乎都是原始数据库,未经人脸裁剪/人脸剪切的,这个数据库是经过预处理的,已经将人脸利于面部表情识别的部分剪切出来,并存成64*82大小图像(详细裁剪算法请参考张一鸣,《面部表情识别》,该裁剪程序可在我的另一个资源里找到),按照类别分成7组,并详细标明各组所属表情分类,可直接用于面部表情识别实验。

2010-05-12

人脸面部表情识别日本jaffe数据库

人脸表情识别日本jaffe数据库,是表情识别领域应用最为广发的一个数据库之一,总共包含7种表情。

2010-05-12

人脸表情识别论文人脸预处理人脸检测裁剪特征提取模式分类

是篇硕士论文,详细介绍了人脸表情识别的预处理,特征提取,分类识别和系统设计各个阶段,是表情识别入门读物。

2010-05-12

人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切

该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪系统,因为大部分人脸表情数据库都是未经裁剪/裁切的,而去除背景是人脸表情识别预处理的重要一步。网上有很多人脸数据库,但大部分是未经裁剪/人脸裁切处理的,不能直接用于人脸表情识别试验。 该程序是为人脸表情识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统,因为大部分人脸数据库都是未经裁剪的,而去除背景是人脸表情识别预处理的重要一步。 图像归一化为64*82大小,归一化方案请参见张一鸣,《人脸表情识别》。采用OpenCV+MFC制作,不提供源代码。用到的同学可以下载。 敬告:因为本程序读取.tif格式图像使用OpenCV函数,而.tif格式本身的复杂性导致没有通用的读取函数,故对有些.tif图像可能会出问题。

2010-05-12

人脸识别预处理人脸裁剪系统Face Cropping人脸裁切

网上有很多人脸数据库,但大部分是未经裁剪处理的,不能直接用于人脸识别试验。而整个网络也几乎找不到人脸裁剪/人脸裁切的工具,广大初入人脸识别研究领域的人不知如何入手。 该程序是为人脸识别研究实验人脸预处理阶段而开发的半自动人脸裁剪/人脸裁切系统,因为大部分人脸数据库都是未经裁剪/裁切的,而去除背景是人脸识别预处理的重要一步。 采用OpenCV+MFC制作,不提供源代码。用到的同学可以下载。 敬告:因为本程序读取.tif格式图像使用OpenCV函数,而.tif格式本身的复杂性导致没有通用的读取函数,故对有些特殊格式的.tif图像可能会出问题。

2010-05-12

kMeansCluster k均值聚类算法Matlab代码实现

kMeansCluster k均值聚类算法Matlab代码实现,聚类里的经典算法。可以参考应用。

2010-05-09

实对称矩阵相似对角化Matlab程序

实对称矩阵相似对角化Matlab程序,用到的朋友可以下载看看。

2010-05-07

人脸识别研究用ORL数据库

人脸识别 ORL数据库 图像和.mat数据 不需裁剪和预处理可直接用于实验。

2010-05-06

经过裁剪预处理的人脸识别研究用FERET数据库

经过裁剪预处理的人脸识别研究用FERET数据库(美国军方数据库),共有200个人,每个人7幅图像,包括图像和.mat数据,可以直接用于人脸识别实验。

2010-05-06

经过裁剪预处理的人脸识别研究用AR数据库

经过裁剪预处理,共有120个人,每人14幅图像,包含图像和.mat数据,可直接用于人脸识别实验。

2010-05-06

人脸识别现有应用介绍

人脸识别现有应用介绍 人脸识别 汉王 飞瑞斯 中控

2011-01-17

采用LBP金字塔的人脸描述与识别

采用LBP金字塔的人脸描述与识别脸识别 多尺度分析 LBP金字塔 直方图

2010-09-25

handwriten digit recognition by combined classifiers

UCI多特征数据库的原始文献,handwriten digit recognition by combined classifiers

2010-09-25

Automatic visual/IR image registration

A feature-based approach to visual/IR sensor image registra- tion is presented.This new method overcomes the difficulties caused by the discrepancy in data’s gray-scale characteristics and the problem of feature inconsistency.It employs a wavelet-based feature extractor to locate point features from contours based on local statistics of the image intensity.Matching is carried out at multiresolution levels based on point features.A consistency-checking step is involved to eliminate mis- matches.The algorithm is accurate,robust,and fast.It is capable of handling images with considerable translation,scaling,and rotation.De- tails on the registration algorithm including feature extraction,matching, consistency checking,and the image transformation model are dis- cussed.Experimental results using real visual/IR sensor data are presented.

2010-09-25

Statistical Pattern Recognition:A Review

The primary goal of pattern recognition is supervised or unsupervised classification.Among the various frameworks in which pattern recognition has been traditionally formulated,the statistical approach has been most intensively studied and used in practice.More recently,neural network techniques and methods imported from statistical learning theory have been receiving increasing attention.The design of a recognition system requires careful attention to the following issues:definition of pattern classes, sensing environment,pattern representation,feature extraction and selection,cluster analysis,classifier design and learning,selection of training and test samples,and performance evaluation.In spite of almost 50 years of research and development in this field,the general problem of recognizing complex patterns with arbitrary orientation,location,and scale remains unsolved.New and emerging applications,such as data mining,web searching,retrieval of multimedia data,face recognition,and cursive handwriting recognition, require robust and efficient pattern recognition techniques.The objective of this review paper is to summarize and compare some of the well-known methods used in various stages of a pattern recognition system and identify research topics and applications which are at the forefront of this exciting and challenging field.

2010-09-25

LBP相关文献及Matlab程序

LBP相关文献及Matlab程序LBP文献 Matlab程序

2010-09-25

LBP人脸识别Yale数据库

LBP人脸识别Yale数据库,LBP 人脸识别 Yale数据库 matlab数据和程序 不是我写的。

2010-09-25

结合Zernike矩的多尺度模板形状匹配

结合Zernike矩的多尺度模板形状匹配,目标识别 形状匹配 小波变换 Zernike矩 。

2010-09-25

Zernike矩的快速算法

Zernike矩的快速算法,论文,可以参考下。

2010-09-25

联机手写数字识别程序

联机手写数字识别程序,不是我写的,分享一下。

2010-09-25

2010年第七届全国研究生数学建模竞赛试题与附件

2010年第七届全国研究生数学建模竞赛试题与附件包括ABCD四题

2010-09-17

文件批量命名工具FileBatchRemaerExe

文件批量命名工具 FileBatchRemaerExe

2010-07-31

OpenCV1.2安装文件

OpenCV1.2安装文件,计算机视觉开源函数库。

2010-07-31

rgb2hsi转换函数Matlab

图像从RGB空间转换到HSI空间,Matlab函数

2010-07-31

流形学习问题manifold study

线性维数约简方法 流形和维数约简. 流形学习的一些数学基础. 几种流形学习算法简介:LLE, Isomap, Laplacian Eigenmap. 流形学习问题的简单探讨.

2010-06-29

贝叶斯决策理论机器学习数据挖掘

贝叶斯分类器 正态分布决策理论 关于分类的错误率分析 最小风险Bayes分类器 Bayes分类器算法和例题 聂曼-皮尔逊判别准则 最大最小判别准则 决策树 序贯分类

2010-06-29

OpenCV1.0安装文件

在VC6下配置OpenCV1.0文档。 http://www.opencv.org.cn/index.php/VC6%E4%B8%8B%E5%AE%89%E8%A3%85%E4%B8%8E%E9%85%8D%E7%BD%AEOpenCV1.0

2010-06-25

表达式求值C++代码

表达式求值C++代码,我测试过,挺好用。遇到类似问题,可以参考一下。

2010-06-13

“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)

在通信领域,用户在网管界面操作,通过TCP/IP协议给电信设备发送报文,从而配置、维护电信设备。电信设备一般都不具备可视化终端,当电信设备从网管接收到了命令报文后,用户不方便了解电信设备接收到了哪些命令报文、以及处理报文过程是否正常。为了监视电信设备的运行情况,可以在电信设备上运行一个socket服务器,在PC机上运行一个socket客户端,称为命令报文监视器,所有通过网管发给电信设备的命令报文都会通过socket服务器发送给报文监视器,请实现一个这样的命令报文监视器。 初赛要求: 1、监视器程序是一个可视化的GUI程序,刚运行时提供输入框让用户输入需要监视的电信设备的IP地址和端口号,然后与电信设备服务器建立socket连接。比如用户输入的IP地址为:192.192.192.1,端口号为8000,用户点击“连接”按钮即可与电信设备服务器建立连接。 2、监视器程序仅仅从socket连接中读取电信设备服务器发来的数据,这些数据是一串连续的ASCII码流。监视程序每次从socket中接收到数据后在数据前面加上时间信息,然后在GUI界面中显示。比如从服务器接收到的报文为“Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12.”,那么在GUI界面中的显示则如下: [10/05/19 03:30:17] Ncp Send Message To Mcu: nMcuAdrs=0x10301 CmdCode = 0x11ab,lParamLen = 0x12. 其中[]里面的是显示接收到的PC机本地时间,其余ASCII字符为报文的内容。 监视器程序只管从socket中接收报文,无须通过socket发送报文。 3、当报文内容很多时为了方便用户选择查看有意义的报文,可以对报文进行过滤。支持用户输入需要过滤的字符的关键字。比如输入要过滤的关键字为“nMcuAdrs=0x10301”,那么对于nMcuAdrs=0x10301的报文则不显示,仅显示满足关键字过滤规则的报文。当需要有多个要过滤的关键字时,需要支持一下的规则: (1)与 key1 and key2, 表示既要满足关键字key1也要满足关键字key2 (2)或 key1 or key2, 表示只要满足key1或者kye2任一即可 (3)支持与和或的组合,与的优先级高于或。比如 key1 and key2 or key3,表示只要满足key1、key2,或者key3即可 (4)括号的优先级高于and。比如 key1 and (key2 or key3),表示满足key1并且满足key2、key3中任一即可。 每一个关键字都用双引号括起来,比如输入过滤的字符为“nMcuAdrs=0x10301” and “CmdCode = 0x11ab” ,表示既要满足nMcuAdrs=0x10301也要满足CmdCode = 0x11ab 4、支持监视器收到的所有报文保存到文件中,需要支持用户设置文件所能保存的最大报文数目。比如用户设置最大可以保存100条报文,当超过100报文时新接收到的报文可以覆盖时间最长的报文,例如附件中的文件。 实现技术提示信息: 1、 编程语言可以任选 2、借用BT原理,当1个监视器程序成功连接上电信设备后即成为种子,让其他的监视器程序连接 审核或评分标准: 1、设计合理、简洁,简单、易用 2、设计文档、说明文档清晰 3、软件功能正常、运行高效,无严重BUG

2010-06-12

“中兴捧月”软件测试自动化附件

软件测试自动化是提升软件测试效率的一个好途径,自动化的实现首先要能够对被测对象进行自动化控制,形成自动化控制工具,完成一些自动化控制功能;一个完整的测试系统可能包括多种自动化控制对象,需要有针对性的构建不同自动化控制工具,同时也需要提供一个集成的平台,使测试人员可以在一个统一的视图上进行自动化测试用例的开发,来实现对不同自动化控制工具的操纵,综合完成一个完整测试用例的执行。这个平台与各自动化控制工具之间形成主从的关系,用例流程中对被测对象的控制功能可以关键字的形式在平台上调用,平台通过指令下发给自动化控制工具进行实际执行并返回结果。 在一款C/S形式的任务调度软件的测试过程中引入自动化测试,其中客户端界面上有五个可以输入参数的编辑框(假设均为整数型数据),在设置好一组参数组合后,点击开始处理按钮,客户端会将这些输入参数进行打包并向服务器端提交,服务器端接受申请后进行运算并形成要调度的任务,如果不能完成操作则返回失败信息给客户端,如果能完成操作则在服务器端可以查看到进入任务调度列表的对应任务项(以特定任务ID表示)并返回成功信息给客户端,客户端在接收到返回信息后会根据操作的成功与否显示相应的成功图标或失败图标(成功图标与失败图标是不同控件)。 现在要实现对软件输入参数的遍历性测试,一个典型的参数遍历测试步骤如下: (1)对客户端界面的五个参数按照某种组合进行设置(组合数据是在用例设计时已经设计好的一组数据,并对应得出一个应该在服务器端进入任务调度列表的任务ID) (2)点击客户端开始处理按钮 (3)判断处理结果,如果显示图标为失败则本次用例失败 (4)如果处理结果为成功(显示图标为成功图标),则对服务器端的任务调度列表进行特定任务ID获取并判断,如符合前面参数组合所预期的任务ID则用例成功,否则失败 (5)返回到步骤1,按照另一参数组合进行设置,重复1-4步骤,直到组合数据都遍历完(假设已经设计好10组数据组合) (6)最终给出完整测试结果 假设已经实现对客户端界面参数读写与控件控制的自动化工具,以及服务器端任务列表内容判断的自动化工具,现在需要设计一个有集成功能的自动化测试平台系统,这个平台能够对控制工具进行指令下发及结果返回,操纵工具实现对测试对象的控制,如前述1-4步骤要完成的功能。 所需要的自动化测试平台有如下三个重点要求: (1)能够让用户定制出如上述的测试用例流程,测试用例的实现可以脚本或图形界面形式进行支持,但以最大程度降低用户编写用例的难度为目标 (2)以友好界面提供给测试人员进行上述测试用例的实现,以及用例运行和运行结果的显示 (3)遍历测试下多种数据组合以合适的方式进行支持,体现数据驱动特点 附:软件测试自动化测试数据(见附件) 初赛要求: 1、设计自动化测试平台系统框架结构及系统功能,不局限于上述三项要求 2、重点设计上述平台系统三大特性需求所要求的软件功能 3、实现上述设计的DEMO程序 实现技术提示信息: 编程语言可以任选 软件测试自动化相关背景资料可参考: 《软件测试自动化技术与实例详解》Addison-Wesley 电子工业出版社 《软件测试自动化》Daniel J.Mosley 机械工业出版社 审核或评分标准 1、设计合理,有一定应用优势 2、设计文档、说明文档质量 3、软件基本功能实现,无严重BUG

2010-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除