- 博客(3280)
- 资源 (78)
- 收藏
- 关注
转载 CVPR25 | CV 微调卷出天际,Mona:我小,我强,我省资源
随着现代深度学习的发展,训练数据和模型规模的增加成为模型性能的重要增长点,但随之而来的是模型的垂直应用和微调成本和难度的提升。Mona 通过更适合视觉信号处理的设计以及对预训练特征分布的动态优化在小于 5% 的参数成本下首次突破了全量微调的性能枷锁,为视觉微调提供了新的解决方案。Mona 方法通过引入多认知视觉滤波器和优化输入分布,仅调整 5% 的骨干网络参数,就能在实例分割、目标检测、旋转目标检测等多个经典视觉任务中超越全参数微调的效果,显著降低了适配和存储成本,为视觉模型的高效微调提供了新的思路。
2025-04-25 20:40:23
72
转载 专刊征稿:面向机器人持续感知的具身多模态数据融合
投稿截止:October 20th, 2025。投稿开放:October 1st, 2025。面向机器人持续感知的具身多模态数据融合)欢迎大家关注、转发。》(CCF-C类期刊)上组织的。关注公众号,发现CV技术之美。同济大学MIAS Group。
2025-04-24 16:43:10
39
转载 TMI 2025 | 最新医疗图像分割模型:Zig-RiR,精准分割二维、三维医疗图像
在二维ISIC数据集和三维ACDC, Synapse数据集上,Zig-RiR都表现出极高的分割性能,表明它在提取目标的边界和区域时非常准确。Zig-RiR模型通过创新的嵌套结构和锯齿状扫描设计,成功实现了对二维、三维医疗图像的高效率且精准的分割,为该领域提供了先进的解决方案。,提出一种新颖的医疗图像分割模型 Zigzag RWKV-in-RWKV (Zig-RiR),可用于精准分割二维、三维的医疗图像。Transformer的自注意力机制导致二次方级别的计算复杂度,限制了模型在高分辨率图像上的应用。
2025-04-24 16:43:10
201
转载 ICLR2025 | 打破次元壁!同济提出FaceShot,让表情包、玩具也能“开口说话”!
相比现有方法,FaceShot 在身份保持(ArcFace)、图像质量(HyperIQA)和动作还原(Point Tracking)等多个指标上均取得领先,尤其在结构不规则、风格差异大的角色(如玩偶、卡通形象、动物)上表现更为稳定。
2025-04-23 12:07:02
68
转载 UniToken:为统一多模态理解与生成打造信息完备的视觉表征
通过测试发现,第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与图像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。ViT端到端微调:在模型的全训练流程中,动态微调连续视觉编码器的权重,结合精细的学习率控制策略以避免模型崩溃,进而适应广泛的任务场景。
2025-04-22 14:33:18
57
转载 自回归的捍卫者来了:复旦联手字节Seed开源纯AR图像生成模型
最后是关于效率问题。带着好奇的心态,来自复旦视觉与学习实验室和字节Seed的研究者们希望“验一验”自回归视觉生成模型的能力,他们保持“Next-token prediction”这样简洁优美的形式,而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。离散的token必然带来更多的信息损失:当下改进视觉tokenizer也是一个备受关注的方向,最新的方法无论是离散或连续都可以取得非常好的重建效果(至少不会制约生成模型),因此相信这一点不会是制约两条路线的核心原因;
2025-04-21 19:42:16
86
转载 解锁 AI 开发新高度:AI 工作站与 NVIDIA AI Workbench 全栈解决方案
凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。凭借 48 GB 的 GPU 显存和 1.3 TB/s 的带宽,您可以处理大型 3D 和 AI 项目,在本地微调 AI 模型,探索大规模 VR 环境,并推动更大的多应用工作流。性能高达上一代的 3 倍,支持 FP4 精度,可缩短 AI 模型处理时间,同时减少显存占用,实现 LLM 和生成式 AI 的本地微调。
2025-04-18 13:27:55
54
转载 斩获GitHub2.2k星!腾讯优图联合南京大学开源实时视频-语音交互大模型VITA-1.5
通过缓解模态之间的固有冲突,VITA-1.5 在视觉和语音理解方面实现了强大的能力,能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA,以及从LLaVA-OV 中采样的子集(如一般图像问答和数学推理数据),用于训练模型回答基于图像的问题,并执行视觉推理任务。在 VITA-1.5 的推理阶段,仅使用 Codec 的解码器。
2025-04-18 13:27:55
528
转载 “实习生也月入过万”,AI行业严重缺人?
全程实战源代码讲解,课程通俗易懂,所有算法均给出相应的实战案例及应用项目,内容覆盖200+案例,30+应用场景。但除了努力之外,我们更应该清楚的知道, 哪些技术需要重点掌握,学习时频繁踩坑,最终浪费大量时间,所以有一套实用的课程用来跟着学习是非常有必要的。我们将由浅入深的讲解视觉必备基础知识点、以及大厂面试必问的实战项目等全面细致的讲解,相信能给你带来启发和收获!拥有 1-3 年工作经验的,10K 是底线,25K 是常态,在 30 岁前年薪 50W+ 的也大有人在。确保你掌握的永远是当下最新最前沿的内容。
2025-04-16 12:31:18
1324
转载 IJCAI 2025 深度伪造检测、定位、可解释性研讨会暨挑战赛正式启动!
同时,研讨会还专设深度伪造检测与定位挑战赛,分设图片赛道和音视频赛道,旨在弥补现有检测算法在精准定位伪造区域与多模态音视频协同伪造识别方面的短板,提升AI时代内容安全水位。研讨会将汇聚全球顶尖学者,共同攻克多模态伪造、弱监督伪造定位、伪造可解释性、生成式AI对抗与防御等核心技术瓶颈,推动建立可验证、可追溯的生成式AI内容安全分析体系。蚂蚁数科联合新加坡科技研究局人工智能前沿研究中心,南洋理工大学,清华大学,中科院自动化所,合肥工业大学,安徽省数字安全重点实验室等多家机构。关注公众号,发现CV技术之美。
2025-04-16 12:31:18
216
转载 画质理解新突破!北大字节提出Q-Insight,让大模型深度思考推理!
通过这种创新思路,Q-Insight在质量评分、退化感知、多图比较、原因解释等多个任务上均达到业界领先水平,具备出色的准确性和泛化推理能力,有望为图像画质增强、AI内容生成等多个领域提供强有力的技术支撑。Q-Insight首次将强化学习引入图像质量评估任务,创造性地运用了“群组相对策略优化”(GRPO)算法,不再依赖大量的文本监督标注,而是挖掘大模型自身的推理潜力,实现对图像质量的深度理解。评分型方法,这类方法通常只能提供单一的数值评分,缺乏明确的解释性,难以深入理解图像质量背后的原因;
2025-04-15 22:21:14
104
转载 【重温经典】 MOE模型的早期探索—分层深度卷积网络HD-CNN
列(d)-(f):前3个细分类模块得到的Top-5预测结果。这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师(https://i.cs.hku.hk/~yzyu/index.html)在UIUC的博士生严志程主导完成,首次在深度神经网络中成功实现了"分而治之"的层次化推理,并达到了当时十分优秀的性能,成为深度学习模型结构创新的经典案例。区分"苹果"和"公交车"易如反掌,因为二者在很多视觉属性上都有显著的差异,但辨别"苹果"与"橙子"则需要更精细的特征捕捉,因为二者的视觉特征较为接近。
2025-04-12 21:57:41
134
转载 时空理解基准STI-Bench:评估MLLMs的精确时空理解能力
包含8大类挑战性任务,强制模型进行精确定量的估计和预测,例如:物体的尺寸/距离测量、空间关系判断、3D定位、位移/路径长度计算、速度/加速度分析、自身朝向变化、轨迹描述、姿态估计。通过对包括GPT-4o、Gemini系列、Claude 3.7、Qwen2.5-VL等在内的顶尖MLLM进行广泛测试,发现它们在STI-Bench上的表现普遍不佳,尤其是在需要精确定量(如距离、运动参数)的任务上得分很低,显示其精确时空理解能力远未达到实际应用的要求。MLLMs真的具备精确时空理解能力吗?最新 AI 进展报道。
2025-04-11 16:34:14
41
转载 2025 TPAMI综述 | 全新视角红外与可见光图像融合完整理解与入门!附GitHub最全开源对比方法结果!
整理了180多个基于学习的方法。将一对红外图像和可见光图像进行融合,这一过程称为红外-可见光图像融合,是计算机视觉领域的一个基础性关键的任务,融合图像具有。这些旨在为红外与可见光图像融合领域的研究人员,工程师和爱好者提供一个核心库,促进红外-可见图像融合技术的进步和协作。我们不仅对大量的IVIF方法进行了分类,还对这些方法进行了极为全面的评价,包括配准、融合及其他后续下游操作等任务的。3)为了阐明面向应用的红外与可见光图像融合方法,我们用分层和结构化的方式系统地概述了技术层面和数据集的最新进展。
2025-04-10 22:38:23
88
转载 【前沿解读】CVPR2025 | SAM赋能多模态图像融合:让每一滴语义信息都发挥价值
提出的双层优化驱动蒸馏机制结合创新的三元组损失函数,在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络,使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型,大幅降低了计算复杂度,同时保持了卓越的融合性能,极大提高了模型在实际场景中的应用价值。通过充分利用SAM对分割任务的固有适应性(如图右下角所示),我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能,更确保了实际推理阶段的高效可行性,为多模态图像融合领域提供了新的技术范式。
2025-04-09 16:12:34
234
转载 CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo
我们在 PyTorch 中实现了 FoundationStereo 模型,使用混合数据集进行训练,包括我们提出的 FSD 数据集以及 Scene Flow、Sintel、CREStereo、FallingThings、InStereo2K 和 Virtual KITTI 2 等公开数据集。训练时使用 22 次 GRU 迭代更新,而在后续实验中(除非特别说明),我们使用相同的基础模型进行零样本推理,采用 32 次精炼迭代和 416 的最大视差范围。现有方法依赖目标域微调,且受限于网络结构或数据规模。
2025-04-08 21:02:45
536
转载 ACM MM 2025 Grand Challenge | 第二届微动作分析挑战赛(MAC 2025@ACM MM)
微动作(Micro-Action)分析旨在理解人类的非自主行为,在人与人之间的交流和人类情绪状态分析中具有着广泛的应用。本赛道提供了超过17k的微动作视频样本,旨在鼓励参赛者设计鲁棒的微动作识别算法,提高微动作分类的性能。MAC 2025 Camera-ready论文截止:2025年7月29日。MAC 2025源代码提交截止日期:2025年7月11日。MAC 2025论文提交截止日期:2025年7月19日。MAC 2025结果提交截止日期:2025年7月8日。MAC 2025 官方微信交流群:请详见官网。
2025-04-08 21:02:45
128
转载 让AI像人类一样看视频!VideoMind提出长视频推理新范式,性能超越GPT-4o,AK两次转发!代码、数据、Demo全开源!
受该现象启发,作者根据视频理解所需要的4种核心能力(制定计划、搜索片段、验证片段、回答问题),为VideoMind定义了4个角色,并构建了一个角色化的工作流,有效地解决了长视频中的时序推理问题。给定一个视频和一个问题,该模型可以拆解问题、指定计划、搜索片段、验证结果,并根据获取的片段推理最终答案。该策略仅需要在Base模型上添加少量可学习参数,即可实现多个角色/功能间的无缝切换,既获得了比单一模型显著更优的性能,也避免了多模型并行带来的计算开销,从而在确保性能的同时大幅提高了计算效率。
2025-04-07 14:35:44
102
转载 从「表面真实性」到「内在真实性」,南洋理工S-Lab与上海AI Lab联合推出VBench-2.0:面向视频生成新世代的评测框架
我们发现在非常简单的位置移动或者属性变化上,所有模型的效果都不好,这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。现在的模型都还不支撑故事级别(5 个连续的小情节)的视频生成,其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别,还远远没有到考虑分钟级别的故事叙述。在下面这些常被网友吐槽的场景中,模型往往暴露了缺乏「内在真实度」的短板。作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如每一帧的清晰度、帧与帧之间的平滑衔接,以及视频和文本描述间的基本一致性。
2025-04-04 18:38:51
207
转载 TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标,推动小目标检测技术发展
现有数据集多聚焦单一模态(可见光或红外成像),且目标尺寸偏大、场景单一,难以满足实际需求,针对可见光-红外双模态(Visible-Thermal, RGBT)小目标检测的研究却鲜有突破。在无人机监控、自动驾驶、夜间搜救等场景中,小目标检测(如远处行人、微型无人机)一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。115组对齐序列、9.3万帧图像、120万标注,覆盖7类目标(如船舶、汽车、行人等)和8种场景(如海洋、湖泊、城市道路等)。RGBT目标检测(如UA-CMDet、CMA-Det)。
2025-04-02 16:24:32
262
转载 ICLR 2025 Spotlight |合成数据伪装术 vs 大模型火眼金睛,中大&上海AI Lab提出合成检测基准LOKI
LOKI涵盖了图像、视频、3D、文本、音频等多个模态,构建了丰富的任务类型与异常注释体系,可系统评估大模型在合成数据检测任务中的能力与局限。LOKI基准引入了多层次的细粒度标注体系,每个数据样本都附带真实/合成标签,并标注了更精细的异常细节,确保模型在识别异常特征时具备更强的可解释性。:LOKI支持主流多模态模型(如GPT-4o、Claude-3、LLaVA等)使用多种数据格式输入,涵盖视频、图像、文本、音频、点云等,全面评估LMM在复杂数据环境下的泛化能力。
2025-04-01 14:01:13
114
转载 南洋理工&普渡大学提出CFG-Zero⋆:在Flow Matching模型中实现更稳健的无分类器引导方法
对此,南洋理工大学S-Lab与普渡大学的研究者联合提出了创新方法——CFG-Zero⋆,针对传统CFG在Flow Matching框架下的结构性误差进行了理论分析,并设计了两项轻量级但效果显著的改进机制,使生成图像/视频在细节保真度、文本对齐性与稳定性上全面提升。零初始化(Zero-init):将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。得到的视频如下:(第一个为原始CFG生成的,第二个为CFG-Zero*生成的),效果还是比较明显,值得尝试。
2025-03-31 14:02:57
191
转载 拒绝“随意运动”! 复旦联合微软提出MagicMotion:视频生成精准轨迹控制新范式
研究者使用轻量级分割头直接在隐空间中预测出分割掩码,从而在引入极小计算开销的情况下,无需进行解码操作,帮助模型在生成视频的同时在潜在空间中执行物体分割任务,从而更好地理解物体的细粒度形状。在此基础上,轨迹可控的视频生成(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。然而,现有方法在处理复杂的物体运动轨迹和多物体轨迹控制方面仍面临挑战,导致生成的视频物体移动轨迹不够精确,或者整体视觉质量较低。
2025-03-28 12:09:27
853
转载 复旦大学团队推出ParaCAD,首个包含尺寸信息标注的CAD参数化理解任务基准数据集!新范式PHT-CAD再创新SOTA!
在评测方面,现有的草图参数化方法使用的评估指标并不一致。此外,为了定量评估几何图层和标注图层关联的准确性,本文引入了一项新的评价指标--尺寸精度(Dimension Accuracy, DA),用于评估预测尺寸与其对应的真实标注之间的对齐情况。在模型训练方面,本文提出了渐进式分层调优(Progressive Hierarchical Tuning, PHT)策略,旨在逐步提升PHT-CAD的能力,使其不仅能更精准地感知单个图元,还能有效地推断出结构约束,并将标注层与对应的几何表示进行精准对齐。
2025-03-27 18:31:49
165
转载 CVPR 2025 Workshop | 面向多模态大模型的越狱攻击安全挑战赛
然而,这张图片和文本中添加了针对大模型特别设计的对抗扰动,绕过了多模态大模型的安全限制,诱导大模型产生违反其设计初衷或安全准则的输出。但与初赛不同的是,复赛的待攻击模型将额外引入1个黑盒大模型,并引入6种更具有挑战性的风险类别的基础有害文本指令,对于所设计对抗攻击算法的迁移性与鲁棒性有着更高的要求。像这种直接在多模态大模型的图文对输入中增加相关扰动,使多模态大模型产生违规输出的攻击手段,就是对多模态大模型最常用的。为了系统性地探索多模态大模型的潜在安全威胁,推动能够适应复杂对抗环境的鲁棒多模态大模型开发。
2025-03-26 17:31:21
246
转载 ICLR 2025 | 视频编辑最新SOTA!VideoGrain免训练实现多粒度视频编辑
此外,本文的方法能够进行多区域编辑,既可以编辑前景也可以编辑背景,如soap-box手推车中,背景变为“森林中的湖上长满苔藓的石桥”(下图5,中右)。:如上图(b)所示,在对DDIM inversion过程中的自注意力特征进行K-Means聚类之后,虽然聚类之后的结果是有清晰的布局信息的,但是无法区域不同的实例(比如“左边的男人”和“右边的男人“)。然而,上图(d)显示,“钢铁侠”和“蜘蛛侠”的权重在左边的男人上重叠,“花朵”的权重泄漏到右边的男人上,导致了(c)中的编辑失败。总体而言,对于多粒度编辑,
2025-03-26 17:31:21
66
转载 告别计算瓶颈!DynamicVis革新遥感图像理解,2Kx2K图像处理仅需800MB显存
此外,基于ViT的模型将图像块压缩至通道维度(如16×16像素),导致小目标细节丢失,难以满足遥感任务对多层次特征(场景级语义、目标级判别、像素级精度)的联合需求。针对遥感图像中关键目标占比小、分布稀疏且传统模型难以高效处理长序列二维标记(约10万)的挑战,该模型借鉴人类视觉选择性注意力机制,设计了基于动态区域感知的主干网络,通过选择性状态空间模型平衡局部细节与全局上下文,实现大规模数据的高效编码(处理2048×2048像素图像仅需97毫秒,消耗GPU内存为ViT的3%)。
2025-03-25 19:51:13
288
转载 ContinuousSR:从离散低分图像中重建连续高分辨高质量信号
论文提出的ContinuousSR框架,创造性地引入了Pixel-to-Gaussian范式,通过高斯建模直接重建连续的高分辨率信号,从而彻底改变了ASSR任务的实现方式。在高斯核的初始化过程中,作者提出了一种动态偏移策略,使得高斯核可以根据图像内容自适应调整位置,从而在复杂纹理区域分布更多高斯核,大幅提升重建细节的质量。具体来说,论文提出通过2D高斯核来显式表示图像的连续信号。极快的任意比例渲染:在完成高斯场构建后,模型能够以每比例1ms的速度生成HR图像,达到了现有方法的19.5倍加速。
2025-03-24 15:34:33
502
转载 看见未来,感知未来:统一驾驶世界模型UniFuture
此外,为了增强图像和深度之间的交互,研究团队设计了多尺度交互机制(MLI),在多个尺度上优化图像和深度之间的相互作用,确保最终生成的图像不仅视觉真实,而且能准确预测空间关系,促进了高一致性的未来图像-深度生成。该模型不仅能够生成逼真的未来场景,还能提供高精度的未来深度感知,确保场景的视觉一致性和几何一致性,并体现出了具备构造4D 世界模型的潜力,为自动驾驶系统的决策和规划提供了强有力的支持。:UniFuture通过图像生成和深度感知的结合,不仅提升了生成图像的视觉质量,还确保了深度预测的几何一致性。
2025-03-20 16:35:57
96
转载 第1届ACM Multimedia多模态欺骗检测竞赛(MMDD2025)正式启动!
参与者需要签署协议并下载训练数据和部分评估数据集,将获得带标签的训练数据特征(OpenFace 特征、情感特征和梅尔频谱图等),分类为真实或欺骗,旨在构建鲁棒的AI欺骗检测模型,充分利用多模态特征来准确识别欺骗行为。音视频欺骗检测[1, 2]是一种非接触式检测技术,相比接触式检测(测谎仪、脑电图、近红外光谱等)具有显著优势:1)突破了地理限制,无需面对面接触即可进行分析,具有极高的便捷度和检测效率,更适用于商业谈判和在线面试等场景;第一阶段:2025年3月15日 至 2025年5月15日。
2025-03-17 22:53:41
215
转载 统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
然而,我们的实验表明,如果使用高质量的 VAE 进行编码,图像分类任务的性能至少可以达到与标准方法相当的水平。,该方法通过在变分自编码器(VAE)的潜在空间中进行潜在掩码建模(Masked Latent Modeling)预训练,预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务,包括图像分类、语义分割以及基于扩散模型的图像生成。在将预训练模型权重适配到下游理解和生成模型时,针对图像分类任务,ViT 编码器的预训练权重可直接继承,无需额外调整,且仍然使用 Class Token 作为最终表征。
2025-03-17 22:53:41
92
转载 图像标注生存指南 3:外观多样性与形变困境
实验表明,在人群监控、植物检测等多目标场景里,面对人与物体外观差异、姿态变化、局部遮挡等常见难题,T-Rex Label 凭借卓越的视觉提示能力,都能够精准识别并框选出姿态复杂或发生变形的目标,显著提升了标注效率与准确率。在诸如温室种植等环境中,作物无论在形状、颜色还是具体株型上都存在差异,而且在生长过程中容易出现弯曲、倒伏或花期变化等形变,这些自然因素要求标注工具能够准确地识别植物被遮挡的部分或微小的局部变形,避免遗漏关键目标。在人员密集的场所,人群的外观和姿态极为复杂。1. 外观多样性造成的特征混淆。
2025-03-15 21:52:11
226
转载 全球顶级AI科学家著作,底层视觉技术10年发展精粹!
关注公众号,发现CV技术之美你是否好奇,那些震撼人心的4K电影画面、细腻入微的人物肖像、高清修复的老照片……背后究竟藏着怎样的科技密码?当代AI技术又是如何悄然渗透进每一个像素的雕琢,成就视觉的奇迹?由全球顶尖AI科学家精心撰写的《底层视觉之美:高清大片背后的人工智能》,将为你揭开这场视觉革命的神秘面纱!为什么值得一读?一部技术史,半卷人文诗不同于冰冷的工具书,这是一场科技与美学的跨界对话。翻开书...
2025-03-13 21:23:11
209
1
转载 图像标注生存指南 2:密集场景难题
关注公众号,发现CV技术之美在计算机视觉的广泛应用领域中,高密度目标场景是另一个制约图像标注效率与准确度提升的关键瓶颈。以公共安全监控为例,在城市的大街小巷,监控摄像头需要捕捉大量行人、车辆的信息;大型活动实时跟踪场景下,要对现场密集的人群、各类设施进行持续监测;物流仓储自动化识别场景里,需要快速准确地识别众多紧密排列的货物、搬运设备等。在这些场景中,目标大量重叠或紧密相邻的现象极为常见,这无疑给...
2025-03-13 21:23:11
58
转载 图像标注生存指南系列 1:光线变化挑战
关注公众号,发现CV技术之美在计算机视觉应用中,光线变化一直是图像标注领域的重要挑战。尤其在自动驾驶、安防监控等包含人、车的高精度场景以及农业等户外监控场景中,复杂的光线变化不仅直接影响数据质量,更会引发特征提取偏差与标注置信度下降。光线作为图像形成的关键要素,其变化直接决定了图像细节的呈现程度、对比度的高低以及色彩的还原效果,具体体现包括:1. 图像质量变化不同的光照条件会导致图像出现过曝或欠曝...
2025-03-12 21:49:32
107
转载 ICLR 2025|腾讯优图实验室6篇论文入选,含多模态大语言模型、人脸识别等研究方向...
关注公众号,发现CV技术之美近日,第 13 届 ICLR(International Conference on Learning Representations)国际学习表征会议公布了论文录用结果。本次大会共收到 11,565 篇有效论文投稿,录用率为 32.08%。ICLR 是人工智能和深度学习领域的重要国际学术会议之一,会议聚焦于表征学习(通常称为深度学习)的前沿研究,涵盖深度学习理论、表征...
2025-03-12 21:49:32
333
转载 CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集...
关注公众号,发现CV技术之美随着生成式人工智能技术(AIGC)的突破,文本到图像模型在故事可视化领域展现出巨大潜力,但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。为此,北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。论文地址:https://arxiv.org/pdf/2412.07...
2025-03-11 12:40:40
324
转载 从YOLOv5到YOLO11!改进有多大?
在目标检测领域,YOLO(You Only Look Once)一直是一种突破性算法。自YOLO算法问世以来,它已经演变为许多版本,其中最受欢迎的版本是YOLOv5和YOLOv8。这两个版本都有独特的特点和优势,使它们在各自的领域表现出色。YOLO算法的最大优点就是速度极快,每秒可处理45帧,也能够理解一般的对象表示。从个人学习来看:优秀的计算机视觉工程师,目标检测的学习避免不了,而目标检测的核心...
2025-03-11 12:40:40
116
转载 CVPR 2025 | Mamba和局部自注意力的首次碰撞:一种性能强大的混合视觉架构,代码已开源!...
关注公众号,发现CV技术之美本篇分享 CVPR 2025 论文,俞益洲教授团队提出新型语义分割框架SegMAN,在三大语义分割基准(ADE20K,Cityscapes, COCO-Stuff-164k)测试中展现出了卓越的性能。代码已开源!论文连接:https://arxiv.org/pdf/2412.11890(预印版)代码连接:https://github.com/yunxiangfu2001...
2025-03-10 13:37:30
562
转载 Serge Belongie组和ETH联合 | ICLR 2025 Spotlight:「免费」多模态信息助力3D小样本分割!...
关注公众号,发现CV技术之美突破单模态局限,多模态促进3D小样本分割当人形机器人能够辨识身边的一切,VR/AR设备呈现出定制化的虚拟世界,自动驾驶汽车实时捕捉路面状况,这一切都依赖于对3D场景的精确理解。然而,这种精准的3D理解往往需要大量详细标注的3D数据,极大推高了时间成本和资源消耗,而每当出现新场景或特定目标时,又不得不重复这一繁重过程。Few-shot学习是一种有效的解决思路——通过极少量...
2025-03-08 09:28:13
121
支持基本RichText编辑功能的消息应用程序附件
2010-06-09
数学建模个人经验谈共九个部分
2010-05-19
2010成都信息工程学院研究生数模赛题
2010-05-19
经过裁剪预处理的面部表情识别研究用JAFFE数据库
2010-05-12
人脸表情识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
人脸识别预处理人脸裁剪系统Face Cropping人脸裁切
2010-05-12
经过裁剪预处理的人脸识别研究用FERET数据库
2010-05-06
handwriten digit recognition by combined classifiers
2010-09-25
Automatic visual/IR image registration
2010-09-25
Statistical Pattern Recognition:A Review
2010-09-25
流形学习问题manifold study
2010-06-29
贝叶斯决策理论机器学习数据挖掘
2010-06-29
OpenCV1.0安装文件
2010-06-25
“中兴捧月”一种电信设备命令报文监视器界面的设计与实现附件(请不要下载)
2010-06-12
“中兴捧月”软件测试自动化附件
2010-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人