无敌悦悦王-CSDN博客

原创【SAM2代码解析】数据集处理3--混合数据加载器（DataLoader）

self._setup_dataloaders() 设置数据加载器。配置信息赋值给实例变量。初始化其他配置信息…

2025-04-30 15:59:19 293

原创【SAM2代码解析】数据集处理2

这里的逻辑是，我们使用segment_load方法得到的mask是true.false填充的，此时直接计算sum，若和>0，则说明存在obj。使用segment_loader的load方法，得到对象mask字典，字典的key是调色盘掩码png图像中，不同对象自身对应的像素值，字典的value是将不同对象分离后得到的单对象mask掩码，掩码的值是True和False。随机采样对象ID：从可见对象ID列表中随机采样max_num_objects个对象ID，如果可见对象ID少于最大值，则全部采样。

2025-04-29 11:20:10 614

原创【SAM2代码解析】数据集处理1

原始视频/标注…↓…[vos_segment_loader.py] → 加载掩膜…↓…[vos_raw_dataset.py] → 生成VOSVideo（元数据+帧列表）…↓…[vos_dataset.py] → 调用VOSSampler选择帧/对象 → 构造VideoDatapoint…↓…[transforms.py] → 应用翻转/缩放/马赛克等增强 → 标准化Tensor…↓…

2025-04-28 11:27:29 832

原创【SAM2代码解析】training部分代码详解-训练流程

【代码】【SAM2代码解析】training部分代码详解-训练流程。

2025-04-25 16:45:27 898

原创【SAM2系列】windows单GPU复现时的bug解决记录

windows运行sam2，就感觉在开一艘破破烂烂的船，每走一步报一个错，bug源源不断的冒出来😭😭😭😭😭。

2025-04-25 09:44:49 817

原创【SAM2代码解析】training部分-1总体概述

training folder保存了训练SAM2的相关代码，该代码允许使用者们用他们自己的数据集（图像、视频或两者一起）去微调SAM2。

2025-04-22 16:52:33 614

原创【分割论文集】LSBNet: Lightweight Symmetrically Balanced Network for Real-Time Semantic Segmentation

为了解决现有语义分割模型在移动设备上计算开销过大与实时推理速度之间的平衡问题，提出了一种用于实时语义分割的轻量化对称平衡网络（Lightweight Symmetrically Balanced Network，LSBNet）。

2025-04-22 10:50:14 1072

原创【SAM系列】SAM结构解析

以例图中的分割剪刀为例，剪刀像素占全部像素的比例大致为20%，，这里得到的mask是类别极度不均衡的场景。2、使用I0U的方式，排序mask。在反向传播时，参与计算的只有loss最小的mask相关的参数,只训练结果最好的，太差的直接忽略。因为使用transformer的类型，可以实现通用性，进行特征融合和多模态。3、loss和训练细节:主要使用的是focalloss。1、一个prompt，模型会输出3个mask，基本能满足大多数情况，主要解决物体之间相互覆盖人穿衣服)y越大越看重难分的类别。

2025-04-21 15:50:48 821

原创 SAM2: Segment Anything in Imagesand Videos

我们推出了Segment Anything Model 2（SAM 2），这是一个用于解决图像和视频中可提示视觉分割的基础模型。我们构建了一个数据引擎，通过用户交互来提升模型和数据质量，从而收集到迄今为止最大的视频分割数据集。我们的模型是一个简单的带有流式记忆的Transformer架构，用于实时视频处理。在我们的数据上训练的SAM 2在各种任务中表现出色。在视频分割方面，我们观察到更高的精度，且与以往方法相比，交互次数减少了3倍。

2025-04-15 11:30:20 925

原创【视频目标分割论文集】Efficient Track Anything0000

视频对象分割和追踪任意目标领域出现了强大的工具——分割任意模型 2（SAM 2）。SAM 2 实现令人印象深刻的视频对象分割性能的关键组成部分包括用于帧特征提取的大型多阶段图像编码器，以及存储过去帧记忆上下文以辅助当前帧分割的记忆机制。然而，多阶段图像编码器和记忆模块的高计算复杂度限制了其在实际任务中的应用，例如在移动设备上进行视频对象分割。为解决这一限制，我们提出了高效追踪任意目标模型（EfficientTAMs），这是一种轻量级的追踪任意目标模型，能够在低延迟和小模型尺寸下产生高质量的结果。

2025-04-14 10:09:43 469

原创【结肠息肉AI论文集】ASPS: Augmented Segment Anything Model for Polyp Segmentation

息肉分割在结直肠癌诊断中起着关键作用。最近，Segment Anything Model（SAM）的出现为息肉分割带来了前所未有的潜力，其在大规模数据集上的强大预训练能力使其备受关注。然而，由于自然图像和内窥镜图像之间存在领域差异，SAM在息肉分割中面临两个限制。首先，其基于Transformer的结构优先考虑全局和低频信息，可能会忽略局部细节，从而引入偏差。其次，在应用于内窥镜图像时，其较差的分布外（OOD）性能导致预测结果不佳和置信度输出偏差。

2025-04-11 13:31:03 595

原创【结肠息肉分割AI论文集】CTNet: Contrastive Transformer Network for Polyp Segmentation

从结肠镜图像中分割息肉在临床实践中非常重要，因为它为结直肠癌提供了有价值的信息。然而，息肉分割仍然是一个具有挑战性的任务，因为息肉具有伪装特性且大小差异很大。尽管最近提出了许多息肉分割方法并取得了显著的成果，但由于缺乏具有区分性特征和高级语义细节的特征，大多数方法无法产生稳定的结果。因此，我们提出了一个名为对比变换器网络（CTNet）的新息肉分割框架，它包含三个关键组件：对比变换器主干、自多尺度交互模块（SMIM）和集合信息模块（CIM），具有出色的学习和泛化能力。CTNet通过。

2025-04-11 11:29:09 727

原创【结肠息肉AI论文集】MSRAformer: Multiscale spatial reverse attention network for polyp segmentation

结肠息肉是诊断结直肠癌（CRC）的重要参考依据。在日常诊断中，从结直肠内窥镜图像中分割出息肉区域，并利用获得的病理信息辅助疾病诊断和手术。在结肠镜图像中准确分割息肉一直是一项具有挑战性的任务。同类息肉在形状、大小、颜色和纹理方面存在很大差异，且难以区分息肉区域与黏膜边界。近年来，卷积神经网络（CNN）在医学图像分割任务中取得了一些成果。然而，CNN侧重于局部特征的提取，缺乏提取全局特征信息的能力。本文提出了一种在医学分割方面性能优异的多尺度空间逆向注意力网络，称为MSRAformer。

2025-04-09 15:45:01 993

原创【结肠息肉AI论文集】Cross-level Feature Aggregation Network for Polyp Segmentation

从结肠镜图像中准确分割息肉在结直肠癌的诊断和治疗中起着关键作用。尽管在息肉分割领域已经取得了一定的成效，但仍存在诸多挑战。息肉通常具有多种大小和形状，并且息肉与其周围区域之间没有明显的边界(息肉分割的难点)。为应对这些挑战，我们提出了一种新颖的跨层特征聚合网络（CFA-Net）用于息肉分割。具体来说，我们首先提出了一个边界预测网络，用于生成具有边界感知能力的特征，这些特征通过逐层策略被整合到分割网络中。特别地，我们设计了一个基于双流结构的分割网络，以利用跨层特征中的层次化语义信息。

2025-04-09 14:56:32 798

原创【结肠息肉AI论文集】Shallow Attention Network for Polyp Segmentation

标注：这篇文章是2021的了，但是引言写的很好，可以用作写作参考。

2025-04-09 10:57:23 992

原创【MMSegmentation指南合集】MMSegmentation的数据流

计算分割任务的损失，支持多损失函数组合与采样策略。seg_logits：解码头输出的未归一化logits（形状为(B, C, H, W)）， batch_data_samples：包含标注和元信息的SegDataSample列表。

2025-03-12 15:37:17 1026

原创【mmSegmentation指南合集】训练和测试：2）使用预训练模型推理

MMSegmentation为用户提供了数个接口，以便轻松使用预训练的模型进行推理，官方提供了最方便的方式MMSegInferencer来使用模型，仅需3行代码就可以获得图像的分割掩膜。，比如 maskformer 的一个模型名称是 maskformer_r50-d32_8xb2-160k_ade20k-512x512，np.ndarray：通道为 RGB 的绘制图像。使用以下语句可以轻易的得到所有模型的名称。nn.Module：构建好的分割器。在图像上可视化分割结果。使用分割器推理图像。

2025-03-10 15:08:05 777

原创【mmSegmentation指南合集】训练和测试：1）了解配置文件

例如在DeepLabv3的基础上进行了一些修改，我们可以先通过指定_base_ = …/deeplabv3/deeplabv3_r50-d8_4xb2-40k_cityscapes-512x1024.py 继承基本的 DeepLabV3 结构，然后在配置文件中修改必要的字段。建议以以下结构命名配置文件：算法名-组件名-训练设置-训练数据集名以PSPNet为例：我们在基本配置文件的基础上构建新的配置文件，我们先通过指定_base_的方式，继承原有的配置。然后新设置的配置信息在下面。

2025-03-06 16:36:13 1010

原创【结肠息肉AI论文集】结肠息肉分类数据集合集1

结直肠癌（CRC）是全球癌症死亡的主要原因之一。尽管早期息肉切除术可降低CRC发病率，但90%的息肉为小型且微小，切除这些息肉存在患者风险可能超过获益的情况。在内镜检查中正确检测并预测息肉类型可使内窥镜医师切除并丢弃组织而无需进行组织学送检，从而节省时间和成本。然而，人类对早期息肉的视觉观察存在差异。因此，本文旨在开发一种全自动算法以检测并分类增生性和腺瘤性结直肠息肉。腺瘤性息肉应当切除，而远端微小增生性息肉则被视为临床无关紧要并可保留原位。

2025-03-03 14:15:29 1091

原创 polyper-readme

我们提出了一种新的边界敏感型息肉分割框架（Polyper）。该方法受临床医生利用息肉内部特征处理模糊边界的启发，通过显式利用息肉区域增强模型的边界判别能力，同时最小化计算开销。

2025-02-28 15:06:58 585

原创【结肠息肉AI论文集】QueryNet: A Unified Framework for Accurate Polyp Segmentation and Detection

近期，基于深度学习的方法在息肉诊断中展现出有效性，这对结直肠癌的预防具有重要的临床意义。这些方法大致可分为两类任务：息肉分割（Polyp Segmentation, PS）和息肉检测（Polyp Detection, PD）。息肉分割的优势在于精准定位，但其性能受限于息肉区域的对比度；而息肉检测则通过全局视角弥补了这一不足，但容易受到误检或漏检问题的影响。尽管两类任务均取得了显著进展，但将两者整合的研究仍较为有限。为解决这一问题，我们提出了统一框架QueryNet，用于实现息肉分割与检测的高效协同。

2025-02-28 14:04:44 1260

原创【结肠息肉AI论文集】An Efficient Multi-Task Synergetic Network for Polyp Segmentation and Classification

结肠镜检查被认为是早期发现和切除息肉的最佳诊断工具，这可以有效预防随之而来的结直肠癌。在临床实践中，从结肠镜图像中对息肉进行分割和分类具有重要意义，因为它们为诊断和治疗提供了宝贵的信息。在本研究中，我们提出了一种高效的多任务协同网络（EMTS-Net），用于同时进行息肉分割和分类，并引入了一个息肉分类基准，以探索上述两个任务的潜在相关性。

2025-02-28 11:06:14 822

原创【结肠息肉AI论文集】Multi-classification of colorectal polyps with fused residual attention

利用内镜图像对结直肠息肉进行多分类对于提高临床诊断准确性和降低结直肠癌死亡率至关重要。由于病变边界模糊、类内尺度变化以及类间相似性高，准确分类结直肠息肉面临重大挑战。为应对这些挑战，我们提出了用于结直肠息肉分类的融合残差注意力网络（FRAN）。FRAN采用双分支结构来强调语义和细节信息。残差注意力学习机制增强了对病变区域的检测，而全局依赖自注意力捕捉了全局上下文。此外，边缘特征融合模块与语义对齐相结合，减轻了上采样过程中的语义丢失，并捕捉到了边缘细节特征。

2025-02-27 15:37:53 1111

原创【结肠息肉AI论文集】PraNet: Parallel Reverse Attention Network for Polyp Segmentation

针对1）息肉大小、颜色、纹理具有多样性；2）息肉与周围粘膜组织边界并不清晰。两个问题，提出了使用反向注意力模块挖掘边界信息，以实现边界细化结肠镜检查是一种检测结直肠息肉的有效技术，而结直肠息肉与结直肠癌高度相关。在临床实践中，从结肠镜图像中分割息肉非常重要，因为它为诊断和手术提供了有价值的信息。（i）同类型的息肉在大小、颜色和纹理方面具有多样性；（ii）息肉与其周围黏膜之间的边界并不清晰。为应对这些挑战，我们提出了一种用于结肠镜图像中准确息肉分割的并行反向注意力网络（PraNet）。

2025-02-26 15:08:15 875

原创【结肠息肉AI论文集】Polyper:BoundarySensitivePolypSegmentation

我们提出了一种新的针对息肉分割的边界敏感框架，名为Polyper。我们的方法受到一种临床方法的启发，经验丰富的医学从业者常常利用息肉内部区域的固有特征来处理模糊的边界。受此启发，我们提出明确利用息肉区域来增强模型的边界区分能力，同时尽量减少计算量。我们的方法首先通过形态学算子从初始分割图中提取边界和息肉区域，然后设计边界敏感注意力机制，利用息肉内部区域的特征来增强边界区域附近的特征，从而生成良好的分割结果。

2025-02-12 15:29:37 1056

原创【VOS源码解析-2024CVPR-Cutie】2、train_wrapper结构解析

如图所示，encode_mask函数（位于cutie\cutie\model]big_modules中）一共有五个数据。

2025-01-21 16:57:55 440

原创【VOS源码解析-2024CVPR-Cutie】1、train_wrapper结构解析

数据预处理如代码和图所示，最开始的输入数据data是一个字典类型，它包含以下五个变量，这里只说最重要的三个变量。将上述得到的所有特征图进行维度转换，将原来展平的时间维度重新提取出来。

2025-01-21 11:10:58 736

原创【VOS源码解析-2024CVPR-Cutie】2、trainner 结构解析

例如，在一些视觉模型中，像素编码器（backbone）用于提取图像特征，其参数量通常较大，且在训练初期需要较慢的学习速度来稳定地学习通用的特征表示；而一些特定的嵌入层（如位置嵌入、类别嵌入等）则用于为模型提供额外的先验信息或特定的编码方式，其参数量相对较少，学习速度可以稍快一些，以便更好地适应特定任务。model参数中以pixel_encoder开头的划分为pixel_encoder参数，以某些特定后缀结尾的划分为embeding参数，剩下的分为其余参数。如果此时迭代至训练末尾，则开启频繁保存。

2025-01-17 16:27:48 991

原创【VOS源码解析-2024CVPR-Cutie】1、训练阶段概览

这里的pre训练方式和main训练方式的区别见AOT源码解析1~3.简单来说，pre训练是对单帧图像进行旋转、平移、裁剪的操作，生成4、5张fake图像，将原图和fake图像进行拼接，拼接成为伪视频进行vos model 训练。num_gpus = world_size：将world_size（分布式训练中的进程总数）赋值给num_gpus，表示检测到的GPU数量。info_if_rank_zero(f’Number of detected GPUs: {num_gpus}’)：记录检测到的GPU数量。

2025-01-15 14:02:48 932

原创【视频目标分割VOS-2023ECCV】Scalable Video Object Segmentation with Simplified Framework

背景目前流行的视频对象分割（VOS）方法通过几个手工制作的模块来实现特征匹配，这些模块分别执行特征提取和匹配。然而，根据经验，上述手工设计会导致目标交互不足，从而限制了 VOS 中的动态目标感知特征学习。方法为了解决这些局限性，本文提出了一个可扩展的简化 VOS（SimVOS）框架，利用单个变压器主干来执行联合特征提取和匹配。具体来说：1、SimVOS 采用了可扩展的 ViT 主干网，可同时进行特征提取以及查询特征和参考特征之间的匹配。

2024-10-11 16:48:17 1043

原创【视频目标分割VOS-2024ICCV】Spatial-Temporal Multi-level Association for Video Object Segmentation

现有的半监督视频对象分割方法要么专注于时间特征匹配，要么专注于时空特征建模。然而，它们没有同时解决足够的目标交互和高效并行处理的问题，从而限制了动态、目标感知特征的学习。为了克服这些限制，本文提出了一个时空多级关联框架，该框架联合关联参考帧、测试帧和对象特征，以实现足够的交互和并行目标 ID 关联，配合时空记忆库进行高效的视频对象分割。具体来说，我们构建了一个时空多级特征关联模块来学习更好的目标感知特征，将特征提取和交互表述为对象自注意力、参考对象增强和测试参考相关性的高效操作。

2024-10-10 16:12:17 953 1

原创【视频目标分割-2024CVPR】Putting the Object Back into Video Object Segmentation

背景：我们提出了Cutie模型，它是一个结合了对象级记忆读取的视频对象分割网络，它将记忆中的对象表征重新返还给视频目标分割结果。难点、不足：最近的VOS工作都采用自下而上的像素级记忆读取，它们由于匹配了噪声，尤其是在有干扰物的情况下，导致其结果在具有挑战性的数据下表现不佳。解决方案：Cutie通过采取一个小型的对象查询集合实现了自上而下的对象级记忆读取。它通过query-based object transformer与自下而上的像素级特征进行交互迭代。

2024-09-30 10:11:12 2444 2

原创 AOT源码解析4.5-AOT整体结构（Associating Objects with Transformers for Video Object Segmentation）

在这里，我们回顾AOT模型是如何使用Encoder和one-hot-mask模块处理输入图像和mask的。encoder处理输入图像输入数据的shape为[20，3，465，465]，在这里batch_size为4.因此代表输入数据包含4个batch的数据，每个batch包含5张图像。将输入数据输给mobilenetv2网络，提取四个不同比例的中间输出特征图，并将这些特征图分成五块。那么这五块的每一块都代表一张图像的特征。如图1右上角所示，按照图像进行对分块的特征图进行分类，每一个图像都包含四个特征图

2024-09-27 11:22:16 1161

原创 2024下半年CCF-A类会议投稿截止日期

会议类型CCF投稿截止日期VLDB 2025数据库/数据挖掘/内容检索A2024-10-02 08:00:00WWW 2025交叉/综合/新兴A2024-10-15 19:59:59SIGMOD 2025数据库/数据挖掘/内容检索A2024-10-18 19:59:00UbiComp/ISWC 2024人机交互与普适计算A2024-11-02 19:59:59CVPR 2025人工智能A2024-11-15 14:59

2024-09-26 15:02:28 2118

原创 AOT源码解析4.4 -decoder生成预测mask并计算loss(（Associating Objects with Transformers for Video Object Segmenta)

这一步在训练阶段调用。

2024-09-26 14:25:47 458

原创 AOT源码解析4.3-添加参考帧信息(Associating Objects with Transformers for Video Object Segmentation)

具体操作见。图1：如图所示，显示的是参考图像的位置编码和id编码的生成过程。对于id编码，将mask图像输入进conv2d卷积网络后，进行结构转换，得到相应的id编码。对于位置编码，①根据最后一个比例特征图的高度和宽度生成高宽位置索引，索引值是0~29。②根据高宽的位置缩影得到xy两个维度的位置编码，分别命名为grid_x和gird_y。③在位置编码的前后分别扩充一个维度后，将位置编码除以温度变量dim_t。④计算位置编码偶数位的sin值和奇数位的cos值。⑤合并两个位置编码。

2024-09-24 16:57:07 863

原创 AOT源码解析4.2-生成位置编码和ID编码（Associating Objects with Transformers for Video Object Segmentation）

图1：如图所示，显示的是参考图像的位置编码和id编码的生成过程。对于id编码，将mask图像输入进conv2d卷积网络后，进行结构转换，得到相应的id编码。对于位置编码，①根据最后一个比例特征图的高度和宽度生成高宽位置索引，索引值是0~29。②根据高宽的位置缩影得到xy两个维度的位置编码，分别命名为grid_x和gird_y。③在位置编码的前后分别扩充一个维度后，将位置编码除以温度变量dim_t。④计算位置编码偶数位的sin值和奇数位的cos值。⑤合并两个位置编码。

2024-09-23 16:37:20 473

原创 AOT源码解析4.1-对输入数据和mask进行处理（Associating Objects with Transformers for Video Object Segmentation）

VOS的数据集处理操作可见，这里是进行数据集提取完毕后的操作。图2：如图所示，使用datasets提取出数据之后，在模型训练阶段对数据做图中操作。即：将batch_size大小的ref_imgs、prev_imgs，和3batch_size大小的curr_imgs在通道维度上进行合并。如图例，batch_size为4时，得到203465465大小的合并图像和201465*465大小的合并mask。

2024-09-20 16:44:17 1452

原创 AOT源码解析3

前置阅读papergithub文献阅读笔记代码模块AOT源码解析1AOT源码解析2代码分析1.训练模块初始化1.1 设置GPU并打印配置属性#==================================================设置GPU并打印配置属性=================================================== #------------选择GPU和参数------------- self.g

2024-09-14 15:09:24 535

原创 AOT源码解析2

这里值得注意的是，源代码中将BatchNorm2d进行冻结，同时选择在训练时加载backbone的预训练权重后不冻结backbone层。它是所有神经网络模块的基类，提供了一种组织层（Layer）、激活函数和损失函数的方式，使得模型可以方便地进行训练和推理。这段代码定义了一个名为 FrozenBatchNorm2d 的类，它是 torch.nn.Module 的子类，用于创建一个冻结的批量归一化层（BatchNorm）。在这个类中，批量统计数据（均值和方差）和仿射参数（权重和偏置）都被固定，不参与训练。

2024-09-13 13:48:30 1074

空空如也

空空如也