上元星如雨-CSDN博客

原创 libtorch实现vgg图像分类

【代码】libtorch实现vgg图像分类。

2025-05-10 17:54:23 92

原创详解LibTorch中train()函数

类似，但有一些 C++ 特有的细节。（PyTorch 的 C++ 版本）中，如果实现自定义 C++ 模块，需检查。函数的作用与 Python 版的。在 LibTorch 中，

2025-04-21 17:48:58 235

原创预训练（Pre-training）和微调（Fine-tuning）

是模型训练的两个关键阶段，尤其在自然语言处理（NLP）和计算机视觉（CV）中广泛应用。它们的核心目的是通过迁移学习（Transfer Learning）提升模型性能，减少训练成本。这种范式已成为现代 AI 的主流方法（如 ChatGPT 基于 GPT-3 微调，Stable Diffusion 基于 LAION 数据集预训练）。（如情感分析、医学图像分类）进行小规模调整，使模型适应新任务。这一阶段通常是计算密集型任务，依赖海量数据和强大算力。预训练是指在大规模通用数据集上训练模型，使其学习到。

2025-04-01 20:48:05 589

原创详解VAE损失函数

重建损失是“数据忠诚度”的守护者，确保输出接近输入。KL散度是“模型简约性”的裁判，防止潜在空间过度复杂。两者平衡是VAE能同时实现特征学习和数据生成的关键。

2025-03-31 17:40:11 1081

原创理解透视变换的坐标和参数

理解透视变换的坐标和参数是掌握计算机视觉中几何变换的关键。

2025-03-31 10:22:49 1091

原创仿射变换、透视变换和刚体变换的详细对比

以下是仿射变换、透视变换和刚体变换的详细对比表格：x′y′1=cosθsinθ0−sinθcosθ0txty1xy1[x′y′1]=[abtxcdty001][xy1]\begin{bmatrix}x'\\y'\\1\end{bmatrix}=\begin{bmatrix}a&b&t_x\\c&d&t_y\\0&0&1\end{bmatrix}\begin{bmatrix}x\\y\\1\end{bmatrix}x′y′1=ac0bd0txty1xy1

2025-03-31 09:45:56 748

原创从并行角度优化Zhang细化算法

Zhang细化算法是一种常用的二值图像骨架提取算法，通过迭代删除满足特定条件的边界点来获得单像素宽度的骨架。从并行角度优化该算法可以显著提高处理速度，特别是对于大尺寸图像。

2025-03-31 09:36:38 308

原创旋转变换原理

旋转是仿射变换的一种，通过变换矩阵实现图像绕指定中心旋转，保持直线和平行性不变。

2025-03-28 20:59:07 252

原创 SegFormer

MiT是改进的Vision Transformer（ViT），通过分层设计提取多尺度特征，分为多个阶段（如MiT-B0到MiT-B5，参数量递增）。SegFormer 是一种高效的语义分割模型，它结合了Transformer架构和多尺度特征融合的优势，在保持高精度的同时显著降低了计算量。MiT输出4个不同尺度的特征图（如1/4, 1/8, 1/16, 1/32分辨率），用于后续解码。

2025-03-28 10:20:03 868

原创先验分布、后验分布、似然估计

先验分布。

2025-03-26 11:43:39 896

原创计算机视觉的多模态模型

多模态模型通过融合多种类型的数据（如图像、文本、音频等），能够更好地理解和处理复杂的现实世界任务。它在计算机视觉、自然语言处理、语音识别等领域有广泛应用，是人工智能研究的重要方向之一。

2025-03-22 18:26:42 684

原创 i++和++i的区别

在for循环中，i++和++i的效果通常相同。对于内置类型，性能差异可以忽略；对于自定义类型，推荐使用++i。根据具体需求选择使用i++或++i，尤其是在表达式中。

2025-03-22 11:06:17 578

原创图像平滑处理

图像平滑处理是一种重要的图像处理技术，通过模糊图像中的高频分量（如噪声、细节）来实现去噪和图像增强。常见的平滑方法包括均值滤波、高斯滤波、中值滤波和双边滤波，每种方法都有其优缺点和适用场景。通过合理选择平滑方法，可以有效提升图像质量，为后续的图像分析和处理任务奠定基础。

2025-03-12 20:15:35 1235

原创位置注意力机制详解

位置注意力机制（Position Attention Mechanism）是一种用于捕捉输入数据中空间位置关系的技术。它通过显式建模位置之间的依赖关系，增强模型对局部和全局信息的理解能力。位置注意力机制广泛应用于计算机视觉（CV）任务中，如图像分类、目标检测、语义分割等。位置注意力机制的核心思想是通过计算输入特征图中不同位置之间的关系，动态调整特征的权重，从而增强重要位置的特征表示。是关系函数（如点积、余弦相似度等）。分别是特征图的高度和宽度，是特征图的位置总数。

2025-03-11 16:29:47 851

原创 ResNet中的下采样选项详解

在ResNet（残差网络）中，下采样（Downsampling）是指在网络的不同阶段通过降低特征图的分辨率来减少计算量，同时增加特征图的通道数以捕获更高级的特征。下采样通常通过步幅（stride）大于1的卷积层或池化层来实现。ResNet中的下采样选项通常与残差块（Residual Block）的设计相关，尤其是在跳跃连接（Skip Connection）中如何处理输入和输出特征图的尺寸不匹配问题。下采样是ResNet中用于减少特征图空间尺寸和增加通道数的重要操作。在残差块中，下采样可以通过。

2025-03-11 11:44:04 812

原创 C++中的c_str函数详解

c_str是C++标准库中类的一个成员函数，用于返回一个指向以空字符（\0）结尾的C风格字符串的指针。这个函数在处理需要C风格字符串的场合（如调用C标准库函数或与C代码交互）时非常有用。c_str是类中一个非常有用的函数，用于将C++字符串转换为C风格字符串。它在与C标准库函数、文件操作和系统调用交互时非常有用。使用时需要注意返回指针的只读性和生命周期问题，以确保代码的安全性和正确性。理解和使用c_str函数，可以提高C++程序与C代码的兼容性和互操作性。

2025-03-10 12:03:33 452

原创 C++中的FUNCTION详解

是C++中的一个预定义宏，用于获取当前函数的名称。它在调试和日志记录中非常有用，可以帮助开发者快速定位代码执行的位置。是C++中一个非常有用的宏，用于获取当前函数的名称。它在调试、日志记录和错误处理中非常有用。结合，可以获取更详细的函数签名信息。理解和使用这些宏，可以提高代码的可维护性和调试效率。

2025-03-10 12:00:00 222

原创 Faster R-CNN

是一种经典的两阶段目标检测方法，其核心思想是通过生成候选区域（Region Proposals），然后对这些候选区域进行分类和回归。以下是 Faster R-CNN 的详细工作流程及其关键组件。

2025-03-08 11:26:20 897

原创 ROI Pooling

是目标检测中的一种重要操作，用于将不同大小的候选区域（Region of Interest, ROI）转换为固定大小的特征图。它通常用于 Faster R-CNN 等两阶段目标检测模型中。以下是 ROI Pooling 的详细说明及其实现。

2025-03-08 11:01:29 500

原创带权重的交叉熵损失函数

根据具体任务的需求，手动设置每个类别的权重。

2025-03-07 14:44:03 721

原创数字图像处理：伪彩色处理

（Pseudocolor Image Processing）是一种将灰度图像转换为彩色图像的技术。通过将不同的灰度值映射到不同的颜色，可以增强图像的视觉效果，突出图像中的细节信息。伪彩色处理是一种简单而有效的图像增强技术，通过将灰度值映射到颜色，可以显著提升图像的视觉效果。伪彩色处理的核心思想是将灰度图像中的每个像素值映射到一个颜色空间（如 RGB）。函数）来实现伪彩色处理。以下是使用 C++ 和 OpenCV 实现伪彩色图像处理的详细讲解和代码示例。以下是使用 OpenCV 实现伪彩色处理的代码示例。

2025-03-03 17:48:42 874

原创数字图像处理：Blob分析

BLOB 分析是数字图像处理中的重要技术，广泛应用于目标检测、物体跟踪、形状分析等领域。通过合理的预处理、二值化、连通区域检测和特征提取，可以有效地提取和分析图像中的目标区域。OpenCV 提供了丰富的函数支持 BLOB 分析，开发者可以根据具体需求灵活使用。BLOB 是指图像中具有相同像素值（通常是前景像素）且空间上连通的区域。在 BLOB 分析之前，通常需要对图像进行预处理，以提高分析效果。提取每个 BLOB 的特征，用于后续分析或分类。的详细讲解，包括其原理、流程、常用方法以及实际应用。

2025-03-03 17:32:22 802

原创数字图像处理：直方图均衡化代码实现-C++

是一种常用的图像增强技术，通过调整图像的灰度分布，使得图像的对比度得到增强。以下是使用 C++ 和 OpenCV 实现数字图像直方图均衡化的完整代码和详细说明。

2025-03-03 15:40:34 483

原创详解语义分割任务

输入：一张图像。输出：一张与输入图像大小相同的分割掩码（Segmentation Mask），其中每个像素的值表示其所属的语义类别。目标：将图像中的每个像素分类到预定义的语义类别中（如人、车、树、天空等）。语义分割是一种像素级分类任务，目标是为图像中的每个像素分配一个语义类别标签。语义分割在自动驾驶、医学图像分析、遥感图像分析等领域有广泛应用。常用的语义分割方法包括 FCN、U-Net、DeepLab 系列、PSPNet 和 Mask R-CNN。

2025-03-01 14:17:15 1122

原创详解Pytorch：张量自动微分

自动微分是 PyTorch 的核心功能，用于自动计算张量的梯度。通过设置，PyTorch 会跟踪张量操作并构建计算图。调用方法可以自动计算梯度，并通过.grad属性获取梯度。自动微分在神经网络的训练和自定义函数的梯度计算中非常有用。

2025-03-01 09:44:56 745

原创详解灰度级形态学处理

灰度级形态学是形态学图像处理的重要扩展，能够直接处理灰度图像并保留图像的灰度信息。通过腐蚀、膨胀、开运算、闭运算等基本操作，可以实现去噪、边缘检测、特征提取等多种任务。结合扩展操作（如形态学梯度、顶帽变换等），可以进一步解决复杂的图像处理问题。灰度级形态学在医学影像、工业检测、计算机视觉等领域有广泛的应用。（Gray-level Morphology）是形态学图像处理在灰度图像上的扩展。与二值形态学（仅处理二值图像）不同，灰度级形态学直接处理灰度图像，能够保留图像的灰度信息，适用于更复杂的图像处理任务。

2025-02-26 16:01:47 669

空空如也

空空如也