万里鹏程转瞬至-CSDN博客

原创开源项目：optimum-quanto库介绍

项目地址：https://github.com/huggingface/optimum-quanto官网介绍：https://huggingface.co/blog/quanto-introduction量化是一种技术，通过使用低精度数据类型（如 8 位整数（int8））而不是通常的 32 位浮点（float32）来表示深度学习模型的权重和激活，从而降低评估深度学习模型的计算和内存成本。减少位数意味着生成的模型需要更少的内存存储，这对于在消费类设备上部署大型语言模型至关重要。

2025-05-04 19:45:05 365

原创 python 工具方法50 高效的将onnxruntime推理代码修改为tensorrt推理代码

onnxruntime推理时可以直接以numpy数组为输入，可以便捷的支持多输入多输出模型。但需要修改为python-tensorrt推理时，需要补充上cuda操作，完成cpu变量与cuda变量的通信、输出输出的内存分配。为此对python-tensorrt推理代码进行共性化提取，让您可以像python-onnxruntime一样使用tensorrt推理，仅需替换2行代码即可（模型初始化代码，onnx.run调用代码）。前置条件：安装py-cuda库、tensorrt-python 10.x推理环境。

2025-04-19 21:12:02 46

原创 pytorch 51 GroundingDINO模型导出tensorrt并使用c++进行部署，53ms一张图

博主基于https://github.com/hpc203/GroundingDINO-onnxrun项目分享的onnx c++推理代码，修改为GroundingDINO模型的tensorrt推理代码。对于600x400的输入，在3060显卡下，cuda 12.1，TensorRT-10.4.0，window环境下53ms处理完一张图片。

2025-04-19 20:42:08 356

原创基于deepspeed 官网api梳理出模型并行的调用案例

deepspeed 是一个实现模型并行的开源框架，但网上很难搜索到基于ds实现训练自己模型的代码。为此对deepspeed 官网api与豆包模型进行拷打，整理出可用的demo。。 ZeRO-1：减少优化器状态的内存占用。ZeRO-2：进一步减少梯度的内存占用。ZeRO-3：完全消除冗余，将模型参数也进行分区，显著减少内存占用，但通信开销增加。

2025-04-14 04:15:00 712

原创深度学习中多机训练概念下的DP与DDP

`DDP模式下对batchnorm的训练有影响，因为DDP模式下每个卡拿到的都是局部数据，故需要将batchnorm替换为syncbatchnorm，在bn层的forward前需要将全局多机所有显卡计算出的均值方差数据进行同步。`这里需要注意的是，`DP/DDP可以基于数据划分的模式提升batchsize，达到单机单卡下梯度累积训练的效果，但解决不了显存不够用的情况（单机下batch为1无法训练的模型，DDP模式下也无法训练）`。

2025-04-13 22:38:13 857

原创开源项目介绍：GroundingDINO-TensorRT-and-ONNX-Inference

开源时间：2024.11.x项目分享将GroundingDINO中模型导出onnx后python推理、onnx转trt模型、trt模型python推理代码。这里导出的模型与hpc203/GroundingDINO-onnxrun 导出的onnx模型是完全通用的。基于这里提供的trt模型python推理代码，可以实习c++ 下tensorrt推理GroundingDINO模型。

2025-04-13 22:14:55 837

原创深度学习中模型量化那些事

在深度学习中模型量化可以分为3块知识点，数据类型、常规模型量化与大模型量化。本文主要是对这3块知识点进行浅要的介绍。其中数据类型是模型量化的基本点。常规模型量化是指对普通小模型的量化实现，通常止步于int8的量化，绝大部分推理引擎都支持该能力。而大模型的量化，需要再cuda层次进行能力的扩展，需要特殊的框架支持。

2025-04-06 21:51:58 972 1

原创开源项目介绍：Liger-Kernel 用于 LLM 训练的高效 Triton 内核

Liger Kernel 是专为 LLM 训练设计的 Triton 内核集合。它可以有效地提高 20% 的多 GPU 训练吞吐量，并减少 60% 的内存使用。我们已经实施了 Hugging Face 适配，以及更多即将推出的功能。该内核可与 Flash Attention、PyTorch FSDP 和 Microsoft DeepSpeed 配合使用，开箱即用。我们欢迎社区的贡献，以收集用于 LLM 训练的最佳内核。RMSNorm、RoPE、SwiGLU、CrossEntropy、FusedLinearCr

2025-03-23 15:52:04 1201

原创开源项目介绍：triton

Triton 的核心理念是基于分块的编程范式可以促进神经网络的高性能计算核心的构建。CUDA 编写属于传统的 “单程序，多数据” GPU 执行模型，在线程的细粒度上进行编程，Triton 是在分块的细粒度上进行编程。例如，在矩阵乘法的情况下，CUDA和Triton有以下不同。

2025-03-23 09:36:43 980

原创 InternVL2.5相比与InternVL2性能提升的关键工作分析

InternVL2.5是第一个在 MMMU 基准上达到 70% 以上的开源 MLLM，其以InternVL2的研究工作为基础，在模型结构上没有过多调整，但在数据处理逻辑、模型训练策略、训练数据增广方式进行优化，从而实现了有效的整体涨点。

2025-03-10 00:15:00 1118

原创 pytorch 50 大模型导出的onnx模型优化尝试

本博文基于Native-LLM-for-Android项目代码实现，具体做了以下操作：1、尝试并实现将模型结构与权重零散的onnx模型进行合并，通过该操作实现了模型加载速度提升，大约提升了3倍2、突破了onnxconverter_common 无法将llm模型导出为fp16的操作，基于该操作后将10g的权重降低到5.6g，但推理速度反而下降了3、实现了fp32格式的onnx模型转换为int8模型，该操作后模型权重只占3g，但推理结果完全不准。

2025-03-09 16:32:29 240

原创 InternVL2: Better than the Best—Expanding Performance Boundaries of Open-Source Multimodal Models

基于对InternVL2的分析，可以得到以下经验：1、对于将预训练好的VIT与LLM模型组装成mllm模型时，可以只训练MLP部分，实现快速的模态对齐2、llm部分的升级可以大幅度提升mllm模型的效果，尤其是在非标准格式问答中3、数据分布域的改变，导致在标准格式输出，如grounding任务中，模型性能的下降（这表明模型能力的提升不一定是全面的）

2025-03-09 03:30:00 905

原创开源项目介绍：Native-LLM-for-Android

Native-LLM-for-Android项目主要提供2个参考点，1、将LLM模型导出为onnx模型，2、在安卓端实现LLL模型的运行，本博文主要关注将llm导出为onnx推理（对现有的llm模型进行局部修改并导出），并以miniCPM模型为例进行测试。同时，Native-LLM-for-Android项目还有一些列模型量化代码可以学习。

2025-03-08 23:28:29 1292

原创使用LightGlue进行图像配准并提取图像重叠区域

发表日期：2023年6月23日LightGlue是一个在精度上媲美Superglue，但在速度上比Superglue快一倍的模型。通过博主实测，LightGlue的配准效果比Superglue好，LightGlue配准后的结果错误点更少，同时提取的重叠区域更精准。基于Superpoint+Superglue 提取重叠区域的代码可以参考。

2025-02-04 21:30:09 1513 4

原创一文了解22-24年的7篇知识蒸馏相关论文、实现代码及其有益效果

2024年，SDD指出困难样本中存在类间相似情况，提出基于SPP得到21个分块然后对比局部块与全局块的结果差异区分差异化设置loss权重，其效果比Logit Standardization要好；2024年，Logit Standardization提出了直接基于logit值计算KD loss的偏差问题，将标准化添加到KD中，属于对logit值蒸馏方法的改进，并在各种现有的知识蒸馏方法应用Standardization中，取得了有效增益。可以与SDD方法共同补充到各种基于逻辑值的蒸馏方法中。

2025-02-01 22:45:37 1874

原创修改2行代码在ultralytics项目中实现知识蒸馏支持任意模型（基于特征图的对齐）

本文主要是实现对ultralytics项目中任意模型的知识蒸馏（要求模型是同构的），具体是实现backbone级别或neck级别的蒸馏。具体对应Object detection at 200 Frames Per Second与Focal and Global Knowledge Distillation for Detectors两篇论文对应的知识蒸馏方法，并以yolo11s为教师模型、yolo11n为学生模型，以map50为评价指标，在URPC2019数据集、SARDet-100k测试数据集进行验证，均

2025-02-01 13:15:00 296

原创 yolo系列模型的知识蒸馏效果探索

得出以下结论：1、基于知识蒸馏得到学生模型没有经迁移学习后得到的模型精度高的现象，这表明`只有在迁移学习与直接训练时精度相同，才优先考虑知识蒸馏`；2、发现可以发现未得到有效训练的模型，再次进行知识蒸馏时，可以有显著涨点。基于该经验，`对于提到知识蒸馏大幅度提升模型效果，可能要论证一下原始的学生模型是否得到收敛。同时，要对比模型精度提升，是否由模型二次训练带来的迭代数变多导致的提升`；3、发现基于对coco预训练后的迁移权重，再次进行知识蒸馏时，可以发现基本上没有有效作用。这表明`知识蒸馏中，

2025-01-20 00:23:04 1717

原创迁移学习中模型训练加速（以mllm模型为例），提速15%以上

根据的分析，一个1g参数的模型（存储占用4g）训练大约需要20g的显存，其中梯度值占用的显存约一半。博主本意是想实现在迁移学习（冻结部分参数）中模型显存占用的降低，结果不太满意，只能实现训练速度提升，但无法实现显存占用优化。预计是在现有的训练框架中，对于显存占用优化做的十分到位，优化空间极小。但基于现有的策略，在不影响任何训练效果下，侥幸能实现训练速度提升15%也是十分有意义的。

2024-12-14 23:00:00 398 4

原创项目快过：MARCONet | 适用于文字识别的图像盲超分修复

论文地址：https://arxiv.org/pdf/2303.14726项目地址：https://github.com/csxmli2016/MARCONet发布时间：2023年4月22日盲文本图像超分辨率（SR）是一个挑战，因为人们需要应对不同的字体风格和未知的退化。为了解决这一问题，。尽管如此，。这个问题进一步复杂化了复杂结构的汉字，例如，。在这部工作中，我们提出了一个新颖的模型，更关注文字结果。

2024-12-14 11:45:45 1125

原创项目快过：知识蒸馏 | 目标检测 |FGD | Focal and Global Knowledge Distillation for Detectors

公开时间：2022年3月9号项目地址：https://github.com/yzd-v/FGD论文地址：https://arxiv.org/pdf/2111.11837知识蒸馏已成功地应用于图像分类。然而，。本文指出，在目标检测中，教师和学生的特征在不同的领域有很大的差异，特别是在前景和背景上。如果我们平均地提取它们，。因此，我们。。由于我们的方法。我们在不同骨架的各种检测器上进行了实验，结果表明，该学生检测器取得了良好的mAP改进。

2024-12-01 21:43:30 1252

原创知识蒸馏中有哪些经验| 目标检测 |mobile-yolov5-pruning-distillation项目中剪枝知识分析

项目时间：2022年mobile-yolov5-pruning-distillation是一个以yolov5改进为主的开源项目，主要包含3中改进方向：更改backbone、模型剪枝、知识蒸馏。这里主要研究其知识蒸馏部分，根据其分享的实验数据，获取对目标检测中模型剪枝的认知。希望阅读本博文的读者，能给项目一个satr。该项目中关于知识蒸馏首先介绍了基本分类情况，关于实验主要是分享了三种蒸馏策略下的模型效果。蒸馏是希望将T模型学习到的知识迁移到S模型中。

2024-11-29 23:45:00 882

原创项目快过：Illumination-Adaptive-Transformer | You Only Need 90K Parameters to Adapt Light

本文是为数不多将过暗与过曝基于一种网络结构实现的模型，算法运行速度极其快，但并没有在一个训练任务中使模型兼容过暗与过曝调节能力。同时，在下游任务中，作者的实验较少，只是表现在过暗图像目标检测中取得了良好的效果。如果仅是为了做过暗图像矫正，可以考虑使用[SCI网络](https://hpg123.blog.csdn.net/article/details/140417597)。推荐SCI理由：1、不容易存在将图像矫正为过曝；2、SCI作者分享了大量的下游应用效果，其表明在语义分割与目标检测中均取得显著效果。但

2024-11-25 02:45:00 836

原创 pytorch 49 GroundingDINO导出为onnx模型实现python与c++部署

本博文实现了在win环境下，将GroundingDINO模型导出为onnx模型，并基于cmakelist生成c++项目实现模型的部署。并分析了官方项目为什么不能直接导出onnx，主要基于https://github.com/wenyi5608/GroundingDINO项目公开的代码实现项目，只是补充了c++配置项，实现了模型转tensorrt格式。在600x600的输入下，3060显卡，torch推理、python-onnx、c+±onxx推理速度均在0.1s左右。

2024-11-23 11:06:24 883 2

原创论文快过：Root Mean Square Layer Normalization

RMSNorm假设LayerNorm中的重新定心不变性是可或缺的，RMSNorm根据均方根（RMS）对一层神经元的求和输入进行正则化，给出了模型的重新缩放不变性和隐式学习率适应能力。RMSNorm在计算上更简单，因此比LayerNorm更有效。我们还提出了部分RMSNorm，或pRMSNorm，其中RMS是从求和输入的p%估计的，而不破坏上述属性。在使用不同网络架构的几个任务上进行的大量实验表明，RMSNorm实现了与LayerNorm相当的性能，但在差异上减少了7%的∼64%

2024-11-23 08:45:52 1002

原创模型训练过程的显存占用优化

在冻结模型部分参数时，理论上被冻结的参数不需要梯度，应该可以降低训练过程的显存占用。然而，在博主的实际测试中，冻结模型参数并没有显著降低模型参数占用。为此对训练提醒代码进行优化，意图实现模型显存占用的优化。通过对训练过程中的激活值与梯度值的优化，在针对冻结95%的训练场景，模型训练速度可以加速20%，模型显存占用降低到原来的22%（拟定torch.cuda环境占用显存为1.4g）后续的显存占用，均基于nvitop命令实现。

2024-11-17 23:18:36 314

原创模型训练过程的显存占用实测

在这里，基于模型1与模型2初始化的显存差异，可以确认resnet101的显存占用为0.3887-0.2207=0.1679G=167.9M ，根据参数量40.731M推算理论显存占用应当为162.924M。基于模型1与模型2初始化的显存差异，可以确认resnet50的显存占用为0.2441-0.1680=0.0761G=76.1M ，根据参数量22.618M推算理论显存占用应当为90.472M。Step2:开辟一块新的存储空间，将FP32精度的模型权重转换为FP16精度的模型权重。

2024-11-17 22:23:44 1395

原创 FasterNet中Pconv的实现、效果与作用分析

发表时间：2023年3月7日论文地址：https://arxiv.org/abs/2303.03667项目地址：https://github.com/JierunChen/FasterNetFasterNet-t0在GPU、CPU和ARM处理器上分别比MobileViT-XXS快2.8×、3.3×和2.4×，而准确率要高2.9%。

2024-11-09 22:52:50 1073

原创多模态模型中的动态分辨率总结

在最近的多模态模型中，均表明动态分辨率策略是提升模型性能的要点（），动态分辨率可以使模型能针对不同的数据场景，与固定分辨率相对立，避免了将高清数据resize到低分辨率，从而丢失大量信息，导致在特定任务下效果下降（如InfoVQA、HallusionBench和OCRBench等任务，具体与数据任务相关）。为此对InternVL 1.5、LLaVA-OneVision、ORYX MLLM、qwen2-vl等论文中提到到动态分辨率规则进行对比分析。

2024-11-06 21:45:21 2369

原创将任意图像增强模型与ultralytics中任意模型进行结合（二）| yolo11与gdip模块、ipam的融合实践

ultralytics库代码总是在不断更新迭代，原来自行添加到ultralytics库的模型代码，随着更新的yolo模型发布，自行修改模型代码又要进行新一轮同步，这不是一个明智的操作。为此博主提出将任意图像增强模型与ultralytics中任意模型进行结合方式，前面仅是以低亮度图像修复模型SCINet为例，在这里以带雾图像增强模块gdip、ipam模块的与ultralytics库中最新模型yolo11的融合。库代码更新。

2024-10-21 00:02:33 346

原创 python工具方法 49 基于深度估计模型Depth-Anything-V2生成带雾图片

项目地址：https://github.com/DepthAnything/Depth-Anything-V2模型地址：https://hf-mirror.com/depth-anything论文地址：https://arxiv.org/abs/2406.09414在较多的带雾目标检测算法中均是基于大气散射模型的逆向操作生成带雾图片，具体参考，该模式生成的带雾图片真实感较差，且与物理规则有差异（），具体效果如下图所示。然而在真实世界中，是景深越大，雾气叠加越多（

2024-10-20 10:35:11 401

原创基于开源大型lmm模型生成标签对InternVL2-1B等轻量lmm模型进行微调

基于开源大型lmm模型生成标签对InternVL2-1B等轻量lmm模型进行微调，提升InternVL2-1B等轻量lmm模型的能力。本实验在window下，基于3060 12g显卡进行实验。基于qwen2-vl 7b模型生成标签（电脑显存大的话可以考虑qwen2-vl 72b模型），然后对InternVL2-1B进行Lora微调。以voc2012_val里面的3000多个图片为训练数据，耗时1小时完成。最后测试微调前后的模型，可以发现微调后的InternVL2-1B模型在特定任务上（目标与数量识别）的能力

2024-10-08 03:45:00 330

原创论文阅读：Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

公开时间：2024年10月3日Qwen2-VL是对之前的Qwen-VL模型的高级升级，重新定义了视觉处理中传统的预定分辨率方法。。这种方法允许模型生成更有效和更准确的视觉表征，与人类的感知过程密切一致。。我们，Qwen2-VL研究了大型视觉语言模型（LVLMs）的缩放定律。通过扩展模型的大小-2B、8B和72B参数的版本和训练数据的量，Qwen2-VL系列实现了具有高度竞争力的性能。

2024-10-07 22:08:06 2936 1

原创论文阅读：LLaVA-OneVision: Easy Visual Task Transfer

LLaVA-OneVision是一个开放的大型多模态模型（LMMs），它是通过整合在LLaVA-NeXT博客系列中的数据、模型和可视化表示的见解而开发的。实验结果表明，LLaVA-OneVision是第一个能够在三个重要的计算机视觉场景：单图像、多图像和视频场景的单一模型。论文的核心是分享了一个OneVision的架构设计，以统一对单图、多图及视频任务的训练框架（token编码规则），将单图训练的能力迁移到多图与视频中。同时分享了一种动态分辨率设计规则，以提供更好的视觉表示（兼容图像视频）；最后介绍了训练数

2024-10-07 00:12:13 2201 1

原创论文阅读：InternVL v1.5| How Far Are We to GPT-4V? 通过开源模型缩小与商业多模式模型的差距

基于强视觉编码器、动态高分辨率、高质量双语数据集，InternVL v1.5显示了具有和专有的商业模型相竞争的性能，在18个多模态基准中的8个中取得了最先进的结果。InternVL1.5，是一个开源的多模态大型语言模型（MLLM），可以在多模态理解中弥合开源和专有商业模型之间的能力差距。我们介绍了三个简单的改进： (1)强视觉编码器：我们探索了大规模视觉基础模型的持续学习策略InternViT-6b，提高其视觉理解能力，并使其可以在不同的llm中转移和重用。(2)动态高分辨率。

2024-10-06 11:20:33 1941 5

原创论文阅读：ORYX MLLM: ON-DEMAND SPATIAL-TEMPORAL UNDERSTANDING AT ARBITRARY RESOLUTION

1、在本论文中展示分辨率对于不同任务的影响，可以发现对于MMBench、TextVQA分辨率对效果影响不大，而MMMU、DovVQA、OCRBench则要求更高的分辨率输入。2、ORYX-7b模型在图像领域，OCRBench、TextVQA val DocVQA test上效果不如2~3个月开源的MiniCPM-Llama-V 2.5、InternVL2-8B、MiniCPM-V 2.6 8b等模型；在视频领域，video-mme基准上也不如MiniCPM-V 2.6 8b、Qwen2-VL 7b等模型；

2024-10-06 10:30:00 938 1

原创论文阅读：InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

1、计了一个大规模的视觉-语言基础模型（InternVL），该模型将视觉基础模型扩展到60亿个参数（InternVIT），并使用来自不同来源的网络规模的图像-文本数据逐步将其与LLM对齐;2、所实现的InternVIT在ViT-22B规模下可以作为最佳选择，在图像级或像素级识别，视觉语言任务，如zero-shot图像/视频分类，zero-shot图像/视频文本检索，均取得良好效果;3、论文的核心思想在于扩展VLLM的VIT部分，以使得视觉部分与LLM部分参数量对齐；并提出渐进式训练VLLM模型的具体步骤

2024-10-03 21:53:46 1882 1

原创 win10下cuda12.1 +troch2.4.1+vs2022环境下编译安装flash-attn

win10下cuda12.1 +troch2.4.1+vs2022+python3.8环境下编译的flash-attn库，同时有编译好的whl文件的下载地址

2024-10-03 20:44:00 1895 6

原创将任意图像增强模型与ultralytics中任意模型进行结合，支持自定义图像增强模块的loss，实现端到端训练

图像增强模型算法版本较多，同时ultralytics库的迭代也比较大，直接将图像增强模型算法添加到ultralytics库中可能只是当前版本支持，在ultralytics库升级后，又需要重新配置。故而分享一种方式进行实现，支持任意图像增强模型与ultralytics库中任务模型（如yolov8，yolov9，yolov10等模型）进行结合。支持模型的训练、验证与导出。其核心就是，对模型结构进行替换，同时确保调用ultralytics库接口的train函数时模型结构替换依旧有效。

2024-09-22 22:55:28 642

原创论文阅读：Omni-Kernel Network for Image Restoration

1、整个论文的出发点在于Transformer在图像增强领域效果好的核心在于全局感知能力，故而在cnn方法上提出OKM模块可以使模型具备全局感知能力。2、OKM模块由全局分支（频域感知）、大分支（conv63x63）和局部分支（conv1x1）组成，模块设置在瓶颈层（bottleneck层，即网络中特征图空间最小的区域），可以降低计算量3、最后就是在描述OKM模块在图像增强(图像去模糊、图像去雨和图像去模糊)领域的效果（加入OKM模块设计后psnr上涨了5个点。）；表明其方法在FLOP为17.86G

2024-09-21 12:57:35 3586 2

原创论文阅读： SigLit | SigLip |Sigmoid Loss for Language Image Pre-Training

论文地址：https://arxiv.org/pdf/2303.15343项目地址：https://github.com/google-research/big_vision发表时间：2023年3月27日我们提出了一种用于语言图像预训练（SigLIP）的简单成对 Sigmoid 损失。与使用 softmax 归一化的标准对比学习不同，sigmoid 损失仅对图像-文本对进行操作，并且不需要对归一化的成对相似性进行全局视图。

2024-09-17 22:35:40 2612 1

EditThisCookie.crx cookie编辑导入导出利器

支持多种导出格式，其导出的cookie支持在curl中使用（导出格式选择Netscape HTTP Cookie File）。

2022-06-29

win10下用vs2019编译好的curl 64位库版本7.84.0

在win10用cmake3.22与vs2019编译好的curl库，版本号为7.84.0（当下最新版，支持SLL）。库文件已经整理成了lib、include的结构,其中还内置curl.exe. curl是一个利用URL语法在命令行下工作的文件传输工具，支持很多种http请求操作，详情可以参考Linux curl命令最全详解_Angel_CG的博客-CSDN博客_curl命令。curl现在在linux与win10都是有内置的，在命令行中可以直接使用curl指令。

2022-06-28

python释放cuda缓存库

博主自行实现的动态链接库，通过python导入后可以实现释放显存，与ai框架无关。支持pytorch、tensorflow、onnxruntime等cuda运行环境。调用dll.reset_cuda()即可释放显存

2022-06-21

windows下GDAL322的库

从GDAL322安装包中抽取出的库，避免了的安装和下载多个包的过程。包含lib、bin、include三个目录。将lib的路径添加到系统环境变量中就算是配置好了GDAL322。

2022-06-10

基于paddle2实现对paddlehub中的静态图的训练

基于paddle2实现了对paddlehub2中的静态图的训练，可以使用paddle.vision.transforms实现训练模型时的数据增强。避免了paddlehub1.x下无法在训练过程中增强数据的缺陷。基于此，还可以实现对paddlehub内置模型的知识蒸馏。如果想免费试用，请浏览https://blog.csdn.net/a486259/article/details/123191622，复制代码保存为文件即可。

2022-02-28

paddle.hub迁移学习-图像分类案例

基于paddle2.0内置的hub库所实现的迁移学习代码，包含4个文件，分别涉及模型、数据、训练和测试。该代码具体的使用方式请参考https://blog.csdn.net/a486259/article/details/123140942

2022-02-25

opencv4.5.3+opencv-contrib+CUDA

参考知乎教程https://zhuanlan.zhihu.com/p/354838274所实现的opencv4.5.3+opencv_contrib+CUDA11.1，在win10下用vs2019编译，显卡为3060，CUDA_ARCH_BIN设置为7.0;7.5;8.0;8.6。

2022-02-18

flowers数据集.rar

处理好的flowers17数据集，包含训练集、验证集和测试集，和相应的数据集分类代码。

2021-11-27

RDPWrap-v1.6.2.zip

用于开启win10家庭版的远程桌面，其中包含各个版本的ini文件

2021-07-22

目标检测数据扩充增强工具

用于目标检测的数据增强工具，通过读取voc格式的数据可以对图像和相应的box进行缩放、平移、镜像、旋转、resize和更改颜色空间。通过对扩充方法的随机组合，可以将一个带标注的图像扩充成100幅。资源使用方面有问题请查看https://blog.csdn.net/a486259/article/details/121644786

2021-06-15

labelme-4.5.7.exe

已打包好的最新版labelme-4.5.7，可以单独运行无需配置python环境。可以绘制多边形、圆形、线与点。因为不会压缩，所以文件大小有270m

2021-03-25

图像批处理方法-图像空白裁剪、灰度化、缩放

按照目录对图像进行灰度化、缩放(比例默认为1/3)、空白处裁剪(裁剪掉图片多余的空白) =图像周边空白裁剪：按行和列统计图像四周的空白率，空白率过高的行和列将被裁剪掉（方法中设置为0.8，以灰度值大于0,9表示空白像素，可以按需更改）

2020-10-04

python工具方法 HristoryAvery

python工具方法 HristoryAvery方法在时序预测上的实现与使用，包含fit、predict、split_data三个方法。split_data用于划分数据集

2020-10-04

keras库文件，在loss和metrics库文件中添加rmse方法

在keras的loss库中添加rmse方法，成功使模型能正常使用rmse方法。在metrics.py文件上添加rmse方法后可以使用model.compile(loss='mse'，weighted_metrics=['rmse'])方法，可以在其他loss的条件下观测rmse的变化

2020-08-20

Wood Species Dataset-all.zip

Wood Species Dataset数据集有12种木材8千多个图像组成，其中有三种软木树种和九种阔叶树种，图像分为3类，分别是每种木材的横切面图片、弦切面图片和径切面图片。使用数据集时请务必按数据作者要求引用文献

2020-07-15

ILSpy反编译与ConfuserEx混淆工具.zip

通用的代码混淆工具ConfuserEx和代码反编译工具ILSpy，适用于windows桌面exe软件。

2020-05-29

手写数字字母数据集[0-9,a-z,A-Z]

预处理过的EnglishHnd手写数字字母数据集，文件名已经改成数字、字母（限于windows10下不区分大小写，大写字母的都是双字母，如AA，BB），尺寸被裁剪缩放到28*28，与minist数据集完美兼容。

2019-04-10

minist手写数字数据集（含代码）

minist手写数字数据集（含代码，案例有softmax分类、knn分类和神经网络分类），代码简洁易懂，可以当做练手资料

2018-11-28

cryptoJs加密解密工具

cryptoJs加密解密工具，并集成EncryptAes、DecryptAes两个方法，require(util.js)即可用。参数以json方式传递

2018-07-20

flash-attn-2.6.3-cp38-cp38-win-amd64.whl

win10下cuda12.1 +troch2.4.1+vs2022+python3.8环境下编译的flash-attn库

2024-10-03

自己训练的superpoint与superglue模型

使用自己训练的superpoint与superglue模型进行图像配准（https://hpg123.blog.csdn.net/article/details/137381647）博客中对应的模型与图片。放置对SuperGluePretrainedNetwork目录下，替换掉对应的文件即可使用

2024-04-12

使用FastDeploy 进行（图像分类、目标检测、语义分割、文本检测-orc）python部署

本资源整理了（图像分类、目标检测、语义分割、文本检测|orc）的FastDeploy-python部署案例，里面包含模型与对应的数据，下载资源后，安装FastDeploy即可使用。 FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具，支持云边端部署。提供超过 160+ Text，Vision， Speech和跨模态模型开箱即用的部署体验，并实现端到端的推理性能优化。包括物体检测、字符识别（OCR）、人脸、人像扣图、多目标跟踪系统、NLP、Stable Diffusion文图生成、TTS 等几十种任务场景，满足开发者多场景、多硬件、多平台的产业部署需求。

2024-01-25

AOT-GAN-for-Inpainting项目中pt模型转化的onnx模型

AOT-GAN-for-Inpainting是一个开源的图像修复项目，其对 Places2 数据集的效果表明，我们的模型在 FID 方面明显优于最先进的模型，相对改进了 1.8%。一项包括 365 多名受试者的用户研究进一步验证了 AOT-GAN 的优越性。我们进一步评估了所提出的AOT-GAN在实际应用中的应用，例如，logo去除、面部修复和物体移除。结果表明，我们的模型在现实的广泛数据数据中取得了良好的效果。在论文中表述了一共在3个数据集上进行训练，但仅发布了两个预训练模型，关于logo移除的模型或许设计商业因素未公开。本资源包含 CELEBA-HQ 与 Places2 两个数据集的onnx模型 https://hpg123.blog.csdn.net/article/details/135561206

2024-01-13

paddle-infer模型（包含ppyoloe-m、resnet50、segformerb1）

paddle_infer模型（包含ppyoloe_m_plus、resnet50、segformerb1的预训练模型），属于https://hpg123.blog.csdn.net/article/details/135229800中的模型、数据部分。含imagenet1000.txt类别信息，object365.txt类别信息

2023-12-26

win10上cuda12.1+tensorrt8.6+vs2019环境下编译onnxruntime1.17

onnxruntime官方在cuda12出来一年后都没有发布支持cuda12的onnxruntime版本，故此博主在win10上cuda12.1+tensorrt8.6+vs2019+py38环境下自行编译onnxruntime-gpu 1.17版本。本资源包，有onnxruntime_gpu-1.17.0-cp38-cp38-win_amd64.whl文件可以用于python的安装使用，还包含include、lib、bin文件支持c++编程使用。

2023-12-25

使用ROPNet项目在modelnet40数据集上训练的模型

具体包括：min_loss.pth、min_rot_error.pth两个模型文件https://github.com/zhulf0804/ROPNet项目提供了一个配准效果良好的点云模型，但是并没有发布预训练模型。故此，博主基于项目作者公布的代码，使用默认参数进行训练，约训练了450个epoch（完整epoch为600个）。所得到的模型精度与论文有轻微差异，但仍然能保证领先的精度。训练loss： Loss: 0.1087, Error R: 2.2862, Error t: 0.0218, anisotropic R(mse, mae): 2.6079, 1.1766, anisotropic t(mse, mae): 0.0224, 0.0103 测试效果： Error R error: 1.6421 Error t error: 0.0171 anisotropic mse R error: 1.9071 anisotropic mae R error: 0.8711 anisotropic mse t error : 0.0177 anisotropic mae t err

2023-12-03

16位tif影像转jpg软件（win10可用，无任何依赖）

16位tif影像转jpg软件（win10可用，无任何依赖），对于16位tif影像转jpg，实现了3种转换函数，分别为normalization_img、min_max_normalization_img、cut_normalization_img。其中cut_normalization_img函数可以滤除掉tiff影像中的异常值，可以在格式转换时增强图像效果的稳定性。软件由exe文件和ui文件组成，可以按照个人需求修改ui界面设计，修改后保存即可生效，无需更新软件。同时也支持对jpg、png、bmp图像进行上述操作。支持将图片拖入软件界面，也支持通过按钮选择图片。软件具体实现介绍可以参考：https://hpg123.blog.csdn.net/article/details/131603554

2023-07-07

基于pyqt5所实现的16U tiff影像转8U影像软件源码

现在大部分图像软件都支持tiff影像的浏览，但都是仅限于8位的影像，对应CV16U类型的tiff影像并不支持（这需要专业的gis软件才可进行操作）。为了便捷操作，故此基于pyqt5+opencv实现16位tif影像转jpg的软件。由于博主还是不太喜欢将ui文件转换为py文件再去构建界面，直接加载ui文件构建界面可以节省一个中间步骤，且这可以在软件发布后直接修改ui文件达到快速更新软件的效果。将16U的数据转换为8U有两种最简单的方式，即为归一化，具体如normalization_img函数代码所示，先将数据的值域压缩到0 ~ 1，然后再调整到 0 ~ 255。这种转换可能会存在某种问题，例如数据的整体值偏高，这样转化后就看不到差异了，故此又设计了min_max_normalization_img函数。先将数据的最小值调整为0，然后再进行归一化。对于某些特殊的行业数据，可能存在较多的噪声，其最大值和最小值并不能真实反映数据的情况（可能为传感器故障），从而需要对数据值域的频率进行统计，找到噪声的阈值（最大值阈值、最小值阈值），将大于最大值阈值的数值修改为最大值阈值，将小于最小值阈值

2023-07-07

pyqt5的基本使用demo

对应的代码讲解在：https://hpg123.blog.csdn.net/article/details/131564563?spm=1001.2014.3001.5502，博文记录了pyqt5使用记录涉及pyqt界面控件的基本介绍，使用designer设计界面ui，并将其转化为py代码。关于界面主要实现radioButton的互斥选中事件、comboBox的选中事件（依据list添加item）、pushButton的单击事件、槽函数自动绑定、图片的拖入显示。代码下载后，安装好qt环境既可使用，包含原始的ui文件，可以按照个人需求修改代码实现。

2023-07-06

ARM架构下ubuntu18.04编译好的opencv3.4.15（开箱即用）

ARM架构下ubuntu18.04编译好的opencv3.4.15（python版为通过编译），内置CMakeLists.txt模板文件，可以通过cmake的 find_package(OpenCV REQUIRED)直接配置opencv库。编译时的系统信息如下： root@HelperBox:~# uname -a Linux HelperBox1.t507 4.9.170 #42 SMP PREEMPT Sat Nov 5 18:40:25 CST 2022 aarch64 aarch64 aarch64 GNU/Linux root@HelperBox:~# lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 18.04.4 LTS Release: 18.04 Codename: bionic

2023-07-02

基于c++实现的文件加密解密代码

基于c++实现的文件加密解密代码，支持将二进制文件读取为char数组，然后根据自定义code对数据进行局部取反操作、局部倒序操作、局部滑动操作。取反操作：将数据进行取反；解密操作也是取反操作；以单个char为操作单元倒序操作：将数组的顺序进行翻转；解密操作也是倒序操作；以char数组为操作单元滑动操作：将数组首位相连，进行一定的转动；解密操作也是滑动操作；以char数组为操作单元；以头文件的方式实现，除标准std库外，不依赖任何第三方库；include到个人项目中即可使用。

2023-04-08

C++下web框架corw的完全使用手册（实现中文支持）

corw是一个开源、轻量化的c++web库，在使用上与python的flask是类似的。本文档为corw的完整使用文档，含项目配置(基于cmakelist)、路由绑定、返回数据(json、文本、response对象、静态资源、模板文件)、接口请求处理(REST请求，url参数绑定、json请求、GET参数和POST参数)和各种高级操作（Cookie操作、Session操作、文件上传操作、文件下载操作、websocket操作、自定义loghandler）。此外，还对各类参数请求、结果返回过程中对中文的支持（如get参数、post参数、url参数、json结果中中文参数的正确解读）

2023-02-20

2023-02-14

win10下vs2019编译的opencv470+opencv-contrib（python pyd文件、c++包和编译缓存）

win10下vs2019编译的opencv470+opencv_contrib，包含opencv python版本的pyd文件和自行编译opencv470的.cache文件，各位可以下载.cache文件自己编译opencv470。所编译的opencv470中的lib和dll不是一个单独的文件，博主使用lib.exe将所有的lib文件合并为了opencv_world470.lib（链接器附加依赖性只需要opencv_world470.lib一个即可），但是dll文件没有合并（dll文件路径添加到环境变量path中即可）

2022-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人