AI大道理-CSDN博客

原创重磅来袭！学了宫殿记忆法，一个晚上2个小时记完软考八大绩效域

添加图片注释，不超过 140 字（可选）

2025-02-22 17:40:20 168

原创目标检测：纵向理论强化

常心老师将手把手从0解读目标检测各模块改进思路、优化技巧，剖析目标检测网络结构，解读每个模块如何改进、如何优化，包括Backbone、neck、head，剖析目标检测训练和推理流程中的每一个步骤如何改进、如何优化，包括标签分配、损失函数、优化器、NMS，深挖目标检测具体实现的每个模块与步骤的改进版本、优化版本。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。添加图片注释，不超过 140 字（可选）

2025-01-24 22:04:42 284

原创目标检测：横向理论基础

常心老师将手把手从0开始解读目标检测概念、网络结构、训练和推理流程，剖析目标检测网络结构，解读每个模块为什么存在、作用是什么，包括Backbone、neck、head，剖析目标检测训练和推理中的每一个步骤为什么存在、作用是什么，包括标签分配、损失函数、优化器、NMS，捋顺目标检测具体实现的每个模块与步骤。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。有需要的同学欢迎持续关注！添加图片注释，不超过 140 字（可选）

2025-01-21 23:21:18 380

原创论文解读：YOLO-Pose（姿态估计）

论文原文：https://arxiv.org/abs/2204.068061、摘要这篇文章介绍了YoLoPose，基于流行的YOLO框架，实现了一种新颖的无热力图的关节检测与2D多人姿态估计。当前，基于热力图的方法是两个阶段，这个方法并不是最优的，因为他们不是端到端训练的，并且训练依赖于可替代的L1损失，它并不等同于最大化评估策略，即目标关键点相似度（object keypoint similarity，OKS）。该文章实现了一种端到端训练的模型，并优化OKS指标本身。这个模型在单向前向传播过程中，可以实现

2025-01-21 23:14:51 1094

原创 YOLACT：史上最快的实例分割算法

YOLACT将问题分为两个平行的部分，即利用fc层和conv层，其中fc层善于产生语义向量，而conv层善于产生空间一致的mask，从而产生“mask系数”和“原型mask”。YOLACT（you only look at coefficients）是一个端到端的全卷积实时实例分割模型，Yolact将实例分割分成了两个并行的子任务，即生成一组原型掩码（prototype masks）和每一个实例的掩码系数（mask coefficients）。之后，直接使用FCN全卷积的结构提取对应的特征层.

2025-01-21 23:10:18 1353

原创 YOLO11：目标检测新王登基

一对多”检测头就是将特征金字塔输出的多尺度特征送给另一个检测头去做预测，只不过在训练阶段，这个检测头的预测采用一对多的标签分配策略（TAL中的topk设置为10，即YOLOv8的默认设置）。将YOLOv8使用的TAL中的topk设置为1，即每个标签将根据类别与回归的双重代价被分配至多一个正样本在训练阶段，该检测头的预测都只做一对一的标签分配。传统目标检测，尤其是复杂场景中，目标物体的真实边界框的定义其实是无法精确给出的（包括标注人的主观倾向，或是遮挡、模糊等造成的边界歧义及不确定性）。

2025-01-21 23:03:27 1056

原创 YOLO11：目标检测原理与源码

常心老师将手把手从0开始解读YOLO11工程目录结构，解读YOLO11的Backbone，Neck，Head网络结构原理与源码，解读训练全流程的原理与源码，解读推理全流程的原理与源码。本课程涉及到的知识包括CBS、C3K2、SPPF、C2PSA、Attention、PANet、Head、数据增强、正负样本匹配机制、Loss计算、DFL、优化器、评价指标、NMS等原理与源码。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。

2024-12-04 23:04:52 316

原创 YOLO11：TensorRT模型加速与部署

YOLO11：TensorRT模型加速与部署》课程致力于帮助学生实战YOLO11目标检测算法的TensorRT加速部署。常心老师将手把手带领大家从0开始搭建YOLO11-TensorRT环境，带领大家排坑、避坑、填坑。本课程将进行环境搭建、模型转换、模型加速部署等一系列演示，还会讲解TensorRT量化原理与源码解读。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。扫描下方“AI大道理”，选择“关注”公众号。

2024-11-19 21:50:21 458

原创 YOLO11：从0开始搭建环境进行模型训练

YOLO11：从0开始搭建环境进行模型训练》课程致力于帮助学生实战YOLO11目标检测算法。常心老师将手把手带领大家从0开始搭建YOLO11环境，带领大家排坑、避坑、填坑。本课程将进行数据集打标、格式转化、模型训练、训练结果分析、模型推理等一系列演示。另外常心老师还会带领大家进行训练优化，训练一个更好的模型，最后将在ubuntu系统下进行演示。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。浅谈则止，细致入微AI大道理。

2024-11-03 16:31:45 414

原创 YOLOv5：原理与源码

常心老师将手把手从0开始解读YOLOv5-v6.0工程目录结构，解读YOLOv5-v6.0的Backbone，Neck，Head网络结构原理与源码，解读训练全流程的原理与源码，解读推理全流程的原理与源码。本课程涉及到的知识包括CBS、C3、SPPF、PANet、Head、自适应锚框、数据增强、正负样本匹配机制、Loss计算、优化器、评价指标、NMS等原理与源码。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。

2024-10-19 23:27:24 209

原创 YOLOv5：Android手机NCNN部署

常心老师将手把手带领大家从0开始搭建YOLOv5+Android+NCNN环境，带领大家排坑、避坑、填坑。本课程将进行环境搭建、模型转换、软件配置、模型调用、手机调试等一系列演示。另外常心老师还会总结编译问题，运行问题，手机连接问题，app闪退问题等一些列问题并提供解决方案。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。无常世界有常心，常心老师祝大家学习工作顺利！扫描下方“AI大道理”，选择“关注”公众号。

2024-09-24 16:56:53 340

原创 YOLOv5：TensorRT模型加速与部署（wts版）

YOLOv5：TensorRT模型加速与部署（wts版）》课程致力于帮助学生实战YOLOv5目标检测算法的TensorRT加速部署。常心老师将手把手带领大家从0开始搭建YOLOv5-TensorRT环境，带领大家排坑、避坑、填坑。本课程将进行环境搭建、模型转换、模型加速等一系列演示。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。扫描下方“AI大道理”，选择“关注”公众号。无常世界有常心，常心老师祝大家考试顺利！

2024-09-15 00:13:03 223

原创 YOLOv5：从0开始搭建环境进行模型训练

YOLOv5：从0开始搭建环境进行模型训练》课程致力于帮助学生实战YOLOv5目标检测算法。常心老师将手把手带领大家从0开始搭建YOLOv5环境，带领大家排坑、避坑、填坑。本课程将进行数据集打标、格式转化、模型训练、训练结果分析、模型推理等一系列演示。另外常心老师还会带领大家进行训练优化，训练一个更好的模型，最后将在ubuntu系统下进行演示。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。浅谈则止，细致入微AI大道理。

2024-09-07 21:55:26 274

原创 YOLOv9：一个关注信息丢失问题的目标检测

YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息，这些设计有助于在网络的深层中保留更多的信息，生成更可靠的梯度，从而在训练过程中确保了更准确的目标与输入之间的关联。YOLOv9的PGI技术包括辅助可逆分支和多级辅助信息，这些设计有助于在网络的深层中保留更多的信息，生成更可靠的梯度，从而在训练过程中确保了更准确的目标与输入之间的关联。在深度网络的训练过程中，由于层与层之间的复杂映射，有用的信息可能会逐渐丢失，这会导致梯度信号变弱，最终影响网络的学习效率和预测准确性。

2024-07-08 22:16:51 917 1

原创从入门到入职：AI视觉算法面试宝典100题第一季

从入门到入职：AI视觉算法面试宝典100题第一季》致力于帮助同学们顺利通过面试，顺利入职AI视觉算法工程师一职。常心老师将从图像算法、深度学习、机器学习三个方面入手，根据多年面试经验，精心设计了基础、高频、中频面试题共100道，帮助大家进行面试模拟，以更好的应对职场面试。常心老师致力于打造AI视觉专业，打破本科专业与岗位不对口的壁垒，岗位需要什么教什么，岗位面试什么，学什么，实际应用什么就做什么项目。面试链接：https://weike.fm/4KuPU1fcd8。浅谈则止，细致入微AI大道理。

2024-06-26 00:14:27 298

原创 YOLOv10：无需NMS的目标检测新范式（强的离谱）

本本来自公众号“AI大道理”。

2024-06-25 13:44:26 1245

原创人脸识别：基于卷积神经网络（CNN）分类思想的人脸识别系统

之前很多人来询问这个项目怎么做，代码跑不起来，里面的原理不是很懂，现在参与这个视频课程就能无痛做这个项目啦。手把手教你环境搭建、模型训练、模型预测，实战演示，搭建一套分类思想的人脸识别系统，带你入职。本科、研究生想要学习神经网络、深度学习基础知识的同学，边做项目边学习，学习效果更佳。了解人脸识别、卷积神经网络、分类算法，初步学习人脸识别算法，带你入门。借着代码了解每一步的原理，一行代码一个原理，细致入微，将知识刻入灵魂。庖丁解牛，对系统的代码进行讲解，让你对项目的代码了如指掌，刻入骨髓。

2024-05-24 22:31:54 648

原创【宫殿记忆】挑战软考高项最难最多ITTO

扫描下方“AI大道理”，选择“关注”公众号。本文来自公众号“AI大道理”浅谈则止，细致入微AI大道理。

2024-05-21 23:46:11 369

原创【宫殿记忆】软考高项ITTO宫殿记忆法介绍

有些老师建议背诵，有些老师建议不用背，记住几个就行，常心老师建议是背下来。一切都是机缘，方法不难，难就难在不知道这个方法。扫描下方“AI大道理”，选择“关注”公众号。十大管理一共667条知识点要背。无常世界有常心，常心老师祝大家考试顺利！1）死记硬背（朗读30遍、手抄30遍）4）最重要的是ITTO是论文的大纲。1）80%*80%=64%的知识。本文来自公众号“AI大道理”3）案例分析可能会考默写题。2）零散，联系弱，逻辑性差。浅谈则止，细致入微AI大道理。

2024-05-21 23:41:13 426

原创【宫殿记忆】软考高项ITTO宫殿记忆课程介绍

扫描下方“AI大道理”，选择“关注”公众号。添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）本文来自公众号“AI大道理”浅谈则止，细致入微AI大道理。

2024-05-21 23:29:25 207

原创【课程发布】软考高项目十大管理ITTO宫殿记忆法新版第四版正式发布

各位软考高级信息系统项目管理师考生好，新版第四版十大管理ITTO宫殿记忆法视频课程终于发布了，之前苦等的考生终于迎来了救星，再也不用担心记不住ITTO了。宫殿记忆法最快只要1天24小时就能全部记完，一天一个晚上记忆一个过程，也只要7-10天就可全部记忆完毕。宫殿记忆法，49张图片记住49个过程ITTO，记忆过程不枯燥，记忆效果非常好，甚至可以倒背如流。添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）添加图片注释，不超过 140 字（可选）浅谈则止，细致入微AI大道理。

2024-05-21 23:19:25 347

原创【课程发布】软考高项目十大管理ITTO宫殿记忆法新版第四版正式发布

各位软考高级信息系统项目管理师考生好，新版第四版十大管理ITTO宫殿记忆法视频课程终于发布了，之前苦等的考生终于迎来了救星，再也不用担心记不住ITTO了。宫殿记忆法最快只要1天24小时就能全部记完，一天一个晚上记忆一个过程，也只要7-10天就可全部记忆完毕。宫殿记忆法，49张图片记住49个过程ITTO，记忆过程不枯燥，记忆效果非常好，甚至可以倒背如流。相信第三版跟着常心老师记忆的考生深有体会。扫描下方“AI大道理”，选择“关注”公众号。抓住机缘，就可能成为15%这部分的人。浅谈则止，细致入微AI大道理。

2024-04-25 22:07:57 429

原创 YOLO v8：目标检测的最新王者

本文来自公众号“AI大道理”——————Yolov8是Yolo系列模型的最新王者，各种指标全面超越现有目标检测模型。Yolov8借鉴了Yolov5、Yolov6、YoloX等模型的设计优点，全面改进了Yolov5模型结构，同时保持了Yolov5工程化简洁易用的优势。1、YOLOV8的改进1）Backbone2）Neck3）Head4）Loss计算5）标签匹配策略2、BackboneYOLOv8的backbone使用C2f模块代替C3模块。

2024-03-14 20:08:15 2155

原创 CLIP：万物分类（视觉语言大模型）

本文来着公众号“AI大道理”论文地址：https://arxiv.org/abs/2103.00020传统的分类模型需要先验的定义固定的类别，然后经过CNN提取特征，经过softmax进行分类。然而这种模式有个致命的缺点，那就是想加入新的一类就得重新定义这个类别的标签，并重新训练模型，这样非常不方便。CLIP打破了这个桎梏。CLIP能做到在一定标签内进行训练，标签外的也能进行分类。那么CLIP到底是如何认识未知的事物的呢？1、从人脸识别开始说起最早的打破固定标签的方法和应用就是人脸识别了。

2023-11-13 22:08:46 3074

原创坐标转换：从图像坐标到世界坐标的旅程

图像坐标系的单位是mm，属于物理单位。由于三维转二维的时候标定板就是直接设标定板到相机的距离为0，即z轴为0，因此，在二维图像坐标转化到三维世界坐标中我们也可以设置其中一个维度为已知的一个量，即Zc是可以求到的。确定空间某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型，这些坐标系之间的转换参数就是相机参数，求解参数的过程叫做相机标定。具体来讲是这样的，成像元件和镜头和中心是在同一水平线上的，原点（0，0）都是它们各自的正中心，成像元件的每一个感光单元实际上就是图像的一个像素。

2023-11-11 23:49:14 2741

原创相机标定：张正友标定原理

本文来自公众号“AI大道理”——————计算机视觉的源头是相机，因此我们有必要对相机有所了解。原始相机拍摄的图像一般都会有所畸变，导致画面和实际观测的有所排查，为了让相机拍摄的图像和肉眼观察的一致，就需要进行相机标定，获得相机参数，从而进行校正。1、相机模型相机是如何成像的？光束从物体表面反射，经过相机镜头，到达感光原件，这一系列物理过程可以通过数学公式表达，最终变成一个简单的矩阵操作将三维空间中的点对应到图片的一个像素。2、为什么要相机标定？

2023-11-10 22:30:40 1314 1

原创 DeepSort：基于检测的目标跟踪的经典

DeepSORT的主要思想是将目标检测和目标跟踪两个任务相结合。首先使用目标检测算法（Faster R-CNN等）在每一帧中检测出目标物体的位置和边界框。然后，通过深度学习模型（如CNN）提取目标的特征表示，将每个目标与先前帧中已跟踪的目标进行匹配。匹配过程中会考虑目标的特征相似度、运动一致性等因素，以确定目标的身份和轨迹。DeepSORT的关键贡献之一是使用了一个强大的外观特征描述符，可以准确地区分不同目标之间的相似度。

2023-08-19 17:23:23 1395

原创论文解读：DeepSort（目标跟踪）

简单在线实时跟踪（SORT）是一种实用的多目标跟踪方法，专注于简单有效的算法。在本文中，我们集成了外观信息来提高SORT的性能。由于这种扩展，我们能够在更长的遮挡时间内跟踪对象，有效地减少了身份切换的数量。本着原始框架的精神，我们将大部分计算复杂性置于离线预训练阶段，在那里我们在大规模的人员重新识别数据集上学习深度关联度量。在线申请过程中，我们使用视觉外观空间中的最近邻居查询。实验评估表明，我们的扩展将身份切换的数量减少了45%，在高帧率下实现了整体竞争性能。

2023-07-29 22:11:21 1354

原创 SORT：基于检测的目标跟踪的鼻祖

SORT（Simple Online and Realtime Tracking）是一种简单、在线和实时的目标跟踪算法，它的设计目标是在计算资源有限的情况下实现高效的目标跟踪。SORT算法的核心思想是通过联合目标检测和运动预测来进行目标跟踪。算法首先使用目标检测器（Faster R-CNN）在每一帧中检测出目标物体的位置和边界框。然后，通过卡尔曼滤波器来对目标的运动进行建模和预测。卡尔曼滤波器结合了目标的当前状态和运动模型，可以估计目标在下一帧中的位置和速度。

2023-07-26 22:34:37 3165

翻译论文解读：SORT（目标跟踪）

为简洁起见，只列出了最相关的跟踪器，它们在精度方面是最先进的在线跟踪器，如 (TDAM 、MDP)、最快的基于批次的跟踪器(NMS DP)和全方位近在线方法(NOMT)。此外，由于 SORT旨在关注帧与帧之间的关联，因此丢失目标的数量(ML)是最小的，尽管与其他跟踪器有类似的错误否定。首先，恒定速度模型是真实动态的不良预测器，其次，我们主要关心帧到帧的跟踪，其中对象的重新识别超出了本工作的范围。另外，新的跟踪器然后经历一个试用期，在此期间目标需要与检测相关联，以积累足够的证据，从而防止跟踪的误报。

2023-07-22 23:06:00 456

原创卡尔曼滤波：再也不用瑟瑟发抖了

本文来自公众号“——————目标跟踪中，在数据关联后往往要进行卡尔曼滤波。数据关联算法得到了每个目标的观测数据。卡尔曼滤波使用关联的观测数据来估计目标的状态，并预测目标的未来位置和速度等信息。目标跟踪过程中，测量数据通常会受到各种噪声的影响，例如传感器噪声、环境干扰等。卡尔曼滤波器可以通过对测量数据和系统模型的加权处理来减少噪声的影响，提供更准确的目标状态估计。1、卡尔曼滤波简介卡尔曼滤波用来估计带噪信号中隐藏的真实信息。

2023-07-17 22:31:08 1275

原创目标跟踪基础：数据关联算法

本文来自公众号“——————数据关联是多目标跟踪任务中的关键步骤，其目的主要是为了进行帧与帧之间的多个目标的匹配。1、数据关联数据关联其实就是一个沿着时间轴，将来自同一个物体的不同时刻的信号串联起来的过程。数据关联通常在状态估计之前进行，只有获得准确的数据关联处理结果，才能保证后续处理的正确性。一个人行走的轨迹，第三帧漏检，导致没有检测框，第四帧误检，导致一个干扰框。第四帧中有一个检测结果是错的，此时就是涉及到了数据关联，关联匹配我们收到的检测结果和真实目标。

2023-07-12 21:44:09 2717 1

原创目标跟踪基础：距离度量

本文来自公众号“——————距离度量在CV 、NLP以及数据分析等领域都有众多的应用。距离度量可以当做某种相似度，距离越近，越相似。在目标跟踪领域中，需要判断目标之间的距离或相似度，从而判断前后帧的目标是否是同一个目标。1、距离常见距离：欧式距离标准化欧式距离马氏距离曼哈顿距离切比雪夫距离闵氏距离概率分布的距离度量：KL散度JS距离MMD距离HSIC。

2023-07-08 21:35:28 500

原创目标跟踪基础：两张图片相似度算法

其中 p(x,y) 是 X 和 Y 的联合概率分布函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。在连续随机变量的情形下，求和被替换成了二重定积分：其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。互信息的取值范围通常是非负的，值越大表示两个变量之间的相关性越高，也可以理解为两张图片的相似度越高。互信息算法可能对图像的纹理、结构等细节不敏感，因此在某些情况下可能无法准确地反映图像的相似度。

2023-07-05 22:16:43 1830

原创孪生网络：图片相似度对比神器

孪生网络可以看做分类模型，输出是0和1的分类。只不过这种分类的对象是两张图片，而传统分类则是一张图片。传统分类若想增加一类则需要大量这类图片数据集并重新训练，而孪生网络在训练结束后只需要一张对比图片放入比对库中即可，无需重复训练模型。孪生网络用于特征提取的网络可以多种多样，比如VGG、Resnet等都可以作为特征提取网络。基于特征比对的思想，人脸识别等应用也不一定要用孪生网络，传统的图像算法只要能获取人脸特征，并用一维向量表示这些特征，也是可以用的。

2023-06-28 21:59:48 3427 1

翻译论文解读—Siamese Network

本文来自公众号“AI大道理” ——————论文原文：http://yann.lecun.com/exdb/publis/pdf/chopra-05.pdf很多园区楼下都有人脸识别的机器，然后智能的为你开门。实现这样的功能需要将你本人的一张图片输入到系统中，接下来就可以识别出你是不是在系统中，若是则给你开门。那么这究竟是如何实现的呢？为什么只需要输入一张图片就够？Siamese Network给你答案。Siamese Network是一种学习图片相似度的网络，可应用于人脸识别、签名验证。1、摘要我们提出了一种

2023-06-25 21:43:36 486

原创模型剪枝：Network Slimming剪枝实战

其中，L1正则化项的损失函数是一个个正方形，而原来的损失函数是一个个椭圆，只有两者的交点才使得整体损失最小。稀疏训练后，剪掉一个BN层，需要将对应上一层的卷积核裁剪掉，同时将BN层后下一层卷积核对应的通道减掉。所谓惩罚项，其实就是和原来的损失函数竞争，现在要满足两者的最小值才是真正的最小值。Network Slimming剪枝是结构性剪枝，是通道剪枝，是静态剪枝。Network Slimming剪枝是结构性剪枝，是通道剪枝，是静态剪枝。γZ依然在控制特征图的数据，根据γ判断通道重要性，是控制特征图的通道。

2023-06-12 22:29:53 2008 2

空空如也

空空如也