自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

知来者逆的博客

计算机视觉学习笔记

  • 博客(761)
  • 资源 (49)
  • 收藏
  • 关注

原创 基于 AI 的人像修复与编辑技术:CompleteMe 系统的研究与应用

加利福尼亚大学默塞德分校与 Adobe 的新合作在领域取得了突破性进展——人像补全是一项备受关注的任务,旨在“揭示”人像中被遮挡或隐藏的部分,可用于虚拟试穿、动画制作和照片编辑等场景。除了修复损坏的图像或根据用户意愿更改图像外,人像补全系统(如 CompleteMe)还可以将新服装(通过附加参考图像,如这两个示例中的中间列)引入现有图像。这些示例来自新论文的详细补充 PDF。

2025-05-04 21:22:35 635

原创 计算机视觉——基于树莓派的YOLO11模型优化与实时目标检测、跟踪及计数的实践

YOLO11模型是专门为边缘设备优化的目标检测模型,与YOLOv8相比,它在显著降低模型复杂度(最多降低37%)的同时,仍保持了较高的检测精度(约85%的平均精度均值)。这种优化使得YOLO11能够在资源受限的树莓派上实现高效的实时目标检测,为边缘设备上的复杂计算机视觉任务提供了可能。其轻量级的模型结构和高效的推理性能,使其成为在树莓派上部署目标检测应用的首选模型之一。

2025-05-01 18:19:05 1897 3

原创 深入剖析扩散模型对镜子反射理解局限:MirrorVerse 项目改进数据集与训练方法以提升反射处理表现的研究

自从生成式人工智能开始引起公众关注以来,计算机视觉研究领域对开发能够理解和复制物理定律的人工智能模型的兴趣日益浓厚。然而,教导机器学习系统模拟诸如重力和等现象的挑战,至少在一直是研究工作的重点。自2022年(LDMs)主导生成式人工智能领域以来,研究人员LDM架构在理解和再现物理现象方面的有限能力。如今,随着OpenAI具有里程碑意义的生成式视频模型的推出,以及开源视频模型和的发布(后者可能影响更为深远),这一问题变得更加突出。

2025-04-29 11:30:28 762 1

原创 计算机视觉——通过 OWL-ViT 实现开放词汇对象检测

传统的对象检测模型大多是封闭词汇类型,只能识别有限的固定类别。增加新的类别需要大量的注释数据。然而,现实世界中的物体类别几乎无穷无尽,这就需要能够检测未知类别的开放式词汇类型。对比学习(Contrastive Learning)使用成对的图像和语言数据,在这一挑战中备受关注。著名的模型包括 CLIP,但将其应用于物体检测,如在训练过程中处理未见类别,仍然是一个挑战。本文使用标准视觉转换器(ViT)建立了一个开放词汇对象检测模型——开放世界定位视觉转换器(OWL-ViT),只做了极少的修改。

2025-04-28 22:44:36 1007

原创 LLM开发——基于DeepSeek R1 和 Qwen 构建智能检索增强生成系统

在人工智能社区中,DeepSeek R1 作为一个具有革命性的开源推理大语言模型(LLM)引起了广泛关注。尽管大多数讨论都集中在它的原始能力上,但很少有人探索它在智能工作流中的潜力——即多个模型动态协作的系统。(70 亿参数的蒸馏模型):用于复杂推理。阿里巴巴的 Qwen 2.5(70 亿参数):用于快速对话流程。一个轻量级的智能体框架来协调它们。推理模型是智能体系统的核心,使它能够做出决策并从知识库中生成有见地的回答。

2025-04-27 21:56:46 965

原创 计算机视觉——对比YOLOv12、YOLOv11、和基于Darknet的YOLOv7的微调对比

目标检测领域取得了巨大进步,其中YOLOv12、YOLOv11 和基于 Darknet 的 YOLOv7在实时检测方面表现出色。尽管这些模型在通用目标检测数据集上表现卓越,但在HRSC2016-MS(高分辨率舰船数据集)上对 YOLOv12 进行微调时,却面临着独特的挑战。本文提供了一个详细的端到端流程,用于在 HRSC2016-MS 上微调 YOLOv12、YOLOv11 和基于 Darknet 的 YOLOv7。

2025-04-26 22:43:18 3758 14

原创 计算机视觉——速度与精度的完美结合的实时目标检测算法RF-DETR详解

目标检测已经取得了长足的发展,尤其是随着基于 Transformer 的模型的兴起。,由 Roboflow 开发,就是这样一种模型,它兼顾了速度和精度。使用 Roboflow 的工具可以让整个过程变得更加轻松。他们的平台涵盖了从上传和标注数据到以正确格式导出数据的全过程。这意味着你可以节省设置的时间,将更多的时间用于训练和改进模型。

2025-04-24 10:30:24 1004 1

原创 解读大型语言模型:从Transformer架构到模型量化技术

你可能会好奇,LLMs是如何学得如此之好的?LLMs最关键的成分是什么?答案是Transformer架构,它在论文“Attention is All You Need”中被提出。当然,还有其他同样重要的元素,例如LLMs使用的海量数据和训练算法,但Transformer架构是使现代LLMs能够充分利用其他组件的关键组成部分。与之前用于生成式人工智能任务的循环神经网络(RNNs)相比,使用Transformer架构可以显著提高性能。

2025-04-23 13:39:00 931

原创 人工智能中的注意力机制:原理、起源、发展及实现详解

在人工智能领域,注意力机制(Attention Mechanism)作为一种关键的技术,正在逐渐改变我们对模型处理数据方式的理解。本文将深入探讨注意力机制的原理、起源、发展以及其实现方式,旨在为读者提供一个全面且易于理解的视角。注意力机制的概念源于人类的认知过程。当人们面对复杂的信息时,往往会选择性地关注与当前任务最相关的部分,而忽略其他不重要的内容。这种能力使得人类能够在有限的认知资源下高效地处理信息。

2025-04-22 10:56:23 1068

原创 计算机视觉——利用AI幻觉检测图像是否是生成式算生成的图像

俄罗斯的新研究提出了一种非常规方法,用于检测不真实的AI生成图像——不是通过提高大型视觉-语言模型(LVLMs)的准确性,而是故意利用它们的。这种新方法使用LVLMs提取图像的多个“原子事实”,然后应用(NLI),系统地衡量这些陈述之间的矛盾——有效地将模型的缺陷转化为检测违背常识的图像的诊断工具。WHOOPS!数据集中两张图片与LVLM模型自动生成的陈述。左侧图片是真实的,导致描述一致,而右侧不寻常的图片导致模型产生幻觉,产生矛盾或错误的陈述。

2025-04-21 16:35:45 1180 1

原创 PointCore——利用局部全局特征的高效无监督点云异常检测器论文与算法解读

三维点云异常检测旨在从训练集中检测出异常数据点,是工业检测、自动驾驶等众多应用的基础。然而,现有的点云异常检测方法通常采用多个特征存储库来充分保留局部和全局特征表示,这带来了高昂的计算成本以及特征之间的不匹配问题。为解决这些问题,我们提出了一种基于联合局部 - 全局特征的无监督点云异常检测框架PointCore。具体而言,PointCore仅需一个存储库来存储局部(坐标)和全局(PointMAE)特征表示,并为这些局部 - 全局特征分配不同的优先级,从而降低推理过程中的计算成本和不匹配干扰。

2025-04-19 23:33:28 1111 1

原创 计算机视觉——基于使用 OpenCV 与 Python 实现相机标定畸变校正

相机标定是一种旨在通过确定相机的内参(焦距、光学中心、畸变系数)和外参(相机的位置和方向),提高图像在现实世界中的几何精度的过程。该过程可以纠正相机拍摄的图像中的畸变,使相机能够准确感知现实世界中的距离、角度和物体。一个很好的例子是纠正鱼眼相机拍摄的图像。

2025-04-18 22:02:17 1821 5

原创 计算机视觉——JPEG AI 标准发布了图像压缩新突破与数字图像取证的挑战及应对策略

今年2月,经过多年旨在利用机器学习技术开发一种更小、更易于传输和存储且不损失感知质量的图像编解码器的研究后,正式发布。来自JPEG AI官方发布流,峰值信噪比(PSNR)与JPEG AI的机器学习增强方法的对比。这一技术问世鲜有媒体报道的一个可能原因是,此次发布的核心PDF文件无法通过像Arxiv这样的免费访问平台获取。尽管如此,Arxiv此前已经发表了多项研究,探讨了JPEG AI在多个方面的重要意义,包括该方法不常见的及其对图像鉴伪的。

2025-04-17 14:54:02 850

原创 计算机视觉——基于人工智能视觉注意力的在线广告中评估检测技术

自2023年在线广告行业估计花费了7403亿美元以来,很容易理解为什么广告公司会投入大量资源进行这一特定领域的计算机视觉研究。尽管这个行业通常较为封闭和保守,但偶尔也会在arxiv等公共存储库中发布一些研究,这些研究暗示了更先进的专有工作,涉及面部和眼神识别——包括年龄识别,这是人口统计分析的核心内容:这些研究很少出现在公共存储库中,它们以合法招募的参与者为基础,通过人工智能驱动的分析来确定观众在多大程度以及以何种方式与广告互动。在这方面,广告行业自然对确定误报(分析系统错误解读受试者行为的情况)感兴趣,并

2025-04-16 21:40:36 786

原创 计算机视觉——基于 Yolov8 目标检测与 OpenCV 光流实现目标追踪

目标检测(Object Detection)和目标追踪(Object Tracking)是计算机视觉中的两个关键技术,它们在多种实际应用场景中发挥着重要作用。指的是在静态图像或视频帧中识别出特定类别的目标对象,并通常以矩形框(bounding box)的形式标出其位置。目标检测算法通常只处理单个图像帧,其任务是检测出该帧中所有感兴趣的对象。则涉及对视频中连续帧里的目标对象进行识别和跟踪。

2025-04-15 21:33:35 1918 2

原创 计算机视觉——基于MediaPipe实现人体姿态估计与不良动作检测

正确的身体姿势是个人整体健康的关键。然而,保持正确的身体姿势可能会很困难,因为我们常常会忘记。本博客文章将逐步指导您构建一个解决方案。最近,我们使用 MediaPipe POSE 进行身体姿势检测,效果非常好!

2025-04-14 14:45:36 1217 1

原创 计算机视觉——基于YOLOV8 的人体姿态估计训练与推理

通过 YOLOV8 的姿态估计功能,我们可以轻松地检测图像或视频中人体的关键点,并将其可视化。这为计算机视觉领域的多种应用提供了强大的支持。未来,我们可以进一步探索如何利用这些关键点信息来提高人员识别的准确性,或者将其应用于其他更具挑战性的任务中。

2025-04-13 15:52:02 1490

原创 探索在视频深度伪造中的细微的表情变化或对特定面部特征的小改动检测方法

2019 年,美国众议院议长南希·佩洛西成为了一次针对性的、技术含量相对较低的“深度伪造”式攻击的目标。真实的佩洛西视频被编辑,让她看起来像是喝醉了酒。这一不真实的事件在真相大白之前被分享了数百万次,而且在一些人没有关注后续报道的情况下,可能已经对她的政治资本造成了不可挽回的损害。尽管这种误导性的视频只需要进行一些简单的音视频编辑,而不是使用任何人工智能技术,但它仍然是一个关键的例子,展示了对真实音视频输出进行细微改动可能产生的毁灭性影响。

2025-04-11 17:41:06 962 3

原创 YOLO目标检测应用——基于 YOLOv8目标检测和 SAM 零样本分割实现指定目标分割

在当前的计算机视觉领域,目标分割技术正变得越来越重要。市面上有许多分割模型,它们的工作原理大致相似,通常包括收集数据、配置模型以及训练分割模型等步骤。最终目标是实现精确的目标分割。而随着 SAM(Segment Anything Model)的出现,这一过程变得更加高效。SAM 的独特之处在于,它只需要用户向模型提供某种坐标信息,就能自动完成所有分割工作,极大地简化了操作流程。在深入探讨之前,可能会提出这样一个问题:为何选择 YOLO 模型作为我们的工具?

2025-04-10 11:39:19 1792 5

原创 计算机视觉——图像金字塔与目标图像边缘检测原理与实践

图像金字塔是一种多分辨率的图像表示方式,它通过构建一个包含不同分辨率图像的层次结构来表示原始图像。图像金字塔的每一层都是原始图像的一个下采样版本,从最高分辨率的图像(位于金字塔顶部)到最低分辨率的图像(位于金字塔底部)。这种多分辨率表示方法在图像处理和计算机视觉中具有广泛的应用,例如目标检测、图像融合和特征提取等。边缘检测是图像处理和计算机视觉中的一个重要任务,其目标是识别图像中的突然变化(不连续性)。边缘通常对应于物体的轮廓、纹理的变化或光照的变化。

2025-04-09 14:51:47 1279

原创 计算机视觉——基于YOLOv8 BotSort 与 ByteTrack实现目标追踪的对比

计算机视觉领域正在迅速发展,不仅影响现实世界中的挑战,还推动了人工智能其他领域(如自然语言处理)的进步。随着计算机视觉中不断涌现的新概念,当解决现实问题时,持续的目标跟踪几乎变得至关重要。Ultralytics YOLOv8 目标跟踪器(BotSort 与 ByteTrack)对比目标跟踪是计算机视觉的一个基本方面,涉及在视频序列中持续识别和监控目标。它确保即使在外观和条件发生变化的情况下,也能持续跟踪目标的轨迹。各种算法,包括卡尔曼滤波器和深度学习方法,都被用于提高准确性。

2025-04-08 09:00:00 1664 1

原创 计算机视觉——深度学习图像处理中目标检测平均精度均值(mAP)与其他常用评估指标

IoU(交并比)不仅可以衡量预测边界框与真实框的匹配程度,还可以作为阈值来决定是否接受一个预测。在目标检测领域,IoU 阈值的设定是评估模型性能的关键因素之一。具体来说,当 IoU 阈值被指定为IoU@0.5时,这意味着只有当预测框与真实框的 IoU 大于或等于 0.5(即 50%)时,该预测框才被视为正确匹配。换句话说,如果预测框与真实框的重叠面积不足 50%,则认为该预测是不准确的,从而被舍弃。

2025-04-07 09:00:00 1579

原创 探索生成式AI在游戏开发中的应用——3D角色生成式 AI 实现

自从开创性论文发布以来,此类图像生成器一直在改进,生成的图像质量在多个指标上都击败了 GAN,并且与真实图像无法区分。以及随后发布的,让我们现在有一种方法可以将多个视图上的对象的稀疏图像集转换为所述对象的 3D 高质量渲染。然而,尽管通过训练 NeRF 模型获得的辐射场很有前景(无论是使用原始实现还是 InstantNGP 主干进行快速训练),从中提取可用的网格都非常耗费资源,产生噪声结果,并破坏所有照明和材质数据。

2025-04-06 00:33:01 1262

原创 计算机视觉——为什么 mAP 是目标检测的黄金标准

在目标检测领域,有一个指标被广泛认为是衡量模型性能的“黄金标准”,它就是。如果你曾经接触过目标检测模型(如 YOLO、Faster R-CNN 或 SSD),那么你一定听说过 mAP。但你是否真正理解 mAP 背后的含义?为什么研究人员如此信赖它?mAP@0.5 和 mAP@0.95 又有什么区别?本文将为你揭开 mAP 的神秘面纱。

2025-04-05 09:08:25 5890 1

原创 卷积神经网络CNN 经典模型 — GoogleLeNet、ResNet、DenseNet算法原理与模型构造

GoogLeNet在2014年的ImageNet Large Scale Visual Recognition Challenge (LSVRC)中获得了冠军。GoogLeNet的设计灵感来源于NiN(Network in Network),通过使用多个小的网络模块串联成更大的网络。这些小的网络模块被称为Inception模块,它们能够并行地从不同尺度提取特征,然后将这些特征合并起来,以提高网络的准确性和性能。

2025-04-04 10:33:19 1252

原创 YOLOv迁移学习实现方法与训练数据流程

YOLO(You Only Look Once)是一个非常出色的目标检测网络,因此它可以成为各种目标检测任务的有力候选者,包括那些原始网络未经训练的对象。

2025-04-02 16:47:25 964

原创 机器学习中的自监督学习概述与实现过程

这种学习方式通过使用带有标签的数据集进行训练,目的是使机器能够学习到数据之间的关联性,并能够对新的、未见过的数据做出预测或分类。应用领域包括语音识别、图像识别、医学诊断等。监督学习通常需要大量的标注数据,因此获取和维护这些数据集可能非常昂贵和耗时。:非监督式学习使用未标注的数据,通过算法来发现数据中的结构和模式。这种学习方式适合于市场细分、社交网络分析、异常检测等任务。自监督学习 (Self-Supervised Learning) 是非监督学习的一种,它通过从数据本身生成伪标签来训练模型。

2025-04-01 23:08:53 1021

原创 深度学习——深入解读各种卷积的应用场景优劣势与实现细节

本文介绍了深度学习中常见的多种卷积类型,包括它们的定义、工作原理、优缺点以及应用场景。通过这些介绍,希望能帮助读者更好地理解卷积在深度学习中的作用,以及如何根据具体需求选择合适的卷积类型。

2025-03-31 14:02:00 1068

原创 计算机视觉——传统数字图像处理中图像去噪原理与代码实现细节

在现实世界中捕获的图像常常受到噪声的影响,这些噪声可能来源于环境因素、信号不稳定、相机传感器问题、照明条件差、电损失等多种因素。为了进一步处理这些图像并对结果进行准确解释,拥有尽可能低噪声的图像至关重要。图像去噪是数字图像处理中的一个关键过程,其目标是通过减少噪声来提高图像的视觉质量。这一领域具有挑战性,因为它不仅需要理解图像中的噪声类型,还需要应用能够有效减少噪声并提供更准确原始图像表示的去噪方法。

2025-03-31 11:07:00 1279 1

原创 Python实现概率分布公式及可视化

在机器学习或者深度学习课题里,时常要频繁地使用统计概率的理论来辅助进行数据处理与研究。因此,理解和掌握一定的统计概率知识是非常必要的。在科学研究和城市研究领域,统计概率理论的应用也十分常见。随机变量 (Random Variable):一个随机变量是一个可以取多个可能值的量,这些值是根据某种概率分布来确定的。密度函数 (Density Functions):在连续随机变量中,密度函数描述了随机变量的可能取值范围内每个值出现的概率密度。它通常用于计算概率、期望值等。

2025-03-30 19:36:39 1009

原创 图像相似性搜索算法比较 ——对比EfficientNet、 ViT、 VINO 、 CLIP 、 BLIP2算法优劣与场景测试

EfficientNet(CNN 架构):不擅长捕捉超出像素信息的语义。:比 CNN 更好,但仍然专注于像素信息而不是图像的含义。DINO-v2:可以捕捉图像的语义,并且倾向于专注于前景物体。CLIP:可以捕捉语义,但有时可能会受到可以从图像中读取的语言信息的强烈影响。BLIP-2:可以捕捉语义,是其他模型中最优越的结果。综上所述,在进行图像相似性搜索时,应该优先选择 DINO-v2 或 BLIP-2 以获得更好的结果。如果专注于图像中的物体,应该使用 DINO-v2。

2025-03-30 10:09:40 1268

原创 DeepSeek-R1私有化部署——DeepSeek-R1模型微调原理与代码实现

在微调大语言模型(LLM)的过程中,开发者常常会面临一系列技术挑战。显存不足?如果显存资源有限,可以采用 LoRA(低秩适配)技术结合 4-bit 量化,显著降低显存占用,同时保持模型性能。此外,云端训练也是一个不错的选择,借助强大的云服务资源,可以轻松应对大规模模型的训练需求。数据集太小?当数据集规模较小时,模型容易出现过拟合现象,导致无法泛化到新的数据。此时,可以运用数据增强技术,如同义词替换、句子重组等,增加数据的多样性。

2025-03-20 16:40:29 1014 1

原创 DeepSeek-R1私有化部署——基于 DeepSeek R1 和 Ollama 构建本地知识库(RAG)系统

随着人工智能(AI)、自然语言处理(NLP)、大语言模型(LLM)技术的不断进步,传统的 LLM 虽然强大,但存在知识有限、准确性不足等问题。而检索增强生成(RAG)的出现,大大弥补了 LLM 的不足,有效克服了这些缺点。

2025-03-18 10:57:20 877

原创 基于YOLOv8与SKU110K数据集实现超市货架物品目标检测与计算

本文旨在基于检测到的物品位置信息,分析、计数并提取相关目标。通过对检测结果的坐标数据进行分析,将确定货架的数量以及货架上的物品数量。为此,这里将使用 SKU110K 数据集来训练目标检测模型。该数据集包含商店货架上物品的边界框标注,仅包含一个名为“物品”的类别。

2025-03-17 09:58:55 785

原创 计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法

卷积神经网络(Convolutional Neural Networks,简称 CNNs)是一种深度学习架构,专门用于处理具有网格结构的数据,如图像、视频等。它们在计算机视觉领域取得了巨大成功,成为图像分类、目标检测、图像分割等任务的核心技术。CNNs 的核心思想是利用卷积操作(convolution)来提取数据中的局部特征,并通过层次化的结构逐步学习更复杂的模式。

2025-03-16 14:41:32 3821 7

原创 3D点云目标检测——KITTI数据集读取与处理

KITTI数据集是由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创建的一个大规模自动驾驶场景下的计算机视觉算法评测数据集。KITTI数据集采集自德国卡尔斯鲁厄市,涵盖了市区、郊区、高速公路等多种交通场景。数据采集时间为 2011 年 09 月 26 日、28 日、29 日、30 日及 10 月 03 日的白天。KITTI数据采集平台如下图所示:IMU/GPS总结来说,KITTI数据集由 4 个相机、1 个激光雷达、1 个IMU/GPS惯导系统共同组成。

2025-03-14 19:53:32 2606

原创 利用稳定扩散模型和控制网架构调整生成物体背景

本文介绍了一种基于扩散模型的方法,用于在不改变对象边界的情况下生成背景。在设计和电子商务等应用中,保持对象特征至关重要。文章指出了对象扩展的问题,并提供了一种测量方法来捕捉这一问题。对不太突出的物体进行背景生成仍然是未来的挑战,这可能需要高质量的实例或全景分割掩码。此外,将调制 U-Net 编码器的 T2I 适配器作为 ControlNet 的替代品,与用于对象感知背景生成任务的新控制架构相结合,也能提高生成图像的整体精度和质量。

2025-03-13 09:00:00 1003

原创 探索在生成扩散模型中基于RAG增强生成的实现与未来

这是一篇关于图像检索多模态生成系统的代表性而非穷尽性概述。一些此类系统仅使用检索来改善视觉理解或数据集策划,而不是寻求生成图像,例如。文献中还有许多其他基于 RAG 的项目尚未发布。只有发表研究论文的原型,例如Re-Imagen,尽管它来自谷歌,但只能访问本地自定义数据库中的图像。此外,2024 年 11 月,百度宣布了基于图像检索的增强生成(iRAG),这是一个使用“数据库”检索图像的新平台。尽管据报道 iRAG 可在 Ernie 平台上使用,但关于检索过程的细节似乎很少,它似乎依赖于一个本地数据库。

2025-03-10 22:12:21 785

原创 探索在直播中的面部吸引力预测新的基准和多模态方法

迄今为止,面部吸引力预测(FAP)主要是在心理学研究、美容化妆品行业以及整形手术领域进行研究。这是一个具有挑战性的研究领域,因为美的标准往往是。这意味着没有一个单一有效的基于人工智能的数据集是可行的,因为从所有文化中采样面部/评分得到的平均值会存在很大偏差(人口较多的国家会获得更多关注),否则就可能对任何文化都不适用(多种族/评分的平均值可能并不代表任何实际的种族)。相反,挑战在于开发出概念性的方法和工作流程,以便能够处理特定国家或文化的数据,从而开发出针对各个地区的有效FAP模型。

2025-03-09 21:28:15 955

原创 DeepSeek-R1私有化部署——基于Ollama与FastApi部署DeepSeek-R1-Distill-Qwen服务器

在前面的博客中,介绍了基于python私有化部署了DeepSeek-R1-Distill-Qwen的命令行对话与服务器客服端访问的方式,这两种方法都要基于torch算法框架,安装时还要对应torch的版本,假设安装的torch的版本小2.2,那么可以加载模型时可能获取到"triu_tril_cuda_template" not implemented for 'BFloat16'这个错误。

2025-03-04 20:50:43 794

DeepSeek FastApi部署代码实现流式输出

API 是软件间相互传输数据的接口。它在生活中十分常见,比如博物馆订票系统中就使用了 API. 当你在手机应用上订票时,手机实际上发送了一个 HTTP 请求给远程服务器。远程服务器解析该请求。当确认所有字段信息均准确无误后,它才会把你的订票信息录入数据库,并回调成功标识。只有当上述操作全都被正确执行时,你的手机才会显示订票成功。这里实现了DeepSeek FastApi部署代码实现流式输出效果。

2025-03-01

使用代码部署DeepSeek-R1开源模型

DeepSeek-R1-Distill-Qwen 是 DeepSeek 团队基于 DeepSeek-R1 模型通过蒸馏技术生成的一系列轻量化模型。这些模型在保持高性能推理能力的同时,显著降低了计算资源和内存需求,适合在资源受限的环境中部署。DeepSeek-R1-Distill-Qwen 系列模型是通过从 DeepSeek-R1 模型中提取推理模式并迁移到更小的模型架构中生成的。这些模型基于 Qwen 系列架构,包括 1.5B、7B、14B 和 32B 等不同参数规模的版本,适用于多种任务场景,如数学推理、代码生成和逻辑推理等。为了方便嵌入自己的项目,这里演示如何基于python部署DeepSeek-R1模型,当前开发环境Win11,IDE是PyCharm,GPU是RTX 4080 8G,CUDA 是11.8。这里默认已安装好GPU驱动与CUDA与CUDNN环境。

2025-02-28

边缘与中线实例分割数据集2264张

书本边缘与中线实例分割数据集,标注软件是Labelme,标签格式是.json文件,统计2264张图像,每张图像都标注了书本连续与中线,数据来部分来自互联网,部分是真实手机拍照,可用于计算机视觉目标检测或者实例分割。

2025-02-12

猫实例分割数据集509张

猫语义分割数据集,标注软件是Labelme,标签格式是.json文件,统计508张图像共519个标签,数据来自互联网,可用于计算机视觉目标检测或者实例分割。

2025-02-11

手机拍照文档版面分析1244张

真实手机拍照的文档版面分析数据集,标注了文本,图形,页脚,图形说明,页眉,表格说明,表格,标题,标注软件是Labelme,标签格式是.json文件,总共1245张文档,标签统计结果如下,可用于拍照文档OCR格式化识别或者文档版面分析。 Text: 4273 Fiqure: 1645 Fiqure caption: 348 Footer: 905 Table caption: 356 Table: 408 Title: 206 Header: 45

2025-02-11

气球实例分割数据集380张

气球语义分割数据集,标注软件是Labelme,标签格式是.json文件,统计380张图像2689个标签,数据来自互联网,可用于计算机视觉目标检测或者实例分割。

2025-02-11

视觉圆点标定板圆语义分割77张

在某些特定应用场景中,使用OpenCV提供的标定函数可能无法达到预期效果,尤其是在面对一些特殊定制的标定板时。通常情况下,OpenCV默认采用`cv::SimpleBlobDetector`作为检测器来识别标定板上的特征点,但在某些情况下,这种检测器可能无法准确识别出圆心。数据集是收集了一些特殊场景的圆点分割,标注软件是Labelme,标签格式是.json文件,总共标注了77张图像, 2743个目标,可用于计算机视觉目标检测或者实例分割。

2025-02-11

文档阴影语义分割数据集600张

真实拍照的文档目标分割数据集,标注软件是Labelme,标签格式是.json文件,标签统计结果SH656个,可用于计算机视觉目标检测或者实例分割。

2025-02-11

手指纹斗与簸箕目标分割142张

真实拍照的手指纹斗与簸箕目标分割数据集,标注软件是Labelme,标签格式是.json文件,标签统计结果whorl194个目标,loop目标52个目标,可用于计算机视觉目标检测或者实例分割。

2025-02-11

广角图像畸变矫正python模型部署

提出为校正后的广角图像构建一种双赢的表示,并设计了一种新颖的RecRecNet。配备灵活的TPS变换运动模型,RecRecNet可以以无监督的端到端方式构建从变形边界到直线边界的局部变形。此外,启发RecRecNet通过基于自由度的课程学习来学习渐进变形规则,这可以缓解非线性和非刚性变换的复杂性。此外,提供了详细的分析来解释为什么变形的图像边界会使当前的视觉感知变形。在未来的工作中,计划扩展到一个通用的范式,用于校正任何变形图像,并进一步研究图像边界和视觉感知性能之间的关系。此外,将矩形化算法嵌入到视觉模型训练的在线数据增强中也将是有趣的。参考博文:https://blog.csdn.net/matt45m/article/details/145547229?spm=1001.2014.3001.5502

2025-02-10

基于OpenCV部署RecRecNet广角图像畸变矫正C++代码

广角镜头在VR技术等领域有着诱人的应用,但它会使拍摄的图像产生严重的径向畸变。为了还原真实场景,以往的工作致力于校正广角图像的内容。然而,这种校正方法不可避免地会扭曲图像边界,改变相关的几何分布,并误导当前的视觉感知模型。在这项工作中,我们通过提出一种新的学习模型,即矩形校正网络(RecRecNet),探索在内容和边界上构建一种双赢的表示。特别是,我们提出了一个薄板样条(TPS)模块来构建用于图像矩形化的非线性和非刚性变换。通过学习校正后图像上的控制点,模型可以灵活地将源结构扭曲到目标域,并实现端到端的无监督变形。为了缓解结构逼近的复杂性,接着启发RecRecNet通过基于自由度(DoF)的课程学习来掌握渐进变形规则。通过在每个课程阶段增加自由度,即从相似变换(4自由度)到单应变换(8自由度),网络能够探究更详细的变形,在最终的矩形化任务上实现快速收敛。参考博客:https://blog.csdn.net/matt45m/article/details/145547229?spm=1001.2014.3001.5502

2025-02-10

水面漂浮物目标检测数据集2400张

水面垃圾目标检测,标注格式xml,标注工具是labelImg,数据数量2400张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测。数据质量不是很高,是用几百张原始数据增强做成2000多张。 标注统计: bottle: 1691 branch: 434 plastic-bag: 411 leaf: 267 milk-box: 255 plastic-garbage: 202 grass: 201 ball: 49

2025-02-09

施工现场行人与佩带安全帽检测7544张txt格式

施工现在行人与行人佩戴安全帽检测,标注了行人、没有带安全帽的人头、佩带安全帽的人头,标注格式txt,标注工具是labelImg,数据数量7492张,可用于深度学习计算机视觉目标检测,目标标签:person,head,helmet。

2025-02-09

地上的烟头目标检测1023张xml格式

地上烟头目标检测,标注格式xml,标注工具是labelImg,数据数量1023张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测,数据质量并不是很高。 标签统计结果:Bud: 1063

2025-02-09

骑摩托车行人与安全头盔检测5448张.part2

骑在车上的行人与行人佩戴安全帽检测,只标注骑在车上的人与安全头盔,标注格式xml,标注工具是labelImg,数据数量5448张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测。 标注统计:two_wheeler: 16759,helmet: 15348,without_helmet: 7876

2025-02-09

骑摩托车行人与安全头盔检测5448张.part1

骑在车上的行人与行人佩戴安全帽检测,只标注骑在车上的人与安全头盔,标注格式xml,标注工具是labelImg,数据数量5448张,可以使用脚本把xml转成txt或者json格式的标签,可用于深度学习计算机视觉目标检测。 标注统计:two_wheeler: 16759,helmet: 15348,without_helmet: 7876

2025-02-09

道路缺陷目标检测xml格式共665张

道路缺陷检测,标注道路上有坑洼,标注格式xml,标注工具是labelImg,数据数量665张,可以使用脚本把xml转成txt或者json格式的标签,可用于yolo目标检测,用于无人机道路检测维修。

2025-02-09

无人机目标检测识别无人机

无人机目标检测,只有无人机一个类别,标注格式xml,标注工具是labelImg,数据数量1097张,可以使用脚本把xml转成txt或者json格式的标签,可用于yolo目标检测。

2025-02-09

鸟类目标检测xml与txt格式

鸟类识别目标检测,只有bird一个类别,标注格式xml和txt两种,标注工具是labelImg,数据数量4849张,可用于yolo目标检测。

2025-02-09

MVANet最强大的前景抠图模型

前景提取(背景移除)任务的主要挑战是在小范围内捕捉高分辨率细节,而在大范围内不损失精度。 受人类视觉的启发,我们建议将 MVANet 视为从多个角度观察物体的问题。 这一新方法通过改善远距离视觉交互和关注细节,在 DIS-5K 数据集上的精度和速度都优于当前的 SOTA。

2025-02-02

基于人脸检测与人脸关键点检测的人脸3维重建

3DDFA-V3的关键思想是将目标和预测的部件分割转化为语义点集,通过优化点集的分布来确保重建区域和目标具有相同的几何形态。具体来讲,3DDFA-V3提出了部件重投影距离损失(Part Re-projection Distance Loss, PRDL)。PRDL按照区域 left-eye, right-eye, left-eyebrow, right-eyebrow, up-lip, down-lip, nose, skin对人脸进行分块,针对二维部件分割的每个部分 ,PRDL首先在分割区域内采样点,得到目标点集 。然后,PRDL将三维人脸重建结果重新投影到图像平面上,并根据人脸模型的masks获得与目标区域语义一致的预测点集│,是人脸模型的系数。接着PRDL对图像平面的网格点进行采样,得到锚点集合,并计算任意一个锚点到点集的各种统计距离(如最近距离、最远距离、平均距离等)来建立几何描述子。 工程是Vs2019 C++,包含模型和依赖的库,下载直接运行。

2024-10-29

单目深度估计DepthAnything C++模型部署

单目深度估计(Monocular Depth Estimation, MDE)是一项在计算机视觉领域中非常重要的技术,它旨在从单张图像中恢复出场景的三维结构。这项技术对于机器人导航、自动驾驶汽车、增强现实(AR)和虚拟现实(VR)等应用至关重要。 "DepthAnything"是TikTok、香港大学和浙江大学共同研发的一种先进单目深度估计技术。这项技术能够从2D图像中提取深度信息,并将其转换为3D影像。与传统的MDE技术相比,"DepthAnything"在提高深度图质量方面取得了显著进步,这使得它能够更准确地估计场景的深度信息。 这种技术的应用前景非常广泛: 增强现实(AR)和虚拟现实(VR):通过将2D图像转换为3D,可以为用户创造更加沉浸式的体验。 机器人和自动驾驶汽车:更准确的深度估计可以帮助机器人和自动驾驶汽车更好地理解周围环境,从而提高它们的导航和决策能力。 内容创作:摄影师和视频制作者可以使用这项技术将普通2D内容转换为3D,增加作品的吸引力和互动性。 工程是vs2022,语言是C++,包含了所有的依赖库,下载直接运行就可以了。

2024-08-05

基于yolov8的面部七种表情识别C++部署工程

七种表情识别是一个多学科交叉的研究领域,它结合了心理学、认知科学、计算机视觉和机器学习等学科的知识和技术。 - **表情的定义**:表情是人们在情绪体验时面部肌肉活动的结果,是人类情感交流的基本方式之一。 - **基本表情理论**:心理学家Paul Ekman提出,人类有七种基本情绪,每种情绪都有其特定的面部表情模式。 ### 七种基本表情 1. **快乐**:通常与积极情绪相关,特征是嘴角上扬,眼睛周围肌肉收缩。 2. **悲伤**:与失落或痛苦相关,特征是眉毛下垂,嘴角下拉。 3. **愤怒**:与愤怒或挫败相关,特征是眉毛下压,嘴唇紧闭。 4. **惊讶**:与意外或震惊相关,特征是眼睛和嘴巴张开。 5. **恐惧**:与害怕或焦虑相关,特征是眼睛瞪大,眉毛提升。 6. **厌恶**:与反感或不喜欢相关,特征是上唇提升,嘴角下拉。 7. **轻蔑**:与鄙视或不屑一顾相关,特征是嘴角一侧上扬。

2024-08-04

万物分割(Segment Anything Model)C++模型推理部署

SAM 的独特之处之一是它具有执行全景分割的能力,这涉及将实例分割和语义分割相结合。实例分割涉及识别和划分图像内每个物体实例,而语义分割涉及为图像中的每个像素标记相应的类别标签。全景分割将这两种方法结合起来,以提供对图像更全面的理解。 SAM 的另一个关键特点是其灵活性。该模型可以针对特定的用例和领域进行微调,使其高度适应性。 SAM 的架构也非常高效,使其能够实时处理大量数据。这使其非常适合需要快速准确的图像分割的应用,例如安全监控、工业自动化和机器人技术。 代码是Vs 2022 完整项目,包含整个依赖,下载之后直接运行就可以。

2024-08-02

盲道检测分割C++推理代码

盲道是视障人士安全出行的重要辅助设施。识别盲道的形状和位置,对于增强视障人士的自主移动能力至关重要,而视觉分割技术正是应对这一挑战的有效工具。为了显著提升盲道分割的精确度和稳定性,本文提出了一种创新的分割方法,该方法融合了UNet网络与多尺度特征提取技术。本方法在UNet架构中引入了组感受野块(GRFB)的设计,用以捕获盲道的多级视觉信息。通过应用组卷积,该方法有效降低了计算的复杂度。此外,在每个组卷积之后引入了小尺度卷积,以促进不同通道间的信息交流和融合,进而提取更为丰富和高层次的特征。 在本研究中,我们构建并标注了一个包含多种环境条件下盲道的数据集,用以进行实验评估。我们还对本方法与现有的典型网络结构和模块进行了详尽的比较分析。实验结果表明,我们提出的网络在盲道分割任务上的表现超越了其他对比网络,为盲道的检测提供了一个有力的参考,这不仅证明了本方法的有效性,也为视障人士的导航辅助技术的发展做出了贡献。

2024-08-01

低光照图像增强vs2019 C++代码

低光照图像增强(LLIE)是计算机视觉(CV)领域的一个重要且具有挑战性的任务。在低光照条件下捕获图像会显著降低其质量,导致细节和对比度的丧失。这种退化不仅会导致主观上不愉快的视觉体验,还会影响许多CV系统的性能。LLIE的目标是在提高可见度和对比度的同时,恢复暗环境中固有的各种失真。 低光照条件指的是环境场景中的光照水平低于实现最佳可见性的标准要求。然而,在实际应用中,到目前为止,还无法确定特定的理论值来明确界定低光照环境。因此,对于识别和量化构成低光照条件的标准,尚未有统一的规定。 LLIE在各种计算机视觉任务中发挥着重要作用,如特征提取或基于内容的识别。此外,它还是更复杂系统在诸如医学成像、移动遥感、视频监控系统等不同领域中一个关键步骤。 LLIE解决方案随着卷积神经网络(CNN)的发展而进步,所提出的解决方案主要分为两类 参考博客:http://t.csdnimg.cn/1Ny16

2024-07-31

深度学习图像处理客户端与服务器.rar

代码包含了基于TCP的客户端与服务器端,功能是是基于OpenCV C++与Yolov5 face实现一个完整的深度学习模型推理部署与推流的过程。代码使用C++实现,包含所有用到的库与模型。

2024-07-29

yolov5-v7.0河道漂浮物检测.rar

河流作为水环境中的重要组成部分,在供给水源、维持生态、美化景观等诸多方面扮演着不可或缺的角色。但是,目前人类活动和自然因素导致河面频繁出现大量漂浮物,严重破坏了河道景观和水生态环境,已成为河道监管中重点关注的问题。在国内各省市全面推行落实“河长制”政策的背景下,很多地方开始采用摄像头进行河湖可视化监管以促进河湖面貌改善,但是人工参与程度依然较高,单纯依靠人力观看大量的监控资料来判断河湖状况。在这种情况下,推动当前河道视频分析的智能化与无人化已成为河流长效管护的迫切需求。但是,河流环境本身复杂多样,例如,河流结构性差、易受动态光影和水波扰动等噪声的影响,现有的视觉方法应用至水面漂浮物监测任务中仍存在一些问题需要解决。围绕上述需求及难点,本文开展了基于视觉分析的河道漂浮物检测与跟踪方法研究,并进行了实验应用。使用的算法是yolov5 v7.0这个版本,里面包含了5000多张已经标注好的数据集,下载之后直接训练就可以,算法训练可参考:https://blog.csdn.net/matt45m/article/details/138141616?spm=1001.2014.3001.5502

2024-04-24

YOLOv8与DeepSORT实现目标追踪

YOLOv8是一种基于图像全局信息进行预测并且它是一种端到端的目标检测系统,最初的YOLO模型由Joseph Redmon和Ali Farhadi于2015年提出,并随后进行了多次改进和迭代,产生了一系列不同版本的YOLO模型,如YOLOv2、YOLOv3、YOLOv4,YOLOv5等。这些更新和迭代旨在提高模型的性能、精度和速度,使其在实际应用中更具竞争力。 YOLOv8的核心思想是将图像划分为网格,并在每个网格单元中预测物体的边界框和类别。这种设计使得YOLO非常适合实时目标检测应用,因为它可以在较短的时间内完成目标检测任务。 多目标跟踪往往面临一些挑战,例如需要同时跟踪多个目标、目标可能频繁遮挡,这些因素使得目标跟丢成为一个常见问题。为了解决这些问题,可以借助跟踪器 DeepSORT 以及检测器 YOLO v8,从而构建一个高性能的实时多目标跟踪模型。 参考博客:https://blog.csdn.net/matt45m/article/details/134237238#comments_32297294

2024-04-18

手机目标检测数据集.rar

这是一个手机目标检测的数据集,数据集的标注工具是labelimg,数据格式是voc格式,要训练yolo模型的话,可以使用脚本改成txt格式,数据集标注了手机,标签名:telephone,数据集总共有1960张,有一部分是直实数据,有一部分是是真实数据。数据集下载之后就可以直接使用。

2024-04-14

标注扑克牌目标识别数据集

这是一个检测扑克牌种类的数据集,检测种类目前只有6种,分别是 ``` "queen", "ten", "nine", "king", "jack", "ace" ``` 数据集共含有363张图片,标注的工具是labelimg,数据标签是xml。

2024-04-13

实时语义分割ENet算法Pytorch复现与模型训练

ENet架构是专为语义分割而设计的。与成熟的深度学习工作站相比,主要目标是有效利用嵌入式平台上可用的稀缺资源。Enet工作在完成此任务方面取得了很大的收获,与此同时,匹配并有时超过了现有的baseline,这些baseline对计算和内存的要求更高。ENet在NVIDIA TX1硬件上的应用体现了实时便携式嵌入式解决方案。即使主要目标是在移动设备上运行网络,它在NVIDIA Titan X等高端GPU上也非常有效。在需要处理大量高分辨率图像的数据中心应用中,这可能被证明是有用的。ENet允许以更快,更高效的方式执行大规模计算,这可能会节省大量资金。 资源是对论文的复现,可用于时实语义分割,转了模型之后可以部署在边缘设备上,关于算法的应用与理解可以参考个人的博客。里面有详细的介绍与训练方向。

2024-04-10

基于深度学习实现的复杂背景文档二值化的算法实现

阈值分割可以被视为一个分类问题,通常涉及两个类别,这也是为什么阈值分割也被称为二值化。对于文档图像,我们期望阈值算法能够正确地将墨水分类为黑色,将纸张分类为白色,从而得到二值化图像。对于数字灰度图像,最简单的实现方法是选择一个阈值值,比如图像二值化,并将高于这个值的灰度级别分配为白色,将剩余的级别分配为黑色。问题在于正确找到这个值,以便能够完美匹配前景和背景元素。 在这里将探讨如何通过使用基于卷积神经网络(CNN)的U-Net架构训练的模型进行分类,来实现具有不同类型问题的文档二值化。CNN的典型用途在于分类任务,其中对图像的输出是一个单一的类别标签。然而,在许多视觉任务中,期望的结果不仅包括图像中物体是否存在,还包括其定位,即每个像素都应该被分配到一个类别标签。

2024-04-10

夜晚图像雾霾图像增强C++/python部署

在夜间雾霾场景中,可见性经常受到低光照、强烈光晕、光散射以及多色光源等多种因素的影响而降低。现有的夜间除雾方法常常难以处理光晕或低光照条件,导致视觉效果过暗或光晕效应无法被有效抑制。本文通过抑制光晕和增强低光区域来提升单张夜间雾霾图像的可见性。为了处理光晕效应,我们提出了一个光源感知网络来检测夜间图像的光源,并采用APSF(大气点扩散函数)引导的光晕渲染。我们的框架在渲染图像上进行训练,实现了光晕的抑制。此外,我们还利用梯度自适应卷积来捕捉雾霾场景中的边缘和纹理。通过提取的边缘和纹理,我们在不丢失重要结构细节的情况下增强了场景的对比度。为了提升低光强度,我们的网络学习了一个注意力图,然后通过伽马校正进行调整。这个注意力图在低光区域有较高的值,在雾霾和光晕区域有较低的值。通过在真实的夜间雾霾图像上进行广泛的评估,我们的方法证明了其有效性。

2024-04-10

基于NCNN轻量级PaddleOCRv4模型C++推理

PaddleOCR 提供了基于深度学习的文本检测、识别和方向检测等功能。其主要推荐的 PP-OCR 算法在国内外的企业开发者中得到广泛应用。在短短的几年时间里,PP-OCR 的累计 Star 数已经超过了32.2k,常常出现在 GitHub Trending 和 Paperswithcode 的日榜和月榜第一位,被认为是当前OCR领域最热门的仓库之一。 PaddleOCR 最初主打的 PP-OCR 系列模型在去年五月份推出了 v3 版本。最近,飞桨 AI 套件团队对 PP-OCRv3 进行了全面改进,推出了重大更新版本 PP-OCRv4。这个新版本预计带来了更先进的技术、更高的性能和更广泛的适用性,将进一步推动OCR技术在各个领域的应用。 参考博客:https://blog.csdn.net/matt45m/article/details/134713935#comments_32019413

2024-04-02

检测出图像中的几何形状并测量出边长、直径、内角(python和opencv实现)

图像里面的线段测量,首先要理解“每度量比的像素”(pixels per metric ratio),它类似于比例尺,通过已知图像上一个对象的尺寸和该对象在图像中所占像素的数量,可以得到一个比例关系,从而可以将其他物体的像素转换为实际度量单位(如厘米、毫米等)。 关键属性包括: 已知长度:需要知道图像中一个物体的实际长度,通常是以某种可测量的单位(例如毫米、英寸等)来表示。 像素数量:该已知长度物体在图像中所占据的像素数。这可以通过在图像中测量该物体的像素宽度或高度来获取。 有了这两个属性,就可以计算出每个度量单位所对应的像素数。这个比例关系将图像中的像素转换为实际的度量单位,从而可以测量其他物体的大小或长度。

2024-03-29

YOLOv8目标检测、语义分割、状态估计、目标追踪模型部署带GUI界面

Ultralytics YOLOv8是一种前沿的、最先进的(SOTA)模型,它在前代YOLO版本的成功基础上进行了进一步的创新,引入了全新的特性和改进,以进一步提升性能和灵活性。作为一个高速、精准且易于操作的设计,YOLOv8在广泛的领域中,包括目标检测与跟踪、实例分割、图像分类以及姿势估计等任务中,都表现出色。实例分割在物体检测的基础上迈出了更进一步的步伐,它不仅可以识别图像中的单个物体,还能够精确地将这些物体从图像的其他部分中分割出来。这是一个集成了YoloV8目标检测、实例分割、姿态估计与目标追踪的项目,界面是用PyQt5写的,可以读入图像,视频与摄像头。可用于对比与参考这几个算法的差异与如何部署。关于源码的运行与部署可以参考博客《YOLOv8项目解析——一文搞定目标检测、语义分割、状态估计、目标追踪算法原理与模型部署》,博客地址:http://t.csdnimg.cn/PbVNu

2024-03-26

图像抠图DIS-自然图像中高精度二分图像抠图的方法(C++推理代码)

二分图像分割(DIS),旨在从自然图像中分割高精度的对象。为此,我们收集了第一个大规模DIS数据集,称为DIS5K,其中包含5470张高分辨率(例如2K、4K或更大)图像,涵盖各种背景中的伪装、突出或精细物体。DIS使用极细粒度的标签进行注释。此外,我们还引入了一个简单的中间监督基线(IS-Net),使用特征级和掩码级指导进行DIS模型训练。IS-Net在建议的DIS5K上优于各种前沿基线,使其成为一个通用的自学习监控网络,可以促进DIS的未来研究。此外,我们设计了一个新的度量,称为人类校正努力(HCE),它近似于纠正假阳性和假阴性所需的鼠标点击操作数。HCE用于测量模型和实际应用程序之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16种具有代表性的分割模型,对对象的复杂性进行了更深入的讨论,并展示了几种潜在的应用(例如背景去除、艺术设计、三维重建)。希望这些努力能为学术界和工业界开辟有希望的方向。

2024-03-24

百度人像抠图C++模型部署完整包

PP-HumanSeg v2人像分割方案是一项重要的突破,采用了深度学习技术,以96.63%的mIoU精度和仅15.86ms的推理耗时,在人像分割领域刷新了SOTA指标。该方案不仅支持商业应用,而且可零成本、开箱即用。 相比于之前的版本,PP-HumanSeg v2在推理速度和精度上都有显著提升,肖像分割模型推理速度提升45.5%,mIoU精度提升3.03%。通用人像分割模型推理速度提升5.7%,mIoU精度提升6.5%。 通过以上优化措施,PaddleSeg的肖像分割模型在保证分割精度的情况下,大幅减少了参数量,提高了模型的轻量化程度,并且通过全局上下文信息的汇集和特征融合,进一步提升了模型的语义理解能力和分割效果。

2024-03-23

人像自动抠图LFM训练代码与C++推理部署代码

图像抠图(Image Matting)是一个在工业界和视觉研究领域都非常重要的研究课题。从 2000 年开始,对图像抠图及相关研究问题进行了大量研究,产生了一系列对计算机视觉和计算机图形学研究都有深远影响的工作,例如 GrabCut、Guided Filter、Closed Form Matting、Poisson Matting、Bayesian Matting 等。在好莱坞的动作大片、迪士尼的动画巨作、Office 以及 Adobe Photoshop 的一些功能中都能看到抠图算法的应用。 解决抠图问题需要我们分别求解出图像的前景、背景和 alpha matte。Alpha matte 即我们常说的 alpha 通道,基于 alpha 通道我们可以将前景和任意背景进行重新组合得到新的图像。因此,alpha matte 是和原图同大小的一个单通道图像,每个像素都对应于原 RGB 图像相同位置像素的 alpha 值。关于算法解析与实现具体步骤可看我的博客《人像抠图PP-Matting——支持多场景精细化高精度人像抠图(C++模型推理)》

2024-03-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除