- 博客(144)
- 收藏
- 关注
原创 OG-HFYOLO:当梯度方向引导遇见异构特征融合,变形表格分割难题迎刃而解
在信息日益数字化的时代,表格作为结构化数据的核心载体,广泛承载着财务报表、教育学习、科学实验数据等关键信息。同时,随着扫描、摄影等技术的普及,表格电子文档的场景日趋复杂。尤其在光照条件、拍摄角度和场景环境复杂多变的情况下,扫描或拍摄的表格图像可能出现各类形变。这些物理形变(如弯曲、透视畸变、折叠)为表格结构识别技术带来巨大挑战。表格结构识别是文档分析中的关键任务。然而,变形表格中的几何形变会导致内容信息与结构之间关联性弱化,致使下游任务无法获取准确的内容信息。为获得细粒度的单元格空间坐标,我们提出OG-HF
2025-05-07 17:19:26
1008
原创 基于气象模拟增强的航空图像优化:提升YOLO模型在海上搜救人体检测的跨环境鲁棒性
在这些错综复杂的水域中,商业船只和游艇的数量不断增加,再加上复杂的沿海环境,突出了在发生海上事件或事故时对全面有效的 SAR(搜索与救援)服务的需求。总体而言,我们的YOLO模型在检测人类对象方面非常有效,整体人类召回率在0.86到0.91之间,其中 YOLOv5l 是测试模型中表现最好的,YOLOv5s则是表现最差的。我们高度评估了人类和无生命物体的性能,以确保模型适用于在不同环境中检测人类,因为如果没有不同的物体类别或没有人类的图像,模型更容易将无生命物体错误地归类为人类。
2025-05-07 09:07:44
885
原创 车辆检测新突破:VFM-Det 如何用大模型提升识别精度
目录编辑一、摘要二、引言三、相关工作四、Coovally AI模型训练与应用平台五、方法概述综述:基于区域建议的检测基于VehicleMAE的感知器六、实验分析数据集与评估指标实现细节属性预测模块预训练与SOTA检测器的对比实验消融实验VehicleMAE编码器的影响VAtt2Vec模块的影响可学习标记数量的影响不同属性编码器的比较不同特征融合策略的比较属性向量不同使用方法的比较不同对比学习损失函数的比较不同微调方法的比较可视化局限性分析结论现有的车辆检测器通常是基于预先训练好的骨干网(如ResNet、V
2025-04-30 17:51:41
917
原创 Vision Transformers与卷积神经网络详细训练对比(附代码)
另一方面,Vision Transformer 提供了一种强大的方法来捕捉图像中的全局依赖关系和上下文理解,从而提升了某些任务的性能。虽然它们可能达到令人印象深刻的准确率,尤其是在处理更大的数据集时,但计算需求可能会限制它们在资源有限的情况下的实用性。然而,在更大规模的数据集上训练时,Vision Transformer (ViT) 取得了优异的成绩,并在多个图像识别基准测试中接近或超越了当前最佳水平。一个可学习的嵌入被添加到块序列的前面,其在 Transformer 编码器输出的状态作为图像表示。
2025-04-29 17:00:41
932
原创 【深度解析】YOLOE登场:CNN路线的开放世界新答卷,超越YOLO-World与Transformer
在Transformer大模型主导视觉领域的时代,YOLOE坚持轻量高效的CNN路线,并通过合理引入Prompt机制与高效特征建模,打破了实时检测与开放性、分割能力之间的矛盾。在分析大型媒体集合时尤为重要,它可以自动识别存在的对象,帮助更快地建立专门的模型。这种多模式提示支持极大增强了模型在实际应用中的灵活性,比如在无人巡检、医疗影像筛查等任务中,不同场景可以选择最适合的提示方式。,不仅进一步提升了检测性能与推理速度,更引入了多模态提示支持和强大的实例分割能力,拓展了开放世界视觉任务的新边界。
2025-04-29 16:55:30
881
原创 复杂背景下无人机影像小目标检测:MPE-YOLO抗遮挡与抗背景干扰设计
更重要的是,MPE-YOLO 在降低误报和漏报方面也表现出显著的提升,能够准确识别和识别大多数目标,同时最大限度地减少非目标区域的误识别。YOLOv8 和 YOLOv8m。在处理航拍图像中的小目标或低对比度目标时,原YOLOv8的C2f模块对小目标特征表达能力不足,ES-C2f模块专注于提升网络捕捉细节的能力和特征利用效率,尤其是在小目标和低对比度目标的表达方面。PEC模块将输入特征图切割为4个子块,拼接后压缩通道维度,通过这种精细的空间维度划分,生成的小块在确保信息覆盖均匀的同时,保留了重要的空间信息。
2025-04-27 17:40:56
1374
原创 UAV-DETR:频域融合与动态校准技术突破,无人机图像小目标检测精度与实时性双飞
加入 MSFF-FE 模块后,AP 进一步提高到 28.4,这表明,加入多尺度特征融合和频率增强的好处。综合所有组件,UAV-DETRR18 的性能最高,AP 为 29.8,AP50 为 48.8,这显示了每个模块对检测精度的累积影响。与基线 RT-DETR-R18 相比,UAV-DETR-R18的AP提升3.1%,AP50 提升了 4.2%,验证频域融合的有效性。值得注意的是,即使与PP-YOLOE-P2-Alpha-l等通常得益于大量预训练的方法相比,我们的方法仍然表现出色。
2025-04-27 09:23:38
852
原创 从梯度消失到百层网络:ResNet 是如何改变深度学习成为经典的?
跳过连接(或残差连接)的工作原理是,将较早层(例如,第 n-1 层)的输出直接添加到较晚层(例如,第 n+1 层)的输出。这两种情况都会增加训练难度,并导致错误率上升,随着层数的增加,模型在训练和测试数据上的性能都会受到影响。相反,第 (n-1) 层的输出会向前传递,并与第 (n+1) 层的输出合并。实现后,我们可以直接创建此类的对象并传递数据集的输出类的数量,并使用它在任何图像数据上训练我们的网络。有时,在非常深的网络中,梯度会呈指数增长,导致数值不稳定,权重变得太大,从而导致模型失败。
2025-04-24 17:28:45
1009
原创 YOLOv12的注意力机制革新与实时检测性能分析——基于架构优化与历史版本对比
例如,最小的变体 YOLOv12-N实现了40.6% 的 mAP,超过了YOLOv10-N(38.5%)和YOLOv11-N(39.4%),在T4 GPU上的推理时间为1.64 ms。具体来说,尺寸为(H,W)的特征图被划分为大小为(H/L,W)或(H,W/L)的L个片段,省去了其他注意力模型中的显式窗口划分方法,如移位窗口、十字注意力或轴向注意力。这些改进凸显了YOLOv12在保持或提高检测精度的同时降低延迟的效率,使其非常适合自动驾驶、监控和机器人等对时间敏感的应用,在这些应用中,快速处理至关重要。
2025-04-24 17:24:23
876
原创 MobileNetV2:面向移动端的高效神经网络架构革新——突破轻量化模型的设计边界
另一方面,如果您在功能更强大、资源更丰富的设备上部署模型,您可以将分辨率提高到224x224像素,并使用1或更大的宽度乘数,这将提高准确率,但需要更多计算资源。在移动设备和嵌入式系统快速普及的背景下,计算机视觉模型面临着严峻的效率挑战。如上所述,MobileNetV2可以使用宽度乘数来扩展其性能,使其能够在资源有限的设备上运行,或为性能更强大的机器提供更高的准确率。通过上图,您可以看到模型如何处理不同尺寸的输入(例如,从 224x224 降至 7x7),以及如何在扩大通道数量的同时逐渐降低空间分辨率。
2025-04-23 17:35:30
1228
原创 RF-DETR vs YOLOv12实测:复杂果园青果识别准确率高达94.6%
目录一、摘要二、引言基于 CNN 的目标检测方法基于transformer-based的目标检测方法目标三、方法研究地点和数据采集数据预处理和准备训练目标检测模型训练方法性能评估检测评估指标四、检测结果精度、召回率和F1分数评估平均精确度(mAP)分析训练动态和模型收敛分析五、讨论六、结论本研究全面比较了RF-DETR目标检测模型和YOLOv12目标检测模型在复杂果园环境中识别绿色水果的能力,果园环境的特点是标签模糊、遮挡和背景伪装。为评估模型在真实世界条件下的性能,开发了一个自定义数据集,其中包括单类(绿
2025-04-23 09:52:06
898
原创 YOLO场景选型与性能核心底牌!看C3K2、C2F、C3K如何决定应用场景
利用C3K2优化的感受野和C3K的多尺度特征提取,以更少的参数实现更高的准确度。C3K2、C2F和C3K模块的引入进一步优化了各种应用中的特征提取、多尺度检测和遮挡处理。C3K模块是YOLO特征提取的一个重要进步,它提供了针对不同尺度的物体进行更好的特征提取,多内核设计可以捕获不同对象大小的细节。C3K2、C2F和C3K特征提取模块针对特定的实际应用优化 YOLO模型,平衡了速度、准确性和效率。C2F 提高了遮挡人脸识别的准确性,安全和监控系统依赖于面部识别和人员追踪,通常用于拥挤或遮挡的环境。
2025-04-21 17:34:39
1301
原创 YOLO版本迷信终结!11领域398万实例实测:告诉你的场景该用哪个版本?
除常规mAP₅₀外,细分小/中/大目标检测精度(mAPₛₘₐₗₗ/mAPₘₑᵈᵢᵘᵐ/mAPₗₐᵣᵍₑ),并严格遵循COCO无阈值过滤评估标准。为解决图片模糊性并提高基准的可靠性,团队排除了普遍存在此类模糊性的数据集剔除边界模糊样本(如无人机拍摄的小麦穗边缘),确保标注可靠性。实时性(选v11)?学术团队(如v7/v9):专注前沿模块(如PGI梯度编程),在特定领域(如显微细胞检测)实现突破,但泛化性较弱。而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,
2025-04-21 09:54:02
959
原创 夜间行车黑科技!中国团队全新YOLO-LLTS低光交通标志检测算法,实时识别精准度提升2.7%
其次,我们开发了多分支特征交互注意力模块(MFIA),该模块通过在通道和空间维度上实现多感受野的深层特征交互,显著增强了模型的信息提取能力。针对现有数据集中夜间场景样本匮乏的问题,我们构建了中国夜间交通标志样本集(CNTSSS),该数据集涵盖黄昏至深夜多时段低光条件图像,包含城市、高速公路、乡村等多场景及不同天气条件下的交通标志样本。高分辨率特征图输入至MFIA模块(MFIA1-MFIA4)进行特征融合,通过整合四个不同感受野的特征图F1F1-F4F4,在降低计算成本的同时显著增强小目标特征表征。
2025-04-16 17:18:22
712
原创 YOLO半自动标注技术助力铁路检测,人工标注时间骤降80%!
不过,这也凸显了该算法的另一个重要特点,即辅助标注的早期实施有助于从早期阶段就减少训练中的人为错误。一个准确的模型必须具有较高的召回率。mAP(平均精度)将边界框与模型检测进行比较,并返回一个分数,准确的模型具有较高的mAP值是至关重要的。不过,模型的输出结果与初始标注数据非常相似,这意味着检测结果是准确的。我们还可以看到,曲线的稳定性随着每次辅助标注的实施而提高,这表明随着算法的不断改进,模型的准确性也在不断提高。然后将这些修正后的标签整合到现有的标注数据集中,从而扩展训练集,为模型提供更多的改进实例。
2025-04-10 17:43:31
920
原创 无人机+AI新农业!大豆成熟度精准预测,准确率高达85%,育种效率飙升
目录一、摘要二、引言三、材料和方法实地试验和数据收集无人机系统数据采集数据预处理绿度斜率提取时间序列数据的紧凑表示图像处理提取特征作为表型的色调等值线图为地块指定类别标签模型开发和ML管道数据集平衡与增强模型训练分层和多时态数据建模Top-2精确度评估四、Coovally AI模型训练与应用平台五、结果与讨论种子产量和绿度损失的数据描述和探讨绿色度下降率与相对成熟度之间的关系成熟度分类深度学习架构的模型性能不同分类标签的性能在各种时间图像子集上的表现六、结论植物育种计划需要对成熟天数进行评估和了解,以便在适
2025-04-10 13:32:11
1034
原创 告别水下模糊!SU-YOLO:轻量化+尖峰神经网络,用“类脑计算”实现水下目标毫秒级识别
目录一、摘要二、引言三、相关工作SNN 物体检测水下物体探测水下图像去噪归一化四、方法水下尖峰YOLO尖峰干扰器SU-BlockSpikeSPP编码器和检测头分批归一化五、Coovally AI模型训练与应用平台六、实验结果数据集和实施细节数据集实施细节计算成本时间步长对比实验消融实验SU-YOLO模块的有效性SpikeDenoiser的效果SeBN的有效性残块替换混淆矩阵和精度-召回曲线池化和激活顺序时间步长七、结论水下物体探测对于海洋研究和工业安全检查至关重要。然而,复杂的光学环境和有限的水下设备资源给
2025-04-08 16:05:45
1183
原创 打破单一视角!融合红外和可见光,YOLO算法实现全天候无人机检测
目录一、摘要二、系统概述三、数据集视频记录数据集标注四、数据集分析五、基于深度学习的无人机探测基于规则的跟踪方法六、结论无人机或无人驾驶飞行器传统上用于军事任务、战争和间谍活动。然而,由于涉及安全和检查、转运、研究目的和娱乐性无人机飞行的多种工业应用,无人机的使用量大幅增加。公共场所无人机活动量的增加要求采取监管行动,以保护隐私和安全。因此,对非法无人机活动(如侵占边界)的检测就变得十分必要。这类检测任务通常由深度学习模型自动完成,而深度学习模型是在有注释的图像数据集上训练出来的。本文以之前的工作为基础,扩
2025-04-08 08:59:54
957
原创 GPT-4o从语义分割到深度图生成,大模型狂潮下的计算机视觉:技术进步≠替代危机
技术融合的核心驱动力在于数据资源的深度整合与价值释放,特斯拉将激光雷达点云数据与大模型生成的伪深度图进行对抗训练,解决纯视觉方案在雨雾天气的感知缺陷,Stable Video Diffusion等工具可批量生成带标注的工业缺陷图像,弥补传统CV在小样本场景下的数据短板;随着上周,GPT-4o原生多模态图像生成功能的推出,更多玩法也被开发出来。一夜之间,GPT-4o原生多模态能力的释放,让图像生成、语义分割、深度图构建这些曾需要专业工具链支持的复杂任务,变成了普通人输入一句话就能实现的"视觉魔术"。
2025-04-03 16:46:35
1019
原创 15毫秒检测缺陷!ResNet34-TE融合模型,准确率96.8%的品牌彩色二维码缺陷检测
在烟草、食品包装等行业,每个商品上的彩色二维码不仅是防伪溯源的关键,更是企业品牌信誉的“生命线”。然而,高速喷印过程中产生的飞墨、漏印等缺陷,可能导致消费者扫码失败,甚至引发市场混乱。传统检测方法效率低、精度不足,如何快速精准地揪出缺陷?昆明理工大学团队提出了一种ResNet34-TE融合模型,将准确率提升至96.8%,单张检测仅需15.59毫秒!这项技术如何实现突破?一起来看!现有方法主要依赖两类技术:传统图像处理:如模板匹配、边缘检测,但适应性差,难以应对复杂多变的缺陷。
2025-04-02 17:58:27
938
原创 清华YOLOE新发布:实时识别任何物体!零样本开放检测与分割
例如,YOLOE-v8-S在3倍少的训练成本下,比YOLO-Worldv2-S高出3.5 AP,且在T4 GPU和iPhone 12上的推理速度分别提高了1.4倍和1.3倍。例如,在线性探测策略下,YOLOE-11-M和YOLOE-11-L在不到2%的训练时间内,分别达到了YOLO11-M和YOLO11-L超过80%的性能。例如,YOLOE-v8-M和YOLOE-v8-L在不到YOLOv8-M和YOLOv8-L四分之一的训练时间下,分别提高了0.4 APm和0.6 APb。
2025-03-27 17:28:40
955
原创 李飞飞、吴佳俊团队新作:FlowMo如何以零卷积、零对抗损失实现ImageNet重构新巅峰
自VQGAN和潜在扩散模型等流行的视觉生成框架出现以来,最先进的图像生成系统一般都是两阶段系统,首先将视觉数据标记化或压缩到低维潜在空间,然后再学习生成模型。标记化训练通常采用标准方法,即根据MSE、实际损失和对抗损失的组合对图像进行压缩和重建。扩散自动编码器在之前的工作中已被提出,作为一种学习端到端感知导向图像压缩的方法,但在ImageNet-1K重构这一竞争性任务中尚未显示出最先进的性能。我们提出的FlowMo是一种基于变换器的扩散自动编码器,它能以多种压缩率实现最新的图像标记化,而无需使用卷积、对抗损
2025-03-26 17:46:14
1353
原创 融合YOLO11与行为树的人机协作智能框架:动态工效学优化与自适应安全决策
我们的工作扩展了这一方法,整合了对操作员身体状况的持续监控,以提高整体安全性,解决了人机工程学方法综合调查中强调的关键问题,并为动态任务环境提供了反应更灵敏的系统。最近的一些研究,如Ferraguti等人的研究,提出了在HRC协作中自动进行人体工程学评估的解决方案,但这些方法并不总能成功地持续监控操作员的身体状况。Marvel等人提出的速度与分离监控(SSM)方法可监控人与机器人之间的速度和距离,以防止碰撞,但由于缺乏与先进视觉感知技术的集成,限制了其在复杂环境中的流畅性。图 6 监控姿势的更新延迟。
2025-03-26 09:09:04
909
原创 统一开放世界与开放词汇检测:YOLO-UniOW无需增量学习的高效通用开放世界目标检测框架
目录一、摘要二、引言三、相关工作开放词汇对象检测开放世界目标检测参数高效学习四、高效通用的开放世界目标检测问题定义高效的自适应决策学习开放世界通配符学习五、Coovally AI模型训练与应用平台六、实验数据集评价指标实施细节定量结果消融研究定性结果结论传统的目标检测模型受到封闭数据集的限制,只能检测训练过程中遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别,但由于跨模态融合,它们引入了大量过度推理,而且仍然受到预定义词汇的限制,使它们无法有效地识别开放世界场景中的未知物体。在这项工作中,我们
2025-03-21 16:49:00
1325
原创 MLOps赋能AI全生命周期:从数据到模型的工业化革命,助力企业高效迭代与落地
例如,早期PoC阶段采用轻量模型(如YOLO-Nano)快速上线验证商业价值,然后在后续迭代中逐步替换为精度更高、但也更复杂的新模型(如ConvNeXt),所有版本均被完整追踪,确保技术升级与市场节奏的平衡。通过使用Coovally平台,团队可以更好地实践MLops理念,从而加速AI项目的迭代速度,提高模型质量,并降低运维成本。通过Coovally这样的平台,即使是规模较小的团队也能够采用企业级的MLops最佳实践,在竞争激烈的AI领域中保持技术优势和创新能力。
2025-03-21 09:21:41
1037
原创 跨粒度小样本语义缺陷分割新范式:MFANet与FASNet助力无缝钢管内表面缺陷检测
数据集包含:图像级标注的疑似缺陷筛分数据集(图2)和像素级标注的缺陷分割数据集(图3)。研究团队构建了一个名为CGFSDS-9的跨粒度小样本缺陷分割数据集,包含3类粗粒度标注的缺陷(如带钢、铝合金和磁瓦)和6类细粒度标注的无缝钢管缺陷。该模型基于元学习框架,嵌入了缺陷特征聚合模块(图8)和多尺度特征解码器(图9),能够在边缘设备上高效运行,适用于实时检测场景。针对检测机器人采集的图像中存在样本不平衡问题(无缺陷样本远多于缺陷样本),研究团队提出了基于MobileNet系列的疑似缺陷筛分模型。
2025-03-20 09:27:59
763
原创 99.22%准确率!EfficientNet优化算法实现猪肉新鲜度无损快检
针对传统猪肉新鲜度检测方法效率低、破坏性强的问题,本研究提出一种基于EfficientNet框架的智能无损检测技术。通过采集2500张原始猪肉图像,结合旋转、缩放等增强策略构建6万张数据集,并采用迁移学习策略(CIFAR-10预训练+五分类微调)优化模型性能。实验表明,改进后的。
2025-03-18 16:38:53
817
原创 利用大语言模型生成的合成数据训练YOLOv12:提升商业果园苹果检测的精度与效率
之前小编分享过关于《YOLO11-CBAM集成:提升商业苹果园树干与树枝分割的精准度》,改进YOLO11算法后,进行苹果树的实例分割。本期文章我们将分享关于最新的YOLO12算法改进的苹果目标检测。本研究评估了YOLOv12物体检测模型的性能,并与YOLOv11和YOLOv10进行了比较,以使用大型语言模型 (LLM) 生成的合成图像检测商业果园中的苹果。YOLOv12n配置表现出色,精确度最高,为0.916,召回率最高,为0.969,平均精确度 (mAP@50) 最高,为0.978。相比之下,YOLOv1
2025-03-18 09:31:34
916
原创 数据增强常见问题与解决方案:提升AI模型性能的关键技巧
在前面系列文章中我们从数据清洗、数据质量评估再到数据预处理和数据增强,详细介绍了相关的技术和代码解析。那如何对这些数据进⾏版本化管理,保障项⽬的可复现性和协同开发效率呢?其实这与传统软件开发中的代码版本管理有相似之处,但在规模和复杂度上要更胜⼀筹。今天小编将将深入探讨关于数据管理中的常见问题与解决、故障排除指南以及实践建议来帮助您在AI项目中实际应用。数据增强的强度是影响模型性能的重要因素。过强的增强可能导致数据失真,而过弱的增强则可能无法有效提升模型的泛化能力。
2025-03-14 16:40:42
1280
原创 何恺明团队新突破:用“物理直觉“重构AI视觉系统,去噪神经网络让机器看懂世界规律
当神经网络学会用哈密顿方程“思考”,计算机视觉的边界再次被拓展——从医疗影像中的细胞运动分析,到元宇宙中的物理交互仿真,一个更懂“世界运行法则”的AI时代正在到来。这相当于为动态场景创建“物理身份证”,例如在自动驾驶中,同一模型可区分轿车与卡车的运动模式,轨迹预测精度提升至92%。在单摆和双摆系统中,采用块大小为2的DHN能稳定保持总能量,而增大块大小可能导致短期能量波动,但不会引发能量漂移。相比HNN和无物理约束的基线模型,DHN在较小块大小下能提供更准确的状态预测,并具备更好的节能效果。
2025-03-13 17:19:45
1241
原创 基于GenAI的农业杂草检测:YOLO11模型量化与合成增强的优化探索
目录一、摘要二、引言三、背景相关工作扩散模型目标检测模型量化四、方法数据集实验设置五、Coovally AI模型训练与应用平台六、研究结果七、讨论八、结论基于深度学习的杂草控制系统经常受到训练数据多样性有限和板载计算受限的影响,从而影响其实际性能。为了克服这些挑战,我们提出了一个框架,利用基于稳定扩散的涂色技术,以10%-200%的增量逐步增加训练数据,从而提高样本的数量和多样性。我们使用mAP50指标来评估检测性能,并在两个最先进的物体检测模型YOLO11(l)和RT-DETR(l)上对我们的方法进行了评
2025-03-13 10:04:05
1023
原创 机器学习特征筛选:向后淘汰法提升模型泛化能力(附Python代码)
然而,对于大多数实际的机器学习工作流程,像statsmodels、sklearn和其他模型优化工具(如RFE)这样的库sklearn可以帮助自动化和简化这一过程。Scikit-learn使用递归特征消除(RFE)提供了一种更加自动化的特征选择方法,它本质上是一种自动化的后向消除形式。它通常用于特征选择很重要的模型,如线性回归、逻辑回归和其他特征可解释性很重要的模型。删除最不显著的特征(具有最高 p 值的特征,通常高于0.05这样的阈值)。您有一个非常具体的要求(例如,您希望对每个步骤有更多的控制)。
2025-03-11 16:14:11
840
原创 无标签数据增强+高效注意力GAN:基于CARLA的夜间车辆检测精度跃升
该模型能够以很高的置信度检测到车辆并对其进行定位,这凸显了利用适当的增强数据进行微调的有效性,使其成为实际应用中更可靠的解决方案。尽管如此,我们也承认在未来的研究中应该解决几个局限性问题:(1)虽然 CARLA目前提供了多种类型的车辆,但仍未涵盖道路上的所有车辆类型,尤其是牵引车和房车,这限制了合成数据的多样性。CARLA模拟器是这一过程不可或缺的一部分,因为它可以忠实地模拟车辆在夜间的车头灯效果,有效地解决了现有人工智能模型的局限性,因为这些模型往往无法捕捉从白天到黑夜的转换过程中的车头灯效果。
2025-03-11 16:13:14
1138
原创 DeepSeek引领端侧AI革命,边缘智能重构AI价值金字塔
边缘与端侧的落地浪潮,标志着AI进入“务实时代”——以更低的成本、更高的可靠性,赋能千行百业。这场技术革命正引发产业智能化浪潮:企业级市场掀起DeepSeek接入热潮,而基于其知识蒸馏技术衍生的轻量级模型,更以"端智能"新范式加速渗透,从工业质检机器人到移动终端AI助手,各类边缘计算设备迎来认知能力质的飞跃。通过更轻量的架构、更高效的数据利用策略,它们在降低计算成本的同时,保持了媲美大模型的推理能力,推动AI从“云端智能”迈向“终端智变”。2025年的AI战场,硝烟早已从“参数军备竞赛”转向更隐秘的角落。
2025-03-10 17:47:25
1035
原创 QwQ-32B:小模型大智慧,开启AI普惠化与视觉智能新时代
QwQ-32B采用"动态稀疏专家混合"架构,通过门控网络动态激活0.5%的神经元(约1.6亿参数),在推理时实现参数利用率的指数级提升。这种"神经元级弹舱设计"使得模型在数学推理(GSM8K 92.1%)、代码生成(HumanEval 75.6%)等任务上,以1/20的参数量达到DeepSeek-R1 98.7%的性能水平。引入多模态奖励模型Q-Reward V2,通过对抗训练生成包含文本、代码、数学符号的混合负样本,使模型在保持专业能力的同时,通用对话的流畅性提升52%。
2025-03-10 09:22:09
891
原创 一码难求的Manus,又对计算机视觉产生冲击?复刻开源版已在路上!
例如,在简历筛选场景中,Manus能解压文件、自动解析简历中的图文混合内容(如证件照、图表排版),并提取关键信息进行决策,这一过程融合了文档视觉理解(Document AI)与语义分析技术。邬贺铨院士预测,2025年端侧CV模型将支持实时4K视频分析与AR交互,结合Manus的自主决策能力,或催生“视觉智能体即服务”(VaaS)新业态。联想“擎天混合AI平台”集成的城市超级智能体,结合Manus的视觉分析能力,可实时处理交通监控视频流,识别异常事件(如交通事故、人群聚集),并联动相关部门启动应急响应。
2025-03-07 17:20:18
1176
原创 YOLO11-CBAM集成:提升商业苹果园树干与树枝分割的精准度
目录一、摘要二、引言三、方法研究地点和数据采集模型训练的数据准备将CBAM与YOLO11集成并进行深度学习训练性能指标评估准备验证数据集并评估模型在每个季节的性能跨季节测试四、Coovally AI模型训练与应用平台五、结果YOLO11-CBAM 训练结果YOLO11-CBAM 模型在休眠季节数据集中的验证结果树冠季数据集的验证结果六、讨论七、结论与未来在本研究中,我们通过将卷积块注意力模块(CBAM)与YOLO11架构相结合,开发了一种定制的实例分割模型。该模型在休眠期和树冠期苹果园图像的混合数据集上进行
2025-03-06 16:37:24
1210
原创 如何用更少的内存训练你的PyTorch模型?深度学习GPU内存优化策略总结
本文将系统介绍多种优化策略,这些方法在组合应用的情况下,可将训练过程中的内存占用降低近 20 倍,而不会影响模型性能和预测精度。梯度累积(Gradient Accumulation)通过累积多个小批量的梯度,以实现较大的“虚拟”批次大小,从而降低对GPU内存的需求。对于超大规模模型,可以使用完全分片数据并行(FSDP)技术,将模型参数、梯度和优化器状态拆分至多个GPU,以降低单 GPU 的内存压力。对于非常大的模型,即使采用了上述所有技术,由于中间激活次数过多,您仍可能会达到GPU内存的极限。
2025-03-06 09:27:48
1221
原创 YOLOv11助力结肠镜检查:精准息肉检测新突破
目录一、摘要二、引言三、相关工作四、材料和方法数据集描述数据预处理YOLOv11的架构五、Coovally AI模型训练与应用平台六、实验使用矩阵实验装置训练和测试七、结果与讨论八、结论与未来展望直肠癌(CRC)是全世界最常见的癌症之一。它始于结肠内壁的息肉。要预防 CRC,就必须及早发现息肉。结肠镜用于检查结肠。一般来说,内窥镜顶端的摄像头拍摄的图像由专家手动分析。随着机器学习的兴起,各种传统的机器学习模型已被广泛使用。最近,深度学习模型因其在泛化和学习小特征方面的优势,在息肉检测中显示出更大的有效性。这
2025-03-05 16:09:32
973
原创 YO-CSA-T:基于上下文和空间注意力的YOLO实时羽毛球追踪系统
在过去的十年中,深度学习迅速发展,并在众多领域找到了广泛的应用,引发了多项引人注目的人机竞赛。其中,实时提取羽毛球的三维轨迹,作为人机竞赛的第一步,由于其速度和准确性,直接影响后续策略的有效性。CoT2f是在YOLO的骨干网络中实现的,旨在增强提取全局上下文的能力,并减轻代表性信息的衰减。在上下文变换块(CoT)和空间分组增强(SGE)的基础上,我们引入了带2次卷积的上下文变换块(CoT2f)和空间注意力集成颈部(SANeck),它们加强了网络在骨干和颈部过程中提取和增强特征的能力,尤其是在位置分布方面。
2025-03-05 09:10:41
1284
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人