环视感知网络的多任务和单任务之争

最新推荐文章于 2025-03-03 08:27:54 发布

3Ｄ视觉工坊

最新推荐文章于 2025-03-03 08:27:54 发布

阅读量1k

点赞数

文章标签：算法计算机视觉机器学习人工智能深度学习

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

文章导读

本文讨论的核心思想来源于如何将车辆等障碍物的目标检测和车位识别统一在一个神经网络中处理，这一过程存在几个问题：1、多任务网络的必要性；2、数据输入形式的统一性；3、三维信息的表达形式。通过两篇鱼眼感知的文章和小编个人想法带着粉丝们进行算法分析。

引言

感知模块中往往不仅仅只有一个目标检测或者语义分割任务，如何通过鱼眼图像感知车辆周围的环境，研究人员需要做目标检测识别障碍物的类型和位置；需要做深度估计计算障碍物的横纵向距离；需要做语义分割划分车辆可行驶区域；需要做污渍检测监控图像质量等等工作，所以多任务的视觉感知网络成为一种不错的选择，网络可以共享编码阶段减少计算量，并在解码阶段多任务相互信息流通。从多任务的角度往往需要思考以下几个问题？

环视多任务感知需要做哪些事？

根据《OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving》这篇文章提供的思路，环视感知系统包含深度估计、语义分割、运动分割、目标检测、污渍检测、视觉里程计六大任务。

如何适应不同相机的径向失真？

考虑到多颗鱼眼摄像头具有不同的内参和视角，读者们可以考虑基于相机几何的自适应机制在训练和推理过程中编码鱼眼畸变模型，从而提升卷积神经网络对不同相机模型的适应能力。通俗点说就是假设一个虚拟相机，其他各个相机模型都转换到该虚拟相机后再输出结果。

如何权衡不同任务之间的权重？

由于不同任务的复杂程度存在差别，简单的损失相加必然会造成最终结果在某些任务上达到较好的效果，但是在其他任务上误差较大。早在目标检测的外接框回归中就存在中心点和长宽偏移的损失权衡，该问题与多任务之间的损失权衡具有同一个思想，需要炼丹师们在实际训练中根据不同任务损失下降的程度尝试性的给与权重进行测试。

如何表征鱼眼图像中的目标？

如下图所示，(a)中的标准矩形框会增加目标的冗余区域，当我们对目标位置进行2D转3D后，会增加测距误差，因此不适合鱼眼镜头图像的目标表示。(b)中的旋转矩形框较好的弥补了标准框的缺陷，但是在鱼眼图像中做外接框的检测存在畸变因素，所以真实的直线在图像中是弯曲的，因此旋转矩形框未能表征这一特性。(c)中的外接框形式在旋转矩形框的基础上引入了图像畸变特性，能够较好的表征鱼眼图像中的物体。(d)(e)(f)三种形式均以一定数据的点来约束物体轮廓，极端情况就是语义分割。