回过头来再看一下图像分类和目标检测的区别,先看下图,
由上图可知,图像分类解决了是什么的问题,目标检测解决了在哪里的问题。简单来说就是在图像分类的基础上,以包围盒的(bounding box)形式框出物体。很多计算机视觉任务(如人脸识别,车牌识别,场景描述)背后的基础都是目标检测。自从 AlexNet 获得 ILSVRC 2012 挑战赛冠军后,用 CNN 进行图像分类成为主流。目标检测也得益于CNN在图像分类领域的进步发展越来越快。
图像分类是一张图片输入,一个类标签输出。
目标检测,无论是通过深度学习还是其他计算机视觉技术实现,目标检测均基于图像分类,同时试图精准定位图像中每个目标的位置。在执行目标检测时,给定一个输入图像,我们能够获得:1.边框列表,或者图像中每个目标的 (x, y) 坐标;2.每个边框所对应的类标签;3.每个边框和类标签相应的概率和置信度分数。