翻译
局部不变特征探测器:一项调查
摘要 -在本次调查中,我们概述了不变兴趣点探测器,它们如何随着时间的推移而发展,它们如何工作,以及它们各自的优点和缺点。我们首先定义理想局部特征检测器的属性。接下来是对过去四十年中根据不同类别的特征提取方法组织的文献的概述。然后,我们对选择的方法进行更详细的分析,这些方法对研究领域产生了特别重大的影响。最后总结并展望未来的研究方向。
1引言
在本节中,我们将讨论局部(不变)特征的本质。这个词我们的意思是什么?使用局部特征有什么好处?我们可以用它们做什么?理想的局部特征会是什么样的?这些是我们试图回答的一些问题。
1.1什么是局部特征?
局部特征是一种图像模式,它与其邻近区域不同。它通常与图像属性或多个属性的同时更改相关联,尽管它不一定完全针对此更改进行局部化。通常考虑的图像属性是强度,颜色和纹理。图1.1显示了轮廓图像(左)和灰度值图像(右)中局部特征的一些示例。局部特征可以是点,也可以是边缘或小图像块。通常,一些测量是从以局部特征为中心的区域获取并转换成描述符。然后,描述符可用于各种应用程序。
图1.1视觉识别中角点和交叉点的重要性[20]以及由角点检测器提供的感兴趣点的图像示例(参见第3.2节)。
1.2为什么局部特征?
正如前言中简要讨论的那样,局部(不变)特征是一种特征强大的工具,已成功应用于各种系统和应用程序中。
在下文中,我们基于它们的可能用途区分三大类特征检测器。它并非详尽无遗或是对探测器进行分类的唯一方法,但它强调了使用场景所需的不同属性。首先,人们可能对特定类型的局部特征感兴趣,因为它们可能在特定应用的有限上下文中具有特定的语义解释。例如,在航拍图像中检测到的边缘通常对应于道路;斑点检测可用于识别某些检查任务中的杂质;这些是已经提出局部特征检测器的第一个应用。其次,人们可能对局部特征感兴趣,因为它们提供了一组有限的良好局部化和单独识别的锚点。实际表示的特征并不是真正相关的,只要它们的位置可以准确地并且以稳定的方式随时间确定。这例如是大多数匹配或跟踪应用中的情况,尤其是用于相机校准或3D重建。其他应用领域包括姿势估计,图像对齐或镶嵌。这里的典型示例是KLT跟踪器[228]中使用的特征。最后,一组局部特征可以用作鲁棒的图像表示,其允许识别对象或场景而无需分割。同样,这些特征实际上代表什么并不重要。它们甚至不必精确地进行局部化,因为目标不是在个体基础上匹配它们,而是分析它们的统计数据。这种利用局部特征的方式首先在[213]和[210]的开创性工作中报道,并且很快变得非常流行,特别是在物体识别的背景下(对于特定物体以及类别水平识别)。其他应用领域包括场景分类,纹理分析,图像检索和视频挖掘。
显然,上述三个类别中的每一个都强加了自己的约束,并且在一个不同的问题的背景下,一个应用程序的良好特征可能是无用的。在为手头的应用搜索合适的特征检测器时,可以考虑这些类别。在本次调查中,我们主要关注第二个,尤其是第三个应用场景。
最后,值得注意的是,在人类视觉系统的物体识别环境中也证明了局部特征的重要性[20]。更准确地说,实验表明,从图像中去除角点会阻碍人类识别,而去除大部分直边信息则不会。如图1.1所示。
1.3关于术语的几点注释
在我们更详细地讨论特征检测器之前,让我们解释一下文献中常用的一些术语。
1.3.1探测器或提取器?
传统上,术语检测器已用于指代从图像中提取特征的工具,例如角点,斑点或边缘检测器。然而,这只有在事先清楚图像中的角点,斑点或边缘是什么时才有意义,因此可以说“错误检测”或“错过检测”。这仅适用于前面提到的第一种使用场景,不是最后两个,提取器可能在语义上更正确。仍然,术语检测器被广泛使用。因此,我们也坚持这个术语。
1.3.2不变量或协变量?
类似的讨论适用于“不变”或“协变”的使用。如果在从该族转换应用于其参数时其值不会改变,则该函数在某个转换族下是不变的。函数在与变换通信时是协变的,即,将变换应用于函数的参数具有与将变换应用于函数输出相同的效果。一些例子可能有助于解释这种差异。 2D表面的区域在2D旋转下是不变的,因为旋转2D表面不会使其变得更小或更大。但是,在相同的变换族中,表面的主轴惯性的方向是协变的,因为旋转2D表面将以完全相同的方式影响其主轴的方向。基于这些定义,很明显所谓的局部尺度和/或不变的特征实际上只是协变的。另一方面,由于归一化步骤,从它们派生的描述符通常是不变的。由于术语局部不变特征被广泛使用,我们在本调查中使用“不变量”。
1.3.3旋转不变或各向同性?
如果函数在所有方向上表现相同,则在特定点处是各向同性的。这个术语适用于例如纹理,不应与旋转不变性相混淆。
1.3.4兴趣点,区域或局部特征?
在某种程度上,理想的局部特征将是几何中定义的点:在空间中具有位置但没有空间范围。然而,在实践中,图像是离散的,最小的空间单位是像素,离散化效应起着重要作用。为了定位图像中的特征,需要分析局部像素邻域,为所有局部特征提供一些隐含的空间范围。对于一些应用(例如,相机校准或3D重建),在进一步处理中完全忽略该空间范围,并且仅使用从特征提取过程导出的位置(该位置有时被确定为子像素精度)。在这些情况下,通常使用术语兴趣点。
然而,在大多数应用中,还需要描述这些特征,使得它们可以被识别和匹配,并且这又需要像素的局部邻域。通常,这个邻域等于用于局部化该特征的邻域,但不一定是这种情况。在这种情况下,通常使用术语区域而不是兴趣点。但是,要注意:当使用局部像素邻域来描述兴趣点时,特征提取过程不仅要确定兴趣点的位置,还要确定该局部邻域的大小和可能的形状。特别是在几何变形的情况下,这显著地使过程复杂化,因为尺寸和形状必须以不变(协变)方式确定。
在本次调查中,我们更倾向于使用术语局部特征,它可以是点,区域甚至是边缘区段。
1.4理想局部特征的性质
局部特征通常具有空间范围,即上述像素的局部邻域。与经典分割相比,这可以是图像的任何子集。区域边界不必对应于图像外观的变化,例如颜色或纹理。而且,多个区域可能重叠,并且图像的“不感兴趣”部分(例如均匀区域)可以保持未被覆盖。
理想情况下,人们希望这些局部特征对应于语义上有意义的对象部分。然而,在实践中,这是不可行的,因为这需要对场景内容进行高级解释,这在早期阶段是不可用的。相反,探测器直接根据基础强度模式选择局部特征。
好的特征应该具有以下属性:
•可重复性:给定在不同观看条件下拍摄的同一物体或场景的两个图像,在两个图像中都可以找到在两个图像中可见的场景部分上检测到的高比例的特征。
•独特性/信息性:检测到的特征背后的强度模式应显示出很多变化,以便可以区分和匹配特征。
•局部性:特征应该是局部的,以便降低遮挡的可能性,并允许在不同观察条件下拍摄的两个图像之间的几何和光度变形的简单模型近似(例如,基于局部平面度假设)。
•数量:检测到的要素数量应足够大,以便即使在小物体上也能检测到合理数量的要素。但是,最佳特征数量取决于应用程序。理想情况下,检测到的特征的数量应该通过简单直观的阈值在大范围内适应。特征的密度应该反映图像的信息内容,以提供紧凑的图像表示。
•准确度:检测到的特征应在图像位置,尺度和可能的形状方面进行精确定位。
•效率:优选地,检测新图像中的特征应该允许对时间要求严格的应用。
可重复性,可以说是所有属性中最重要的属性,可以通过两种不同的方式实现:通过不变性或稳健性。
•不变性:当预期出现大的变形时,首选方法是在可能的情况下以数学方式对这些进行建模,然后开发不受这些数学变换影响的特征检测方法。
•稳健性:在变形相对较小的情况下,通常会使特征检测方法对这种变形不太敏感,即检测的准确性可能会降低,但不会大幅降低。使用鲁棒性解决的典型变形是图像噪声,离散化效应,压缩伪像,模糊等。通常通过包括更强的鲁棒性来克服用于获得不变性的数学模型的几何和光度偏差。
1.4.1讨论
显然,这些不同特性的重要性取决于实际的应用和设置,并且需要做出妥协。
在所有应用场景中都需要可重复性,它直接取决于其他属性,如不变性,鲁棒性,数量等。根据应用的增加或减少它们可能会导致更高的可重复性。
独特性和局部性是竞争属性,无法同时实现:特征越局部化,底层强度模式中可用信息越少,正确匹配它就越难,特别是在数据库应用程序中,有许多候选特征需要匹配至。另一方面,在平面物体和/或纯旋转相机的情况下(例如,在图像拼接应用中),图像通过全局单应性相关,并且没有遮挡或深度不连续的问题。在这些条件下,可以毫无问题地增加局部特征的大小,从而产生更高的独特性。
类似地,增加的不变性水平通常导致独特性降低,因为一些图像测量用于提升变换的自由度。类似的规则适用于鲁棒性与独特性,因为通常忽略一些信息(被视为噪声)以实现稳健性。因此,对于给定应用程序所需的不变性或稳健性水平有一个清晰的想法是很重要的。很难同时实现高不变性和鲁棒性,并且不适应应用的不变性可能对结果产生负面影响。
精确度在来自运动应用的宽基线匹配,配准和结构中尤其重要,其中需要精确对应以例如估计对极几何或校准相机设置。
数量在某些类级对象或场景识别方法中特别有用,其中密集地覆盖感兴趣的对象是至关重要的。另一方面,大多数情况下,大量特征对计算时间产生负面影响,应保持在限制范围内。稳健性对于对象类识别也是必不可少的,因为不可能在数学上对类内变化进行建模,因此不可能完全不变。对于这些应用,准确的局部化不太重要。通过具有额外的鲁棒描述符,可以抵消特征检测器的不准确定位的影响,直到某一点,这产生了不受小定位误差影响的特征向量。
1.5全局与局部特征
局部不变特征不仅允许在查看条件,遮挡和图像混乱(宽基线匹配)的大变化的情况下找到对应关系,而且还产生用于图像检索和对象或场景识别任务的图像内容的有趣描述(两者都是对于特定对象和类别)。为了将其置于上下文中,我们简要总结了一些计算图像表示的替代策略,包括全局特征,图像片段以及特征的详尽和随机抽样。
1.5.1全局特征
在图像检索领域,已经提出了许多全局特征来描述图像内容,其中颜色直方图及其变化作为典型示例[237]。这种方法效果令人惊讶,至少对于具有独特颜色的图像,只要它是用户感兴趣的整个图像的整体构图,而不是前景对象。实际上,全局特征无法区分前景和背景,并将来自两个部分的信息混合在一起。
全局特征也被用于对象识别,从而产生了第一种基于外观的方法来解决这一具有挑战性的问题。 Turk和Pentland [245]以及后来的Murase和Nayar [160]提出计算一组模型图像的主成分分析,并将投影用作前几个主成分作为描述符。与之前尝试的基于几何的纯方法相比,新颖的基于外观的方法的结果是惊人的。可以突然识别出全新的自然物体。然而,基于全局描述,图像混乱和遮挡再次形成主要问题,将系统的有用性限制于具有干净背景的情况或者可以分割对象的情况,例如,依赖于运动信息。
1.5.2图像分段
克服全局特征的限制的方法是将图像分割成有限数量的区域或片段,每个这样的区域对应于单个对象或其一部分。这种方法最著名的例子是[31]中提出的blobworld系统,它根据颜色和纹理对图像进行分割,然后在数据库中搜索具有相似“图像斑点”的图像。基于纹理分割的示例是广泛的[208]中描述的基线匹配工作。
然而,这引起了鸡与蛋的问题,因为图像分割本身是一项非常具有挑战性的任务,这通常需要对图像内容有高层次的理解。对于通用对象,颜色和纹理提示不足以获得有意义的分割。
1.5.3采样特征
处理全局特征或图像分割遇到的问题的方法是在每个位置和比例下详尽地对图像的不同子部分进行采样。对于每个这样的图像子部分,然后可以计算全局特征。该方法也称为基于滑动窗口的方法。它在人脸检测方面特别受欢迎,但也被用于识别特定对象或特定对象类,如行人或汽车。
通过关注图像的子部分,这些方法能够在查询和模型之间找到相似之处,尽管背景会发生变化,即使对象仅占整个图像区域的一小部分。在缺点方面,他们仍然无法应对部分遮挡,并且允许的形状可变性小于基于局部特征的方法可行的形状可变性。然而,到目前为止,最大的缺点是这种方法的效率低下。必须分析图像的每个子部分,从而为每个图像生成数千甚至数百个特征。这需要极其有效的方法,这些方法显著限制了可能的应用范围。
为了克服复杂性问题,使用图像块的更稀疏的固定网格采样(例如,[30,62,246,257])。然而,难以实现这些特征的几何变形的不变性。该方法可以容忍由于在可能的位置,尺度,姿势等上进行密集采样而导致的一些变形,但是各个特征不是不变的。这种方法的一个例子是多尺度兴趣点。因此,当目标是找到图像之间的精确对应时,不能使用它们。但是,对于某些应用,例如场景分类或纹理识别,它们可能是足够的。在[62]中,在场景分类工作的背景下,使用固定的补丁网格而不是以兴趣点为中心的补丁报告更好的结果。这可以通过密集覆盖以及在固定网格方法中也考虑均匀区域(例如,天空)的事实来解释,这使得表示更加完整。这种密集的覆盖也在[66]中被利用,其中在特定对象识别的上下文中在一组局部不变特征之上使用固定的补丁网格,其中后者提供一组初始对应,然后引导为前者建立通信。
类似地,不是使用固定的贴片网格,也可以使用图像块的随机采样(例如,[97,132,169])。这使得斑块的数量,尺度或形状的范围以及它们的空间分布具有更大的灵活性。基于随机图像块,在[132]中示出了良好的场景识别结果。与固定网格采样的情况一样,这可以通过忽略特征的定位属性的密集覆盖来解释。随机补丁实际上是密集补丁的子集,主要用于降低复杂性。它们的可重复性很差,因此它们作为常规特征的补充而不是作为独立的方法更好地工作。
最后,为了克服复杂性问题,同时仍然提供比随机定位更好的大量特征[140,146],提出从边缘均匀地采样特征。这被证明对于处理由边和曲线很好地表示的线性物体是有用的。
1.6本次调查概述
本调查文章由两部分组成。首先,在第2节中,我们回顾了文献中的局部不变特征检测器,从计算机视觉的早期阶段到最近的演变。接下来,我们将更详细地描述一些选定的代表性方法。我们基于图像中提取的特征类型以相对直观的方式构造方法。这样做,我们区分角点检测器(第3节),斑点检测器(第4节)和区域检测器(第5节)。此外,我们添加了一个关于各种探测器的部分,这些探测器是以计算效率的方式设计的(第6节)。有了这种结构,我们希望读者能够轻松找到对他/她的应用最有用的探测器类型。我们通过对不同方法的定性比较和对未来工作的讨论来结束调查(第7节)。
对于那些不熟悉局部不变特征检测器的新手读者,我们建议首先跳过第2节。本节主要是为更高级的读者添加的,以进一步了解这个领域是如何演变的,最重要的趋势是什么,并为早期的工作添加指针。
2 文献中的局部特征
在本节中,我们概述了文献中提出的局部特征检测器,从图像处理和模式识别的早期开始到现在的最新技术。
2.1简介
关于局部特征检测的文献很多,可以追溯到1954年,当时Attneave [6]首次观察到形状信息集中在具有高曲率的主要点上。不可能详细描述50多年研究的每一项贡献。相反,我们提供了文献的指针,感兴趣的读者可以发现更多。本部分的主要目标是让读者了解所提出的各种好主意,特别是在互联网时代之前。很多时候,这些被忽视然后重新发明。我们希望对所有为当前最新技术做出贡献的研究人员给予适当的信任。
2.1.1局部特征的早期工作
重要的是要提到这个研究领域的开端以及在观察角点和交汇点在视觉识别中的重要性之后出现的第一批出版物[6](见图1.1)。从那以后,已经提出了大量算法来提取在数字形状上计算的各种函数的极值处的兴趣点。而且,早期在图像处理和视觉模式识别领域中已经理解,直线和直角的交叉点是人造结构的强烈指示。这些特征已经用于线描图像[72]和光子学[149]的第一系列应用中。 Rosenfeld [191]以及Duda和Hart [58]及其后期版本的数字图像处理专着的第一部专着有助于建立一个完善的理论基础领域。
2.1.2概述
我们确定了许多重要的研究方向,并相应地构建了本节的各个小节。首先,许多作者研究了弯曲轮廓的曲率。他们的工作在2.2节中描述。其他人直接分析图像强度,例如,基于衍生物或具有高方差的区域。这是第2.3节的主题。另一项研究受到人类视觉系统的启发,旨在重现人类大脑的过程 - 见2.4节。第2.5节讨论了侧重于颜色信息利用的方法,而第2.6节描述了基于模型的方法。最近,存在一种趋势,即具有针对各种几何变换的不变性的特征检测,包括多尺度方法和尺度或者不变的方法。这些将在第2.7节中讨论。在2.8节中,我们关注基于分段的方法,第2.9节描述了基于机器学习技术的方法。最后,第2.10节概述了文献中提出的不同评估和比较方案。
2.2基于轮廓曲率的方法
第一类兴趣点检测器是基于轮廓曲率的方法。最初,这些主要应用于线条图,分段恒定区和cad-cam图像而不是自然场景。重点尤其是点定位的准确性。它们在20世纪70年代末和1980年代的大部分时间里最受欢迎。
2.2.1高曲率点
轮廓交叉点和交叉点通常会导致双向信号变化。因此,检测特征的良好策略包括沿高轮廓的轮廓提取点。模拟曲线的曲率定义为单位切向量相对于弧长变化的速率。轮廓通常以点链编码或使用样条以参数形式表示。
已经开发了几种技术,包括检测和链接边缘,以便通过分析链码[205],找到曲率的最大值[108,136,152],方向的变化[83]或变化来找到链中的角。外观[42]。其他人避免链接边缘,而是寻找曲率的最大值[254]或在渐变大的地方改变方向[104]。
在[193,195,196,197]中提出了几种基于灰度梯度和数字曲线角度变化检测边缘的方法。用于线绘图像的其他解决方案包括用于检测链编码平面曲线中的角的方法[73,74]。在这些工作中,一个点的角度的度量是基于沿链的连续段位置之间的平均角度差异。
特征提取的一种通用方法是直接通过角度或角点检测来检测主要点,使用各种方案来近似离散曲率,例如余弦[192,193]或局部曲率[18,74],其将角定义为平均值的不连续性曲线斜率。其他参数表示如B样条曲线通常用于渲染计算机图形,压缩和编码,CAD-CAM系统以及曲线拟合和形状描述[175]中的曲线。在[108]中,三次多项式与曲线相关,并且在这种曲线中检测到不连续性以定位兴趣点。在[85]中使用线图像的样条近似与动态编程技术结合以找到样条的结。 [164]中提出了线图的伪编码和获得兴趣点的复杂矢量图。
在[207]中,基于每个点处相对于其直接邻居的局部离散曲率的迭代平均,在最大全局曲率处计算主导点。在[3]中,基于与在链码上计算的样本协方差矩阵的特征值特征向量结构相关联的几何和统计特性来定义切向偏差和离散曲线的曲率。另一种方法是获得数字曲线的分段线性多边形近似,受到对质量的限制[60,174,176]。实际上,在[174]中已经指出,具有可变断点的分段线性多边形近似将倾向于将顶点定位在实际角点处。这些点大致对应于多边形的相邻线段的实际或外推交叉点。在[91]中探讨了类似的想法。最近,[95]估计了两条线的参数与两个与角点相邻的区段。如果参数在统计上显著不同,则声明一个角。类似的方法是通过遵循图像梯度最大值或最小值并找到边缘图中的间隙来识别边缘交叉和交叉点[19]。
2.2.2处理规模
通过曲率估计的拐角检测方法通常使用一组参数来消除轮廓噪声并获得给定比例的拐角,尽管可以在多个自然尺度处找到物体拐角。为了解决这个问题,一些探测器在一定范围的参数内迭代地应用它们的算法,选择出现在一组固定迭代中的点。点的稳定性和检测所花费的时间与迭代次数密切相关。
在[207]中可以找到通过平均方案处理离散化和尺度问题的初步尝试。 [5]中提出的曲率原始草图(CPS)是沿着轮廓的曲率显著变化的尺度空间表示。这些变化被分类为基本或复合基元,例如角,平滑关节,末端,曲柄,凸起和凹痕。在不同的比例下检测特征,导致对象轮廓的多尺度表示。在[151,152]和后来的[86]中探讨了类似的想法,其中进行曲率尺度空间分析以找到局部的曲线尺度。它们在曲线的光点上找到并以参数形式表示形状。在[108,136]中也提出了基于B样条的算法。一般的想法是将B样条曲线固定到曲线上,然后直接从B样条系数测量每个点周围的曲率。
处理用于检测数字闭合曲线上的主导点的比例的另一算法[238]由来自[193]的角度检测过程激发。它们表明,主要点的检测主要依赖于支撑区域的精确确定,而不是离散曲率的估计。首先,确定基于其局部属性的每个点的支持区域。然后计算每个点的相对曲率[238]或局部对称性[170]的量度。高斯滤波器是点检测中最常用的滤波器。然而,如果高斯滤波器的比例太小,则结果可能包括一些冗余点,这些冗余点是不必要的细节,即由于噪声。如果比例太大,则支撑区域较小的点将趋于平滑。为了解决固定尺度高斯滤波中存在的问题,在[4,181]中提出了基于多尺度离散曲率表示和搜索的尺度空间过程。该方案基于稳定性标准,该标准指出拐角的存在必须与在大多数尺度下可观察到的曲率最大值一致。在[199]中研究了曲线的自然尺度,以避免在整个尺度范围内曲线的穷举表示。在[119,120]中还提出了一种成功的具有理论公式的高斯滤波器选择机制。
在[264]中,提出了一种用于临界点检测的非线性算法。他们建立了一套设计点检测算法的标准,以克服曲率近似和高斯滤波引起的问题。边界平滑的另一种方法是基于曲率估计的模拟退火[233]。在[152]中,角点位于边缘的绝对曲率的最大值处。通过多个曲率比例级别跟踪角点以改善定位。 Chang和Horng [33]提出了一种使用巢移动平均滤波器检测角点的算法[33]。通过计算模糊图像的差异并观察高曲率点的偏移来在曲线上检测角。可以在[125,199,200]中找到用于确定曲线的自然尺度的各种方法的更详细分析。
2.2.3讨论
虽然理论上在模拟曲线上有很好的基础,但在离散曲线的情况下,轮廓曲率计算的鲁棒性较差[194,238]。在[259]中研究了数字曲率估计中可能的误差源。
此外,上述探测器的目标不同于我们现在通常使用的探测器的目标。如果方法检测到圆形形状上的角点,交叉点处的多个角点等,则被认为是不利的。此时,使用了更加严格的兴趣点/角点定义,其中仅对应于3D中的真实角点的点被认为是相关的。如今,在大多数实际的兴趣点应用中,重点是稳健,稳定和独特的点,无论它们是否与真正的角点相对应(另见我们之前在1.2节中的讨论)。
由于复杂性和鲁棒性问题,最近(过去十年)该领域的活动较少,而直接基于图像强度的方法引起了更多关注。
2.3基于强度的方法
基于图像强度的方法仅具有弱假设并且通常适用于宽范围的图像。其中许多方法基于一阶和二阶灰度值导数,而其他方法则使用启发式方法找到高方差区域。
2.3.1不同的方法
基于Hessian的方法。早期基于强度的探测器之一是由Beaude提出的基于旋转不变的基于Hessian的探测器[16]。它探讨了强度表面的二阶泰勒展开,尤其是Hessian矩阵(包含二阶导数)。该矩阵的行列式达到图像中类似blob的结构的最大值。有关此方法的更详细说明,请参见第4.1节。它已在[57]和[266]中得到了扩展,其中兴趣点位于连接拐角周围的Hessian行列式的局部极值的曲线的过零点处。
类似地,可以通过计算图像表面的高斯曲率,即图像亮度中的鞍点来定位高曲率点。在[104]中,局部二次曲面与图像强度函数无关。表面参数用于确定梯度大小和梯度方向的变化率。得到的检测器使用由图像梯度缩放的二阶导数计算的等光线曲率,使其对噪声更加鲁棒。在[61,229]中提出了类似的想法。
[168,167,224]和后来的[83]中的详细研究表明,[16,57,104,163,266]的探测器都对图像执行相同的测量,并且根据基于标准的可靠性相对较低。关于局部化精度。然而,当其他特征属性变得更加重要时,Hessian矩阵的轨迹和行列式在后来成功地用于规模和兴趣点检测器[121,143]的不变扩展。
基于梯度的方法。基于fitortorder导数的局部特征检测也用于各种应用中。在移动机器人导航的背景下[154,155,156]首次介绍了在方向方差测量的局部最大值处返回点的角点检测器。它是[41]中探讨的自相关函数的启发式实现。所提出的角点检测器调查图像中的局部窗口并确定由于在各个方向上将窗口移动几个像素而导致的强度的平均变化。这个想法在[69,70]中进一步采用,并通过在所谓的第二矩矩阵中使用一阶导数来形式化,以探索方向图像强度变化的局部统计。该方法将角点候选检测和定位分开,以提高子像素精度的精度,但代价是计算复杂度更高。 Harris和Stephens [84]通过对平均强度方差进行分析扩展,改进了Moravec [155]的方法。这导致用Sobel导数和高斯窗口计算的第二矩矩阵。引入了基于该矩阵的行列式和轨迹的函数,其考虑了矩阵的特征值。这种探测器现在被广泛称为Harris探测器或Plessey探测器1,可能是最著名的兴趣点探测器。它在3.2节中有更详细的描述。它已经在许多论文中得到了扩展,例如,通过使用高斯导数[212],一阶和二阶导数的组合[263],或基于边缘的第二矩矩阵[45],但基本思想保持不变。
哈里斯探测器也在[167]中进行了研究,并证明对于L结是最佳的。基于ffine图像变形的假设,[228]中的分析得出结论:使用自相关矩阵的最小特征值作为角强度函数更方便。
最近,基于尺度空间理论[115,117],第二矩矩阵也被采用来通过参数化高斯滤波器并根据比例对其进行归一化来改变变化[59]。此外,哈里斯探测器在[13,142,209]中使用拉普拉斯算子和第二矩矩阵的特征值在[13,142,209]中进行了扩展搜索,其灵感来自于林德伯格的开创性工作[117,118](参见章节) 3.4详情)。
来自[263]的方法执行对第二矩矩阵及其近似的计算的分析。通过仅计算两个平滑图像而不是先前所需的三个图像来实现速度增加。关于如何从二阶矩阵[84,101,167,228]计算角部强度已经提出了许多其他建议,并且这些已经被证明等同于各种矩阵规范[102,265]。在[102]中也提出了对具有多维像素的图像的推广。
在[242]中,Harris角点检测器被扩展为在比纯翻译更一般的变换下产生稳定的特征。为此,在旋转,缩放,直到完全变换的情况下研究自相关函数。
2.3.2强度变化
基于强度变化的不同类别的方法应用数学形态学来提取高曲率点。在[36]中研究了使用形态学开放算子检测到的二元图像中形状边界曲率的零交叉。数学形态学也用于从[107,114,168]中的边缘提取凸点和凹点。后来在[262]中提出了一种基于形态残差和角点特征分析的并行算法。
另一种方法[173]表明,对于兴趣点,小邻域的中值与角点值明显不同。因此,中心和中位数之间强度的差异给出了角点的强烈指示。但是,此方法无法处理更复杂的连接或平滑边缘。
根据[82]的早期工作,在[232]中引入了一个简单而有效的探测器SUSAN。它计算邻域内与中心像素强度相似的像素分数。然后可以通过对该度量进行阈值处理并选择局部最小值来对角进行定位。重心的位置用于消除误报。有关SUSAN探测器的更多详细信息,请参见第3.3节。在[112,240]中探讨了类似的想法,其中考虑了圆上的像素并将其与贴片的中心进行比较。
最近,[203]提出了FAST检测器。如果可以在点周围的固定半径圆周上找到一组足够大的像素,使得这些像素比中心点明显更亮(相对更暗),则将点分类为角。高效的分类基于决策树。有关FAST的更多详细信息,请参见第6.3节。
在[127]中已经探索了局部径向对称来识别兴趣点,并且还提出了其实时实现。在特征点提取的背景下,还研究了小波变换,并在[35,111,218]中基于多分辨率分析获得了成功的结果。
2.3.3显著性
显著性的概念已被用于许多计算机视觉算法中。使用边缘检测器来提取对象描述的早期方法体现了边缘比图像的其他部分更显著的想法。对显著性的更明确的使用可以分为专注于低级局部特征的那些(例如,[215]),以及那些计算低级特征的显著分组的那些(例如,[223]);虽然有些方法在两个层面都有效(例如,[147])。
[211]中提出的技术基于特定图像上的描述符向量的最大化。这些突出点是物体上几乎唯一的点。因此,它们最大化了对象之间的区别。相关方法[253]识别用于自动生成统计形状/外观模型的显著特征。该方法旨在选择那些不太可能不匹配的特征。从图像生成的多维特征空间中的低密度区域被分类为非常突出。
在[79]中提出了一种基于区域内图像强度的可变性或复杂性的理论上更成熟的方法。它受到视觉显著性和信息内容的推动,我们将在下一节进行修订。 [79]的方法在局部信号复杂性或不可预测性方面决定了显著性;更具体地说,建议使用局部属性的Shannon熵。我们的想法是找出一个高度复杂的点邻域作为显著性或信息内容的度量。该方法测量在点邻域中计算的灰度值直方图的熵的变化。搜索扩展到比例[98]和ffine [99]参数化区域,从而提供区域邻域的位置,比例和形状。有关详细讨论,请参阅第4.3节。
2.4生物学上可行的方法
前面部分提出的大多数系统主要关注兴趣点定位的准确性。这在将参数曲线设置为控制点或图像匹配以恢复几何图形的背景下非常重要。相比之下,本节回顾的生物学合理方法主要是在人工智能和视觉识别的背景下提出的。他们中的大多数没有特定的应用目的,他们的主要目标是模拟人类大脑的过程。在认知心理学和计算机视觉中已经讨论了许多人类视觉注意力或显著性模型。然而,绝大多数只是理论上的兴趣,只有少数在实际图像上实施和测试。
2.4.1特征检测作为预注意阶段的一部分
归因于Neisser [165],人类早期视觉的主要模型之一是它包含一个预先注意力和注意力的阶段。用于特征检测的生物学上合理的方法通常指的是场景的某些部分在人类视觉系统的早期阶段具有预先注意力的特征并且产生某种形式的即时响应的想法。在预注意阶段,仅检测到“弹出”特征。这些是图像的局部区域,其呈现某种形式的空间不连续性。在关注阶段,找到这些特征之间的关系,并进行分组。该模型广泛影响计算机视觉社区(主要通过Marr [133]的工作),并反映在经典的计算机视觉方法 - 特征检测和感知分组,其次是模型匹配和通信搜索。在神经生理学和心理学研究取得进展之后,关注模型中的活动开始于20世纪80年代中期。
[87,198]提出了一种受神经生物学机制启发的方法。他们使用类似过滤器的Gabor来计算信号的局部能量。该能量的一阶和二阶导数的最大值表示存在兴趣点。在[131,186]中进一步探讨了使用来自不同尺度的Gabor滤波器响应的想法。 [182]中提出的方法是由心理物理实验推动的。它们计算每个图像像素在不同方向上的信号的对称分数。然后选择具有显著对称性的区域作为兴趣点。
[96]中介绍了纹理识别理论和文本作为简单局部结构(如斑点,角点,交汇点,线端等)的概念。他认为,关于纹理分布的统计数据在识别中起着重要作用。简单文本的提取是在预注意阶段和关注阶段的关系构建中完成的。在[241]中提出了基于这些原理的特征整合理论。他将区别特征可以直接定位在特征图中的析取案例和仅通过同时处理各种特征图来提取特征的联合案例区分开来。该模型通过结合自下而上和自上而下的感兴趣测量来实现[32]。自下而上方法合并各种要素图并查找有趣事件,而在自上而下过程中,利用有关目标的知识。
上述系统的主要目标是提供计算上可信的视觉注意模型。他们的兴趣主要是理论。然而,一旦神经网络等机器学习技术变得足够成熟,这些系统就成为真实图像实用解决方案的灵感来源。在[206]中,图像处理操作符与注意力模型相结合,使其适用于更逼真的图像。他将拉普拉斯高斯(LoG)运算符应用于特征映射,以对接收场进行建模并增强有趣事件。在多个尺度上分析图像。来自[78]的方法使用一组特征模板并将它们与图像相关联以产生特征图,然后用LoG增强特征图。时间导数用于检测移动物体。
Koch和Ullman [105]提出了一种非常具有视觉注意力的计算模型,它解释了几种心理物理现象。他们提出建立一组基于方向,颜色,视差和运动的地图,并通过提取与其邻域明显不同的位置来模拟横向抑制机制。然后将来自不同地图的信息合并到单个显著图中。使用赢家通吃(WTA)网络使用金字塔策略以分层方式选择地图中的活动位置。 [105,241]中提出的假设首先在[34]中实现。在[49]中提出了类似的WTA模型实现。
在[223]中通过对诸如轮廓片段之类的局部信息进行分组来研究诸如物体轮廓之类的全局显著结构的提取,但是没有涉及预注意视觉。
2.4.2非均匀分辨率和粗到细处理
在生物学上合理的模型中也研究了视网膜的非均匀分辨率和粗到细处理策略。这些主要通过尺度空间技术[9,10,187,255]进行模拟。然而,这些系统主要集中在工程和实时方面,而不是生物学上的合理性。在[27]中提出了在尺度空间中执行兴趣点检测的第一个系统之一。他们建立了一个拉普拉斯金字塔,用于粗略到特征选择。模板用于局部化LoG空间中的对象。模板也被用于构建特征图,然后通过加权和[39]进行组合。在[76]中设计的系统中使用了高斯(DoG)滤波器来加速计算。
在[81]中开发的生物启发系统探索了使用基于DoG滤波器的边界和兴趣点检测器以及设置高斯(DOOG)的方向性差来模拟V1中的简单单元的想法。
[130]中提出的系统主要涉及[96]早期研究的纹理分类。特征提取部分使用基于定向内核(DoG和DOOG)的一组过滤器来生成类似于[81]的特征映射。下一阶段对应于WTA机制,以抑制弱反应和模拟横向抑制。最后,合并所有响应以检测纹理边界。
2.4.3空间事件检测
稳健的统计数据也被用于检测一组图像基元中的异常值。这个想法是基于这样的观察:纹理可以用它们的统计数据来表示,违反这些统计数据的位置代表有趣的事件。例如,纹理基元在[148]中使用直方图和RANSAC由许多属性表示。
在[23]中使用了在不同尺度下从DoG的零交叉计算的特征图的一阶统计量。对于每个点,然后构建梯度方向的直方图,并且将局部直方图组合成全局的直方图,其在精神上与更近的SIFT描述符[124,126]类似。然后将局部直方图与全局直方图进行比较以提供感兴趣的度量。
在[172]中提出了另一种统计模型。它们测量距感兴趣点的距离范围内的边缘密度,以构建边缘分布直方图。这个想法后来在[17]的形状上下文描述符中使用。
在[92]中首先发现了仅对在其接受场内终止的边缘和条形作出反应的细胞。在[87,260]中提出了一种基于视觉皮层中这种终止细胞模型的角点检测算法。此外,基于颜色对手过程,以生物学上合理的方式将终止细胞的概念推广到颜色通道[260]。
最新的视觉注意系统也受早期灵长类视觉系统的推动,见[94]。在局部空间不连续处检测到的强度,颜色和方向的多尺度图像特征被组合成单个地形显著图,并且神经网络根据显著性选择位置。
可以在[162,221,222]中找到遵循来自[185]的模型的视觉皮层V1的其他视觉识别系统。这些方法试图从视觉皮层实现简单和复杂的细胞,这些细胞是多尺度Gabor和edgel检测器,然后是局部最大值选择方法。
2.5基于颜色的方法
颜色提供可用于特征提取过程的其他信息。在上一节中回顾的几种生物学上可行的方法使用颜色来构建显著图[93,94,105,260]。
鉴于哈里斯角的高性能[84],在[80,153]中引入了第二矩矩阵到RGB颜色空间的直接扩展,在Harris角提取过程中引入了颜色信息。
在[250]中提出了基于颜色显著性的突出点检测。显著点是显著性图的最大值,它表示点邻域中颜色衍生物的独特性。在相关工作[217]中,他们认为基于颜色的突出点的独特性远高于强度突出点。相邻像素之间的颜色比用于获得与照明无关的衍生物,这导致对照明变化更稳健的颜色兴趣点。基于颜色的大多数提出的方法是基于强度变化的方法的简单扩展。颜色梯度通常用于增强或验证强度变化,以便增加特征检测器的稳定性,但像素强度仍然是特征检测的主要信息源。
2.6基于模型的方法
已经有一些尝试通过基于差异几何技术[82]或轮廓曲率[53]给出图像中角点的形式表示来进行角点检测的分析研究。例如,发现灰度角点可以作为最陡的灰度斜率线上的最大平面曲率点[82,188]。在[180]中研究了最佳函数的解析表达式,其中图像的卷积在角点具有显著的值。
[82,201]中提出的方法假设一个角类似于模糊的楔形,并通过将其设置为局部图像来找到楔形的特征(振幅,角度和模糊)。在[188]中使用了多个多边结的模型。假设结是由均匀区域形成的。参数化掩模用于确定强度结构,包括位置,方向,强度,模糊和边缘。然后在检测期间使残余物最小化。如果参数的良好初始化,精度很高。通过使用不同的模糊函数和初始化参数的方法,在[52]中改进了[188]中方法的效率。在[137,171]中也考虑了将角模型拟合到图像数据。对于每个可能的线的交叉点,基于假设角的角度,方向和比例来构造模板。然后将模板与感兴趣点的小邻域中的图像匹配以验证模型。在[128]中还描述了一种用于定位鞍点的基于模板的方法,其中角点对应于鞍脊和鞍谷结构的交叉点。
在[113]中建立了一组轮廓点的模糊模式,并且角点检测被表征为模式的模糊分类问题。
在[54,266]中提出了其他基于模型的方法,旨在提高基于Hessian的角点检测器的检测精度[16]。为此,分析了角点探测器对尺度空间理论模型的响应。据观察,操作员在不同尺度上的响应沿着平分线移动。值得注意的是,这种观察对于流行的Harris角点探测器也是有效的[84]。然后根据两个响应计算拐角的确切位置,这两个响应指示平分线及其与拉普拉斯响应的过零点的交点。还使用了一个ffine变换来对图像进行角点模型[22]。
在[77]中提出了一种不同的基于模型的方法。对于每种类型的特征,开发参数模型以表征图像中的局部强度。将强度分布投影到一组正交Zernike矩生成多项式上用于估计模型参数并生成特征图。
一种有趣的技术是通过使用广义霍夫变换[51,226]来设置参数化模型来找到角点。在具有提取边缘的图像中,每个角点的参数空间中出现两条线,并且峰值出现在交叉处。在[229]中考虑了模板形式的真实角模型。应用了相似性度量和几种替代匹配方案。通过合并不同匹配技术的输出,提高了检测和定位精度。
通常,在上述方法中仅考虑相对简单的特征模型,并且对多边形以外的图像的推广不明显。复杂性也是这种方法的主要缺点。
2.7走向视点不变方法
到目前为止所描述的大多数探测器以单一尺度提取特征,由探测器的内部参数确定。在20世纪90年代末,随着局部特征越来越多地用于广泛的基线匹配和物体识别,人们越来越需要能够应对尺度变化或甚至更