摘要
https://arxiv.org/pdf/2503.07465v1
目标检测和分割在计算机视觉应用中得到了广泛应用,然而,尽管YOLO系列等传统模型高效且准确,但它们受限于预定义的类别,阻碍了在开放场景中的适应性。最近的开放集方法利用文本提示、视觉提示或无提示范式来克服这一限制,但由于计算需求高或部署复杂,往往在性能和效率之间妥协。在本文中,我们介绍了YOLOE,它在一个高度高效的模型中集成了不同开放提示机制下的检测和分割,实现了实时感知任意物体的能力。对于文本提示,我们提出了可重参数化区域-文本对齐(RepRTA)策略。它通过可重参数化的轻量级辅助网络精炼预训练的文本嵌入,并通过零推理和零传输开销增强视觉-文本对齐。对于视觉提示,我们提出了语义激活视觉提示编码器(SAVPE)。它采用解耦的语义和激活分支,以最小的复杂度带来改进的视觉嵌入和准确性。对于无提示场景,我们引入了惰性区域-提示对比(LRPC)策略。它利用内置的大词汇量和专用嵌入来识别所有物体,避免了昂贵的语言模型依赖。大量实验表明,YOLOE具有出色的零样本性能和迁移能力,同时具有高推理效率和低训练成本。值得注意的是,在LVIS数据集上,YOLOE v8-S以