Co-DETR
DETRs with Collaborative Hybrid Assignments Training[1]
作者是来自商汤的Zhuofan Zong,Guanglu Song和Yu Liu,论文引用[1]:Zong, Zhuofan et al. “DETRs with Collaborative Hybrid Assignments Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 6725-6735.
Time
- 2023.Aug
Key Words
- one-to-many label assignment
总结
- 在本文中,作者观察到,太少的queries作为positive samples in DETR with one-to-one set matching 会导致sparse supervision on the encoder's output, 回影响encoer的discriminative feature learning。为了缓解这个问题,提出了一个新的collaborative hybrid assignments training scheme, 称之为Co-DETR,从versatile label assignment manners学习更有效的基于DETR的检测器。这个新的训练策略能够通过训练multiple parallel auxiliary heads supervised by one-to-many label assigments such as ATSS and FasterRCNN,简单地增强encdoer的学习能力。另外,通过其它auxiliary heads中的positive coordinates,执行extra customized positive queries,来提高decoder中的positive samples的训练效率。推理的时候,这些auxiliary heads被丢弃了,因此这个方法没有引入额外的参数和计算开销,不需要NMS。
在先前的目标检测工作中,一对多的label assignment是它们的核心方法,每个groundtruth box分配给检测器的输出的多个coordinates,和proposals,anchors,window centers共同作为监督目标。尽管它们的效果比较好,这些检测器严重依赖于很多手工设计的组件,例如NMS或者anchor generation。为了conduct一个更灵活的端到端的detector。有人提出了DETR,将目标检测视为一个集合预测问题,引入了一对一的set matching。以这种方式,每个ground-truth box将被分配给一个特定的query,不再需要很多手工设计的组件。这个方法引入了更加灵活的pipeline,使得很多DETR的变体能够进一步地提高。然而,普通的端到端的目标检测器仍然不如传统的一对多的label assignments。
在本文中,作者尝试使DETR类型的检测器超过传统的检测器,同时保持它们端到端的特点。为了解决这个挑战,作者聚焦于一对一set matching的intuitive drawback that it explores less positive queries。这会导致严重的训练问题。作者从两个方面进行分析,一个是encoder的产生的latent representation,然后就是decoder中的attention learning。首先比较Deformable DETR和one-to-many label assignment 方法(where we simply replace the decoder with the ATSS head)之间的latent features的discriminability score。每个spatial coordiante中的 \(l^2\) norm 特征用来代表discriminability score。给定encoder的输出,\(\mathcal{F} \in \mathbb{R}^{C \times H \times W}\),我们能够得到discriminability score map \(\mathcal{S} \in \mathbb{R}^{1 \times H \times W}\)。当对应区域的分数更高的时候,目标能更好的检测到。如图所示,在一些重要的位置的特征are fully activated in the 一对多的label assignment,然而less explored in 一对一的set matching。对于decoder training的exploration,对于decoder training的exploration,我们也展示了decoder中的交叉注意力分数的IoF-IoB曲线,基于Deformable DETR和Group-DETR的,这个讲more positive queries引入到了decoder中。图2中显示,太少的positive queries会影响attention learning,增加decoder中的positive queries能够缓解这个。 这个重要的观察驱使我们提出了一个简单高效的方法,一种协作混合的分配的训练方式,collaborative hybrid assignment training scheme,Co-DETR,co-DETR的key insight使用多样的一对多的label assignments来提高encoder和decoder的训练的效率和有效性。更具体地,作者讲transformer encoder的输出和auxiliary heads进行了集成。这些heads能够通过versatile 一对多的label assignments 例如ATSS,FCOS,Faster RCNN进行监督,不同的label assignments丰富了encoder outputs的监督,使其能够be discriminative enough来支持这些heads的训练收敛。为了进一步提高decoder的训练效率。作者对auxiliary heads中的正样本的坐标进行编码,包括positive anchors和positive proposals。然后送入到原始的decoder中作为多组的positive queries,来预测pre-assigned 类别和bboxes。每个auxiliary head中的positive coordinates作为independent group,和其它的group隔离开。versatile 一对多的label assignments能够引入大量的(positive query, ground-truth) pairs,来提高decoder的训练效率。注意到,原始的decoder尽在推理的时候用到了,提出的training scheme尽在training的时候引入额外的overheads。
一对多的label assignment:对于目标检测中的一对多的label assignment,多个box candidates能够分配给相同的groundtruth box作为positive samples in the training。在经典的anchor-based detectors 例如Faster RCNN, RetinaNet中,sample selection是通过预先定义的IoU的阈值和anchors与annotated boxes之间的匹配的IoU决定。anchor-free的FCOS利用了center priors,将每个bbox附近的中心位置作为positives。另外,自适应的机制引入到了一对多的label assignment,来克服固定label assignments的局限。ATSS通过统计动态的top-k最近的anchors的IoU的值,来自适应的anchor 选择。PAA以概率的方式自适应的将anchors分为positive和negative samples。本文中,提出的collaborative hybrid assignment scheme,能够通过auxiliary heads with 一对多的label assignments来提高encoder representations。
一对一 set matching:DETR将一对一的set matching引入object detection,进行端到端的目标检测。这个一对一的set matching首先通过匈牙利匹配计算global matching cost,然后为每个ground truth box分配有着最小matching cost的正样本。DN-DETR展示了由于一对一set matching的不稳定性,收敛慢,引入了denoising training来缓解这个问题。DINO集成了DAB-DETR的query formulation,引入了改进的contrastive denoising来达到很好的效果。Group-DETR构建了group-wise 一对多的label assignment来exploit 多个positive object queries,类似于hybrid matchign scheme in H-DETR。
跟着标准的DETR的路子,输入的图像送到backbone中,encoder产生latent features。多个预定义的object queries在decoder中和它们进行interact via cross-attention。引入co-DETR在encoder中提高feature learning,在decoder中通过collaborative hybrid assignment training和customized positive queries generation来提高attention learning。
Collaborative Hybrid Assignments Training:为了缓解decoder中fewer positive queries造成的encoder output的sparse supervision,作者引入了versatile auxiliary heads with不同的一对多的label assignment,例如 ATSS, Faster RCNN。**不同的label assignments丰富了encoder outputs上的监督,能够使其be discriminative enough来支持这些heads的训练收敛,特别地,给定encoder的latent feature \(\mathcal{F}\),首先转换到特征金字塔 via multi-scale adapter。定义 K个collaborative heads with 对应的label assignment manners \(A_{k}\),对于第 i个collaborative head, \({F_1, ..., F_j}\)给到它,来得到预测 $_i,在第 i个head, \(A_i\)用来计算supervised targets for the positive and negative samples in \(P_i\),将G记为 groundtruth set,这个过程formulated as: \[\mathbf{P}_{i}^{\{pos\}},\mathbf{B}_{i}^{\{pos\}},\mathbf{P}_{i}^{\{neg\}}=\mathcal{A}_{i}(\mathbf{\hat{P}}_{i},\mathbf{G}),\] {pos}和{neg}表示pair set of (j, positive coordinates or negative coordinates in \(\mathcal{F}_j\)) determined by \(A_i\)。j表示feature index in \({F_1, ..., F_j}\). \(B^{pos}_i\) 是spatial positive coordinates的集合。\(P^{pos}_i\)和\(P^{neg}_i\) 是对应坐标的supervised targets,包括类别和regressed offsets。损失函数定义如下:
\[\mathcal{L}_{i}^{enc}=\mathcal{L}_{i}(\mathbf{\hat{P}}_{i}^{\{pos\}},\mathbf{P}_{i}^{\{pos\}})+\mathcal{L}_{i}(\mathbf{\hat{P}}_{i}^{\{neg\}},\mathbf{P}_{i}^{\{neg\}}),\]
注意到,对于负样本,回归损失没有用上,对于K个auxiliary heads,优化的训练目标是: \[\mathcal{L}^{enc}=\sum_{i=1}^K\mathcal{L}_i^{enc}\]
Customized Positive Queries Generation:在一对一的set matching范式中,每个groundtruth box会被唯一分配给一个特定的query作为supervised target。太少的positive queries导致decoder中的交叉注意力学习不够。为了减缓这个,根据每个auxiliary head中的label assignment,产生足够的customized positive queries。特别低,给定positive coordinates set,\(\mathbf{B}_{i}^{\{pos\}}\in\mathbb{R}^{M_{i}\times4}\) 在第i个auxiliary head,\(M_i\)是positive samples的数量,额外的positive queries \(\mathbf{Q}_{i} \in \mathbb{R}^{M_{i}\times C}\) 可以通过以下公式生成:
\[\mathbf{Q}_{i}=\mathrm{Linear}(\mathrm{PE}(\mathbf{B}_{i}^{\{pos\}}))+\mathrm{Linear}(\mathrm{E}(\{\mathcal{F}_{*}\},\{pos\})).\]
PE表示positional encodings,根据index pair从E选择对应的features
因此,这里有K+1组 queries,constribute to a single 一对一的set matching branch,在训练中的K个branches with 一对多的 label assignments。auxiliary 一对多的label assignment branches和L decoders layers共享 相同的参数,auxiliary branch中的queries视为positive queries,然后matching process被丢弃。具体地,第 \(l\)层的decoder layer的loss in the \(i\) auxiliary branch,可以被formulate为: \[\mathcal{L}_{i,l}^{dec}=\widetilde{\mathcal{L}}(\widetilde{\mathbf{P}}_{i,l},\mathbf{P}_{i}^{\{pos\}}).\] \(\mathbf{P}_{i,l}\)指第 \(i\)个auxiliary branch的第 \(l\)个decoder layer的输出的预测。对于Co-DETR,训练目标为:
\[\mathcal{L}^{global}=\sum_{l=1}^{L}(\widetilde{\mathcal{L}}_{l}^{dec}+\lambda_{1}\sum_{i=1}^{K}\mathcal{L}_{i,l}^{dec}+\lambda_{2}\mathcal{L}^{enc}),\] \(\mathcal{L}_{l}^{dec}\)表示原始一对一matching branch中的Loss,\(\lambda_1\) 和 \(\lambda_2\) 是平衡loss的参数。
为什么Co-DETR有效:Co-DETR在DETR基础的检测器上有很大的提升。接下来,作者尝试调研它的有效性。
- Enrich the encoder's supervisions:直觉上,太少的positive queries会导致sparse supervisions,因为仅有一个query is supervised by regression loss for each ground-truth。一对多的label assignment中的正样本receive more localization supervisions,来帮助增强latent feature learning。为了进一步探索稀疏的监督如何阻碍了模型的训练。作者引入了IoF-IoB曲线,来量化encoder output的discriminability score,特别低,给定encoder的latent feature \(\mathcal{F}\),受特征可视化的启发,计算IoF和IoB。
- 通过降低匈牙利匹配的不稳定性,提高交叉注意力学习:匈牙利匹配时一对一set matching的核心,交叉注意力是用来帮助positive queries encoder abundant object information的一个重要操作。它需要大量的训练来实现。作者观察到匈牙利匹配引入了不可控的不稳定性,因为在训练过程中,同一张图像里的groundtruth分配给一个特定的positive query是挑战的。作者发现他们的方式,能够导致一个更加稳定的matching过程。另外,为了量化交叉注意力是如何被优化的,计算了IoF-IoB曲线 for attention score。类似于feature discriminability score computation,对于attention score,设置不同的阈值,来得到多个IoF-IoB对。
和其它方法的对比:Group-DETR,H-DETR, SQR通过重复的groups和groundtruth boxes的一对一的matchign来实现一对多的分配。Co-DETR显示地为ground truth分配多个spatial coordintes as positives。相应的,这些密集的supervision signals会直接递应用在latent feature map上,使其更加的discriminative。相比之下,Group-DETR,H-DETR,SQR缺乏这个机制。虽然这些方法引入了positive queries,通过匈牙利匹配的一对多的分配仍然会有一对一匹配的不稳定的问题。作者的方法受益于off-the-shelf一对多的分配的稳定性,集成了它们的specific matching manner between positive queries and ground-truth boxes。Group-DETR, H-DETR没有reveal一对一的分配和传统一对多的分配的complementarities。作者给出了定量和定性的分析,为了帮助更好地理解它们之间的不同和互补,因此能够通过利用off-the-shelf 一对多的分配设计,不需要额外特别的一对多的设计,提高DETR的学习能力。 作者的方法只处理decoder中的positive coordinates。
\(Fig.1^{[1]}\) Framework of Collaborative Hybrid Assignment Training. The auxiliary branches are discarded during evaluation.