classification matters

发表于 2025-07-09 分类于 Papers 阅读次数：本文字数： 2.2k 阅读时长 ≈ 8 分钟

Classification Matters: Improving Video Action Detection with Class-Specific Attention^[1]

作者是来自韩国POSTECH的Jingsung Lee等人。论文引用[1]:Lee, Jinsung et al. “Classification Matters: Improving Video Action Detection with Class-Specific Attention.” ArXiv abs/2407.19698 (2024): n. pag.

Time

2024.Sep

Key Words

class specificity of the classification features

总结

Video action detection 旨在检测视频中的actors和它们的actions，作者认为：VAD的瓶颈更多地来自分类，而不是actor的定位。因此，作者分析了流行的方法如何形成分类的features，发现它们优先actor regions，经常忽略重要的对于准备分类必要的上下文信息，因此，作者提出降低actor的bias，鼓励更多地关注和每个action class相关的context，通过将class-dedicated query 分配给每个action class，作者的model能够动态地决定去关注哪里，能够有效地进行分类，提出的model在三个benchmarks上展示出了优秀地性能。

VAD是一个识别actors和分类它们的activities的任务，因为video是images的序列，很多video understanding的方法都是基于image recognition models，包括VAD，因为VAD很像image中的object detection，现有的VAD models将这个任务看作是OD的扩展，沿着常用的OD的pipelines。然而，直接扩展OD对于VAD来说不是最优的，因为VAD和OD的本质不同，VAD中所有执行actions的instances是人，VAD中的action localization旨在识别human-shaped objects only，使得它比OD中定位任意目标要更简单。对比之下，VAD中的actions的分类比OD中的更加重要，不像OD中的目标分类，通常依赖于objects的外观，VAD中的action分类需要appearance和motion上的fine-grained details，因为不同的actions是由human执行的。因此，它们的general的appearance是不容易那么区分的。作者经验性地验证了分类对于提高VAD性能的重要性。对于所有的最后三个VAD models，提供gt class labels相比于提供gt bboxes能够得到更多的提升。这个结果表明：VAD的提升主要在于classification而不是localization，然而，很少有方法注意到VAD中的分类的挑战。

这个工作中，作者提出了一个新的model，旨在提高VAD的分类性能。作者的model首先attend features globally，定位每个actor，然后寻找对于识别action class有帮助的local regions。这个过程使得model能够聚焦于local regions，在分类上提供greater assistance，例如fine details，或者people和其它actor的interacting。出于这个目的，作者介绍了class queries，每个单独拥有关于每个action class的信息，如果一个action class发生了，这个class queries学会去识别。特别地，首先构造一个featrue map，包含每个actor和global context的interaction，然后，每个class query学习目标是使其与特征图上与对应动作类别相关联的特定区域特征具有高度相似性，因此它提取了丰富和fine-grained的、用于每个actor和class的features，这些features有助于模型在细粒度层面上识别与动作分类所需的细节和上下文信息，同时也为每个类别提供了可解释的注意力图，从而同步支持模型的决策过程。这个attention map阐释了model捕捉details的能力和场景中和action有关的interactions，model在没有被actor box限制的regions上进行寻找，作者另外介绍了components，显著地增强了class queries的利用，辅助捕捉details，确保对actors的特异性识别。

作者的方法构建了一个完整的spatio-temporal tube of an actor，通过一个单向的feed-forward pass，更好地和VAD的objective对齐，也有更高的计算效率。

作者的贡献如下：
- 分析了VAD中现有方法如何处理分类的features，进行了详细地研究
- 作者引入了一个新的分类module，classifying decoder layer，有效地结合了context, actor, class queries，为每个action class构建classification features。
- 作者提供了额外的components，3D Deformable Transformer Encoder和localizing decoder layer，增强classification module，提高了model的性能。
Video action detection：早期的研究尝试结合时空信息来得到一个好的actor representation，然后进行box regression和classification，由于object detection的进步，采用一个2D detectors从场景中提取actors，利用这些features用于分类。另外一方面，一些研究尝试得到spatio-temporal tubes，而不是逐帧地检测actors，作者的方法采用了tube-based过程，不仅包含了任务的temporal特性。
DAB-DETR和作者的工作最相关，它引入了一个modulating functin，调整queries的positional information，这个方法增强了cross-attention 机制，使得模型能够生成更加全面的表示，涵盖锚框（anchor box）先验的宽度和高度信息。我们的方法以不同的方式利用这一位置先验，为类别查询提供用于指定动作执行者的线索，从而为每个类别查询应关注哪个实例提供细微的指引。为了实现更好地action classification score，很多的研究持续地探索actor和contextual information之间的关系，之前的研究中，这个context被分为两种类型: actor-actor relationship和actor-context relationship，用于构建relationship的方法有很细微的差别，为了得到两者之间的关系，要么将检测到的实例与全局特征进行拼接，要么将其输入到 Transformer 模块中进行处理，这个transformer module用来考虑instances的relations，之前的基于transformer的方法存在一个问题：分类过程倾向于关注靠近动作执行者的区域，从而导致潜在的偏差。
沿着流行的OD models，在VAD中，采用transformer架构已经称为事实的标准，query表示一个actor，从video feature map中搜集信息，特别地，最近的VAD models，利用transformers来查找和每个actor相关的regions，用resulting attention map来构建它们的classification features。然而，这个结构使得流行的分类方法会偏向靠近actor位置附近的context features。因为它们的输出的分类features是从single attention map得到的，所有的action classes共享context features的相同的信息，因此，不同于理解class-specific knowledge，transformer weights通常用于嵌入常用的、不同类别的共享的semantics，VAD的action classes会强迫model包含更多的和actor相关的信息，导致actor regions附近更高的attention，这样的classification feature可能限制model对于actor regions的observation scope，导致model丢失能够辅助分类的重要的regions。

TubeR的attention maps阐释了这个问题：attention集中在actor的边界，不管actor执行什么行为，类似的，EVAD的attention主要分布在actor的face和body parts，对于分类重要的regions是被忽略了。另外，先前的方法不能将attention超出它们的bbox，这里有很多对于区分action classes重要的clues。
model的关键在于classification module，和其它方法的不同在于对class queries的利用，他们是可学习的embeddings，对每个class label的information进行压缩，class queries有两个方面的作用：首先：它们使得transformer创造出了表示不同action classes之间的features的variation。缓解了倾向于多个classes的common semantics的问题，因此，class queries提供了探索actor locations之外的机会；其次，它们能够识别每个class的多种特性，使model有机会去看每个clases。并为模型提供更多机会去关注那些与特定类别密切相关的区域。

CDL使得能够得到对于分类重要的features，随着网络层数的叠加，还能逐步获取更丰富的信息。为了确保CDL得到informative features，对传统的transformer做了修改，3D deformable transforemr encoder和localizing decoder layer。
为了缓解多尺度特征的计算的压力，作者受Deformable DETR的启发，将 offsets \(\Delta h\) 和 \(\Delta w\) 的二维offsets变成三维的offsets \(\Delta t, \Delta h, \Delta w\) decoder有两个modules：LDL和CDL，LDL主要是从encoded feature maps种搜集actor-related features，构建localization features，相比之下，CDL利用LDL的中间的输出，产生classification features。LDL不同于原始的DETR的decoder，首先：它通过concate content和spatial parts，构建query和key，每个part分别在actor appearance feature和actor的positional feature上起作用；其次，它汇聚了多尺度feature maps，能够构造针对每个actor的feature maps。

Overview \(Fig.1^{[1]}\)

Classification Matters: Improving Video Action Detection with Class-Specific Attention[1]

Time

Key Words

总结

Classification Matters: Improving Video Action Detection with Class-Specific Attention^[1]