MambaMOT
MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking[1]
作者是来自华盛顿大学的Hsiang-Wei Huang等人,论文引用[1]:Huang, Hsiang-Wei et al. “MambaMOT: State-Space Model as Motion Predictor for Multi-Object Tracking.” ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2024): n. pag.
Time
- 2025.Jan
Key Words
- Mamba motion prediction
- 一句话总结:利用Mamba结构,代替传统的基于卡尔曼滤波器的motion model方法,输入是N帧的tracklets,输出是下一帧的tracklet的location的预测,实现基于深度学习的motion prediction
总结
- 在MOT中,传统的方法依赖于KF for motion prediction,利用它在线性运动中的优势,然而,这些方法内在的局限变得明显,当遇到复杂、非线性motions和occlusions的时候,这个文章探索了,利用earning-based motion model,能够有效地增强tracking accuracy和adaptability beyond constraints of KF-based tracker的可能性。在文章中,作者提出了MambaMOT。
在所有不同的trackers中,motion-based trackers通常是popular的,能够容易地用在很多真实世界中的场景,由于它们的简洁和low computational costs。motion-based trackers通常严重依赖于KF的prediction,当tracked objects是常规的、且线性运动的时候是有效的。然而,这些trackers在Objects有多种和不规律的motions的数据集上的表现不行。研究表明KF线性运动估计在tracking objects in dancing or sports scenarios的时候表现不佳。出于这个原因,作者旨在探索更强的motion models,能够提供更robust和adaptive motion predictions,来提高Kf-based trackers的性能。
在这个工作中,尝试将learning-based motion models作为KF的替代,不同于KF,which 用一个线性运动假设来预测object location,learning-based motion model自适应地预测tracklet's location in the next timestamp, 通过利用tracklet information from previous frames。这使得motion model对于每个datasets motion pattern更加adaptive。因此即使target motion是irregular,也能够做出relaible predictions。在这个工作中,作者提出了MambaMOT,利用了state-space model mamba的exceptional context reasoning capabilities,来进行tracklet motion predictions。MambaMOT显著地提高了tracking outcomes,相比于现有的motion-based tracker,进一步,作者提出了MambaMOT Plus, 利用state-space model的能力,提出trajectory features,进一步boost tracking performance,提出的MambaMOT plus 和MambaMOT实现了advanced performance。
TbD:很多TbD方法用KF作为motion model来预测下一帧中的tracklets的location, predicted boxes和detection boxes之间的IoU用作association的similarity metric,然而,之前的工作发现了KF的局限性,包括对state noise和temporal error 的敏感和temporal error 的magnification,在diverse和large motion场景中,KF对state noise的敏感会造成严重的shift in final position estimation after jsut a few frames of being untracked。对于这个问题的基础的解决方法是 引入learning-based motion model,能够自适应地,基于target historical tracklet information,预测object的location。
Motion Model for MOT:大多数的TbD方法用motion model for association,然而,一些挑战包括相似外观的objects和有着不同运动的ojbects,仍然没有被解决。现有的大多数方法仍然采用KF 作为motion model。出于这个原因, 作者旨在探索不同的learning-based motion models,提供更robust的alternatives to TbD 范式。
Mamba:基于State-Space Model(SSM), Mamba 是一个新的、input-dependent,和hardware-efficient sequence model,在性能和精度上超过了transformer,Mamba的设计,启发了很多applications。MambaTrack用了一个双向架构for motion modeling,相比之下,作者的MambaMOT利用Mamba的高效的motion modeling。
Method
Task Definition:给定一个tracklet's of past n frames,motion model旨在在下一帧中预测tracklets的位置,基于过去 n 个 frames的bboxes的信息,预测的bbox将用于association with detections \(X_t\) from the next timestamp t。
Motion models:作者提出了用original Mamba block来执行motion model,用一个额外的linear projection layer,将bbox变换为higher dimension,一个local MLP 用于预测tracklet的next location.
\[\begin{aligned} y(t) &= C \cdot h(t) \\ h(t) &= A \cdot h(t-1) + B \cdot x(t). \end{aligned}\]
Selective SSM(state-space model) 是continus system A, B,通过ZOH(zero-order hold) discretization formulation with a timescale parameter 的discrete representation \(\tlide{A}, \tlide{B}\)。
\[\bar{A}_t = \exp(\Delta A) = 1 - \sigma(\text{Linear}(x_t)) \\ \bar{B}_t = (\bar{A})^{-1} (\exp(\Delta A) - I) \cdot \Delta B = \sigma(\text{Linear}(x_t)),\]
离散的输出 \(y_t\) 和 hidden state \(h_t\) 是这样的: \(y_t = C \cdot h_t \quad \text{and} \quad h_t = \bar{A}_t \cdot h_{t-1} + \bar{B}_t \cdot x_t,\)。
然后,通过引入selective State Space Models(SSMs) 到steamlined end-to-end neural network 架构,放弃之前的attention 机制,作者可以在显著提高推理速度的同时,提供与序列长度成线性关系的可扩展性。类似于大多数的recurrent model的implementation,作者计算和传播hidden states,最后通过,将output 给到prediction head,得到tracklets next location in the final output
- Motion Prediction:prediction head旨在预测tracklets 在下一帧中的location,作者计算和传播hidden states,最后得到tracklet的next location \(Y_t\) as final output by feeding the discrete output \(y_t\) to the prediction head \(MLP_{pred}\):
\(Y_t = \text{MLP}_{\text{pred}}(y_t).\)
为了得到精确的bbox prediction,用GIoU和MSE loss between predicted bbox和gt bbox,通过最小化这些losses,model能够产生bbox predictions closed to gt,对于 \(MLP_{pred}\)的final loss是:
\(\mathcal{L}_{\text{pred}} = \mathcal{L}_{\text{giou}} + \mathcal{L}_{\text{mse}}.\)
为了展示learning-based motion model在motion model方面比KF更好,MamabaMOT引入了Bytetrack中的data-association 方法BYTE,不同于MamabaMOT,Bytetrack用KF作为motion model来预测tracklet的location。这个association是在predicted location和detection之间进行,用匈牙利算法,
- MambaMOT Plus:释放Mamba的潜力:
- motion pattern in hidden state: structured state-space model的很强的特性是对于long-context reasoning的能力,在long-range 数据集上展示出了超过transformer model的性能。为了进一步利用Mamba的能力,来利用tracklet在hidden state的motion pattern,作者进一步提出了MambaMOT Plus,旨在通过提取trajectory's motion as trajectory feature,来释放Mamba的power,进一步将tracklets和similar trajectory features连接起来,提升tracking performance。
- Trajectory Representation:MambaMOT Plus 引入了额外的trajectory embedding head,将mamba block \(y_t\) 的结果作为另一个可训练的MLP的输入,来得到trajectory feature \(f_t\)。trajectory head从hidden states中得到tracklet的trajectory information的global representations,因此包含丰富的motion patterns和position information,能够进一步用来连接fragment tracklets。
trajectory representations的training objective是最小化same tracklet的embedding features cosine distance,最大化different ones。将cosine embedding loss \(L_{loss}\) 来实现这个objective。在each loss backward中,来自tracklet i 和tracklet j的一对trajectories将会被采样,cosine embedding loss \(L_{loss}\) 通过如下计算:
\[\mathcal{L}_{\text{cos}}(i, j) = \begin{cases} 1 - \cos(\mathbf{f}_i, \mathbf{f}_j), & \text{if } i = j \\ \max(0, \cos(\mathbf{f}_i, \mathbf{f}_j)), & \text{if } i \neq j \end{cases}\]
\(f_i\) 表示通过从tracklet i中sampled的trajectory前向传播mamba blocks的global head's predicted features。作者将bbox prediction head和global features通过将loss加在一起,联合训练bbox。端到端的loss定义为: \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{pred}} + \mathcal{L}_{\text{cos}}.\)
- Tracklet Merging:很多之前的工作用一个基于深度学习的model,基于appearance 或者motion pattern similarity of tracklet pair,来进行tracklet merging。这些工作中流行的方法是采用Siamese networks来做这个工作。然而这些tracklet merging network,通过连接same identity的fragment trajectories,提升了tracking performance。stand-alone Siamese network需要计算每个tracklet pair之间的similarity,进一步引入了extra \(O(N^2)\) computational cost,\(N\) 表示 tracklets的数量。不同于这些工作,作者提出的MambaMOT Plus,在tracking 过程中,用相同的模型来做motion prediction,提出tracklet的trajectory feature,不需要训练另外一个单独的tracklet mergin network。MambaMOT Plus 在每个轨迹片段(tracklet)上进行前向传播,而不是在轨迹片段对(tracklet pair)之间进行操作,这使得与基于 Siamese 网络的方法相比,计算成本从 O(N²) 降低到 O(N)。完成tracking之后,每个tracklet的trajectory feature将会用cosine similarity 进行比较,进一步用hierarchical clustering,来融合具有similar trajectory features,提升tracking的性能。
结论:作者提出了MambaMOT,通过使用learning-based motion models,解决传统KF filter-based MOT的局限,展示了性能的提升。提出的方法利用state-space models来得到complex motion patterns,实现了较好的性能。
\(Fig.1^{[1]}\). MambaMOT通过一个linear
projection layer,处理来自same track的bbox的序列,用于motion
modeling,model产生predictions和embeddings,在每个time frame更新hidden
state \(h_T\)。这些predictions用于detecting和matching
tracks,trajectory embeddings辅助merging tracklets