DeepSORT

Simple Online and Real-Time Tracking with a Deep Association Metric[1]

作者是来自University of Koblenz-Landau的Nicolai Wojke, Alex Bewley等人。论文引用[1]:

Time

  • 2017.Mar

Key Words

  • more informed association metric that combines motion and appearance information

总结

  1. SORT是一个多目标跟踪的实用的方法,简单高效。本文中,将外观信息集成,来提高SORT的性能。因为这个扩展,能够跟踪更长时间的遮挡的目标,有效地降低了ID切换。原始的框架中,将很多的计算复杂度放在了预训练阶段,在一个大规模的person re-id数据集上学习一个deep association metric。在在线应用的时候,用视觉外观空间中的最近的queries,建立一个measurement-to-track association。
  1. 由于最近目标检测的进步,tracking-by-detection已经成为了多目标跟踪的学习范式。在这个范式中,目标轨迹通常是一个全局优化问题,一次处理整个的video batches。然而,由于batch processing,这些方法不能实时应用,targe id必须在每个时刻是available的。更多传统的方法MHT和JPDAF。这些方法是在逐帧的基础上进行数据关联。在JPDAF中,通过将每个测量值按其关联似然加权,生成单一状态假设。在MHT中,所有可能的假设被跟踪了,为了计算可追溯性,必须采用修建策略。SORT是一个更简单的框架,在图像空间执卡尔曼滤波,它使用匈牙利算法进行关联,并通过衡量边界框重叠度的关联度量来完成匹配。这个简单的方法在高帧率的时候效果很好。

  2. 在跟踪精度上实现了好的表现,SORT有很好的id切换。这是因为当状态估计的不确定性很低的时候,采用的association metric才是准确的。因此SORT在有遮挡的时候,跟踪是有缺陷的。通过将运动和外观信息结合的更可靠的metric,来代替原来的metric,来克服这个问题。特别的,用一个在大规模person re-id数据集上训练过的CNN网络来判别行人。通过集成这个网络,增加了遮挡期间的鲁棒性。

  3. 采用传统的single hypothesis tracking方法,采用kalman filtering和逐帧的数据关联。

  4. 用一个标准的卡尔曼滤波器,带有恒速的运动和线性观测模型,将bbox的坐标 \((u,v,r,h)\) 作为object state的直接的观测。对于每个track k,在最后一个成功的measurement association \(a_k\) 之后,计数frames的数量。这个coutner在KF预测期间是增加的,当track和一个measurement已经和一个measurement关联了就置为0。超过了预定义的最大的age \(A_{max}\) 的tracks 被认为是离开了场景,并从track set中删除。不能和现有的track进行关联的detection将被初始化为新的track hypotheses。这些新的tracks在它们的前3帧被分类为暂定的。在这期间,期望一个成功的measurement association at each time step。没有成功和前3帧中的measurement进行关联的tracks被删除。

  5. 一个传统的解决预测的kalman states和新的measurements之间的关联的方式是建立一个assignment problem,能够通过匈牙利算法解决。在这个问题的描述中,通过结合两个合适的metrics,集成运动和外观信息。为了引入运动信息,在预测的kalman states和新的measurements之间用(squared)Mahalanobis distance。

    \[d^{(1)}(i,j)=(\boldsymbol{d}_j-\boldsymbol{y}_i)^\mathrm{T}\boldsymbol{S}_i^{-1}(\boldsymbol{d}_j-\boldsymbol{y}_i),\]

    将第i个track distribution在measurement space中的projection表示为 \((y_i, S_i)\),第j个bbox detection表示为 \(d_j\)Mahalanobis distance通过测量detection离mean track location的标准偏离有多少,将状态估计的不确定性考虑在内。另外,用这个Metric,通过设定Mahalanobis distance从逆卡方分布计算的95%置信区间处进行阈值化,将不太可能的associations排除掉

    如果第i个track和第j个detection之间的association是可接受的,则为1。对于四维测量空间,对应的mahalanobis阈值是 \(t^(1) = 9.4877\)。当运动的不确定性很低的时候,Mahalanobis distance是一个合适的association metric,在image-space problem formulation,从卡尔曼滤波中得到的预测state distribution提供了一个粗略的object location的估计。具体地,相机运动会在image plane引入快速的位移。使得Mahalanobis distance是一个更见uniformed metric for trcking through occlusions。因此,将第二个metric集成到assignment 问题中。对于每个bbox detection \(d_j\),计算一个外观descriptor \(r_j\)\(||r_j||=1\),另外,对于每个track k,保留最后100个关联的外观descriptors的gallery \(R_k\),然后,第二个metric在外观空间测量第i个track和第j个detection之间的最小余弦距离。

    \[d^{(2)}(i,j)=\operatorname*{min}\{1-{r_{j}}^{\mathrm{T}}{r_{k}^{(i)}}\mid{r_{k}^{(i)}}\in{\mathcal{R}}_{i}\}.\]

    \[b_{i,j}^{(2)}=\mathbb{1}[d^{(2)}(i,j)\leq t^{(2)}]\]

    这里,引入了一个binary variable,根据这个metric,表示这个关联是否是可接受的。然后发现一个合适的阈值for this indicator on a separate training dataset。实际中,用一个预训练的CNN来计算bbox的appearance descriptors。

    在combination中,两个Metrics通过在assignment problem上的不同的作用,互补。另一方面,Mahalanobis distance基于对短期预测有用的motion,提供了关于目标位置的信息。另一方面,在长时间的遮挡之后,余弦距离对恢复id有用的appearance 信息。为了构建关联问题,用一个加权的和来结合这两个metrics。

    \[c_{i,j}=\lambda d^{(1)}(i,j)+(1-\lambda)d^{(2)}(i,j)\]

    如果它在两种metrics的门控区域内,则称一个association是可接受的。每个metric的影响可以通过超参数 \(\lambda\) 控制。在实验期间,当有大量的相机运动的时候,发现 \(\lambda = 0\) 是一个合理的选择。在这个设定中,只有外观信息在association cost term中用到了。然而,基于KF推理的可能的目标位置,Mahalanobis gate仍然用来忽视不可行的assignments。

  6. 而不是在一个全局分配问题中求解measurement-to-track的关联。引入了一个cascade解决一系列的子问题。为了motivate这个方法,考虑以下的场景:当一个目标被遮挡了很长时间,后续的KF预测增加了和目标位置有关的不确定性。因此,概率质量在状态空间中扩散,观测似然变得不那么集中。直觉上,association metric应该通过增加measurement-to-track来解释这个spread of probability mass。反直觉的是,当两个tracks竞争同一个detction的时候,Mahalanobis distance倾向于更大的不确定性,因为它实际上会减少任何检测到投影轨迹均值之间的标准差距离。这是一种不希望出现的行为,因为它可能导致轨迹碎片化增加和轨迹不稳定。因此,我们引入了一种匹配级联机制,优先考虑更频繁出现的对象,以在关联似然中编码我们对概率扩散的理解。

  7. 对于输入,提供轨迹 T和detection D indices,最大的age \(A_{max}\)的集合,先计算了association cost matrix和可接受的associations的matrix,然后迭代n次,来解决一个线性分配问题for tracks of increasing age。然后选择tracks \(T_n\)的、还没有和最近的n个frames中的detection进行关联的一个子集,然后在\(T_n\)中的tracks和没有匹配的detections \(u\)之间解决一个线性分配问题。之后,更新matches和没有匹配的detections的集合。

    在最后的匹配阶段,做一个IoU association on the set of unconfirmed and unmatched tracks of age n=1。这能够帮助应对突然的外观变化

  8. Deep Appearance Descriptor:不需要额外的Metric learning,通过用简单的最近邻queries,成功的应用需要well-discriminating feature embedding,before actual online tracking application。为了这个目的,用一个在大规模person re-id数据集上的训练的CNN,使其能够适合deep metric learning in a people tracking context。这个CNN用了一个残差网络。最后的batch和 \(l_2\) 归一化将features投射到unit 超平面,来和余弦外观metric相兼容。