MiniVLN

发表于 2025-10-28 分类于 Papers 阅读次数：本文字数： 1.2k 阅读时长 ≈ 4 分钟

作者是来自自动化所等单位的Junyou Zhu等人。论文引用[1]:

Time

2024.Sep

Key Words

两阶段蒸馏

总结

现在的模型的size和有限的平台的计算能力冲突，为了解决这个问题，我在聚焦于VLN，引入了一个两阶段的只是蒸馏的框架，产生一个student model，MiniVLN，展示了蒸馏在发展轻量model的潜力。提出的方法旨在在预训练阶段得到细粒度的知识，在fine-tuning阶段得到navigation-specific 的知识。作者的发现表明：两阶段的蒸馏方法是一个更加有效的缩小teacher model和student model之间的性能差距的方法，相比于单阶段的蒸馏，在公共的benchmarks上，MiniVLN实现了和teacher model相当的性能，但是只有其12%的参数。
现有的VLN方法利用大规模的预训练model来解译复杂的多模态信息，通过复杂的环境知道agents，DUET利用细粒度的跨膜太理解来解译long-term的action planning。AutoVLN自动地产生一个大规模的VLN数据集，提高了模型的泛化性。ScaleVLN，利用1200+的环境，合成了4.9B的 instruction-trajectory paris，在泛化性上有很大的提高，实现了SOTA。然而，很多这些model是computationally intensive，需要大量的memory，限制了实时地部署。为了解决这个问题，最近的研究利用知识蒸馏。之前的方法聚焦于预训练阶段，MAGIC提出了一个Meta-Aility Knowledge Distillaiton framework和一个interactive chain-of-distillation学习策略，来促进student model的knowledge acquisition。
相比于这些在仅在预训练阶段使用蒸馏，或者仅在fine-tuning阶段使用，作者引入了一个两阶段的蒸馏框架，MiniVLN，作者的方法在预训练和fine-tuning都使用了KD。在预训练阶段，作者聚焦于细粒度的konwledge learning，MiniVLN通过feature alignment和representation alignment，从teacher model中学习knowledge，在fine-tuing阶段，作者将focus转移到蒸馏那些影响navigation performance的knowledge。例如在navigation中用到的fused information logits，这对最后的navigation outcomes是重要的。确切地说，作者聚焦于经典的dual-scale graph transformer(DUET)架构，如图1所示。作者实现了很好的性能，但是模型参数量更少。
早期的VLN利用RNNs作为Backbone来处理sequential inputs，然而，当轨迹的长度增加的时候，RNNs不能捕获long-term的依赖。为了解决这个问题，引入了基于transformer的model，DUET将long-term aciton planning和细粒度的cross-mmodel理解结合，动态地构建一个topological graph，来集成local observation和global map，在这个基础上，通过data augmentation、external knowledge integration和visual representation refinement实现了进步。
VLN任务是一个agent基于自然语言的instructions，在unseen的环境中进行导航，这个环境是通过一个无向图进行建模，\(V\) 表示一组navigable nodes，\(v\) 表示这些nodes之间的连接的edges，agent随机在一个起点node进行初始化，这个goal的目标是将给定的自然语言的instruction进行解译，\(L\) 是instruction的长度，通过连接图进行导航，到达特定的目标位置，这个过程被部分建模为一个可观测的马尔可夫决策过程，agent的未来观测在给定当前state \(s_t\)的时候，是和过去的观测条件独立的。
在time step t的时候，agent 收到了全景的观测 \(O_t\)，这个观测包含了一组含有周围环境的images，被分成K个独立的views，还有相关联的angle direction，在fine scale，这个action space 包含了导航到相邻node和stopping，在coarse scale，这个action space包含导航到所有navigable但是没有访问过的nodes和stopping，这个agent必须学习一个策略 \(pi\)，基于instruction、agent的导航历史和当前的observation \(O_t\)，这个agent的决策过程会继续，直到它选择在一个位置停止。总的目标是优化agent的能力，准备地遵循instructions，通过环境高效地导航和定位位置。
采用DUET作为基线方法，构建了一个topological map，来记忆访问过的locations，结合coarse-scale map encoding和fine-scale encoding of current location，来增强action planning。 \(N_t\) 包含了访问的nodes，当前的nodes，ghost nodes 表示navigable 但是没有访问过的nodes。\(E_t\) 记录了相邻nodes之间的欧几里得distance，DUET包含了一个language encoder和一个panorama encoder用于单模态的embedding和feature extraction，还有两个

MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation[1]

Time

Key Words

总结

MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation^[1]