MiniVLN
MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation[1]
作者是来自自动化所等单位的Junyou Zhu等人。论文引用[1]:
Time
- 2024.Sep
Key Words
- 两阶段蒸馏
总结
现在的模型的size和有限的平台的计算能力冲突,为了解决这个问题,我在聚焦于VLN,引入了一个两阶段的只是蒸馏的框架,产生一个student model,MiniVLN,展示了蒸馏在发展轻量model的潜力。提出的方法旨在 在预训练阶段得到细粒度的知识,在fine-tuning阶段得到navigation-specific 的知识。作者的发现表明:两阶段的蒸馏方法是一个更加有效的缩小teacher model和student model之间的性能差距的方法,相比于单阶段的蒸馏,在公共的benchmarks上,MiniVLN实现了和teacher model相当的性能,但是只有其12%的参数。
现有的VLN方法利用大规模的预训练model来解译复杂的多模态信息,通过复杂的环境知道agents,DUET利用细粒度的跨膜太理解来解译long-term的action planning。AutoVLN自动地产生一个大规模的VLN数据集,提高了模型的泛化性。ScaleVLN,利用1200+的环境,合成了4.9B的 instruction-trajectory paris,在泛化性上有很大的提高,实现了SOTA。然而,很多这些model是computationally intensive,需要大量的memory,限制了实时地部署。为了解决这个问题,最近的研究利用知识蒸馏。之前的方法聚焦于预训练阶段,MAGIC提出了一个Meta-Aility Knowledge Distillaiton framework和一个interactive chain-of-distillation学习策略,来促进student model的knowledge acquisition。
相比于这些在仅在预训练阶段使用蒸馏,或者仅在fine-tuning阶段使用,作者引入了一个两阶段的蒸馏框架,MiniVLN,作者的方法在预训练和fine-tuning都使用了KD。在预训练阶段,作者聚焦于细粒度的konwledge learning,MiniVLN通过feature alignment和representation alignment,从teacher model中学习knowledge,在fine-tuing阶段,作者将focus转移到蒸馏那些影响navigation performance的knowledge。例如在navigation中用到的fused information logits,这对最后的navigation outcomes是重要的。确切地说,作者聚焦于经典的dual-scale graph transformer(DUET)架构,如图1所示。作者实现了很好的性能,但是模型参数量更少。
早期的VLN利用RNNs作为Backbone来处理sequential inputs,然而,当轨迹的长度增加的时候,RNNs不能捕获long-term的依赖。为了解决这个问题,引入了基于transformer的model,DUET将long-term aciton planning和细粒度的cross-mmodel理解结合,动态地构建一个topological graph,来集成local observation和global map,在这个基础上,通过data augmentation、external knowledge integration和visual representation refinement实现了进步。
VLN任务是一个agent基于自然语言的instructions,在unseen的环境中进行导航,这个环境是通过一个无向图进行建模,\(V\) 表示一组navigable nodes,\(v\) 表示 这些nodes之间的连接的edges,agent随机在一个起点node进行初始化,这个goal的目标是将给定的自然语言的instruction进行解译,\(L\) 是instruction的长度,通过连接图进行导航,到达特定的目标位置,这个过程被部分建模为一个可观测的马尔可夫决策过程,agent的未来观测在给定当前state \(s_t\)的时候,是和过去的观测条件独立的。
在time step t的时候,agent 收到了全景的观测 \(O_t\), 这个观测包含了一组含有周围环境的images,被分成K个独立的views,还有相关联的angle direction,在fine scale,这个action space 包含了导航到相邻node和stopping,在coarse scale,这个action space包含导航到所有navigable但是没有访问过的nodes和stopping,这个agent必须学习一个策略 \(pi\),基于instruction、agent的导航历史和当前的observation \(O_t\),这个agent的决策过程会继续,直到它选择在一个位置停止。总的目标是优化agent的能力,准备地遵循instructions,通过环境高效地导航和定位位置。
采用DUET作为基线方法,构建了一个topological map,来记忆访问过的locations,结合coarse-scale map encoding和fine-scale encoding of current location,来增强action planning。 \(N_t\) 包含了访问的nodes,当前的nodes,ghost nodes 表示navigable 但是没有访问过的nodes。\(E_t\) 记录了相邻nodes之间的欧几里得distance,DUET包含了一个language encoder和一个panorama encoder用于单模态的embedding和feature extraction,还有两个