Text-guided Video MAE
Text-guided Video Masked Autoencoder[1]
作者是来自Amazon的David Fan等人,论文引用[1]:Fan, David et al. “Text-Guided Video Masked Autoencoder.” European Conference on Computer Vision (2024).
Time
- 2024.Aug
Key Words
- 一句话总结:captions/自然语言密集信息能够捕捉视频中的显著信息,不需要先验假设
总结
- 最近Video MAE的工作设计了改进的masking 算法,这些工作利用visual cues例如motion来mask 最突出的regions,然而,这些visual cues的robustness依赖于输入视频与底层假设的匹配程度,另一方面,natural language description是一个信息密集的representation,不需要modality-specific assumption,能够隐式捕捉视频中的显著性特征,这还没有别video MAE explore,出于这个目的,作者介绍了一个新的text-guided masking 算法,TGM,将和paired captions高度相关的video regions进行mask,不利用任务显式地visual cues for saliency。TGB是对于motion-guided masking是很有竞争力的,为了进一步利用自然语言的语义,用于masked reconstruction,接下来作者介绍了一个unified framework for joint MAE和masked video-text contrastive learning。作者展示了在现有的masking算法中,将MAE和masked video-text contrastive learning统一,相比于纯MAE,提高了下游任务的性能。