Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding[1]

作者是来自Rutgers等学校的Mingyu Jin等人。论文引用[1]:

Time

  • 2025.May

### Key Words

总结

Differential Transformer[1]

作者是来自MSRA和Tsinghua的Tianzhu Ye等人。论文引用[1]:Ye, Tianzhu et al. “Differential Transformer.” ArXiv abs/2410.05258 (2024): n. pag.

Time

  • 2025.Apr

Key Words

  • 一句话来说:用两个softmax attention functions之间的差,作为attention socres,来消除attention noise

总结

  1. Transformer 倾向于将attnetion过多地分配给不相关的context,在这个工作中,作者介绍了Diff Transformer,放大了relevant context的attention,同时抵消了noise,特别地,differential attention机制通过计算两个独立的 softmax 注意力图之间的差值来得到注意力分数。subtraction 操作cancel 了noise,提升了sparse attention patterns的出现。实验结果表明:Diff Transformer在多个scaling up model size和training token的多种设置下,超过了Transformer。另外更有趣的是,它在实际应用中,提供了notable advantages,例如long-context modeling,key information retrieval和幻觉缓解,in-context learning,activation outliers的reduction。通过减少不相关context的distract, Diff Transformer在question answering和text summarization上缓解了幻觉。对于in-context learning,Diff Transformer不仅能增强精度,也对于order permutation更加robust,order permutation被认为是chronic robustness issue。结果表明Diff Transformer是一个高效和有前途的架构
阅读全文 »

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model[1]

作者是来自上海AI Lab、TeleAI和ShanghaiTech的Delin Qu等人。论文引用[1]:Qu, Delin et al. “SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model.” ArXiv abs/2501.15830 (2025): n. pag.

Time

  • 2025.Mar

Key Words

  • Ego3D position Encoding
  • Adaptive Action Grids

总结

  1. 作者认为,spatial understanding在robot manipulation中是keypoint,提出了SpatialVLA来探索有效的spatial representation。特别地,引入了Ego3D Position encoding,将3D information inject到input observations of the visual-language-action model,提出了adaptive action grids来represent spatial robot movement actions with adaptive discretized action grids,促进了学习 generalizable和transferrable spatial action knowledge for cross-robot control。SpatialVLA是第一个pretrained on top of a vision-language model with 1.1 Million real-world robot episodes,来学习一个在多个环境中generalist manipulation policy,在预训练之后,SpatialVLA可以以zero-shot的方式,来执行多个tasks.
阅读全文 »

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining[1]

作者是来自清华叉院和上海AI Lab、QiZhi 研究院的Yunze Liu和Li Yi,论文引用[1]:Liu, Yunze and Li Yi. “MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining.” ArXiv abs/2410.00871 (2024): n. pag.

Time

  • 2025.Mar

Key Words

  • masked Autoregressive Pretraining
  • 一句话总结:结合了MAE of Transformer的local features 和AR of Mamba的long context modeling

总结

  1. 混合的Mamba-Transformer网络最近受到了很多的关注,这些网络利用Transformer的可扩展性和Mamba的long-context modeling和高效计算。然而,有效地预训练这样的混合网络仍然是一个open question,现有的方法,例如MAE 或者自回归 pretraining,主要聚焦于single-type network 架构,相比之下,对于Mamba和Transformer的混合结构,预训练策略必须有效,基于此,作者提出了Masked Autoregressive pretraining,以统一的范式,提高了Mamba和Transformer modules的性能。
阅读全文 »

MoE

  1. 解码器中包含多个FFNN,每一个FFNN对应一个expert,在experts之前加入要给router,被训练用来选择每个token用哪个expert。router本身也是一个FFNN,根据特定的输入选择experts,router输出概率值,利用这些概率来选择最匹配的expert。expert层返回输出,并乘以门控值(选择概率)。router和experts共同构成了MoE层。优点是参数量大,但训练和推理成本低。

  2. LoRA:用两个低秩矩阵相乘来拟合一个高秩矩阵,这里拟合的不是模型的参数矩阵 \(W_0\) 本身,而是参数矩阵的增量 \(\delta{W}\),更新后的参数矩阵变为: \[W = W_0 + \delta{W} = W_0 + BA\] \(B \in \mathbb{R}^{d_{out} \times r}\)\(A \in \mathbb{R}^{r \times d_{in}}\), \(r << min(d_{in}, d_{out})\), 微调过程中只需要存储两个低秩的A和B矩阵即可,大幅减少存储空间。 A 用高斯初始化,B用0初始化。增加一个缩放系数 \(\alpha/r\)\(\alpha\) 为超参数:

    \[h = W_0x + \delta{W}x = W_0x + \alpha/rBAx\] 训练过程中,固定 \(W_0\)不变, B用全零初始化可以保证在初始化阶段 $ =0 $,调整 \(\alpha\) 相当于调整学习率

参考链接

  • https://zhuanlan.zhihu.com/p/22651790583

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors[1]

作者是来自University of Bucharest等机构的Nicolae-Catalin Ristea等人,论文引用[1]:Ristea, Nicolae-Cătălin et al. “Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 15984-15995.

Time

  • 2024.Mar

Key Words

  • 用motion weight进行加权,然后用了self-distillation,同时还使用了synthetic anomalies data,加入到training data中,来提高video anomaly的性能。

总结

  1. 作者提出了一个高效的异常时间检测model,基于应用在video frame level上的轻量的AE。提出的model的创新型有三个方面:(1)基于motion gradients,引入了一个方式来对tokens进行加权,将focus的重心从static background scene转移到foreground objects;(2) 集成了一个teacher decoder和一个student decoder,利用两个decoder的输出的差异来提高anomaly detection; (3) 生成合成的abnormal events,来增强训练videos,让masked AE model来重建original frames和对应的pixel-level anomaly maps。作者的设计是一个高效且有效的model
阅读全文 »

Olympus: A Universal Task Router for Computer Vision Tasks[1]

作者是来自牛津和微软的Yuanze Lin等人,论文引用[1]:Lin, Yuanze et al. “Olympus: A Universal Task Router for Computer Vision Tasks.” ArXiv abs/2412.09612 (2024): n. pag.

Time

  • 2025.Apr

Key Words

  • universal task router
  • 一句话总结:用MLLMs内在的能力来处理vision-language tasks,用task-specific routing tokens将user instructions分配给其它的的专家models

总结

  1. 作者介绍了Olympus,是一个将MLLMs变成一个统一的框架,能够处理广泛的CV tasks,利用一个controller MLLM,Olympus将超过20种专门针对图像、视频和3D对象的任务分配给专用模块。这个instruction-based的routing能够通过chained actions实现复杂的workflows,不需要训练heavy generative models,Olympus简单地和现有的MLLMs集成,扩展了他们的能力。实验表明,它是一个有效的**universal task router,能够解决多种CV tasks。
阅读全文 »

TrackFormer: Multi-Object Tracking with Transformers[1]

作者是来自TUM和FAIR的Tim Meinhardt等人,论文引用[1]:

Time

  • Apr.2022

### Key Words

总结

  1. MOT的挑战要求对track initialization、identity和spatio-temporal trajectories的推理。作者将这个任务表述为一个frame-to-frame的set prediction问题,引入了TrackFormer,这是一个端到端的、可训练的MOT方法,基于Transformer架构,作者的模型通过在视频序列中逐步演化一组轨迹预测,利用注意力机制实现帧之间的数据关联。Transformer decoder从static object queries初始化新的tracks,并利用概念上新颖且能够保持身份信息的轨迹查询,在空间和时间上自回归地跟踪现有轨迹。两种类型的query都受益于attention架构,不需要额外的图优化或者motion/appearance的建模。
阅读全文 »

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Viusal Encoders[1]

作者是来自北大等机构的Jiajun Cao等人,论文引用[1]: Cao, Jiajun et al. “MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders.” ArXiv abs/2501.01709 (2025): n. pag.

Time

  • 2025.Mar

Key Words

  • Single Vision encoder
  • LoRA
  • MoE

总结

  1. visual encoders是VLMs中的重要组件,每个都是从pretrained visual foundation models中得到的,展示出了unique strengths。为了利用这些encoders的various capabilities,最近的研究在单个VLMs中引入了多个encoders,导致在计算成本上的增加了很多, 作者提出了Mixture of Visual Encoder Knowledge Distillation(MoVE-KD),一个新的framework,将多个vision encoders的unique proficiencies蒸馏到a single, efficient encoder model中,特别地,为了缓解conflicts和保持每个teach encoder的unique characteristics,作者采用了LoRA和MoEs,来选择性地激活specialized knowledge based on input features,增强了adaptability和efficiency,为了正则化KD process和增强performance,作者提出了一个attention-based distillation strategy,自适应地weights the different encoders,强调了valuable visual tokens,缓解了replicating comprehensive but distinct features from multiple teachers的负担
阅读全文 »

Momentum Contrast for Unsupervised Visual Representation Learning[1]

作者是来自FAIR的Kaiming He等人。论文引用[1]:He, Kaiming et al. “Momentum Contrast for Unsupervised Visual Representation Learning.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 9726-9735.

Time

  • 2020.Mar

Key Word

  • Self-Supervised learning
  • 一句话总结:就是用momentum update,来动态更新key encoder。

总结

  1. 作者提出了Momentum Contrast(MoCO),用于无监督的视觉表征学习。从对比学习作为一种字典查找(dictionary lookup)的视角出发,作者构建了一个具有队列和moving-averaged encoder,这能够即时构建一个大的dictionary, 促进了对比无监督学习。
阅读全文 »
0%