Masked Pre-training Enables Universal Zero-shot Denoiser[1]

作者是来自中科大和上海AI Lab的Xiaoxiao Ma等人,论文引用[1]:Ma, Xiaoxiao et al. “Masked Pre-training Enables Universal Zero-shot Denoiser.” Neural Information Processing Systems (2024).

Time

  • 2024.April

### Key Words

总结

  1. 作者观察到:通过masking 策略,在大量images上训练的model,很自然地和distribution knowledge进行了嵌入,然后同时获得了strong image denoising的潜力,基于这个观察,作者提出了新的zero-shot denoising范式,Masked Pre-train then Iterative fill(MPI), MPI首先通过masking训练model,然后采用预训练权重,在单个noisy image上,进行高质量的zero-shot image denoising。具体来说包括两个步骤:1.Masked Pre-training 涉及对大量的随机masking的图像进行重构,来训练model,以此来获得通用的表征,得到不同noise degradation甚至图像类型不同的image的上的zero-shot denoising的潜力. 2. Iterative Fill 探索了pretrained knowledge,用于有效地zero-shot denoising,通过利用pre-trained weights,来iteratively优化image,聚焦于交替重构不同的image parts,然后在有限的次数内,合成完整的denoised image

  2. Image denoising是图像恢复的一个分支,流行的方法是从多个noisy instances中学习,来恢复noise-degraded images,然而,监督学习(from noisy-clean pairs)和无监督学习使得搜集额外的noisy datasets变得有必要。另外,这样的方法促进了对特定模式或者training noise强度的依赖,阻碍了在unfamiliar noise situations上的性能。 另外一个选择是,zero-shot方法尝试在单个noisy image上训练网络,得到denoised output,不需要额外的noisy data,致力于消除泛化问题的关注,这些techniques包括blind-spot 网络,从corrupted inputs中重建,DIPs利用深度网络的特性,来学习将random noise 映射到noisy images,还有sub-sample based策略,利用spatial correlations,从sub-sampled instances中产生training pairs。

    然而,当前的zero-shot 方法对于每个noisy image,从零开始训练新的网络,展示出了两个主要的问题: 尽管当前zero-shot方法的成功依赖于正则化或者设计类似noise perturbations,Under-parameterized networks, dropout-ensemble, blind-spot networks的先验,当个image中的有限的信息训练一个网络通常导致过于模糊的content,noise artifacts或者sub-optimal quality,一些方法倾向于依赖已知的noise distribution,但它们的applicability是受限的,对于每个noisy image,从零开始训练时time-consuming的,现有的zero-shot方法需要数分钟,更快的zero-shot的denoising的通常会在性能上有妥协。

    相比于之前的zero-shot方法,从大量的natural images学习feature distribution提供了一个更intuitive 方法,这是基于两点考虑:真实的images时大量的,尽管noise patterns不一样,很多自然的images展示出了common characteristics,作者寻找对pre-defined priors或者regularization依赖较小的zero-shot denoising,旨在得到一个对于多种noise patterns更好的起点,而不是从零开始。为了这个目的,作者探索了Masked image modelling的潜力,不需要自然图像的noisy patterns或者intensities的假设,特别地,作者做了一下的observation:和简单的ensemble operation结合,一个masked pre-trained model,能够对unseen noise degradation的images进行denoising。

    基于机上的观察,作者引入了一个zero-shot denoising范式,Masked Pre-train then Iterative fill(MPI), MPI首先在ImageNet上,用pixel-wise masking策略进行预训练,然后pre-trained model在单个带有unseen noise的image上进行优化,用于denoised prediction。推理的时候的优化目标是用来预测masked regions,只有masked areas的预测被保留用于denoise prediction,然后最小化pre-training和推理的gap,这个pre-trained weights提供了更generic的知识,阻止了推理时候过早的over-fitting,降低了strong regularization的需要,作者能够提供更广的noise scenarios,带有很少的关于Noise patterns或者intensities的信息,作者发现,提取的representation能够泛化到medical images,不同于natural ones,它提供了更好的startpoint than scratch training。使得只要10s左右的实现了高质量的denoising

    作者的贡献如下:

    • 引入了一个novel zero-shot denoising范式,MPI引入了masked pre-training,同时提高了image quality和推理速度。
    • 作者开发了一个带有pixel-wise random masks的方法,来捕捉自然图像的distribution knowledge,基于pre-trained knowledge,作者提出了iterative filling,用于在specific noisy image上的zero-shot推理,这个过程用预训练weights进行优化,聚焦于对Noisy image不同parts进行交替地重建,predictions in iterations被用来组合成高质量的denoised output。
  3. 作者首先研究了用masking训练的model的特性,masking 策略能够学习对denoising有用的representations。Masked Image Modeling通过在大量的image 上进行训练,得到knowledge distributions,推动了CV的进步,展示出了diverse场景下的适用性,对于高阶的下游任务,被证明了潜力。 为了进一步探索在denoising上的能力,作者用pixel-wise的random masks,在natural image上训练了一个model,评估它和unseen noise distribution的target image的性能,作者观察到,从fixed-state trained model上的average of predictions能够对Unseen noise进行去噪,这个观察表明:一个masked pre-trained model能够作为一个natrual image denoiser,然而,artifacts存在于results中,这归因于缺乏target image中特定的degradation patterns。

    利用先前的insight,作者开发了一个高效的zero-shot denoising pipeline,通过从single noisy image中引入noise characteristics,利用pre-trained knowledge,这个model首先用random masks M进行预训练,对应的element-wise negation \(\hat{M}\) 来得到natural image distributions.

  4. Masking策略:给定low-level和high-level tasks在语义上的distinct requirements,作者执行specialized masking 策略,来实现finer-grained image representations。将给定的image划分成random patches,它们的subset被随机的用mask token进行替换,当mask token设为0的时候,masked image和 和random mask \(M \odot I\) 对应于输入image的伯努利采样,对于M中的每个element \(M_[k]\),预训练策略:在预训练期间,网络被训练用来学习带有random mask的自然图像。 作者将loss的计算聚焦于masked prediction areas \(\tilde{I}\),这直接使网络朝着重建特定区域努力。

  5. 迭代优化过程被设计,用预训练知识用于zero-shot denoising,不像其它的MIM方法,用整个images作为输入进行微调,因为只有一个noisy image是accessible,作者采用自监督的方式,来从noisy image到它本身的mapping,然而,这个直接的self-mapping方法引入了zero-shot inference stage和pre-training stage之间的gap,缺乏学习一个noise identity mapping的constraints。 考虑到以上的挑战,作者保留了相同的masking策略,网络仍然学习重建masked regions,但是是从single noisy image而不是natural image,这导致pixel-based iterative refinement过程,这有点像blind-spot网络的机制,特别地,对于输入的noisy image,随机mask \(\M\) 和对应的element-wise negation \(\hat{M}_t\) in t-th iteration。

    • pixel-based iterative refinement:对于一个比较低的mask ratio和重建detailed iamges,作者抛弃了之前优化目标中的unmasked regions上的限制
    • 真实世界中的noise展示出了strong spatial correlations,noise和相邻的pixels是相关的,在这样的场景中,采用直接的masking机制,使得model来学习和noise patterns有关的信息,为了解决这个问题,作者用了更大的masking ratios,另外,作者集成了简单的pixel-shuffle down-sampling机制,来降低spatial correlation in noise。

    特别地,不是直接处理noisy image,作者处理它的down-sampled 版本,用simple pixel-shuffle with factor d,\(d^2\) sub-samples沿着batch dimension进行concantenated,用于joint denoising,沿着上述的iterative filling机制,作者用了pixel unshuffle to denoised result \(\overline{y}\),来得到最后的denoised outcome,加上最小的PD操作,来解决spatial correlated noise,解释了预训练weights的效果。

Overview \(Fig.1^{[1]}\) MPI的overview,

Multi-Head Mixture-of-Experts[1]

作者是来自MSRA的Xun Wu等人,论文引用[1]:Wu, Xun et al. “Multi-Head Mixture-of-Experts.” ArXiv abs/2404.15045 (2024): n. pag.

Time

-2024.Apr

Key Words

  • low expert activation
  • multi-head
  • 一句话总结:类似多头注意力的操作,将输入分成多给sub-tokens,每个sub-tokens给到experts,最后将所有的输出在进行merge,还原为初始的形状,每个sub-tokens包含了不同feature space的语义信息

总结:

  1. **稀疏MoE在不增加计算成本的情况下,扩展了model的capacity,然而,它展示出了low expert activation的问题,仅有一小部分experts被激活,用于优化,导致suboptimal的性能,限制了在复杂任务中学习大量experts的有效性。在本文中,作者提出了Multi-MoE,MHMoE将每个输入的token或分成多个sub-tokens,然后这些sub-tokens被分配给多个并行的experts进行处理,无缝合成为原来的token form。以上的操作使得MH-MoE显著地提高了expert的activation,同时在不同的experts汇总,集体attend to 多个representation spaces,来加深context understanding,另外,值得注意地是: MH-MoE直接可以执行,和其它的SMoE框架解耦,使得很容易地和这些框架集成。
阅读全文 »

Self-Guided Masked Autoencoder[1]

作者是来自Google和首尔国立大学的Jeongwoo Shin等人,论文引用[1]:Shin, Jeongwoo et al. “Self-Guided Masked Autoencoder.” Neural Information Processing Systems (2024).

Time

Key Words

  • Masked Autoencoder

总结

  1. MAE是用于表征学习的一种自监督的方式,广泛地应用于CV中的下游任务。尽管它很成功,但是,但还是没有完全揭示它是如何学习的。在本文中,作者做了深入的分析,发现:MAE从pretraining早期阶段,学习patern-based patch-level clustering。基于这个理解:作者提出了self-guided masked autoencoder,通过利用patch clustering中的progress,内在地产生informed mask,代替原始的MAE的随机的masking,作者的方法不需要依赖任何外部的models或者supplementary information,显著地提高了它的learning progress,完好地保持了MAE自监督的本质的优势。
阅读全文 »

Mr.DETR: Instructive Multi-Route Training for Detection Transformers[1]>

作者是来自Visual AI Lab、HKU和Meituan的Chang-Bin Zhang等人。论文引用[1]:Zhang, Chang-Bin et al. “Mr. DETR: Instructive Multi-Route Training for Detection Transformers.” ArXiv abs/2412.10028 (2024): n. pag.

Time

  • 2025.Apr

Key Words

  • one-to-one, one-to-many assignments
  • Multi-route training
  • 一句话总结:为了加速DETR-like model的收敛,一些方法采用了auxiliary training,作者这里提出了multi-training route的方法,用3个route,route-1用一个独立的FFN for o2m, route-2是primary route for o2o, route-3 为了提高不同route的queries的兼容性,采用了learnable queries作为instruction,然后进行instruction self-attention,其它的没啥。

总结

  1. 现有的增强detection transformer的方式是同故宫引入auxiliary one-to-many assignment。在这个工作中,作者将model视为一个multi-task framework,同时进行one-to-one和one-to-many predictions。作者在这两个训练目标中,研究了Transformer decoder中的每个component的作用,包括self-attention, cross-attention和FFN。作者的结果展示,decoder中的任何独立的component能够同时有效地学习targets,即使当一些component是共享的。这个发现促使作者提出了一个multi-route training paradigm, 一个primary route用于one-to-one prediction,两个辅助的training routes用于one-to-many prediction,作者通过一个新的instructive self-attention, 能够动态地和灵活地指导object queries 用于one-to-many prediction,增强training机制。这个辅助的routes在推理的时候是去掉的,确保对model架构和inference cost造成影响
阅读全文 »

Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding[1]

作者是来自Rutgers等学校的Mingyu Jin等人。论文引用[1]:

Time

  • 2025.May

### Key Words

总结

Differential Transformer[1]

作者是来自MSRA和Tsinghua的Tianzhu Ye等人。论文引用[1]:Ye, Tianzhu et al. “Differential Transformer.” ArXiv abs/2410.05258 (2024): n. pag.

Time

  • 2025.Apr

Key Words

  • 一句话来说:用两个softmax attention functions之间的差,作为attention socres,来消除attention noise

总结

  1. Transformer 倾向于将attnetion过多地分配给不相关的context,在这个工作中,作者介绍了Diff Transformer,放大了relevant context的attention,同时抵消了noise,特别地,differential attention机制通过计算两个独立的 softmax 注意力图之间的差值来得到注意力分数。subtraction 操作cancel 了noise,提升了sparse attention patterns的出现。实验结果表明:Diff Transformer在多个scaling up model size和training token的多种设置下,超过了Transformer。另外更有趣的是,它在实际应用中,提供了notable advantages,例如long-context modeling,key information retrieval和幻觉缓解,in-context learning,activation outliers的reduction。通过减少不相关context的distract, Diff Transformer在question answering和text summarization上缓解了幻觉。对于in-context learning,Diff Transformer不仅能增强精度,也对于order permutation更加robust,order permutation被认为是chronic robustness issue。结果表明Diff Transformer是一个高效和有前途的架构
阅读全文 »

SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model[1]

作者是来自上海AI Lab、TeleAI和ShanghaiTech的Delin Qu等人。论文引用[1]:Qu, Delin et al. “SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model.” ArXiv abs/2501.15830 (2025): n. pag.

Time

  • 2025.Mar

Key Words

  • Ego3D position Encoding
  • Adaptive Action Grids

总结

  1. 作者认为,spatial understanding在robot manipulation中是keypoint,提出了SpatialVLA来探索有效的spatial representation。特别地,引入了Ego3D Position encoding,将3D information inject到input observations of the visual-language-action model,提出了adaptive action grids来represent spatial robot movement actions with adaptive discretized action grids,促进了学习 generalizable和transferrable spatial action knowledge for cross-robot control。SpatialVLA是第一个pretrained on top of a vision-language model with 1.1 Million real-world robot episodes,来学习一个在多个环境中generalist manipulation policy,在预训练之后,SpatialVLA可以以zero-shot的方式,来执行多个tasks.
阅读全文 »

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining[1]

作者是来自清华叉院和上海AI Lab、QiZhi 研究院的Yunze Liu和Li Yi,论文引用[1]:Liu, Yunze and Li Yi. “MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining.” ArXiv abs/2410.00871 (2024): n. pag.

Time

  • 2025.Mar

Key Words

  • masked Autoregressive Pretraining
  • 一句话总结:结合了MAE of Transformer的local features 和AR of Mamba的long context modeling

总结

  1. 混合的Mamba-Transformer网络最近受到了很多的关注,这些网络利用Transformer的可扩展性和Mamba的long-context modeling和高效计算。然而,有效地预训练这样的混合网络仍然是一个open question,现有的方法,例如MAE 或者自回归 pretraining,主要聚焦于single-type network 架构,相比之下,对于Mamba和Transformer的混合结构,预训练策略必须有效,基于此,作者提出了Masked Autoregressive pretraining,以统一的范式,提高了Mamba和Transformer modules的性能。
阅读全文 »

MoE

  1. 解码器中包含多个FFNN,每一个FFNN对应一个expert,在experts之前加入要给router,被训练用来选择每个token用哪个expert。router本身也是一个FFNN,根据特定的输入选择experts,router输出概率值,利用这些概率来选择最匹配的expert。expert层返回输出,并乘以门控值(选择概率)。router和experts共同构成了MoE层。优点是参数量大,但训练和推理成本低。

  2. LoRA:用两个低秩矩阵相乘来拟合一个高秩矩阵,这里拟合的不是模型的参数矩阵 \(W_0\) 本身,而是参数矩阵的增量 \(\delta{W}\),更新后的参数矩阵变为: \[W = W_0 + \delta{W} = W_0 + BA\] \(B \in \mathbb{R}^{d_{out} \times r}\)\(A \in \mathbb{R}^{r \times d_{in}}\), \(r << min(d_{in}, d_{out})\), 微调过程中只需要存储两个低秩的A和B矩阵即可,大幅减少存储空间。 A 用高斯初始化,B用0初始化。增加一个缩放系数 \(\alpha/r\)\(\alpha\) 为超参数:

    \[h = W_0x + \delta{W}x = W_0x + \alpha/rBAx\] 训练过程中,固定 \(W_0\)不变, B用全零初始化可以保证在初始化阶段 $ =0 $,调整 \(\alpha\) 相当于调整学习率

参考链接

  • https://zhuanlan.zhihu.com/p/22651790583
0%