Connecting Joint-Embedding Predictve Architecture with Contrastive Self-supervised Learning[1]

作者是来自CMU和NYU的 Shentong Mo和Shengbang Tong,论文引用[1]:Mo, Shentong and Shengbang Tong. “Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning.” ArXiv abs/2410.19560 (2024): n. pag.

Time

  • 2024.Oct

Key Words

  • entire collapsing and mean of patch representation

总结

  1. 在最近的无监督视觉表征学习中,Joint-Embedding Predictive Architecture(JEPA) 通过创新的masking策略,用于从无标签的imagery重提取visual features。尽管它成功了,还有两个主要的限制:I-JEPA中使用的EMA无法有效阻止模型特征表征的完全崩溃,它的预测在准确学习patch representations的mean方面也存在不足。本文引入了一个新的框架,称之为C-JEPA(Contrastive-JEPA),将Image-based Joint-Embedding Predictive Architecture和Variance-Invariance-Covariance Regularization(VICReg)策略集成到一起,这个结合用于高效地学习variance/covariance,用于阻止整个的崩溃和确保augmented views的mean的invariance,克服了这些局限。
阅读全文 »

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics[1]

作者是来自Hugging face, Sorbonne University等机构的Mustafa Shukor等人,论文引用[1]:Shukor, Mustafa et al. “SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics.” (2025).

Time

  • 2025.Jun

Key Words

  • action expert with flow matching
  • SmolVLM-2
  • skip computations

总结

  1. 在大规模多模态数据集上预训练的VLMs编码丰富的visual、linguistic knowledge,使得它们称为robotics的strong foundation,不同于从零开始训练robotic policies,最近的方法将VLMs改为VLA models,使得能够natural language-driven perception 和control,然而,现有的VLAs太大了,通常billions的参数,导致很高的训练成本和有限的实际的部署。另外,它们依赖于学术和工业数据集,忽视了从affordable robotic platforms搜集到的data,在这个工作中,作者提出了SmolVLA,是一个小的,高效的、community-driven VLA,极大地降低了训练和推理成本,同时保持了competitive 的性能,SmolVLA在单个GPU上训练,然后可以部署在消费级的GPUs上,为了进一步提高responsiveness,作者引入一个异步推理堆栈,将感知和动作预测与动作执行解耦,从而通过分块生成动作实现更高的控制率。尽管compact size,SmolVLA实现了比它大10倍的VLA相当的性能。
阅读全文 »

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control[1]

作者是来自DeepMind的Anthony Brohan等人,论文引用[1]:Brohan, Anthony et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” ArXiv abs/2307.15818 (2023): n. pag.

Time

  • 2023.July

Key Words

  • map robot observations to actions
  • 利用在language 和vision-language data大规模预训练的benefits
  • 将actions表示text tokens
  • co-fine-tuning

总结

  1. 作者研究了在Internet-scale data上进行训练的VLM是如何直接引入到端到端的robotic control中,来提高泛化性和enable semantic reasoning。作者的目标是使得一个single端到端的trained model能够学习将robot observations映射到actions,然后能够利用在language和vision-language data from the web大规模预训练的优势,为了这个目的,作者提出了co-fine-tune的SOTA的VLMs on both robotic trajectory data和internet-scale vision-language tasks,例如VQA,相比于其它的方法,作者提出的方法简单,通用,能够实现这个目标,为了将自然语言的responses和robotic actions统一到相同的格式,作者将actions表示为text tokens,将它们引入model的training set,和自然语言的tokens一样,作者将这种类型的modals称之为VLA,并构建了该类模型的一个具体实例,命名为RT-2。作者的大量的evaluation表明:这个方法有很好的robotic policies,使得RT-2能够从internet-scale training上得到emergent capabilities,这包括繁华到新目标的能力,将没有出现在训练数据中的指令进行解译,对用户的指令进行基本的推理的能力,作者进一步展示了:引入了思维链的推理使得RT-2能够执行多阶段的语义推理,例如,确定将哪个物体作为临时锤子使用(如石头),或判断哪种饮品最适合疲惫的人(如能量饮料)。
阅读全文 »

Octo: An Open-Source Generalist Robot Policy[1]

作者是来自UCB、Stanford、CMU和DeepMind的Sudeep Dasari等人,论文引用[1]:Team, Octo Model et al. “Octo: An Open-Source Generalist Robot Policy.” ArXiv abs/2405.12213 (2024): n. pag.

Time

  • 2024.May

Key Words

  • input tokenizer
  • transformer backbone
  • readout head: diffusion denoising
  • 能够微调到new robot setups

总结

  1. 在多种robot datasets上预训练的large policies有潜力转变robotic learning: 不是从零开始训练新的Policies,这样的通用的robot policies只需要一点的in-domain data就能fine-tune,泛化地很好。然而,为了在多个robotic learning的场景的应用,这样的policies需要处理多个sensors和action spaces,适应常用的robotic platforms,有效地微调到新的domains,在本文中,作者旨在为开发开源的、广泛应用的和通用的robotic manipulation奠定基础。作者提出了Octo,是一个大的基于transformer的policy,从Open X-Embodiment dataset上的800k trajectories上训练的,这是目前最大的robot manipulation dataset,可以通过language command或者goal images进行instruct,能够用新的sensory inputs和action spaces,在标准的消费级GPUs上有效的微调。

    阅读全文 »

Sigmoid Loss for Language Image Pre-Training[1]

作者是来自DeepMind的Xiaohua Zhai等人,论文引用[1]:Zhai, Xiaohua et al. “Sigmoid Loss for Language Image Pre-Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 11941-11952.

Time

  • 2023.Mar

Key Words

  • sigmoid loss

总结

  1. 作者提出了一个简单的pairwise Sigmoid loss for Language-Image Pre-training(SigLIP),不同于标准的,用softmax normalization的contrastive learning,sigmoid loss仅对image-text pairs进行操作,不需要pairwise similarity for normalization的global view,这个sigmoid loss同时能够进一步scaling up batch sizes,和Locked-image tuning结合,只需要TPUv4 chips,作者训了一个SigLiT model,在ImageNet上 zero-shot,实现了84.5%的精度,将批量大小与损失函数解耦后,得以进一步研究样本与样本对的影响,以及负样本与正样本比例的作用。最后,作者将batch size设到一个极限,up to one million,发现增大的batch size的benefits的下降了,合理的batch size设为32k是足够了。
阅读全文 »

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale[1]

作者是来自BAAI、华科等机构的Yuxin Fang等人。论文引用[1]:Fang, Yuxin et al. “EVA: Exploring the Limits of Masked Visual Representation Learning at Scale.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 19358-19369.

Time

  • 2022.Dec

Key Words

  • masked out image-text aligned vision features
  • CLIP
  • MIM

总结

  1. 作者提出了EVA,是一个vision-centric的foundation model,仅用公开的数据,来探索大规模visual representation的极限。EVA是一个普通的ViT,预训练用来重建masked out image-text aligned vision features conditioned on visible image patches。通过这个代理任务,可以有效地scale up EVA到1B参数,在多个代表性的下游任务上创造了新的记录,另外,在扩展EVA时,量变会引发迁移学习性能的质变,这种现象在其他模型中并不存在。例如,在极具挑战性的大规模词汇实例分割任务中,EVA实现了跨越式突破:作者的模型在包含超过一千类别的LVISv1.0数据集和仅有80类的COCO数据集上,均达到了接近最先进的性能水平。除了一个pure vision encoder,EVA也可以作为一个vision-centric, 多模态的pivot,来连接images和text,作者发现,通过使用EVA初始化giant CLIP model的视觉分支,不仅能显著提升训练稳定性,还能以更少的样本量和计算资源超越从零训练的同类模型。提供了一个新的scaling up和加速多模态foundation models的方向。

    阅读全文 »

\(\Pi_0\): A Vision-Language-Action Flow Model for General Robot Control[1]

作者是来自Physical Intelligence的Kevin Black 等人。论文引用[1]:Black, Kevin et al. “π0: A Vision-Language-Action Flow Model for General Robot Control.” ArXiv abs/2410.24164 (2024): n. pag.

Time

  • 2024.Nov

Key Words

  • flow matching
  • 一句话:作者的robot policy用了一个预训练的VLM backbone,还有多个embodiment dataset,通过增加一个单独的action expert来做roboto control,通过flow matching产生连续的actions,使得能够实现精确和丝滑的控制,model可以基于prompt,执行tasks,或者在高质量的data上进行微调,实现复杂的多阶段的任务,例如折叠多个衣服

总结

  1. Robot Learning有很大的前景,解锁灵活、通用和熟练的机器人系统的全部潜力,还能解决AI中的一些最深的问题。然而,将robot learning带到一个有效的real-world systems的要求的通用能力的水平面临一些数据、泛化性和鲁棒性方面的挑战。在本文中,作者讨论了通用的机器人策略(generalist robot policies)如何解决这些挑战,以及作者如何涉及有效的generalist robot policies for complex和highly dexterous tasks。作者提出了一个新的flow matching 架构,建立在一个预训练的VLM基础之上,继承了internet-scale语义信息,作者然后讨论这个model是如何在一个来自多个robot platforms、包括单臂、双臂和移动manipulators上的数据集上进行训练的。作者将从模型通过直接prompting执行任务的能力、遵循人类语言指令的能力,以及遵循高层次VLM策略指令、和通过微调得到新的skills的能力这几个方面来评估我们的模型。

    阅读全文 »

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models[1]

作者主要是来自华科的Jingfeng Yao等人。论文引用[1]:

Time

  • 2025.Mar

Key Words

  • aligned latent space with visual tokenizers

总结

  1. 用Transformer架构的Latent diffusion models擅长生成高质量的images,然而,最近的研究表明了这个两阶段设计的优化困境:增加visual tokenizers中的per-token feature dimension的时候,提高了reconstruction 的质量,它需要很大的diffusion models何更多的training iterations来实现相当的生成性能。因此,现有的systems经常遇到次优化的解决方式,要么是由于tokenizer的information loss造成的visual artifacts,要么是由于大量的计算导致难以收敛,作者argue,这个dilemma源于学习没有约束的高维latent spaces的困难,为了解决这个,作者提出了,当训练visual tokenizers的时候,将latent space和预训练的vision foundation models进行对齐。作者提出了VA-VAE(Vision foundation model Aligned VAE),极大地扩展了latent diffusion models的reconstruction-generation 的边界,使得DiTs在高维latent spaces快速收敛,为了利用VA-VAE的全部的potential,作者构建了一个增强版的DiT,用了改进的训练策略和架构设计,称之为LightningDiT。

    阅读全文 »

Scalable Diffusion Models with Transformers

作者是来自UC Berkeley的William Peebles和NYU的Saining Xie。论文引用[1]:Peebles, William S. and Saining Xie. “Scalable Diffusion Models with Transformers.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 4172-4182.

Time

  • 2023.Mar

Key Words

  • Diffusion Model

总结

  1. 作者探索了基于Transformer的一种新的diffusion model, 作者训练image的latent diffusion model,用transformer代替常用的U-Net的backbone,在latent patches上进行操作。作者通过前向传播复杂度(以Gflops)为指标,分析了Diffusion Transformer的可扩展性。作者发现,通过增加Transformer的深度/宽度,或增加输入tokens的数量,从而提高Gflops的DiTs,始终具有更低的FID分数,除了具备良好的可扩展性之外,最大的DiT-XL/2 models在ImageNet数据集上超过了所有的diffusion models

    阅读全文 »
0%