Qwen3 Technical Report[1]

作者是Qwen Team,论文引用[1]:Yang, An et al. “Qwen3 Technical Report.” (2025).

Time

  • 2025.May

### Key Words

总结

  1. Qwen3包含一系列的LLMs,Qwen3系列包含dense和MoE 架构,参数从0.6B到235B,**Qwen3中的一个关键创新是将了thinking mode(多步推理)和non-thinking mode(rapid, context-driven responses)集成到了一个框架中,同时,Qwen3引入了一个thinking budget 机制,使得用户可以在推理的时候灵活地分配computational resources,平衡延迟和性能。另外,通过利用旗舰model的知识,能够大幅度地降低计算资源。
阅读全文 »

ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders[1]

作者是来自Rice University和Google DeepMind的Jefferson Hernandez等人,论文引用[1]:Hernandez, Jefferson et al. “ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders.” (2023).

Time

  • 2024.Oct

Key Words

  • MAE
  • contrastive learning
  • treat short videos as temporal augmentations

总结

  1. 作者提出了VIC-MAE,是一个结合了MAE和contrastive learning的model,VIC-MAE通过使用一种global representation进行训练的,该global representation是通过对在 MAE 重建损失下学习到的局部特征进行池化(pooling)得到的,并在图像与视频帧之间基于这一表示进行对比学习目标(contrastive objective)的训练。作者展示了在VIC-MAE下学习到的visual representation能够很好地泛化到video 和image 分类的任务,VIC-MAE相比于最近提出的OmniMAE,实现了SOTA的tranfer learning的性能。
阅读全文 »

Connecting Joint-Embedding Predictve Architecture with Contrastive Self-supervised Learning[1]

作者是来自CMU和NYU的 Shentong Mo和Shengbang Tong,论文引用[1]:Mo, Shentong and Shengbang Tong. “Connecting Joint-Embedding Predictive Architecture with Contrastive Self-supervised Learning.” ArXiv abs/2410.19560 (2024): n. pag.

Time

  • 2024.Oct

Key Words

  • entire collapsing and mean of patch representation

总结

  1. 在最近的无监督视觉表征学习中,Joint-Embedding Predictive Architecture(JEPA) 通过创新的masking策略,用于从无标签的imagery重提取visual features。尽管它成功了,还有两个主要的限制:I-JEPA中使用的EMA无法有效阻止模型特征表征的完全崩溃,它的预测在准确学习patch representations的mean方面也存在不足。本文引入了一个新的框架,称之为C-JEPA(Contrastive-JEPA),将Image-based Joint-Embedding Predictive Architecture和Variance-Invariance-Covariance Regularization(VICReg)策略集成到一起,这个结合用于高效地学习variance/covariance,用于阻止整个的崩溃和确保augmented views的mean的invariance,克服了这些局限。
阅读全文 »

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics[1]

作者是来自Hugging face, Sorbonne University等机构的Mustafa Shukor等人,论文引用[1]:Shukor, Mustafa et al. “SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics.” (2025).

Time

  • 2025.Jun

Key Words

  • action expert with flow matching
  • SmolVLM-2
  • skip computations

总结

  1. 在大规模多模态数据集上预训练的VLMs编码丰富的visual、linguistic knowledge,使得它们称为robotics的strong foundation,不同于从零开始训练robotic policies,最近的方法将VLMs改为VLA models,使得能够natural language-driven perception 和control,然而,现有的VLAs太大了,通常billions的参数,导致很高的训练成本和有限的实际的部署。另外,它们依赖于学术和工业数据集,忽视了从affordable robotic platforms搜集到的data,在这个工作中,作者提出了SmolVLA,是一个小的,高效的、community-driven VLA,极大地降低了训练和推理成本,同时保持了competitive 的性能,SmolVLA在单个GPU上训练,然后可以部署在消费级的GPUs上,为了进一步提高responsiveness,作者引入一个异步推理堆栈,将感知和动作预测与动作执行解耦,从而通过分块生成动作实现更高的控制率。尽管compact size,SmolVLA实现了比它大10倍的VLA相当的性能。
阅读全文 »

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control[1]

作者是来自DeepMind的Anthony Brohan等人,论文引用[1]:Brohan, Anthony et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control.” ArXiv abs/2307.15818 (2023): n. pag.

Time

  • 2023.July

Key Words

  • map robot observations to actions
  • 利用在language 和vision-language data大规模预训练的benefits
  • 将actions表示text tokens
  • co-fine-tuning

总结

  1. 作者研究了在Internet-scale data上进行训练的VLM是如何直接引入到端到端的robotic control中,来提高泛化性和enable semantic reasoning。作者的目标是使得一个single端到端的trained model能够学习将robot observations映射到actions,然后能够利用在language和vision-language data from the web大规模预训练的优势,为了这个目的,作者提出了co-fine-tune的SOTA的VLMs on both robotic trajectory data和internet-scale vision-language tasks,例如VQA,相比于其它的方法,作者提出的方法简单,通用,能够实现这个目标,为了将自然语言的responses和robotic actions统一到相同的格式,作者将actions表示为text tokens,将它们引入model的training set,和自然语言的tokens一样,作者将这种类型的modals称之为VLA,并构建了该类模型的一个具体实例,命名为RT-2。作者的大量的evaluation表明:这个方法有很好的robotic policies,使得RT-2能够从internet-scale training上得到emergent capabilities,这包括繁华到新目标的能力,将没有出现在训练数据中的指令进行解译,对用户的指令进行基本的推理的能力,作者进一步展示了:引入了思维链的推理使得RT-2能够执行多阶段的语义推理,例如,确定将哪个物体作为临时锤子使用(如石头),或判断哪种饮品最适合疲惫的人(如能量饮料)。
阅读全文 »

Octo: An Open-Source Generalist Robot Policy[1]

作者是来自UCB、Stanford、CMU和DeepMind的Sudeep Dasari等人,论文引用[1]:Team, Octo Model et al. “Octo: An Open-Source Generalist Robot Policy.” ArXiv abs/2405.12213 (2024): n. pag.

Time

  • 2024.May

Key Words

  • input tokenizer
  • transformer backbone
  • readout head: diffusion denoising
  • 能够微调到new robot setups

总结

  1. 在多种robot datasets上预训练的large policies有潜力转变robotic learning: 不是从零开始训练新的Policies,这样的通用的robot policies只需要一点的in-domain data就能fine-tune,泛化地很好。然而,为了在多个robotic learning的场景的应用,这样的policies需要处理多个sensors和action spaces,适应常用的robotic platforms,有效地微调到新的domains,在本文中,作者旨在为开发开源的、广泛应用的和通用的robotic manipulation奠定基础。作者提出了Octo,是一个大的基于transformer的policy,从Open X-Embodiment dataset上的800k trajectories上训练的,这是目前最大的robot manipulation dataset,可以通过language command或者goal images进行instruct,能够用新的sensory inputs和action spaces,在标准的消费级GPUs上有效的微调。

    阅读全文 »

Sigmoid Loss for Language Image Pre-Training[1]

作者是来自DeepMind的Xiaohua Zhai等人,论文引用[1]:Zhai, Xiaohua et al. “Sigmoid Loss for Language Image Pre-Training.” 2023 IEEE/CVF International Conference on Computer Vision (ICCV) (2023): 11941-11952.

Time

  • 2023.Mar

Key Words

  • sigmoid loss

总结

  1. 作者提出了一个简单的pairwise Sigmoid loss for Language-Image Pre-training(SigLIP),不同于标准的,用softmax normalization的contrastive learning,sigmoid loss仅对image-text pairs进行操作,不需要pairwise similarity for normalization的global view,这个sigmoid loss同时能够进一步scaling up batch sizes,和Locked-image tuning结合,只需要TPUv4 chips,作者训了一个SigLiT model,在ImageNet上 zero-shot,实现了84.5%的精度,将批量大小与损失函数解耦后,得以进一步研究样本与样本对的影响,以及负样本与正样本比例的作用。最后,作者将batch size设到一个极限,up to one million,发现增大的batch size的benefits的下降了,合理的batch size设为32k是足够了。
阅读全文 »

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale[1]

作者是来自BAAI、华科等机构的Yuxin Fang等人。论文引用[1]:Fang, Yuxin et al. “EVA: Exploring the Limits of Masked Visual Representation Learning at Scale.” 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022): 19358-19369.

Time

  • 2022.Dec

Key Words

  • masked out image-text aligned vision features
  • CLIP
  • MIM

总结

  1. 作者提出了EVA,是一个vision-centric的foundation model,仅用公开的数据,来探索大规模visual representation的极限。EVA是一个普通的ViT,预训练用来重建masked out image-text aligned vision features conditioned on visible image patches。通过这个代理任务,可以有效地scale up EVA到1B参数,在多个代表性的下游任务上创造了新的记录,另外,在扩展EVA时,量变会引发迁移学习性能的质变,这种现象在其他模型中并不存在。例如,在极具挑战性的大规模词汇实例分割任务中,EVA实现了跨越式突破:作者的模型在包含超过一千类别的LVISv1.0数据集和仅有80类的COCO数据集上,均达到了接近最先进的性能水平。除了一个pure vision encoder,EVA也可以作为一个vision-centric, 多模态的pivot,来连接images和text,作者发现,通过使用EVA初始化giant CLIP model的视觉分支,不仅能显著提升训练稳定性,还能以更少的样本量和计算资源超越从零训练的同类模型。提供了一个新的scaling up和加速多模态foundation models的方向。

    阅读全文 »

\(\Pi_0\): A Vision-Language-Action Flow Model for General Robot Control[1]

作者是来自Physical Intelligence的Kevin Black 等人。论文引用[1]:Black, Kevin et al. “π0: A Vision-Language-Action Flow Model for General Robot Control.” ArXiv abs/2410.24164 (2024): n. pag.

Time

  • 2024.Nov

Key Words

  • flow matching
  • 一句话:作者的robot policy用了一个预训练的VLM backbone,还有多个embodiment dataset,通过增加一个单独的action expert来做roboto control,通过flow matching产生连续的actions,使得能够实现精确和丝滑的控制,model可以基于prompt,执行tasks,或者在高质量的data上进行微调,实现复杂的多阶段的任务,例如折叠多个衣服

总结

  1. Robot Learning有很大的前景,解锁灵活、通用和熟练的机器人系统的全部潜力,还能解决AI中的一些最深的问题。然而,将robot learning带到一个有效的real-world systems的要求的通用能力的水平面临一些数据、泛化性和鲁棒性方面的挑战。在本文中,作者讨论了通用的机器人策略(generalist robot policies)如何解决这些挑战,以及作者如何涉及有效的generalist robot policies for complex和highly dexterous tasks。作者提出了一个新的flow matching 架构,建立在一个预训练的VLM基础之上,继承了internet-scale语义信息,作者然后讨论这个model是如何在一个来自多个robot platforms、包括单臂、双臂和移动manipulators上的数据集上进行训练的。作者将从模型通过直接prompting执行任务的能力、遵循人类语言指令的能力,以及遵循高层次VLM策略指令、和通过微调得到新的skills的能力这几个方面来评估我们的模型。

    阅读全文 »
0%