Young's Blog

Olympus

发表于 2025-04-18 更新于 2025-04-20 分类于 Papers 本文字数： 2.9k 阅读时长 ≈ 11 分钟

Olympus: A Universal Task Router for Computer Vision Tasks^[1]

作者是来自牛津和微软的Yuanze Lin等人，论文引用[1]:Lin, Yuanze et al. “Olympus: A Universal Task Router for Computer Vision Tasks.” ArXiv abs/2412.09612 (2024): n. pag.

Time

2025.Apr

Key Words

universal task router
一句话总结：用MLLMs内在的能力来处理vision-language tasks，用task-specific routing tokens将user instructions分配给其它的的专家models

总结

作者介绍了Olympus，是一个将MLLMs变成一个统一的框架，能够处理广泛的CV tasks，利用一个controller MLLM，Olympus将超过20种专门针对图像、视频和3D对象的任务分配给专用模块。这个instruction-based的routing能够通过chained actions实现复杂的workflows，不需要训练heavy generative models，Olympus简单地和现有的MLLMs集成，扩展了他们的能力。实验表明，它是一个有效的**universal task router，能够解决多种CV tasks。

阅读全文 »

TrackFormer

发表于 2025-04-16 更新于 2025-04-17 分类于 Papers 本文字数： 2.8k 阅读时长 ≈ 10 分钟

TrackFormer: Multi-Object Tracking with Transformers^[1]

作者是来自TUM和FAIR的Tim Meinhardt等人，论文引用[1]:

Time

Apr.2022

### Key Words

总结

MOT的挑战要求对track initialization、identity和spatio-temporal trajectories的推理。作者将这个任务表述为一个frame-to-frame的set prediction问题，引入了TrackFormer，这是一个端到端的、可训练的MOT方法，基于Transformer架构，作者的模型通过在视频序列中逐步演化一组轨迹预测，利用注意力机制实现帧之间的数据关联。Transformer decoder从static object queries初始化新的tracks，并利用概念上新颖且能够保持身份信息的轨迹查询，在空间和时间上自回归地跟踪现有轨迹。两种类型的query都受益于attention架构，不需要额外的图优化或者motion/appearance的建模。

阅读全文 »

MoVE-KD

发表于 2025-04-14 分类于 Papers 本文字数： 3k 阅读时长 ≈ 11 分钟

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Viusal Encoders^[1]

作者是来自北大等机构的Jiajun Cao等人，论文引用[1]: Cao, Jiajun et al. “MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders.” ArXiv abs/2501.01709 (2025): n. pag.

Time

2025.Mar

Key Words

Single Vision encoder
LoRA
MoE

总结

visual encoders是VLMs中的重要组件，每个都是从pretrained visual foundation models中得到的，展示出了unique strengths。为了利用这些encoders的various capabilities，最近的研究在单个VLMs中引入了多个encoders，导致在计算成本上的增加了很多，作者提出了Mixture of Visual Encoder Knowledge Distillation(MoVE-KD)，一个新的framework，将多个vision encoders的unique proficiencies蒸馏到a single, efficient encoder model中，特别地，为了缓解conflicts和保持每个teach encoder的unique characteristics，作者采用了LoRA和MoEs，来选择性地激活specialized knowledge based on input features，增强了adaptability和efficiency，为了正则化KD process和增强performance，作者提出了一个attention-based distillation strategy，自适应地weights the different encoders，强调了valuable visual tokens，缓解了replicating comprehensive but distinct features from multiple teachers的负担。

阅读全文 »

MoCo

发表于 2025-04-12 更新于 2025-05-10 分类于 Papers 本文字数： 2.8k 阅读时长 ≈ 10 分钟

Momentum Contrast for Unsupervised Visual Representation Learning^[1]

作者是来自FAIR的Kaiming He等人。论文引用[1]:He, Kaiming et al. “Momentum Contrast for Unsupervised Visual Representation Learning.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 9726-9735.

Time

2020.Mar

Key Word

Self-Supervised learning
一句话总结：就是用momentum update，来动态更新key encoder。

总结

作者提出了Momentum Contrast(MoCO)，用于无监督的视觉表征学习。从对比学习作为一种字典查找(dictionary lookup)的视角出发，作者构建了一个具有队列和moving-averaged encoder，这能够即时构建一个大的dictionary, 促进了对比无监督学习。

阅读全文 »

DINOv2

发表于 2025-04-10 分类于 Papers 本文字数： 3.7k 阅读时长 ≈ 13 分钟

DINOv2: Learning Robust Visual Features without Supervision^[1]

作者是来自Meta的Maxime Oquab等人。论文引用[1]:Oquab, Maxime et al. “DINOv2: Learning Robust Visual Features without Supervision.” ArXiv abs/2304.07193 (2023): n. pag.

Time

2024.Feb

Key Words

curated dataset

总结

最近在大规模数据上预训练的NLP的模型的突破，为CV领域的类似的foundation models的提供了路子。这些模型通过产生general purpose visual features，能够放大uses of images in any system。这个工作展示了，在现有的预训练的方法中，特别是自监督的方法，如果能够在足够的、多样化的curated data上进行训练，能够得到这种features。作者revisit现有的方法，结合了不同的techniques，在data和model size上进行scale pretraining。大多数的technical contributions旨在加速和stabilizing training at scale。在数据方面，作者提出了一个自动化的pipeline，来构建一个dedicated, diverse和curated image dataset，而不是uncurated data，就像self-supervised中常做的那样。在model方面，作者训练了一个1B的ViT model，然后蒸馏到一些更小的models，超过了best available general-purpose features, OpenCLIP。

阅读全文 »

OpenVLA

发表于 2025-04-09 分类于 Papers 本文字数： 1.1k 阅读时长 ≈ 4 分钟

OpenVLA: An Open-Source Vision-Language-Action Model^[1]

作者是来自Stanford、UCB等机构的Moo Jin Kim等人。论文引用[1]:Kim, Moo Jin et al. “OpenVLA: An Open-Source Vision-Language-Action Model.” ArXiv abs/2406.09246 (2024): n. pag.

Time

2024.Sep

Key Words

Open model, pretrained on internet-scale vision-language datasets, and a visual encoder that fuses DINOv2 and SigLIP features.

总结

在internet-scale 上的vision-language 数据和diverse robot demo的结合上进行预训练的policies有潜力改变如何教robots学习new skills：而不是training new behaviors from scratch，可以对VLA models进行微调，来得到robust, generalizable policies for visuomotor control。当前的robotics的VLA挑战性在于：现有的VLAs大部分是闭源的，public无法接触；之前的工作没能探索高效微调VLAs for new tasks的方法。作者提出了OpenVLA，解决了上述的挑战，它是一个7B的open-source VLA，在970k real-world robot demo上的diverse 的collections上训练的。OpenVLA建立在Llama 2 上，结合了一个visual encoder，能够融合来自DINOv2和SigLIP的features。作为一个added data diversity和new model components的product，OpenVLA展示出了strong results for generalist manipulation, 超过了closed model例如RT-2-X，少了7x的参数。作者进一步展示出了，能够对new settings进行有效地微调，在涉及多个objects和strong language grounding abilities上的多任务环境中，展示出了很强的泛化性，超过了从零训练的imitation learning的方法，例如Diffusion Policy。

阅读全文 »

MTA

发表于 2025-04-09 分类于 Papers 本文字数： 486 阅读时长 ≈ 2 分钟

Multi-Token Attention^[1]

作者是来自FAIR的Olga Golovneva等人，论文引用[1]:Golovneva, Olga et al. “Multi-Token Attention.” (2025).

Time

2025.Apr

Key Words

single token similarity bottleneck

总结

Soft attention是一个重要的机制，使得LLMs能够在给定的context中locate相关的parts。然而，individual attention weights是由single query和key token vector的相似度决定的，这个single token attention造成了区分a relevant part from the rest of the context的信息的瓶颈。为了解决这个问题，作者提出了一个新的attention方法，Multi-Token Attention，使得LLms能够同时在多个query和key vectors上condition their attention weights。这是通过在queries、keys和heads上应用卷积操作实现的,使得相邻的queries和keys能够印象彼此的attetnion weights for more precise attention。因此，作者的方法能够用更丰富的、精细的信息来locate relevant context，超过了single vector capacity。

阅读全文 »

MOTRv3

发表于 2025-04-05 更新于 2025-04-06 分类于 Papers 本文字数： 719 阅读时长 ≈ 3 分钟

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking^[1]

作者是来自旷视等机构的En Yu等人, 论文引用[1]:Yu, En et al. “MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking.” ArXiv abs/2305.14298 (2023): n. pag.

Time

2023.May

Key Words

conflict between detection and association
detect query only for newly appearing targets
track queries for localizing previous detected targets(association part in a implicit manner)

总结

简单来说，MOTR的问题是在于detection和association之间的冲突，MOTRv2用额外的detection network部分解决了这个问题，作者将这个conflict的归因于detect queries和track queries在训练的时候的unfair label assignment，detect queries 识别targets然后track queries associate them。基于这个观察，作者提出了MOTRv3，用release-fetch supervision 策略来平衡label assignment process。在这个策略中，labels首先released for detection，然后逐渐fetched back for association。另外两个strategy叫做pseudo label distillation和track group denoising，用来进一步提高detection和association的supervision，同时不需要额外的detection network。

阅读全文 »

GLIP

发表于 2025-04-02 更新于 2025-04-22 分类于 Papers 本文字数： 3.2k 阅读时长 ≈ 12 分钟

Grouded Language-Image Pre-training^[1]

作者是来自UCLA、Microsoft Reserach、UW等机构的Liunian Harold Li, Pengchuan Zhang等人。论文引用[1]:Li, Liunian Harold et al. “Grounded Language-Image Pre-training.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 10955-10965.

Time

2022.Jun

Key words

object-level represetation
一句话总结：GLIP将detection转化为一个grounding tasks，通过将每个region/box和text prompt的phrases进行对齐，GLIP联合训练image和language encoder，来预测正确地regions/words的pairings。同时增加了两个modalities之间的fusion，来学习language-aware visual representation。

总结：

论文提出了一个grounded language-image pretraining model，用于学习object-level, language-aware和semantic-rich visual representations。GLIP统一了object detection和phrase grounding for pretraining。这个统一带来了两个好处: 1. 使得GLIP能够从detection和grounding data中学习，提高tasks和bootstrap a good grounding model. 2.GLIP通过self-training的方式，产生grounding boxes，能够利用大量的imag-text pairs，使得学习到的representations semantic-rich。

阅读全文 »

3DGS

发表于 2025-04-01 分类于 Papers 本文字数： 1.8k 阅读时长 ≈ 6 分钟

3D Gaussian Splatting for Real-Time Radiance Field Rendering^[1]

作者是来自法国Inria的Bernhard Kerbl等人。论文引用[1]:

Time

2023.Aug

### Key Words

总结

Radiance Field方法最近用多个photos或者videos，revolutionized novel-viwe synthesis of scenes。然而，实现高质量仍然需要神经网络，这很费时间来训练和熏染，最近，faster methods trade off seepd for quality。对于无边界和完整的scenes(而不是孤立的objects)和1080p分辨率的渲染，没有当前的方法能够实现实时的display rate。作者引入了3个key elements，使得能够是实现SOTA的visual quality，同时保持高竞争力的training times，还能够在1080p下，高质量地实时地novel-view synthesis。首先，从camera calibration期间产生的sparse points开始，用3D Gaussian表针scene，能够保留理想的properties of continuous volumetric radiance fields for scene optimization，同时在empty space中，避免不必要的计算，其次，执行3D Gaussian的interleaved optimization/density control，显著地优化anisotropic covariance，来实现场景的精确的表征；第三，开发了一种fast visibility-aware rendering 算法，能够支持anisotropic splatting，加速训练，能够实时渲染。

阅读全文 »

Olympus: A Universal Task Router for Computer Vision Tasks[1]

Time

Key Words

总结

TrackFormer: Multi-Object Tracking with Transformers[1]

Time

### Key Words

总结

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Viusal Encoders[1]

Time

Key Words

总结

Momentum Contrast for Unsupervised Visual Representation Learning[1]

Time

Key Word

总结

DINOv2: Learning Robust Visual Features without Supervision[1]

Time

Key Words

总结

OpenVLA: An Open-Source Vision-Language-Action Model[1]

Time

Key Words

总结

Multi-Token Attention[1]

Time

Key Words

总结

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking[1]

Time

Key Words

总结

Grouded Language-Image Pre-training[1]

Time

Key words

总结：

3D Gaussian Splatting for Real-Time Radiance Field Rendering[1]

Time

### Key Words

总结

Olympus: A Universal Task Router for Computer Vision Tasks^[1]

TrackFormer: Multi-Object Tracking with Transformers^[1]

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Viusal Encoders^[1]

Momentum Contrast for Unsupervised Visual Representation Learning^[1]

DINOv2: Learning Robust Visual Features without Supervision^[1]

OpenVLA: An Open-Source Vision-Language-Action Model^[1]

Multi-Token Attention^[1]

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking^[1]

Grouded Language-Image Pre-training^[1]

3D Gaussian Splatting for Real-Time Radiance Field Rendering^[1]