Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors[1]

作者是来自University of Bucharest等机构的Nicolae-Catalin Ristea等人,论文引用[1]:Ristea, Nicolae-Cătălin et al. “Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors.” 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023): 15984-15995.

Time

  • 2024.Mar

Key Words

  • 用motion weight进行加权,然后用了self-distillation,同时还使用了synthetic anomalies data,加入到training data中,来提高video anomaly的性能。

总结

  1. 作者提出了一个高效的异常时间检测model,基于应用在video frame level上的轻量的AE。提出的model的创新型有三个方面:(1)基于motion gradients,引入了一个方式来对tokens进行加权,将focus的重心从static background scene转移到foreground objects;(2) 集成了一个teacher decoder和一个student decoder,利用两个decoder的输出的差异来提高anomaly detection; (3) 生成合成的abnormal events,来增强训练videos,让masked AE model来重建original frames和对应的pixel-level anomaly maps。作者的设计是一个高效且有效的model
阅读全文 »

Olympus: A Universal Task Router for Computer Vision Tasks[1]

作者是来自牛津和微软的Yuanze Lin等人,论文引用[1]:Lin, Yuanze et al. “Olympus: A Universal Task Router for Computer Vision Tasks.” ArXiv abs/2412.09612 (2024): n. pag.

Time

  • 2025.Apr

Key Words

  • universal task router
  • 一句话总结:用MLLMs内在的能力来处理vision-language tasks,用task-specific routing tokens将user instructions分配给其它的的专家models

总结

  1. 作者介绍了Olympus,是一个将MLLMs变成一个统一的框架,能够处理广泛的CV tasks,利用一个controller MLLM,Olympus将超过20种专门针对图像、视频和3D对象的任务分配给专用模块。这个instruction-based的routing能够通过chained actions实现复杂的workflows,不需要训练heavy generative models,Olympus简单地和现有的MLLMs集成,扩展了他们的能力。实验表明,它是一个有效的**universal task router,能够解决多种CV tasks。
阅读全文 »

TrackFormer: Multi-Object Tracking with Transformers[1]

作者是来自TUM和FAIR的Tim Meinhardt等人,论文引用[1]:

Time

  • Apr.2022

### Key Words

总结

  1. MOT的挑战要求对track initialization、identity和spatio-temporal trajectories的推理。作者将这个任务表述为一个frame-to-frame的set prediction问题,引入了TrackFormer,这是一个端到端的、可训练的MOT方法,基于Transformer架构,作者的模型通过在视频序列中逐步演化一组轨迹预测,利用注意力机制实现帧之间的数据关联。Transformer decoder从static object queries初始化新的tracks,并利用概念上新颖且能够保持身份信息的轨迹查询,在空间和时间上自回归地跟踪现有轨迹。两种类型的query都受益于attention架构,不需要额外的图优化或者motion/appearance的建模。
阅读全文 »

MoVE-KD: Knowledge Distillation for VLMs with Mixture of Viusal Encoders[1]

作者是来自北大等机构的Jiajun Cao等人,论文引用[1]: Cao, Jiajun et al. “MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders.” ArXiv abs/2501.01709 (2025): n. pag.

Time

  • 2025.Mar

Key Words

  • Single Vision encoder
  • LoRA
  • MoE

总结

  1. visual encoders是VLMs中的重要组件,每个都是从pretrained visual foundation models中得到的,展示出了unique strengths。为了利用这些encoders的various capabilities,最近的研究在单个VLMs中引入了多个encoders,导致在计算成本上的增加了很多, 作者提出了Mixture of Visual Encoder Knowledge Distillation(MoVE-KD),一个新的framework,将多个vision encoders的unique proficiencies蒸馏到a single, efficient encoder model中,特别地,为了缓解conflicts和保持每个teach encoder的unique characteristics,作者采用了LoRA和MoEs,来选择性地激活specialized knowledge based on input features,增强了adaptability和efficiency,为了正则化KD process和增强performance,作者提出了一个attention-based distillation strategy,自适应地weights the different encoders,强调了valuable visual tokens,缓解了replicating comprehensive but distinct features from multiple teachers的负担
阅读全文 »

Momentum Contrast for Unsupervised Visual Representation Learning[1]

作者是来自FAIR的Kaiming He等人。论文引用[1]:He, Kaiming et al. “Momentum Contrast for Unsupervised Visual Representation Learning.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 9726-9735.

Time

  • 2020.Mar

Key Word

  • Self-Supervised learning
  • 一句话总结:就是用momentum update,来动态更新key encoder。

总结

  1. 作者提出了Momentum Contrast(MoCO),用于无监督的视觉表征学习。从对比学习作为一种字典查找(dictionary lookup)的视角出发,作者构建了一个具有队列和moving-averaged encoder,这能够即时构建一个大的dictionary, 促进了对比无监督学习。
阅读全文 »

DINOv2: Learning Robust Visual Features without Supervision[1]

作者是来自Meta的Maxime Oquab等人。论文引用[1]:Oquab, Maxime et al. “DINOv2: Learning Robust Visual Features without Supervision.” ArXiv abs/2304.07193 (2023): n. pag.

Time

  • 2024.Feb

Key Words

  • curated dataset

总结

  1. 最近在大规模数据上预训练的NLP的模型的突破,为CV领域的类似的foundation models的提供了路子。这些模型通过产生general purpose visual features,能够放大uses of images in any system。这个工作展示了,在现有的预训练的方法中,特别是自监督的方法,如果能够在足够的、多样化的curated data上进行训练,能够得到这种features。作者revisit现有的方法,结合了不同的techniques,在data和model size上进行scale pretraining。大多数的technical contributions旨在加速和stabilizing training at scale。在数据方面,作者提出了一个自动化的pipeline,来构建一个dedicated, diverse和curated image dataset,而不是uncurated data,就像self-supervised中常做的那样。在model方面,作者训练了一个1B的ViT model,然后蒸馏到一些更小的models,超过了best available general-purpose features, OpenCLIP。
阅读全文 »

OpenVLA: An Open-Source Vision-Language-Action Model[1]

作者是来自Stanford、UCB等机构的Moo Jin Kim等人。论文引用[1]:Kim, Moo Jin et al. “OpenVLA: An Open-Source Vision-Language-Action Model.” ArXiv abs/2406.09246 (2024): n. pag.

Time

  • 2024.Sep

Key Words

  • Open model, pretrained on internet-scale vision-language datasets, and a visual encoder that fuses DINOv2 and SigLIP features.

总结

  1. 在internet-scale 上的vision-language 数据和diverse robot demo的结合上进行预训练的policies有潜力改变如何教robots学习new skills:而不是training new behaviors from scratch,可以对VLA models进行微调,来得到robust, generalizable policies for visuomotor control。当前的robotics的VLA挑战性在于:现有的VLAs大部分是闭源的,public无法接触;之前的工作没能探索高效微调VLAs for new tasks的方法。作者提出了OpenVLA,解决了上述的挑战,它是一个7B的open-source VLA,在970k real-world robot demo上的diverse 的collections上训练的。OpenVLA建立在Llama 2 上,结合了一个visual encoder,能够融合来自DINOv2和SigLIP的features。作为一个added data diversity和new model components的product,OpenVLA展示出了strong results for generalist manipulation, 超过了closed model例如RT-2-X,少了7x的参数。作者进一步展示出了,能够对new settings进行有效地微调,在涉及多个objects和strong language grounding abilities上的多任务环境中,展示出了很强的泛化性, 超过了从零训练的imitation learning的方法,例如Diffusion Policy。
阅读全文 »

Multi-Token Attention[1]

作者是来自FAIR的Olga Golovneva等人,论文引用[1]:Golovneva, Olga et al. “Multi-Token Attention.” (2025).

Time

  • 2025.Apr

Key Words

  • single token similarity bottleneck

总结

  1. Soft attention是一个重要的机制,使得LLMs能够在给定的context中locate相关的parts。然而,individual attention weights是由single query和key token vector的相似度决定的,这个single token attention造成了区分a relevant part from the rest of the context的信息的瓶颈。为了解决这个问题,作者提出了一个新的attention方法,Multi-Token Attention,使得LLms能够同时在多个query和key vectors上condition their attention weights。这是通过在queries、keys和heads上应用卷积操作实现的,使得相邻的queries和keys能够印象彼此的attetnion weights for more precise attention。因此,作者的方法能够用更丰富的、精细的信息来locate relevant context,超过了single vector capacity。
阅读全文 »

MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking[1]

作者是来自旷视等机构的En Yu等人, 论文引用[1]:Yu, En et al. “MOTRv3: Release-Fetch Supervision for End-to-End Multi-Object Tracking.” ArXiv abs/2305.14298 (2023): n. pag.

Time

  • 2023.May

Key Words

  • conflict between detection and association
  • detect query only for newly appearing targets
  • track queries for localizing previous detected targets(association part in a implicit manner)

总结

  1. 简单来说,MOTR的问题是在于detection和association之间的冲突,MOTRv2用额外的detection network部分解决了这个问题,作者将这个conflict的归因于detect queries和track queries在训练的时候的unfair label assignment,detect queries 识别targets然后track queries associate them。基于这个观察,作者提出了MOTRv3,用release-fetch supervision 策略来平衡label assignment process。在这个策略中,labels首先released for detection,然后逐渐fetched back for association。另外两个strategy叫做pseudo label distillation和track group denoising,用来进一步提高detection和association的supervision,同时不需要额外的detection network
阅读全文 »

Grouded Language-Image Pre-training[1]

作者是来自UCLA、Microsoft Reserach、UW等机构的Liunian Harold Li, Pengchuan Zhang等人。论文引用[1]:Li, Liunian Harold et al. “Grounded Language-Image Pre-training.” 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 10955-10965.

Time

  • 2022.Jun

Key words

  • object-level represetation
  • 一句话总结:GLIP将detection转化为一个grounding tasks,通过将每个region/box和text prompt的phrases进行对齐,GLIP联合训练image和language encoder,来预测正确地regions/words的pairings。同时增加了两个modalities之间的fusion,来学习language-aware visual representation

总结:

  1. 论文提出了一个grounded language-image pretraining model,用于学习object-level, language-aware和semantic-rich visual representations。GLIP统一了object detection和phrase grounding for pretraining。这个统一带来了两个好处: 1. 使得GLIP能够从detection和grounding data中学习,提高tasks和bootstrap a good grounding model. 2.GLIP通过self-training的方式,产生grounding boxes,能够利用大量的imag-text pairs,使得学习到的representations semantic-rich
阅读全文 »
0%