LLM training 知识点

LLM的训练流程

  1. 主要包括 预训练监督微调后训练

预训练

  1. 在大规模的未标注的数据集上训练模型,学习数据的潜在结构和通用表示,常采用自监督学习策略,得到一个具有强大建模能力的模型,此阶段需要大量的计算资源,模型相当庞大,以便能够更好地泛化到各种任务,数据一般是数百亿到数万亿的token,包括来自互联网Common Crawl、wikipedia等数据。方法主要有:
    • 自回归语言建模(Causal Language Modeling,CLM):这是GPT系列模型的核心方法,模型预测下一个词,Next Token Prediction.
    • 掩码语言建模(Masked Language Modeling, MLM):这是BERT等模型使用的方法,模型被训练来预测随机被遮盖的词语 产物:得到一个基础模型(base model),拥有强大的语言理解和生成能力
阅读全文 »

MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation[1]

作者是来自自动化所等单位的Junyou Zhu等人。论文引用[1]:

Time

  • 2024.Sep

Key Words

  • 两阶段蒸馏

总结

  1. 现在的模型的size和有限的平台的计算能力冲突,为了解决这个问题,我在聚焦于VLN,引入了一个两阶段的只是蒸馏的框架,产生一个student model,MiniVLN,展示了蒸馏在发展轻量model的潜力。提出的方法旨在 在预训练阶段得到细粒度的知识,在fine-tuning阶段得到navigation-specific 的知识。作者的发现表明:两阶段的蒸馏方法是一个更加有效的缩小teacher model和student model之间的性能差距的方法,相比于单阶段的蒸馏,在公共的benchmarks上,MiniVLN实现了和teacher model相当的性能,但是只有其12%的参数。

  2. 现有的VLN方法利用大规模的预训练model来解译复杂的多模态信息,通过复杂的环境知道agents,DUET利用细粒度的跨膜太理解来解译long-term的action planning。AutoVLN自动地产生一个大规模的VLN数据集,提高了模型的泛化性。ScaleVLN,利用1200+的环境,合成了4.9B的 instruction-trajectory paris,在泛化性上有很大的提高,实现了SOTA。然而,很多这些model是computationally intensive,需要大量的memory,限制了实时地部署。为了解决这个问题,最近的研究利用知识蒸馏。之前的方法聚焦于预训练阶段,MAGIC提出了一个Meta-Aility Knowledge Distillaiton framework和一个interactive chain-of-distillation学习策略,来促进student model的knowledge acquisition。

  3. 相比于这些在仅在预训练阶段使用蒸馏,或者仅在fine-tuning阶段使用,作者引入了一个两阶段的蒸馏框架,MiniVLN,作者的方法在预训练和fine-tuning都使用了KD。在预训练阶段,作者聚焦于细粒度的konwledge learning,MiniVLN通过feature alignment和representation alignment,从teacher model中学习knowledge,在fine-tuing阶段,作者将focus转移到蒸馏那些影响navigation performance的knowledge。例如在navigation中用到的fused information logits,这对最后的navigation outcomes是重要的。确切地说,作者聚焦于经典的dual-scale graph transformer(DUET)架构,如图1所示。作者实现了很好的性能,但是模型参数量更少。

  4. 早期的VLN利用RNNs作为Backbone来处理sequential inputs,然而,当轨迹的长度增加的时候,RNNs不能捕获long-term的依赖。为了解决这个问题,引入了基于transformer的model,DUET将long-term aciton planning和细粒度的cross-mmodel理解结合,动态地构建一个topological graph,来集成local observation和global map,在这个基础上,通过data augmentation、external knowledge integration和visual representation refinement实现了进步。

  5. VLN任务是一个agent基于自然语言的instructions,在unseen的环境中进行导航,这个环境是通过一个无向图进行建模,\(V\) 表示一组navigable nodes,\(v\) 表示 这些nodes之间的连接的edges,agent随机在一个起点node进行初始化,这个goal的目标是将给定的自然语言的instruction进行解译,\(L\) 是instruction的长度,通过连接图进行导航,到达特定的目标位置,这个过程被部分建模为一个可观测的马尔可夫决策过程,agent的未来观测在给定当前state \(s_t\)的时候,是和过去的观测条件独立的。

  6. 在time step t的时候,agent 收到了全景的观测 \(O_t\), 这个观测包含了一组含有周围环境的images,被分成K个独立的views,还有相关联的angle direction,在fine scale,这个action space 包含了导航到相邻node和stopping,在coarse scale,这个action space包含导航到所有navigable但是没有访问过的nodes和stopping,这个agent必须学习一个策略 \(pi\),基于instruction、agent的导航历史和当前的observation \(O_t\),这个agent的决策过程会继续,直到它选择在一个位置停止。总的目标是优化agent的能力,准备地遵循instructions,通过环境高效地导航和定位位置。

  7. 采用DUET作为基线方法,构建了一个topological map,来记忆访问过的locations,结合coarse-scale map encoding和fine-scale encoding of current location,来增强action planning。 \(N_t\) 包含了访问的nodes,当前的nodes,ghost nodes 表示navigable 但是没有访问过的nodes。\(E_t\) 记录了相邻nodes之间的欧几里得distance,DUET包含了一个language encoder和一个panorama encoder用于单模态的embedding和feature extraction,还有两个

Diffusion Transformers with Representation Autoencoders[1]

作者是来自NYU的Boyang Zheng, Nanye Ma, Shengbang Tong, Saining Xie。论文引用[1]:

Time

  • 2025.10

### Key Words

总结

  1. 潜在生成建模,一个预训练的autoencoder将pixels映射到一个latent space用于diffusion process,已经成为DiT的标准的策略;然而,Autoencoder的component很少有进展。大多谁的DiT还是依赖于原始的VAE encoder,会导致一些局限。过时的backbones会损害架构的简洁性,低维的latent space限制了信息容量,来自purely-reconstruction-based的training的weak representation限制了生成的质量。在这个工作中,作者探索用预训练的representation encoders和trained decoders赖代替VAE,得到了Representation Autoencoders(RAEs)。这些models提供了高质量的reconstructions和语义丰富的latent spaces,同时允许一个scalable的transformer-based architecture。因为这些latent space通常都是高维的,一个关键的挑战是使得diffusion transformer能够有效地operate。作者分析了这些困难的source,提出了motivated solutions,并进行了验证。作者的方法实现了更快地收敛,不需要辅助的representation alighment loss。用一个DiT变体,加上轻量的、wide的DDT head,实现了更强的image generation。

  2. 生成式模型的发展是由不断地重新定义模型在哪里、如何学习represent data 推动的。早期的pixel-space models尝试capture image statistics,但是latent diffusion讲generation重新构造为一个在learned, compact representation space中的process操作。通过在**这个latent space,而不是raw pixel中操作,像Latent Diffusion Models和DIffusion Transformers这样的model,显示了更高的visual fidelity和efficiency,支撑了今天最强大的image和video generators。

  3. 尽管diffusion backbones有进步,定义latent space的autoencoder还没有改变,广泛使用地SD-VAE仍然依赖于channel-wise compression和一个reconstruction-only objective,产生了low-capactity的latent,capture局部的appearance,缺乏对于泛化和生成性能重要的全局语义结构,另外,SD-VAE建立于legacy convolution design,仍然是计算不高效。同时,visual representation learning经历了一个快速的变换。自监督和多模态的encoders例如DINO、MAE、JEPA,CLIP/SigLIP能够学习语义结构的visual features,能够在tasks和scales上进行泛化,为visual understanding提供了一个natural basis。然而,latent diffusion仍然是在这个proces中鼓励的,仍然是在reconstruction-trained VAE space中,而不是语义有意义的representational ones。近期的工作尝试通过REPA-style和external encoders的对齐,来间接提高latent quality,但是这些方法引入了额外的training stages, auxiliary losses和微调复杂性。

  4. 这个separation源自于长期的关于语义和生成目标之间的不兼容的假设。广泛地相信,训练的encoders不适合faithful reconstruction,因为它们关注high-level information,仅能够重建image with high-level semantic similarities。另外,一般相信diffiusion model在high-dimensional latent spaces中表现较差,导致大家支持低维的VAE latents,恶如不是更高维的semantic encoders的representation。在这个工作中,作者展示了这些assumptions都是错误的。作者展示了,冻结representation encoders,即使在reconstruction上显著地对语义进行优化的,可以repurpose为powerful autoencoders用于generation,不需要架构的复杂或者额外的损失,能够超越SD-VAE。另外,作者发现,diffusion transformer训练在这些高维空间中是稳定和高效的。有了正确的架构的调整,更高维度的representation不是liablity,恶如是一个优势,提供了更丰富的结构,更快地收敛和更好的生成质量。注意到,更高维度的latents引入了no extra compute或者memory cost,因为token count 是固定的。

  5. 作者将这个insight

DINOv3

作者是来自MeTA的Oriane Simeoni等人。论文引用[1]:

Time

  • 2025.Aug

### Key Words

总结

Classification Matters: Improving Video Action Detection with Class-Specific Attention[1]

作者是来自韩国POSTECH的Jingsung Lee等人。论文引用[1]:Lee, Jinsung et al. “Classification Matters: Improving Video Action Detection with Class-Specific Attention.” ArXiv abs/2407.19698 (2024): n. pag.

Time

  • 2024.Sep

Key Words

  • class specificity of the classification features

总结

  1. Video action detection 旨在检测视频中的actors和它们的actions,作者认为:VAD的瓶颈更多地来自分类,而不是actor的定位。因此,作者分析了流行的方法如何形成分类的features,发现它们优先actor regions,经常忽略重要的对于准备分类必要的上下文信息,因此,作者提出降低actor的bias,鼓励更多地关注和每个action class相关的context,通过将class-dedicated query 分配给每个action class,作者的model能够动态地决定去关注哪里,能够有效地进行分类,提出的model在三个benchmarks上展示出了优秀地性能。
阅读全文 »

Text-guided Video Masked Autoencoder[1]

作者是来自Amazon的David Fan等人,论文引用[1]:Fan, David et al. “Text-Guided Video Masked Autoencoder.” European Conference on Computer Vision (2024).

Time

  • 2024.Aug

Key Words

  • 一句话总结:captions/自然语言密集信息能够捕捉视频中的显著信息,不需要先验假设

总结

  1. 最近Video MAE的工作设计了改进的masking 算法,这些工作利用visual cues例如motion来mask 最突出的regions,然而,这些visual cues的robustness依赖于输入视频与底层假设的匹配程度,另一方面,natural language description是一个信息密集的representation,不需要modality-specific assumption,能够隐式捕捉视频中的显著性特征,这还没有别video MAE explore,出于这个目的,作者介绍了一个新的text-guided masking 算法,TGM,将和paired captions高度相关的video regions进行mask,不利用任务显式地visual cues for saliency。TGB是对于motion-guided masking是很有竞争力的,为了进一步利用自然语言的语义,用于masked reconstruction,接下来作者介绍了一个unified framework for joint MAE和masked video-text contrastive learning。作者展示了在现有的masking算法中,将MAE和masked video-text contrastive learning统一,相比于纯MAE,提高了下游任务的性能。
阅读全文 »

Qwen2.5-VL Technical Report[1]

作者是来自阿里的Qwen Team。论文引用[1]:Bai, Shuai et al. “Qwen2.5-VL Technical Report.” ArXiv abs/2502.13923 (2025): n. pag.

Time

  • 2025.March

Key Words

  • dynamic resolution processing
  • window attention

总结

  1. Qwen2.5 在基础能力和创新功能上有了很大的进步。Qwen2.5-VL的一个特点是能够精确地用bbox和points定位objects。为了处理复杂的输入,Qwen2.5-VL引入了dynamic resolution processing和absolute time encoding,使得它能够处理多种尺寸的images和很长时间的videos,模型能够感知到空间scales和temporal dynamics,不需要依赖于传统的normalization techniques。通过从零训练一个native dynamic-resolution ViT,引入Window Attention,能够大幅度降低计算开销,同时保持native resolution,因此,Qwen2.5-VL不仅擅长static images和document understanding,同时可以作为一个interactive visual agent,能够处理reasoning、tool usage和task execution。模型不需要task-specific fine-tuning,实现了strong generalization across domains。Qwen2.5-VL适合三种sizes,解决了多种use cases。
阅读全文 »

DiffiT: Diffusion Vision Transformers for Image Generation[1]

作者是来自NVIDIA的Ali Hatamizadeh等人,论文引用[1]:Hatamizadeh, Ali et al. “DiffiT: Diffusion Vision Transformers for Image Generation.” European Conference on Computer Vision (2023).

Time

  • 2024.Aug

### Key Words

总结

  1. Diffusion models有很强的expressivity和高质量采样,在生成领域实现了SOTA,ViT展示出了很强的modeling capabilities,在本文中,作者研究了ViTs在diffusion-based generative learning中的有效性,提出了一个新的model称之为**Diffusion Vision Transformer(DiffiT), 作者提出了一个用于denoising 过程finegrained control的方法,引入了Time-dependant Multihead Self Attention 机制,DiffiT在生成高保真images上有很好的效果,作者也提出了latent和image spae DiffiT models,在不同的分辨率下,在多个class-conditional和unconditional合成任务中实现了SOTA。
阅读全文 »

Qwen3 Technical Report[1]

作者是Qwen Team,论文引用[1]:Yang, An et al. “Qwen3 Technical Report.” (2025).

Time

  • 2025.May

Key Words

  • thinking control

总结

  1. Qwen3包含一系列的LLMs,Qwen3系列包含dense和MoE 架构,参数从0.6B到235B,**Qwen3中的一个关键创新是将了thinking mode(多步推理)和non-thinking mode(rapid, context-driven responses)集成到了一个框架中,同时,Qwen3引入了一个thinking budget 机制,使得用户可以在推理的时候灵活地分配computational resources,平衡延迟和性能。另外,通过利用旗舰model的知识,能够大幅度地降低计算资源。
阅读全文 »

ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders[1]

作者是来自Rice University和Google DeepMind的Jefferson Hernandez等人,论文引用[1]:Hernandez, Jefferson et al. “ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders.” (2023).

Time

  • 2024.Oct

Key Words

  • MAE
  • contrastive learning
  • treat short videos as temporal augmentations

总结

  1. 作者提出了VIC-MAE,是一个结合了MAE和contrastive learning的model,VIC-MAE通过使用一种global representation进行训练的,该global representation是通过对在 MAE 重建损失下学习到的局部特征进行池化(pooling)得到的,并在图像与视频帧之间基于这一表示进行对比学习目标(contrastive objective)的训练。作者展示了在VIC-MAE下学习到的visual representation能够很好地泛化到video 和image 分类的任务,VIC-MAE相比于最近提出的OmniMAE,实现了SOTA的tranfer learning的性能。
阅读全文 »
0%