Multi-Head Mixture-of-Experts
Multi-Head Mixture-of-Experts[1]
作者是来自MSRA的Xun Wu等人,论文引用[1]:Wu, Xun et al. “Multi-Head Mixture-of-Experts.” ArXiv abs/2404.15045 (2024): n. pag.
Time
-2024.Apr
Key Words
- low expert activation
- multi-head
- 一句话总结:类似多头注意力的操作,将输入分成多给sub-tokens,每个sub-tokens给到experts,最后将所有的输出在进行merge,还原为初始的形状,每个sub-tokens包含了不同feature space的语义信息
总结:
- **稀疏MoE在不增加计算成本的情况下,扩展了model的capacity,然而,它展示出了low expert activation的问题,仅有一小部分experts被激活,用于优化,导致suboptimal的性能,限制了在复杂任务中学习大量experts的有效性。在本文中,作者提出了Multi-MoE,MHMoE将每个输入的token或分成多个sub-tokens,然后这些sub-tokens被分配给多个并行的experts进行处理,无缝合成为原来的token form。以上的操作使得MH-MoE显著地提高了expert的activation,同时在不同的experts汇总,集体attend to 多个representation spaces,来加深context understanding,另外,值得注意地是: MH-MoE直接可以执行,和其它的SMoE框架解耦,使得很容易地和这些框架集成。