导语:在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。 MoE 会成为未来大模型训练的新方向吗? 这是人们发现 MoE 架构可以用于大模型训练、推理后,发出的一声疑问。 MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。