混合专家架构(Mixture-of-Experts,MoE)在扩展模型容量的同时保持了计算效率,在大语言模型(LLM)的发展中发挥了巨大作用。然而,现有方法将 MoE 应用于 Diffusion Transformer(DiT)时,却发现收益非常有限,无法复刻 MoE 在 LLM 中的成功。 为什么同样的架构,跨界到视觉生成领域就「水土不服」了? 近期,来自复旦大学、阿里通义万相Wan Team、 ...