Routing - 搜索 News

4 天

复旦&通义万相提出ProMoE，显式路由引导打破DiT MoE scaling瓶颈

混合专家架构（Mixture-of-Experts，MoE）在扩展模型容量的同时保持了计算效率，在大语言模型（LLM）的发展中发挥了巨大作用。然而，现有方法将 MoE 应用于 Diffusion Transformer（DiT）时，却发现收益非常有限，无法复刻 MoE 在 LLM 中的成功。为什么同样的架构，跨界到视觉生成领域就「水土不服」了？近期，来自复旦大学、阿里通义万相Wan Team、 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

复旦&通义万相提出ProMoE，显式路由引导打破DiT MoE scaling瓶颈

今日热点