混合专家架构(Mixture-of-Experts,MoE)在扩展模型容量的同时保持了计算效率,在大语言模型(LLM)的发展中发挥了巨大作用。然而,现有方法将 MoE 应用于 Diffusion Transformer(DiT)时,却发现收益非常有限 ...
复旦大学、阿里通义万相WanTeam等机构的研究团队在 ICLR 2026 上发表了关于 ProMoE的最新研究,该研究针对 Diffusion Transformer (DiT)在视觉生成领域的 Mixture-of-Experts (MoE)应用瓶颈提出了创新解决方案。 这一进展有望推动大规模扩散模型在视觉生成任务中的效率提升,为 AI技术的进一步发展带来新的可能性。 MoE 架构的视觉生成挑 ...
【导读】最大开源模型,再次刷爆纪录!Snowflake的Arctic,以128位专家和4800亿参数,成为迄今最大的开源模型。它的特点,是又大又稀疏,因此计算资源只用了不到Llama 3 8B的一半,就达到了相同的性能指标。 就在刚刚,拥有128位专家和4800亿参数的Arctic,成功登上了迄今最大开源MoE模型的宝座。 它基于全新的Dense-MoE架构设计,由一个10B的稠密Tranform ...
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合处理大规模数据和复杂任务,已成谷歌、OpenAI、阿里、腾讯等企业控制成本、提升 ...
导语:在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。 MoE 会成为未来大模型训练的新方向吗? 这是人们发现 MoE 架构可以用于大模型训练、推理后,发出的一声疑问。 MoE(Mixture of Experts),又称「混合专家」,本质是一种模块化的稀疏激活。
混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。 近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加的情况下保持激活专家数不变)的趋势,这提升了单位 FLOPs 的 ...
智东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型! 微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行,均支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3 ...
事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了—— 共计收集和整理了涉及8500+个LLM,在12个Benchmark上的共2亿条性能记录! 先来简单科普一下路由LLM。 这种方法主要是把像ChatGPT、Qwen、DeepSeek这些成型的LLM当作 “专家” ,当给一个输入的时候,有 ...
国产大模型开源竞争进入新阶段,华为首次开源盘古大模型核心能力。 6月30日,华为宣布开源盘古70亿参数稠密模型和盘古Pro MoE 720亿参数混合专家模型,同时开放基于昇腾的模型推理技术。这是华为首次将盘古大模型的核心能力对外开源。 华为表示,720亿参数 ...
本文重点分析MoE 混合专家前世今生(发展历史),包含MOE 架构总览、90年代初期奠基、RNN时代、Transformer时代、GPT时代、Mixtral 7x8B MOE可视化。 本文来自“《MOE技术分析合集》”,更多内容参考“大模型推理:vLLM预处理(推理引擎)”,“大模型推理:vLLM调度核心 ...
目前国内AI开发者和技术爱好者若想深度研究Gemini的底层架构设计,最便捷的方式是通过聚合镜像站RskAi(ai.rsk.cn)进行实测。 该平台国内可直接访问,聚合了Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6等顶级模型,实测响应速度在1.2秒左右,支持文件上传和联网搜索 ...