在大模型应用从“尝鲜”走向“常用”的关键阶段,推理系统的稳定性已成为影响用户体验的核心指标。近日,Mooncake团队宣布正式引入到OpenClaw的推理链路里,并专门围绕这件事做了一轮验证。结果显示,OpenClaw不只是更快了,更重要的是更稳了。
随着大语言模型(LLM)规模的快速增长以及对长上下文推理需求的日益增加,内存已成为GPU加速LLM服务中的关键瓶颈。尽管GPU上的高带宽内存(HBM)提供了快速访问能力,但其有限容量使得系统必须依赖主机内存(CPU DRAM)来支持大规模KVCache。然而,DRAM的最大 ...
当大模型从技术探索走向产业落地,推理环节的“成本、吞吐、长上下文”三大难题逐渐成为行业规模化应用的核心阻碍。企业既希望降低每兆 Token 的推理成本,又要保证高并发场景下的吞吐效率,还需满足 VibeCoding、多轮对话等场景的长文本处理需求。
近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源 ...