Mooncake - 搜索 News

3 天

OpenClaw接入Mooncake：卡顿降幅超80%，性能和架构双革新

在大模型应用从“尝鲜”走向“常用”的关键阶段,推理系统的稳定性已成为影响用户体验的核心指标。近日,Mooncake团队宣布正式引入到OpenClaw的推理链路里,并专门围绕这件事做了一轮验证。结果显示,OpenClaw不只是更快了,更重要的是更稳了。

随着大语言模型（LLM）规模的快速增长以及对长上下文推理需求的日益增加，内存已成为GPU加速LLM服务中的关键瓶颈。尽管GPU上的高带宽内存（HBM）提供了快速访问能力，但其有限容量使得系统必须依赖主机内存（CPU DRAM）来支持大规模KVCache。然而，DRAM的最大 ...

当大模型从技术探索走向产业落地，推理环节的“成本、吞吐、长上下文”三大难题逐渐成为行业规模化应用的核心阻碍。企业既希望降低每兆 Token 的推理成本，又要保证高并发场景下的吞吐效率，还需满足 VibeCoding、多轮对话等场景的长文本处理需求。

来自MSN

近日，阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会（GDC），分享了主题《新技术新方案：产业共建大模型时代下的 Mooncake》的演讲，重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上，他详细介绍了阿里云在开源 ...

一些您可能无法访问的结果已被隐去。