Tronsformr - 搜索 News

6 天

Mamba 3开源架构横空出世：多项性能与延迟指标超越Transformer架构

对大众来说，生成式AI时代的序幕始于2022年底OpenAI发布的ChatGPT。但其底层技术——即Transformer神经网络架构，则可追溯至谷歌2017年发表的开创性论文《Attention Is All You Need》。

现代AI架构重大突破：Transformer模型的双向信息流革命

在人工智能迅速发展的今天，研究者们正在不断探索如何让机器更好地理解和处理信息。最近，一项由研究团队发表于2026年3月的重要研究（论文编号arXiv:2603.16039v1）提出了一个颠覆性的观点：现代Transformer架构其实是一个被严重低估 ...

11 天

华人学生立大功，新王Mamba-3直击Transformer死穴，推理效率碾压7倍

Transformer不保？今天，CMU普林斯顿原班人马杀回，新一代开源架构Mamba-3震撼降临。15亿参数战力爆表，性能比Transformer飙升4%。 Transformer「杀手」架构迎重磅升级！

10 小时

Transformer后继有模，MSRA提出全新大模型基础架构：推理速度8倍提升 ...

微软大模型新架构，正式向Transformer发起挑战！论文标题明晃晃地写道： Retentive Network（RetNet）：大模型领域Transformer的继任者。论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员，毫不讳言“野心”，大胆放话： RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。这些特性使这一基础架构，成为大语 ...

8 天

太疯了！MIT博士在Transformer里造计算机，攻破LLM终极缺陷

【导读】炸裂！就在刚刚，一位MIT博士，在Transformer里造出个计算机。现在，模型一举洗刷「9.11与9.9哪个大」的耻辱，几秒内运行数百万步程序，世界最难数独准确率100%！大模型的能力边界，从此彻底改变。

腾讯网

早于DeepSeek Engram！用「查表」重置Transformer记忆 | ICLR

【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构，早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表，用token索引的embedding表直接读取记忆，彻底解耦记忆容量与计算开销。

12 天

原创马斯克深夜点赞炸场！Kimi撕开Transformer十年铁幕，中国AI亮剑

2026年3月17日，马斯克在X平台的一条推文打破了AI圈的平静。这位以“技术挑剔”著称的科技狂人，罕见转发并点赞了中国AI公司月之暗面（Moonlight ...

13 天

卡帕西点赞Transformer内置计算机！每秒3万Token吞吐，拿下世界最难数独

LLM推理已经顶尖，精确计算却跟不上。这局怎么破？卡帕西点赞的解决方法来了，在大模型内部构建一台原生计算机。新方法不搞外包那一套（不依赖任何外部工具），直接在Transformer权重里内嵌可执行程序。并通过创新的2维注意力头设计，将大模型的推理效率提升至指数级。能在普通CPU上实现每秒3万+Token的流式输出。在Transformer内嵌原生计算机咱都知道，当前最先进的大模型，拿 ...

9 天

MIT博士突破性成果：在Transformer内嵌入计算机，开启LLM计算新时代

人工智能领域迎来一项颠覆性突破：一位麻省理工学院博士成功在Transformer架构中嵌入完整计算机系统，使大语言模型（LLM）具备原生计算能力。这项突破性研究彻底改变了人们对LLM的认知，模型不再局限于概率预测文本，而是进化为能够执行复杂计算的数字计算机。研究团队通过硬编码方式将WebAssembly（WASM）解释器完整嵌入Transformer权重，实现无需外部工具调用的纯内部计算。这种创 ...

8 天