对大众来说,生成式AI时代的序幕始于2022年底OpenAI发布的ChatGPT。但其底层技术——即Transformer神经网络架构,则可追溯至谷歌2017年发表的开创性论文《Attention Is All You Need》。
在人工智能迅速发展的今天,研究者们正在不断探索如何让机器更好地理解和处理信息。最近,一项由研究团队发表于2026年3月的重要研究(论文编号arXiv:2603.16039v1)提出了一个颠覆性的观点:现代Transformer架构其实是一个被严重低估 ...
Transformer不保?今天,CMU普林斯顿原班人马杀回,新一代开源架构Mamba-3震撼降临。15亿参数战力爆表,性能比Transformer飙升4%。 Transformer「杀手」架构迎重磅升级!
微软大模型新架构,正式向Transformer发起挑战! 论文标题明晃晃地写道: Retentive Network(RetNet):大模型领域Transformer的继任者。 论文提出新的Retention机制来代替Attention。来自微软亚研院和清华的研究人员,毫不讳言“野心”,大胆放话: RetNet实现了良好的扩展结果、并行训练、低成本部署和高效推理。 这些特性使这一基础架构,成为大语 ...
【导读】炸裂!就在刚刚,一位MIT博士,在Transformer里造出个计算机。现在,模型一举洗刷「9.11与9.9哪个大」的耻辱,几秒内运行数百万步程序,世界最难数独准确率100%!大模型的能力边界,从此彻底改变。
【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用token索引的embedding表直接读取记忆,彻底解耦记忆容量与计算开销。
2026年3月17日,马斯克在X平台的一条推文打破了AI圈的平静。这位以“技术挑剔”著称的科技狂人,罕见转发并点赞了中国AI公司月之暗面(Moonlight ...
LLM推理已经顶尖,精确计算却跟不上。 这局怎么破? 卡帕西点赞的解决方法来了,在大模型内部构建一台原生计算机。 新方法不搞外包那一套(不依赖任何外部工具),直接在Transformer权重里内嵌可执行程序。 并通过创新的2维注意力头设计,将大模型的推理效率提升至指数级。 能在普通CPU上实现每秒3万+Token的流式输出。 在Transformer内嵌原生计算机 咱都知道,当前最先进的大模型,拿 ...
人工智能领域迎来一项颠覆性突破:一位麻省理工学院博士成功在Transformer架构中嵌入完整计算机系统,使大语言模型(LLM)具备原生计算能力。这项突破性研究彻底改变了人们对LLM的认知,模型不再局限于概率预测文本,而是进化为能够执行复杂计算的数字计算机。 研究团队通过硬编码方式将WebAssembly(WASM)解释器完整嵌入Transformer权重,实现无需外部工具调用的纯内部计算。这种创 ...
据路透社从四位知情人士处获悉,在放弃Fire Phone项目十余年后,亚马逊正秘密重启智能手机业务,内部代号为"Transformer"的新项目正在紧锣密鼓推进中。这款设备将深度整合Alexa语音助手及其生态服务,试图在AI驱动的移动终端领域开辟新战场。
日前据媒体报道,亚马逊在退出智能手机市场十多年后,正计划重返这一领域,推出一款代号为“Transformer”的新型手机。 早在2014年,亚马逊就推出了由创始人杰夫·贝索斯亲自监制的首款智能手机Fire ...