马斯克点赞!Kimi 论文撼动大模型“祖传地基”:同样算力,效率提升 25%

AIBase
个人专栏
热度: 3985

月之暗面(Moonshot AI)旗下Kimi团队发布《Attention Residuals》技术报告,创新性地将注意力机制引入深度维度,重构传统残差连接,在同等算力下显著提升模型性能,已在科学推理、数学与代码生成任务中验证效果,获OpenAI及业界顶尖专家高度评价。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

同样的算力与数据,凭什么有的模型效果更好? 月之暗面 (Moonshot AI) 给出了一个直击底层逻辑的答案。

3月16日, Kimi 发布重磅技术报告 《Attention Residuals》(注意力残差) 。该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接(Residual Connections)进行了彻底重构。实验证明,在相同算力下,新方法训练出的模型效果等同于基线模型花费 1.25倍 算力达成的水平。

image.png

这一突破迅速引发硅谷 AI 圈震动,在社交媒体公开评价其为“令人印象深刻的工作(Impressive work from Kimi)”。

Jerry Tworek(OpenAI o1主要发明者): 称其为“深度学习2.0”的开端。

Andrej Karpathy(前 OpenAI 联创): 感慨行业对“Attention is All You Need”的理解仍有挖掘空间。

为何要动“祖传地基”?

传统的残差连接虽然解决了深层网络难以训练的问题,但其“等权相加”的方式过于粗暴。随着网络加深,每一层的新贡献极易被庞大的累积信息淹没,导致大量中间层沦为“无效干活”。

image.png

Kimi 的“优雅旋转”:

团队发现,深度方向上的信息丢失与 RNN 在时间维度上的遗忘在数学结构上高度一致。于是,他们将原本用于处理文字序列的“注意力机制”横向转动90度,应用到了纵向的深度维度上。

通过 ,每一层不再是被动接受叠加信息,而是通过一个微小的“查询向量”,主动、有选择性地决定从前面哪些层提取多少信息。为了解决大规模训练中的内存开销,团队还创新性地提出了 Block AttnRes 方案,将网络划分为若干块,在确保性能的同时,将推理延迟增量控制在 2% 以内。

image.png

在 的实验中,该架构展现了极强的泛化能力。在 GPQA-Diamond 科学推理任务上实现了 7.5% 的飞跃,数学与代码生成任务也分别获得了 3.6%3.1% 的显著增益。

image.png

正如创始人 在 GTC2026演讲中所言,行业正逐渐遭遇 Scaling 的瓶颈,必须对优化器、残差连接等底层基石进行重构。当大多数人还在“高层精装修”时,选择下沉到最深处,用一记重锤撬动了深度学习的未来。

声明:本文为入驻“MarsBit 专栏”作者作品,不代表MarsBit官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。