马斯克点赞！Kimi 论文撼动大模型“祖传地基”：同样算力，效率提升 25%

个人专栏

2026-03-19热度: 4431

月之暗面（Moonshot AI）旗下Kimi团队发布《Attention Residuals》技术报告，创新性地将注意力机制引入深度维度，重构传统残差连接，在同等算力下显著提升模型性能，已在科学推理、数学与代码生成任务中验证效果，获OpenAI及业界顶尖专家高度评价。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

同样的算力与数据，凭什么有的模型效果更好? 月之暗面（Moonshot AI） 给出了一个直击底层逻辑的答案。

3月16日， Kimi 发布重磅技术报告 《Attention Residuals》（注意力残差） 。该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接（Residual Connections）进行了彻底重构。实验证明，在相同算力下，新方法训练出的模型效果等同于基线模型花费 1.25倍 算力达成的水平。

这一突破迅速引发硅谷 AI 圈震动，在社交媒体公开评价其为“令人印象深刻的工作（Impressive work from Kimi）”。

Jerry Tworek（OpenAI o1主要发明者）: 称其为“深度学习2.0”的开端。

Andrej Karpathy（前 OpenAI 联创）: 感慨行业对“Attention is All You Need”的理解仍有挖掘空间。

为何要动“祖传地基”?

传统的残差连接虽然解决了深层网络难以训练的问题，但其“等权相加”的方式过于粗暴。随着网络加深，每一层的新贡献极易被庞大的累积信息淹没，导致大量中间层沦为“无效干活”。

Kimi 的“优雅旋转”:

团队发现，深度方向上的信息丢失与 RNN 在时间维度上的遗忘在数学结构上高度一致。于是，他们将原本用于处理文字序列的“注意力机制”横向转动90度，应用到了纵向的深度维度上。

通过，每一层不再是被动接受叠加信息，而是通过一个微小的“查询向量”，主动、有选择性地决定从前面哪些层提取多少信息。为了解决大规模训练中的内存开销，团队还创新性地提出了 Block AttnRes 方案，将网络划分为若干块，在确保性能的同时，将推理延迟增量控制在 2% 以内。

在的实验中，该架构展现了极强的泛化能力。在 GPQA-Diamond 科学推理任务上实现了 7.5% 的飞跃，数学与代码生成任务也分别获得了 3.6% 和 3.1% 的显著增益。

正如创始人在 GTC2026演讲中所言，行业正逐渐遭遇 Scaling 的瓶颈，必须对优化器、残差连接等底层基石进行重构。当大多数人还在“高层精装修”时，选择下沉到最深处，用一记重锤撬动了深度学习的未来。

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:月之暗面 Attention Residuals Kimi

最近更新

下载MarsBit APP

以行业热点、实时快讯、视频解读等维度提供全方位的区块链整合服务

24H热门新闻

暂无内容

4分钟前

UPBIT 将下架 Drift (DRIFT) 相关交易对

7分钟前

Meta Platforms 美股盘前下跌 7.2%，上调资本支出预期

10分钟前

Binance 将于 5 月 5 日 14:00 对 BNB 智能链钱包进行维护

16分钟前

美元兑日元短线下挫，最低跌至 159.79

22分钟前

Printr 创始人宣布辞去 CEO 职务并将全额退还社区募资

26分钟前

Tether Treasury 在 Tron 网络新增铸造 10 亿枚 USDT

28分钟前

亚马逊云科技推出桌面AI助手Amazon Quick

40分钟前

火币HTX已上线MEGA、AIGENSYN永续合约，并启动合约交易派对