27

05月

星期三

22:25

罗福莉解密MiMo降本底牌：预填充注意力计算量降至10层全局GQA级别

据动察 Beating 监测，在自研大模型 MiMo-V2.5 系列实施 API 永久性降价后，小米大模型团队负责人罗福莉在 X 平台公布了算法降本机制。罗福莉透露，在 API 价格对齐 DeepSeek 后，小米的高负载推理引擎仍能保持盈亏平衡。成本降低主要来自混合注意力架构与层次化 KV 缓存优化。针对缓存命中（Cache Hit）成本降低 99% 的设计目标，小米推理框架实现了针对滑动窗口注意力 SWA 的层次化 KV 缓存优化。生产测试显示，层次化优化将缓存的 token 容量提升至 5 倍，降低了 80% 的缓存成本。结合全局注意力模块之间的缓存读取重叠（Cache Read Overlap）技术，系统进一步压低了缓存命中的实际开销。对于基础输入与输出成本削减 60% 至 80% 的原因，罗福莉归功于模型引入的 1:7 层间稀疏比，即全局注意力（GA）与滑动窗口注意力（SWA）的层数比为 1:7 。在长文本预填充（Prefill）阶段，60 层 SWA 仅计算局部滑动窗口，这使得拥有 70 层的 MiMo-V2.5-Pro 模型的整体注意力计算量，仅相当于一个 10 层的传统全局 GQA 模型。超低计算负载降低了原始推理成本，在调价前曾为小米预留了 2 至 3 倍的利润空间。因此，降价属于结构性降本的体现，而非亏本竞争。罗福莉表示，低成本的推理服务有利于激发终端智能需求。大模型企业应当避免盲目的价格战，通过算法与推理系统的底层协同设计，将实际运行开销控制在盈亏平衡线以下。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

4分钟前

Cognition 以 260 亿美元估值完成 10 亿美元融资

6分钟前

Bitdeer任命前Corsair Gaming CFO、半导体行业高管Michael Potter为首席财务官

15分钟前

彭博分析师：SK海力士杠杆ETF已成为香港市场第三大ETF，交易活跃度极为罕见

25分钟前

Alpha Compute 以约 1100 万美元交易对价收购 GAMEE 多数股权

28分钟前

美国数字资产监管将迎转折，CLARITY 法案获两党推进，进入关键立法阶段

40分钟前

白宫：伊朗媒体发布的美伊谅解备忘录内容完全是捏造

43分钟前

Bitwise HYPE ETF近两小时买入价值1131万美元HYPE

43分钟前

数据：Bitwise 累计买入 103.7 万枚 HYPE，约合 6292 万美元

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容