02

07月

星期四

16:54

让大模型「分工读写」：英伟达双塔架构TwoTower并联两座30B模型，无损换取2.4倍提速

据动察 Beating 监测，英伟达开源离散文本扩散架构 Nemotron-Labs-TwoTower，致力于解决大模型「一次只蹦一个词」的生成速度瓶颈。以往的文本扩散模型为了追求并行输出，强迫单个网络兼顾单向理解上下文与双向并行纠错，导致模型认知能力大幅衰退。 TwoTower 采用双塔解耦设计：一方面完全冻结预训练好的自回归大模型作为「只读上下文塔」，以保留完整的推理和常识能力；另一方面单独训练一个「去噪写字塔」，在层级别通过交叉注意力读取上下文信息。写字塔采用「置信度去掩码」机制，在预测一个块时，优先写下高置信度词，再逐步填补剩余空白，实现由易到难的并行书写。在 30B 级别的混合架构（Mamba-Transformer MoE）模型上，这一设计仅用基线模型预训练 1/12 的数据量（2.1T 词元）进行适配，便保留了 98.7% 的质量，并将实际生成速度提升 2.42 倍，且没有增加多余的显存缓存开销。由于需要在内存中常驻双塔，模型的静态显存占用有所增加，且在极复杂的代码和数学推理中仍有微幅的精度退化。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

4分钟前

马斯克单日浮亏超1098亿美元，SpaceX估值一日蒸发近1100亿

4分钟前

斯凯孚与手绿的谐波成立合资公司，聚焦人形机器人精密部件

7分钟前

北京君正：由于公司存储芯片持续在涨价预计各季度毛利率会环比有所增长

7分钟前

Meta出租算力类似以旧养新而不是停止追逐高端算力

13分钟前

伊朗军方强硬警告：哈梅内伊国葬期间任何袭击将遭「残酷报复」

14分钟前

辽宁：拓展“人工智能+海洋”应用场景，探索量子技术在海洋科技领域应用

16分钟前

Binance Alpha Box空投活动现已开启，包含ACU和WMTX

19分钟前

标普500「蓄势待发」，市场屏息静候非农

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容