02

07

星期四

16:54

让大模型「分工读写」:英伟达双塔架构TwoTower并联两座30B模型,无损换取2.4倍提速

据动察 Beating 监测,英伟达开源离散文本扩散架构 Nemotron-Labs-TwoTower,致力于解决大模型「一次只蹦一个词」的生成速度瓶颈。以往的文本扩散模型为了追求并行输出,强迫单个网络兼顾单向理解上下文与双向并行纠错,导致模型认知能力大幅衰退。 TwoTower 采用双塔解耦设计:一方面完全冻结预训练好的自回归大模型作为「只读上下文塔」,以保留完整的推理和常识能力;另一方面单独训练一个「去噪写字塔」,在层级别通过交叉注意力读取上下文信息。 写字塔采用「置信度去掩码」机制,在预测一个块时,优先写下高置信度词,再逐步填补剩余空白,实现由易到难的并行书写。在 30B 级别的混合架构(Mamba-Transformer MoE)模型上,这一设计仅用基线模型预训练 1/12 的数据量(2.1T 词元)进行适配,便保留了 98.7% 的质量,并将实际生成速度提升 2.42 倍,且没有增加多余的显存缓存开销。由于需要在内存中常驻双塔,模型的静态显存占用有所增加,且在极复杂的代码和数学推理中仍有微幅的精度退化。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。