11

06月

星期四

08:29

谷歌开源文本扩散模型DiffusionGemma：单卡超千Token每秒，速度提升4倍

据动察 Beating 监测，谷歌发布实验性开源大模型 DiffusionGemma，采用基于扩散（diffusion）的全新文本生成机制，打破了传统大语言模型逐词顺序生成的限制。DiffusionGemma 拥有 26B 总参数量，在混合专家（MoE）架构下每次前向传播仅激活 3.8B 参数，通过并行生成整块文本，在本地 GPU 推理中实现高达 4 倍的速度提升。与传统的「打字机式」逐词生成不同，DiffusionGemma 的工作原理类似于图像生成，先在画布上生成随机占位符，再通过多轮时间步迭代擦除噪点并锁定正确文本。每次前向传播可并行生成 256 个 Token，使所有 Token 均能实现双向注意力交互。双向注意力机制在代码填充、行内编辑和数学公式生成等非线性生成任务中具有显著优势，但 DiffusionGemma 的整体输出质量目前仍低于标准 Gemma 4。在硬件测试与推理速度表现上，单张 NVIDIA H100 显卡可实现每秒 1000 个以上的 Token 生成速度，消费级 NVIDIA GeForce RTX 5090 显卡也超过 700 个 Token。经过 4-bit 浮点（NVFP4）量化后，推理显存占用可降至 18GB 以内，显著降低了本地部署门槛。 DiffusionGemma 权重已在 Hugging Face 开源，并获得 MLX、vLLM、Unsloth 及 NVIDIA NeMo 等主流开发工具支持。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

2分钟前

Lava Network 签署首个 RWA 授权项目，拟为加勒比海 4 万户住宅设计代币化沙盒

7分钟前

Strategy CEO：出售比特币是为“市场免疫”测试，而非战略撤退

7分钟前

美国多州推进加密 ATM 禁令，诈骗与高额损失推动监管收紧

8分钟前

数据：加密市场普遍下跌，NFT 板块逆势涨近 30%

10分钟前

长春市：打造世界级整车企业集团，支持中国一汽与华为等深化战略合作

12分钟前

WEEX Labs：地缘风险升温，原油走强，贵金属承压下行

14分钟前

Figure 7.17 亿美元收购 AI 房地产贷款平台 Kiavi

22分钟前

摩根大通称5月CPI或已见顶，美联储或在政策上「按兵不动」，但市场仍押注年底加息

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容