11

06

星期四

08:29

谷歌开源文本扩散模型DiffusionGemma:单卡超千Token每秒,速度提升4倍

据动察 Beating 监测,谷歌发布实验性开源大模型 DiffusionGemma,采用基于扩散(diffusion)的全新文本生成机制,打破了传统大语言模型逐词顺序生成的限制。DiffusionGemma 拥有 26B 总参数量,在混合专家(MoE)架构下每次前向传播仅激活 3.8B 参数,通过并行生成整块文本,在本地 GPU 推理中实现高达 4 倍的速度提升。 与传统的「打字机式」逐词生成不同,DiffusionGemma 的工作原理类似于图像生成,先在画布上生成随机占位符,再通过多轮时间步迭代擦除噪点并锁定正确文本。每次前向传播可并行生成 256 个 Token,使所有 Token 均能实现双向注意力交互。双向注意力机制在代码填充、行内编辑和数学公式生成等非线性生成任务中具有显著优势,但 DiffusionGemma 的整体输出质量目前仍低于标准 Gemma 4。 在硬件测试与推理速度表现上,单张 NVIDIA H100 显卡可实现每秒 1000 个以上的 Token 生成速度,消费级 NVIDIA GeForce RTX 5090 显卡也超过 700 个 Token。经过 4-bit 浮点(NVFP4)量化后,推理显存占用可降至 18GB 以内,显著降低了本地部署门槛。 DiffusionGemma 权重已在 Hugging Face 开源,并获得 MLX、vLLM、Unsloth 及 NVIDIA NeMo 等主流开发工具支持。

「查看原文」

本内容旨在传递行业动态,不构成投资建议或承诺。