Qwen3.7-Max正式发布:35小时自主写代码1158次,在国产芯片上炼出10倍加速算子
据动察 Beating 监测,阿里通义千问正式发布新一代智能体旗舰基底 Qwen3.7-Max。官方公布的实战数据显示,在完全没有芯片架构文档与性能分析数据的情况下,新模型在一项长达 35 小时、跨越 1158 次工具调用的全自主内核优化任务中,将国产平头哥真武 M890 处理器的 Triton 算子性能强行提升了 10.0 倍。 在优化过程中,模型历经了五个核心演进阶段。它首先通过 Split-K 分区将前缀 KV-cache 沿 token 维度划分以填满 36 个 SM 核心;随后将主机与设备间同步的 cudaMalloc 替换为预分配的 PyTorch 变量,并通过使用 tensor 元数据完全抹去了查询前缀长度时的同步 cudaMemcpy 动作,彻底移除了主机与设备间的通信开销;在最后阶段,模型重构算子以在单个线程块中同时处理全部 4 个 query token,共享加载以分摊访存开销,完成了关键的架构级特化重构。 算子优化实测显示,Qwen3.7-Max 取得 10.0x 几何平均加速比,显著超越 GLM 5.1(7.3x)与 Kimi K2.6(5.0x)。而 DeepSeek V4 Pro 仅为 3.3x 且在后半程因连续五轮未发出任何工具调用而提前主动结束任务。 为了在多变环境里掌握通用的解题策略,Qwen3.7-Max 在训练中将任务、运行框架与验证器进行了解耦,并通过跨框架强化学习训练避免了针对特定基准的捷径过拟合。在通用的智能体基准 MCP-Mark(60.8 分)与 SpreadSheetBench(87.0 分)上,Qwen3.7-Max 展现了极强的泛化性,综合性能表现已紧逼 Claude-4.6-Opus-Max。
「查看原文」本内容旨在传递行业动态,不构成投资建议或承诺。