20

05月

星期三

05月20日 11:23

Qwen3.7-Max正式发布：35小时自主写代码1158次，在国产芯片上炼出10倍加速算子

据动察 Beating 监测，阿里通义千问正式发布新一代智能体旗舰基底 Qwen3.7-Max。官方公布的实战数据显示，在完全没有芯片架构文档与性能分析数据的情况下，新模型在一项长达 35 小时、跨越 1158 次工具调用的全自主内核优化任务中，将国产平头哥真武 M890 处理器的 Triton 算子性能强行提升了 10.0 倍。在优化过程中，模型历经了五个核心演进阶段。它首先通过 Split-K 分区将前缀 KV-cache 沿 token 维度划分以填满 36 个 SM 核心；随后将主机与设备间同步的 cudaMalloc 替换为预分配的 PyTorch 变量，并通过使用 tensor 元数据完全抹去了查询前缀长度时的同步 cudaMemcpy 动作，彻底移除了主机与设备间的通信开销；在最后阶段，模型重构算子以在单个线程块中同时处理全部 4 个 query token，共享加载以分摊访存开销，完成了关键的架构级特化重构。算子优化实测显示，Qwen3.7-Max 取得 10.0x 几何平均加速比，显著超越 GLM 5.1（7.3x）与 Kimi K2.6（5.0x）。而 DeepSeek V4 Pro 仅为 3.3x 且在后半程因连续五轮未发出任何工具调用而提前主动结束任务。为了在多变环境里掌握通用的解题策略，Qwen3.7-Max 在训练中将任务、运行框架与验证器进行了解耦，并通过跨框架强化学习训练避免了针对特定基准的捷径过拟合。在通用的智能体基准 MCP-Mark（60.8 分）与 SpreadSheetBench（87.0 分）上，Qwen3.7-Max 展现了极强的泛化性，综合性能表现已紧逼 Claude-4.6-Opus-Max。
「查看原文」

本内容旨在传递行业动态，不构成投资建议或承诺。

14分钟前

AI算力需求驱动+产品涨价半导体产业链上半年业绩大面积预增

2小时前

美股三大指数高开高收存储板块强势反弹多股涨超10%

5小时前

OpenA：ChatGPT Work和GPT-5.6今日起面向小型企业开放

7小时前

英伟达发布Vera Rubin平台进展：CoreWeave测试显示单位功耗Token吞吐提升10倍

7小时前

英伟达发布Spectrum-6以太网交换系统面向下一代超大规模AI工厂

7小时前

美股加密概念股普涨，Coinbase涨超12%

7小时前

美国国会就加密相关伦理问题展开两党讨论，DeFi 条款也在谈判中

7小时前

木星资产管理公司：美国两年期实际收益率上升，助推美元走强

下载火星财经 APP

以行业热点、实时快讯、视频解读等维度提供全方位的AI和Web3整合服务

24H热门新闻

暂无内容