阿里Qwen3.7-Max上线自动隐式缓存,最高减免80%输入成本
据动察 Beating 监测,阿里 Qwen 团队宣布在阿里云百炼平台为旗下旗舰模型 Qwen3.7-Max 默认开启自动隐式缓存。开发者无需修改代码或额外指定参数,即可直接享用缓存降本。 在全新的计费机制下,系统会自动识别并提取请求中的重复上下文前缀。一旦发生缓存命中,命中部分的输入 token 费用仅按原单价的 20% 收取,直接免去八成输入成本。 隐式缓存直接针对长文本与 Agent 智能体场景下的巨额开销。拥有 100 万 tokens 长上下文窗口的 Qwen3.7-Max 在运行自主编码等高阶任务时,需要高频、重复读取庞大的代码库或知识文档。一名开发者测试 Qwen3.7 后反馈,仅花不到一小时构建坦克大战网页 demo,就消耗了接近 100 万 tokens。如果放手让智能体在后台自主执行代码审查与循环迭代,单日用量能轻松冲上数亿 tokens。 同行在缓存定价上的内卷,是促成阿里降价的另一个直接诱因。此前,DeepSeek V4-Pro 凭借极低的缓存命中价格吸引了大量开发者。在五月底宣布转为永久降价后,DeepSeek V4-Pro 的缓存命中计费被压到了每百万 tokens 仅 0.003625 美元(约合人民币 0.025 元),相当于在标准输入价格基础上直接免去 99.17% 的成本。大量开发者配合 Reasonix 等专属工具,将单次会话的缓存命中率最高推至 99% 这一极限,使得长会话智能体的运行账单几近为零。 面对竞争压力,Qwen3.7-Max 不仅上线了无需任何配置的隐式缓存,还保留了需要手动声明 cache_control 标识的显式缓存模式。相比于自动缓存,显式缓存的命中确定性更高,命中费用低至标准输入单价的 10%(一折),但首次创建缓存时需支付 125% 的溢价,且缓存块仅有 5 分钟的生命周期(每次发生命中可重新计时)。
「查看原文」本内容旨在传递行业动态,不构成投资建议或承诺。