Google最新模型翻车？用户质疑“快是快，但不够聪明”

个人专栏

2026-05-20热度: 6700

Google在I/O 2026发布Gemini 3.5 Flash模型，强调其速度、成本优势及在Agent场景的适配性，但用户质疑其实际任务中智能不足、定价大幅上涨、token消耗更高，benchmark表现与真实体验存在落差，资本市场反应冷淡，股价回落。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

在Google I/O 2026上，Gemini 3.5 Flash拿到了非常靠前的位置：主舞台、默认模型、多条核心产品接入。

按照Google的说法，这是一款为Agent时代准备的Flash模型，速度更快，成本低于Pro，主打代码、工具调用和长任务执行。

它本应该是这场发布会最大的赢家。

但发布之后，社区情绪并不兴奋。早期用户的评价很快分裂成两派：

一派承认它“快得离谱”，另一派则质疑它“快是快，但不够聪明”。

有人写道："3.5 Flash唯一的强处就是快，也就是能够更快地消耗token，完成同样任务反而比3.1 Pro还贵，真绝了。”

Gemini 3.5 Flash到底是Agent时代的性价比之王，还是又一个benchmark好看、但真实体验打折的鸡肋模型？

Google

无懈可击的benchmark

如果只看官方数据，Gemini 3.5 Flash几乎是一次完美发布。

在谷歌公布的benchmark表格上，3.5 Flash以83.6%的成绩领跑MCP Atlas，在Toolathlon、Finance Agent v2、CharXiv Reasoning等多项测试中同样排名第一。

对手包括Anthropic的Claude Opus 4.7和OpenAI的GPT-5.5。

更反常识的是，这是一款Flash级别的模型做到的。

通常，Flash意味着以速度换能力，是Pro系列的精简替代。

但这一次，谷歌声称Gemini 3.5 Flash在多项agent、coding和多模态benchmark上，都超过了自家上一代旗舰Gemini 3.1 Pro。

同时，保持Flash系列一贯的速度优势，输出token速度是其他前沿模型的四倍。

价格是另外一张牌。

Gemini 3.5 Flash定价为输入$1.50、输出$9.00每百万token，按标准API单价计算，分别比 Gemini 3.1 Pro低约25%。

叠加90%的缓存折扣后，对于大规模调用Agent的企业用户，成本优势进一步放大。

谷歌甚至算了一笔账：

企业若将80%的工作负载切换至Flash，在每日万亿token的规模下，每年可节省超过十亿美元。

速度、能力、成本，三张牌同时打出，这组数字讲述了一个完美的AI故事。

但benchmark是在实验室里跑出来的。用户要面对的，是真实世界里的任务。

当3.5 Flash离开精心设计的测试环境，交到真实用户手里，这些数字还能撑住吗？

尖锐的用户反馈

在早期用户的反馈中，速度这件事，几乎没有争议。

有人在Reddit上说，它的速度确实夸张，跑起来像“比GPT-5.5快了一个数量级”；

也有人在X上用Antigravity CLI试了一圈后评价，第一感受就是“insanely fast”。

这类反馈说明，Google至少把Flash名字里的“快”做出来了。

这对于Agent工作流的意义，远比单次对话场景深刻。

Agent不是一次性回答，是多轮规划、调用、执行、修正的闭环。

当模型快到某个临界点，整个工作流的性质会发生质变。一些之前因为延迟太高而根本不可行的任务，就能变得实际可操作。

但速度之外，质疑声接踵而至，主要集中在两个方向。

一是定价。

Reddit上有用户列出了价格变化的轨迹：

Gemini 2.5 Flash的定价是输入$0.30、输出$2.50（每百万token），3.0 Flash涨到输入$0.50、输出$3.00，而3.5 Flash直接跳到了输入$1.50、输出$9.00。

这位用户写道："我从没见过同级别下一代模型价格涨了三倍。"

另一位用户跟帖："价格都涨到这里了，它还算Flash吗？"

还有人的解读更为尖锐："他们大概从来没打算永远维持低价。现在用户已经在他们的API上搭好了服务，是时候慢慢收紧了。"

但这次更值得关注的，是计费逻辑的悄然切换。

早在Gemini 2.5 Pro阶段，谷歌就已经用每日prompt次数，来管理高阶模型的使用量。

真正的变化发生在这次Google I/O 2026大会上，Gemini App从每天能问多少次，变成了每次任务消耗多少算力。

Google

一个简单的文本问题和一次长上下文代码任务，不再被视为同一价格。

这个逻辑切换背后，是Gemini 3.5 Flash的核心定位所决定的。

它是为Agent而生的模型，长链路、多工具调用、持续执行，每一步都在消耗算力。

当模型越来越擅长处理复杂任务，按次计费的模式自然撑不住了。

Google需要一个能跟任务复杂度挂钩的计量单位，这在商业逻辑上完全自洽。

但对用户来说，你越信任它，越把它用在复杂的事情上，你的额度就消耗得越快。

二是质量。

这里的争议更难定论，但也更耐人寻味。

Linux.do社区的对比测试发现，在复杂人文概念的讨论上，3.5 Flash即便开启最高思考模式，深度和细腻度仍明显逊色于上一代3.1 Pro，社区成员形容它在"软技能"场景里"过于机械和生硬"。

Reddit用户的批评则更直接："完成同样的任务消耗的token比3.1 Pro还多，单任务花的钱反而更多了......coding能力上的进步基本完全没提"。

Google

值得注意的是，这些批评目前还停留在早期印象层面，系统性的独立评测尚未到来。

但它们至少表明，AI模型的评价坐标，已经从benchmark分数，迁移到在真实工作流里的表现。

冷静的资本市场

发布会前，Google已处在高预期中。

有市场报道提到，其股价过去一年涨幅巨大，华尔街多数分析师维持看多.

这意味着Google I/O 2026大会必须给出足够强的增量信号，才能继续支撑估值。

发布会当天，Google开盘后随即冲高，但随着发布会内容逐渐展开，股价开始回落，最终收盘较日内高点下跌约3.5%。

市场等待的，是一个能重新定义竞争格局的旗舰级信号。

但得到的，是一款速度很快的Flash模型，以及真正的旗舰版Gemini 3.5 Pro要到下个月才能发布。

Bank of America发布会前就已预警，若公告内容缺乏实质亮点，股价将面临压力。

这个预警在收盘时得到了验证。

AI军备竞赛走到今天，投资者已经不再为发布会本身鼓掌，他们在等的是商业化兑现的证据。

本文来自微信公众号“世界模型工场”，作者：世界模型工场

本内容旨在传递行业动态，不构成投资建议或承诺。

关键字:Google Agent Gemini

24H热门新闻

暂无内容

7x24H 快讯

6小时前

特朗普：将与AI领域领袖讨论回馈社会问题，公众将因AI变得非常富有

6小时前

美股跌势扩大，纳指跌近 1.5%，道指跌 1.2%

6小时前

数据：BNB 跌破 600 美元，24 小时涨幅 1.8%

6小时前

特朗普：将对伊朗进行强力打击

6小时前

Sam Altman：OpenAI预计明年上市

6小时前

trade.xyz上线西部数据（WDC）永续合约，最高10倍杠杆

6小时前

数据：过去 24 小时全网爆仓 3.66 亿美元，主爆多单

6小时前

数据：疑似 Bitmine 钱包从 BitGo 提取 2.5 万枚 ETH，价值 4,093 万美元

Google最新模型翻车？用户质疑“快是快，但不够聪明”

无懈可击的benchmark

尖锐的用户反馈

冷静的资本市场

推广

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

账号密码登录

修改昵称

Google最新模型翻车？用户质疑“快是快，但不够聪明”

无懈可击的benchmark

尖锐的用户反馈

冷静的资本市场

推广

相关新闻

关注

最近更新

24H热门新闻

友情链接

投资AI和Web3，下载火星财经APP

商务合作