Google最新模型翻车?用户质疑“快是快,但不够聪明”

世界模型工场
个人专栏
热度: 5270

Google在I/O 2026发布Gemini 3.5 Flash模型,强调其速度、成本优势及在Agent场景的适配性,但用户质疑其实际任务中智能不足、定价大幅上涨、token消耗更高,benchmark表现与真实体验存在落差,资本市场反应冷淡,股价回落。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

在Google I/O 2026上,Gemini 3.5 Flash拿到了非常靠前的位置:主舞台、默认模型、多条核心产品接入。

按照Google的说法,这是一款为Agent时代准备的Flash模型,速度更快,成本低于Pro,主打代码、工具调用和长任务执行。

它本应该是这场发布会最大的赢家。

但发布之后,社区情绪并不兴奋。早期用户的评价很快分裂成两派:

一派承认它“快得离谱”,另一派则质疑它“快是快,但不够聪明”。

有人写道:"3.5 Flash唯一的强处就是快,也就是能够更快地消耗token,完成同样任务反而比3.1 Pro还贵,真绝了。”

Gemini 3.5 Flash到底是Agent时代的性价比之王,还是又一个benchmark好看、但真实体验打折的鸡肋模型?

Google

无懈可击的benchmark

如果只看官方数据,Gemini 3.5 Flash几乎是一次完美发布。

在谷歌公布的benchmark表格上,3.5 Flash以83.6%的成绩领跑MCP Atlas,在Toolathlon、Finance Agent v2、CharXiv Reasoning等多项测试中同样排名第一。

对手包括Anthropic的Claude Opus 4.7和OpenAI的GPT-5.5。

更反常识的是,这是一款Flash级别的模型做到的。

通常,Flash意味着以速度换能力,是Pro系列的精简替代。

但这一次,谷歌声称Gemini 3.5 Flash在多项agent、coding和多模态benchmark上,都超过了自家上一代旗舰Gemini 3.1 Pro。

同时,保持Flash系列一贯的速度优势,输出token速度是其他前沿模型的四倍。

价格是另外一张牌。

Gemini 3.5 Flash定价为输入$1.50、输出$9.00每百万token,按标准API单价计算,分别比 Gemini 3.1 Pro低约25%。

叠加90%的缓存折扣后,对于大规模调用Agent的企业用户,成本优势进一步放大。

谷歌甚至算了一笔账:

企业若将80%的工作负载切换至Flash,在每日万亿token的规模下,每年可节省超过十亿美元。

速度、能力、成本,三张牌同时打出,这组数字讲述了一个完美的AI故事。

但benchmark是在实验室里跑出来的。用户要面对的,是真实世界里的任务。

当3.5 Flash离开精心设计的测试环境,交到真实用户手里,这些数字还能撑住吗?

尖锐的用户反馈

在早期用户的反馈中,速度这件事,几乎没有争议。

有人在Reddit上说,它的速度确实夸张,跑起来像“比GPT-5.5快了一个数量级”;

也有人在X上用Antigravity CLI试了一圈后评价,第一感受就是“insanely fast”。

这类反馈说明,Google至少把Flash名字里的“快”做出来了。

这对于Agent工作流的意义,远比单次对话场景深刻。

Agent不是一次性回答,是多轮规划、调用、执行、修正的闭环。

当模型快到某个临界点,整个工作流的性质会发生质变。一些之前因为延迟太高而根本不可行的任务,就能变得实际可操作。

但速度之外,质疑声接踵而至,主要集中在两个方向。

一是定价。

Reddit上有用户列出了价格变化的轨迹:

Gemini 2.5 Flash的定价是输入$0.30、输出$2.50(每百万token),3.0 Flash涨到输入$0.50、输出$3.00,而3.5 Flash直接跳到了输入$1.50、输出$9.00。

这位用户写道:"我从没见过同级别下一代模型价格涨了三倍。"

另一位用户跟帖:"价格都涨到这里了,它还算Flash吗?"

还有人的解读更为尖锐:"他们大概从来没打算永远维持低价。现在用户已经在他们的API上搭好了服务,是时候慢慢收紧了。"

但这次更值得关注的,是计费逻辑的悄然切换。

早在Gemini 2.5 Pro阶段,谷歌就已经用每日prompt次数,来管理高阶模型的使用量。

真正的变化发生在这次Google I/O 2026大会上,Gemini App从每天能问多少次,变成了每次任务消耗多少算力。

Google

一个简单的文本问题和一次长上下文代码任务,不再被视为同一价格。

这个逻辑切换背后,是Gemini 3.5 Flash的核心定位所决定的。

它是为Agent而生的模型,长链路、多工具调用、持续执行,每一步都在消耗算力。

当模型越来越擅长处理复杂任务,按次计费的模式自然撑不住了。

Google需要一个能跟任务复杂度挂钩的计量单位,这在商业逻辑上完全自洽。

但对用户来说,你越信任它,越把它用在复杂的事情上,你的额度就消耗得越快。

二是质量。

这里的争议更难定论,但也更耐人寻味。

Linux.do社区的对比测试发现,在复杂人文概念的讨论上,3.5 Flash即便开启最高思考模式,深度和细腻度仍明显逊色于上一代3.1 Pro,社区成员形容它在"软技能"场景里"过于机械和生硬"。

Reddit用户的批评则更直接:"完成同样的任务消耗的token比3.1 Pro还多,单任务花的钱反而更多了......coding能力上的进步基本完全没提"。

Google

值得注意的是,这些批评目前还停留在早期印象层面,系统性的独立评测尚未到来。

但它们至少表明,AI模型的评价坐标,已经从benchmark分数,迁移到在真实工作流里的表现。

冷静的资本市场

发布会前,Google已处在高预期中。

有市场报道提到,其股价过去一年涨幅巨大,华尔街多数分析师维持看多.

这意味着Google I/O 2026大会必须给出足够强的增量信号,才能继续支撑估值。

发布会当天,Google开盘后随即冲高,但随着发布会内容逐渐展开,股价开始回落,最终收盘较日内高点下跌约3.5%。

市场等待的,是一个能重新定义竞争格局的旗舰级信号。

但得到的,是一款速度很快的Flash模型,以及真正的旗舰版Gemini 3.5 Pro要到下个月才能发布。

Bank of America发布会前就已预警,若公告内容缺乏实质亮点,股价将面临压力。

这个预警在收盘时得到了验证。

AI军备竞赛走到今天,投资者已经不再为发布会本身鼓掌,他们在等的是商业化兑现的证据。

本文来自微信公众号“世界模型工场”,作者:世界模型工场

声明:本文为入驻“火星财经 专栏”作者作品,不代表火星财经官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。