

Google在I/O 2026发布Gemini 3.5 Flash模型,强调其速度、成本优势及在Agent场景的适配性,但用户质疑其实际任务中智能不足、定价大幅上涨、token消耗更高,benchmark表现与真实体验存在落差,资本市场反应冷淡,股价回落。
在Google I/O 2026上,Gemini 3.5 Flash拿到了非常靠前的位置:主舞台、默认模型、多条核心产品接入。
按照Google的说法,这是一款为Agent时代准备的Flash模型,速度更快,成本低于Pro,主打代码、工具调用和长任务执行。
它本应该是这场发布会最大的赢家。
但发布之后,社区情绪并不兴奋。早期用户的评价很快分裂成两派:
一派承认它“快得离谱”,另一派则质疑它“快是快,但不够聪明”。
有人写道:"3.5 Flash唯一的强处就是快,也就是能够更快地消耗token,完成同样任务反而比3.1 Pro还贵,真绝了。”
Gemini 3.5 Flash到底是Agent时代的性价比之王,还是又一个benchmark好看、但真实体验打折的鸡肋模型?

如果只看官方数据,Gemini 3.5 Flash几乎是一次完美发布。
在谷歌公布的benchmark表格上,3.5 Flash以83.6%的成绩领跑MCP Atlas,在Toolathlon、Finance Agent v2、CharXiv Reasoning等多项测试中同样排名第一。
对手包括Anthropic的Claude Opus 4.7和OpenAI的GPT-5.5。
更反常识的是,这是一款Flash级别的模型做到的。
通常,Flash意味着以速度换能力,是Pro系列的精简替代。
但这一次,谷歌声称Gemini 3.5 Flash在多项agent、coding和多模态benchmark上,都超过了自家上一代旗舰Gemini 3.1 Pro。
同时,保持Flash系列一贯的速度优势,输出token速度是其他前沿模型的四倍。
价格是另外一张牌。
Gemini 3.5 Flash定价为输入$1.50、输出$9.00每百万token,按标准API单价计算,分别比 Gemini 3.1 Pro低约25%。
叠加90%的缓存折扣后,对于大规模调用Agent的企业用户,成本优势进一步放大。
谷歌甚至算了一笔账:
企业若将80%的工作负载切换至Flash,在每日万亿token的规模下,每年可节省超过十亿美元。
速度、能力、成本,三张牌同时打出,这组数字讲述了一个完美的AI故事。
但benchmark是在实验室里跑出来的。用户要面对的,是真实世界里的任务。
当3.5 Flash离开精心设计的测试环境,交到真实用户手里,这些数字还能撑住吗?
在早期用户的反馈中,速度这件事,几乎没有争议。
有人在Reddit上说,它的速度确实夸张,跑起来像“比GPT-5.5快了一个数量级”;
也有人在X上用Antigravity CLI试了一圈后评价,第一感受就是“insanely fast”。
这类反馈说明,Google至少把Flash名字里的“快”做出来了。
这对于Agent工作流的意义,远比单次对话场景深刻。
Agent不是一次性回答,是多轮规划、调用、执行、修正的闭环。
当模型快到某个临界点,整个工作流的性质会发生质变。一些之前因为延迟太高而根本不可行的任务,就能变得实际可操作。
但速度之外,质疑声接踵而至,主要集中在两个方向。
一是定价。
Reddit上有用户列出了价格变化的轨迹:
Gemini 2.5 Flash的定价是输入$0.30、输出$2.50(每百万token),3.0 Flash涨到输入$0.50、输出$3.00,而3.5 Flash直接跳到了输入$1.50、输出$9.00。
这位用户写道:"我从没见过同级别下一代模型价格涨了三倍。"
另一位用户跟帖:"价格都涨到这里了,它还算Flash吗?"
还有人的解读更为尖锐:"他们大概从来没打算永远维持低价。现在用户已经在他们的API上搭好了服务,是时候慢慢收紧了。"
但这次更值得关注的,是计费逻辑的悄然切换。
早在Gemini 2.5 Pro阶段,谷歌就已经用每日prompt次数,来管理高阶模型的使用量。
真正的变化发生在这次Google I/O 2026大会上,Gemini App从每天能问多少次,变成了每次任务消耗多少算力。

一个简单的文本问题和一次长上下文代码任务,不再被视为同一价格。
这个逻辑切换背后,是Gemini 3.5 Flash的核心定位所决定的。
它是为Agent而生的模型,长链路、多工具调用、持续执行,每一步都在消耗算力。
当模型越来越擅长处理复杂任务,按次计费的模式自然撑不住了。
Google需要一个能跟任务复杂度挂钩的计量单位,这在商业逻辑上完全自洽。
但对用户来说,你越信任它,越把它用在复杂的事情上,你的额度就消耗得越快。
二是质量。
这里的争议更难定论,但也更耐人寻味。
Linux.do社区的对比测试发现,在复杂人文概念的讨论上,3.5 Flash即便开启最高思考模式,深度和细腻度仍明显逊色于上一代3.1 Pro,社区成员形容它在"软技能"场景里"过于机械和生硬"。
Reddit用户的批评则更直接:"完成同样的任务消耗的token比3.1 Pro还多,单任务花的钱反而更多了......coding能力上的进步基本完全没提"。

值得注意的是,这些批评目前还停留在早期印象层面,系统性的独立评测尚未到来。
但它们至少表明,AI模型的评价坐标,已经从benchmark分数,迁移到在真实工作流里的表现。
发布会前,Google已处在高预期中。
有市场报道提到,其股价过去一年涨幅巨大,华尔街多数分析师维持看多.
这意味着Google I/O 2026大会必须给出足够强的增量信号,才能继续支撑估值。
发布会当天,Google开盘后随即冲高,但随着发布会内容逐渐展开,股价开始回落,最终收盘较日内高点下跌约3.5%。
市场等待的,是一个能重新定义竞争格局的旗舰级信号。
但得到的,是一款速度很快的Flash模型,以及真正的旗舰版Gemini 3.5 Pro要到下个月才能发布。
Bank of America发布会前就已预警,若公告内容缺乏实质亮点,股价将面临压力。
这个预警在收盘时得到了验证。
AI军备竞赛走到今天,投资者已经不再为发布会本身鼓掌,他们在等的是商业化兑现的证据。
本文来自微信公众号“世界模型工场”,作者:世界模型工场