

谷歌搜索在AI升级后出现严重拼写与字母计数错误,如无法正确识别‘Google’中字母P的数量,暴露大语言模型固有缺陷:其基于token而非字符处理文本,导致对拼写、字母统计等基础任务能力薄弱;该问题虽属行业共性,但在谷歌搜索这一高信任度场景中引发广泛质疑。
AI 很有用,但也有黑历史,还不少,比如就是算不准 Strawberry 中有多少个 r、知道马嘉祺却说不出他的名字以及还在持续困扰用户的 AI 幻觉问题。
今天,又有新的问题出现了,这一次是谷歌搜索。
有用户发现,近日升级了 AI 能力的谷歌搜索在面对「google 里面有几个 P」这样的简单问题时竟然失败了!

这件事引发广泛关注和测试热潮。我们也简单试了下,就算用汉语提问,谷歌搜索同样错误,而且还自行加戏,导致错上加错 —— 说 Pixel 里面有两个 P。

事实上,还不只是 google 这个词,谷歌搜索在面对很多其它词时也会出现类似的字母计数和拼写问题:


甚至纯汉语的提问也可能遭遇这样的问题:

那么,为什么会出现这样的问题呢?
要理解这次的问题,得先知道谷歌最近做了什么。
今年 5 月的 Google I/O 2026 大会上,谷歌宣布了一次被称为「搜索框 25 年来最大升级」的搜索改版。新版谷歌搜索以重新设计的「智能搜索框」为核心,将 AI Overview 与 AI Mode 整合为统一的搜索流程:用户提问后,AI 直接生成答案并支持追问,传统链接依然保留,但不再是交互的主角。
谷歌搜索负责人 Liz Reid 将其定性为「过去 25 年来搜索框最大的一次升级」。这是谷歌在 OpenAI、Perplexity 等 AI 搜索竞争者的压力下,做出的一次全面押注。
问题也随之而来。数周前,就有用户发现,在谷歌搜索框里输入「disregard(无视)」这个词,AI 不是给出词典解释,而是把这个词当成了指令,回答说:「好的,我已忽略你之前的消息,有什么新问题请告诉我。」谷歌很快修复了这个 bug。

但拼写错误的问题,目前依然存在。
TechCrunch 咨询了谷歌相关人士,得到了一个相当坦诚的回应:「在词内部数字母一直是大语言模型的已知难题,我们正在修复这个特定问题。」
谷歌的回应点出了核心:这不是谷歌一家的问题,而是当前所有 LLM 共同面临的结构性缺陷。
想理解为什么 AI 数不清字母,得先理解 AI 是怎么「读字」的。
我们人类读一个词,是按字母一个一个扫过去的:G-O-O-G-L-E,六个字母。这个过程天然包含了对字符的感知。
但 LLM 不是这样工作的。它处理文字的基本单位不是字母,而是 token—— 可以理解为一种更粗粒度的「语言碎片」。一个 token 可能是一个完整的单词,也可能是半个单词,甚至可能是几个词的组合。
以 OpenAI 的分词器为例,「Strawberry」这个词会被切成三个 token:「Str」「aw」「berry」。对 AI 来说,它接收到的不是 11 个字母,而是 3 个抽象的语言单元。你让它数里面有几个「r」,它必须先「还原」这些 token 里隐藏的字母信息,这一步没有被明确训练过,所以它往往做不好。

「Google」这个词同样如此。在常见的分词方案下,它极有可能被当成一个 token 整体处理,其中的字母组合信息已经被「压缩」进了一个抽象编号。问 AI 里面有几个 P,相当于问一个只背过单词音节的人,那个词里有没有某个字母 —— 他未必知道。

马里兰大学 AI 研究员 Matthew Guzdial 解释说:「当模型看到 the 这个词时,它拿到的是 the 的整体编码,它并不知道里面有 T、H、E。」
LLM 处理的是语言的「意思」,而非文字的「形状」。拼写恰恰属于后者。
「Strawberry 里有几个 r」这道题,早在大模型兴起之初就成了一个测试 AI 的经典梗。几乎所有主流模型,在不加特别提示的情况下,都会答错。
刚刚加入 Anthropic 的 Andrej Karpathy 曾专门写过一个小程序,用 emoji 来可视化 token 的切分方式,让普通人直观感受到「AI 眼中的文字」是什么样的。当你看到「How many letters 'r' in the word'strawberry'?」在模型视角里变成一串被随机切开的色块,就能明白为什么它数不清了。

有意思的是,这个问题并非无解。如果你在提问时加上「请逐步思考」或「请先把每个字母列出来」,模型通常能答对。这说明它具备推理所需的基础信息,只是在没有被要求「认真想」的情况下,会直接给出一个「快速直觉答案」,而这个答案往往是错的。

这种现象和心理学里的「系统一 / 系统二」思维模式颇为相似:人类平时也依赖快速直觉(系统一),只有在被要求时才切换到深思熟虑(系统二)。大模型的默认模式,也是「能省则省」。
Karpathy 给这种 AI 能力分布不均的现象起了个名字:Jagged Intelligence(参差不齐的智能)。一个能在数学奥林匹克竞赛中拿银牌的模型,可能数不清一个单词里有几个字母;一个能写出流畅代码的 AI,可能判断不了两个圆是否重叠。这种反直觉的能力分布,是当前大模型的普遍特征,而非个别缺陷。
更多详情,可参阅机器之心报道《为什么 AI 数不清 Strawberry 里有几个 r?Karpathy:我用表情包给你解释一下》。
同样的底层问题,为什么偏偏在谷歌搜索这里引发了更大的讨论?
原因很简单:场景变了,预期就变了。
在 ChatGPT 或其他 AI 聊天工具里,用户多少有心理预期:这是个 AI,它可能犯错,偶尔答错数字母也情有可原。但谷歌搜索不同。几十年来,它是很多人获取准确信息的默认入口,是「有问必答」的代名词。
当谷歌把 AI 直接嵌入搜索结果页面,并以权威口吻给出「答案」(而非链接),用户的容错预期就大幅降低了。一旦答错,观感会比同样的错误发生在独立 AI 产品上严重得多。
更何况,这次翻车的词不是什么生僻名词,而是「Google」本身。这在传播上的效果,可以说是被完美拿捏了。
事实上,这已经不是 Google AI Overviews 第一次出现离谱错误。2024 年功能刚上线时,它曾将 Reddit 玩笑帖和讽刺内容误当成可靠信息来源,甚至建议用户在披萨里加入胶水、或「每天吃一块小石头」。尽管谷歌随后进行了多轮修复,但近期再次出现把普通词汇误识别为系统指令的问题,也说明大模型在信息检索、上下文理解与指令边界识别上,仍存在较深层的系统性缺陷。

从技术角度看,答案是:难,但有方向,也有代价。
Northeastern 大学研究 LLM 可解释性的博士生 Sheridan Feucht 认为,「token 的边界本身就是模糊的,不可能存在一个完美的分词方案」。这句话点出了问题的核心:如果要从根本上解决字母感知的缺陷,方向之一是抛弃现有的分词机制,改用更细粒度的方式处理文字。
举个例子,Meta AI 研究团队在 2024 年底发布了一种名为 Byte Latent Transformer(BLT)的新架构,直接绕过分词器,让模型从最底层的「字节」开始处理文字 —— 相当于让 AI 真正逐字符「读」一段话,而非靠抽象的语言碎片拼凑语义。在字符级任务的测试中,BLT 的表现远超基于分词的传统模型,在拼写类任务上接近满分,而 LLaMA 3 在同类测试里几乎全军覆没。

BLT 由三个模块组成:一个轻量级 Local Encoder,用于将输入字节编码为分块表示;一个计算开销较大的 Latent Transformer,用于处理分块表示;以及一个轻量级 Local Decoder,用于解码下一个字节分块。BLT 融合了字节 n-gram 嵌入和交叉注意力机制,以最大化潜在变换器与字节级模块之间的信息流动。与固定词表的分词方法不同,BLT 将字节动态分组为分块,从而保留对字节级信息的访问。arXiv: 2412.09871
但这个方案的代价是显而易见的。抛弃分词,意味着序列长度急剧增加。一句话原本被压缩成几十个 token,换成逐字节处理后,序列长度会膨胀数倍乃至十倍。Transformer 的注意力机制计算量随序列长度呈二次方增长 —— 也就是说,序列翻倍,计算量可能翻四倍。这在训练规模上的代价,是任何大型商业模型都需要认真权衡的。
Meta 的 BLT 通过一种「动态分组」策略缓解了这个问题:对于内容可预测、信息密度低的文字片段,模型会自动合并处理,减少无谓的计算;只在遇到复杂、高熵的语言片段时才精细处理。在同等推理成本下,BLT 的扩展效率甚至优于传统 token 模型。但这套架构目前最大的实验规模是 80 亿参数,距离谷歌、OpenAI 等公司动辄数千亿参数的生产级模型,还有相当距离。从零开始用新架构重新训练一个能支撑搜索引擎的大模型,成本可能是数亿乃至数十亿美元量级的事情。
另一个代价更低的方向,是让模型「知道自己不擅长什么」。Karpathy 将其称为「认知自我知识(cognitive self-knowledge)」—— 如果模型能识别出「数字母」是自己的薄弱项,就可以在遇到此类问题时自动调用外部工具(如代码解释器、计算器、搜索)来辅助,而不是直接凭直觉给出错误答案。

举个例子,针对经典的「strawberry 中有多少个 r」的问题,谷歌搜索会检索网络后给出答案,而非让 AI 自己计数(结果中的链接符号)。

Meta 在 Llama 3 的训练中,就专门针对「让模型只回答它知道的问题」做了系统性工程:通过知识探测技术,筛选出模型在多次采样中都能正确作答的问题生成训练数据;对那些模型反复答错的问题,则训练其学会拒绝回答,而非自信地给出错误结论。
相比重建架构,这类训练层面的修补成本要低得多,但它治的是症状不是病根。
当然,补丁式的修复也在同步进行。从谷歌的表态来看,他们正在专门针对「词内字母计数」做优化。只是这类根植于架构的问题,修复周期往往比用户期待的要长得多,还涉及到成本问题。
参考链接
https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/
https://www.bbc.com/news/articles/cd11gzejgz4o
本文来自微信公众号 “机器之心”(ID:almosthuman2014),编辑:Panda