谷歌AI不认识Google

个人专栏

2026-05-28热度: 5483

谷歌搜索在AI升级后出现严重拼写与字母计数错误，如无法正确识别‘Google’中字母P的数量，暴露大语言模型固有缺陷：其基于token而非字符处理文本，导致对拼写、字母统计等基础任务能力薄弱；该问题虽属行业共性，但在谷歌搜索这一高信任度场景中引发广泛质疑。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

AI 很有用，但也有黑历史，还不少，比如就是算不准 Strawberry 中有多少个 r、知道马嘉祺却说不出他的名字以及还在持续困扰用户的 AI 幻觉问题。

今天，又有新的问题出现了，这一次是谷歌搜索。

有用户发现，近日升级了 AI 能力的谷歌搜索在面对「google 里面有几个 P」这样的简单问题时竟然失败了！

谷歌搜索

这件事引发广泛关注和测试热潮。我们也简单试了下，就算用汉语提问，谷歌搜索同样错误，而且还自行加戏，导致错上加错 —— 说 Pixel 里面有两个 P。

谷歌搜索

事实上，还不只是 google 这个词，谷歌搜索在面对很多其它词时也会出现类似的字母计数和拼写问题：

谷歌搜索

甚至纯汉语的提问也可能遭遇这样的问题：

谷歌搜索

那么，为什么会出现这样的问题呢？

谷歌把搜索引擎 AI 化了

要理解这次的问题，得先知道谷歌最近做了什么。

今年 5 月的 Google I/O 2026 大会上，谷歌宣布了一次被称为「搜索框 25 年来最大升级」的搜索改版。新版谷歌搜索以重新设计的「智能搜索框」为核心，将 AI Overview 与 AI Mode 整合为统一的搜索流程：用户提问后，AI 直接生成答案并支持追问，传统链接依然保留，但不再是交互的主角。

谷歌搜索负责人 Liz Reid 将其定性为「过去 25 年来搜索框最大的一次升级」。这是谷歌在 OpenAI、Perplexity 等 AI 搜索竞争者的压力下，做出的一次全面押注。

问题也随之而来。数周前，就有用户发现，在谷歌搜索框里输入「disregard（无视）」这个词，AI 不是给出词典解释，而是把这个词当成了指令，回答说：「好的，我已忽略你之前的消息，有什么新问题请告诉我。」谷歌很快修复了这个 bug。

谷歌搜索

但拼写错误的问题，目前依然存在。

TechCrunch 咨询了谷歌相关人士，得到了一个相当坦诚的回应：「在词内部数字母一直是大语言模型的已知难题，我们正在修复这个特定问题。」

真正的原因：AI 其实「看」不见字母

谷歌的回应点出了核心：这不是谷歌一家的问题，而是当前所有 LLM 共同面临的结构性缺陷。

想理解为什么 AI 数不清字母，得先理解 AI 是怎么「读字」的。

我们人类读一个词，是按字母一个一个扫过去的：G-O-O-G-L-E，六个字母。这个过程天然包含了对字符的感知。

但 LLM 不是这样工作的。它处理文字的基本单位不是字母，而是 token—— 可以理解为一种更粗粒度的「语言碎片」。一个 token 可能是一个完整的单词，也可能是半个单词，甚至可能是几个词的组合。

以 OpenAI 的分词器为例，「Strawberry」这个词会被切成三个 token：「Str」「aw」「berry」。对 AI 来说，它接收到的不是 11 个字母，而是 3 个抽象的语言单元。你让它数里面有几个「r」，它必须先「还原」这些 token 里隐藏的字母信息，这一步没有被明确训练过，所以它往往做不好。

谷歌搜索

「Google」这个词同样如此。在常见的分词方案下，它极有可能被当成一个 token 整体处理，其中的字母组合信息已经被「压缩」进了一个抽象编号。问 AI 里面有几个 P，相当于问一个只背过单词音节的人，那个词里有没有某个字母 —— 他未必知道。

谷歌搜索

马里兰大学 AI 研究员 Matthew Guzdial 解释说：「当模型看到 the 这个词时，它拿到的是 the 的整体编码，它并不知道里面有 T、H、E。」

LLM 处理的是语言的「意思」，而非文字的「形状」。拼写恰恰属于后者。

老问题了

「Strawberry 里有几个 r」这道题，早在大模型兴起之初就成了一个测试 AI 的经典梗。几乎所有主流模型，在不加特别提示的情况下，都会答错。

刚刚加入 Anthropic 的 Andrej Karpathy 曾专门写过一个小程序，用 emoji 来可视化 token 的切分方式，让普通人直观感受到「AI 眼中的文字」是什么样的。当你看到「How many letters 'r' in the word'strawberry'?」在模型视角里变成一串被随机切开的色块，就能明白为什么它数不清了。

谷歌搜索

有意思的是，这个问题并非无解。如果你在提问时加上「请逐步思考」或「请先把每个字母列出来」，模型通常能答对。这说明它具备推理所需的基础信息，只是在没有被要求「认真想」的情况下，会直接给出一个「快速直觉答案」，而这个答案往往是错的。

谷歌搜索

这种现象和心理学里的「系统一 / 系统二」思维模式颇为相似：人类平时也依赖快速直觉（系统一），只有在被要求时才切换到深思熟虑（系统二）。大模型的默认模式，也是「能省则省」。

Karpathy 给这种 AI 能力分布不均的现象起了个名字：Jagged Intelligence（参差不齐的智能）。一个能在数学奥林匹克竞赛中拿银牌的模型，可能数不清一个单词里有几个字母；一个能写出流畅代码的 AI，可能判断不了两个圆是否重叠。这种反直觉的能力分布，是当前大模型的普遍特征，而非个别缺陷。

更多详情，可参阅机器之心报道《为什么 AI 数不清 Strawberry 里有几个 r？Karpathy：我用表情包给你解释一下》。

为什么这次在谷歌身上特别扎眼？

同样的底层问题，为什么偏偏在谷歌搜索这里引发了更大的讨论？

原因很简单：场景变了，预期就变了。

在 ChatGPT 或其他 AI 聊天工具里，用户多少有心理预期：这是个 AI，它可能犯错，偶尔答错数字母也情有可原。但谷歌搜索不同。几十年来，它是很多人获取准确信息的默认入口，是「有问必答」的代名词。

当谷歌把 AI 直接嵌入搜索结果页面，并以权威口吻给出「答案」（而非链接），用户的容错预期就大幅降低了。一旦答错，观感会比同样的错误发生在独立 AI 产品上严重得多。

更何况，这次翻车的词不是什么生僻名词，而是「Google」本身。这在传播上的效果，可以说是被完美拿捏了。

事实上，这已经不是 Google AI Overviews 第一次出现离谱错误。2024 年功能刚上线时，它曾将 Reddit 玩笑帖和讽刺内容误当成可靠信息来源，甚至建议用户在披萨里加入胶水、或「每天吃一块小石头」。尽管谷歌随后进行了多轮修复，但近期再次出现把普通词汇误识别为系统指令的问题，也说明大模型在信息检索、上下文理解与指令边界识别上，仍存在较深层的系统性缺陷。

谷歌搜索

能治吗？

从技术角度看，答案是：难，但有方向，也有代价。

Northeastern 大学研究 LLM 可解释性的博士生 Sheridan Feucht 认为，「token 的边界本身就是模糊的，不可能存在一个完美的分词方案」。这句话点出了问题的核心：如果要从根本上解决字母感知的缺陷，方向之一是抛弃现有的分词机制，改用更细粒度的方式处理文字。

举个例子，Meta AI 研究团队在 2024 年底发布了一种名为 Byte Latent Transformer（BLT）的新架构，直接绕过分词器，让模型从最底层的「字节」开始处理文字 —— 相当于让 AI 真正逐字符「读」一段话，而非靠抽象的语言碎片拼凑语义。在字符级任务的测试中，BLT 的表现远超基于分词的传统模型，在拼写类任务上接近满分，而 LLaMA 3 在同类测试里几乎全军覆没。

谷歌搜索

BLT 由三个模块组成：一个轻量级 Local Encoder，用于将输入字节编码为分块表示；一个计算开销较大的 Latent Transformer，用于处理分块表示；以及一个轻量级 Local Decoder，用于解码下一个字节分块。BLT 融合了字节 n-gram 嵌入和交叉注意力机制，以最大化潜在变换器与字节级模块之间的信息流动。与固定词表的分词方法不同，BLT 将字节动态分组为分块，从而保留对字节级信息的访问。arXiv: 2412.09871

但这个方案的代价是显而易见的。抛弃分词，意味着序列长度急剧增加。一句话原本被压缩成几十个 token，换成逐字节处理后，序列长度会膨胀数倍乃至十倍。Transformer 的注意力机制计算量随序列长度呈二次方增长 —— 也就是说，序列翻倍，计算量可能翻四倍。这在训练规模上的代价，是任何大型商业模型都需要认真权衡的。

Meta 的 BLT 通过一种「动态分组」策略缓解了这个问题：对于内容可预测、信息密度低的文字片段，模型会自动合并处理，减少无谓的计算；只在遇到复杂、高熵的语言片段时才精细处理。在同等推理成本下，BLT 的扩展效率甚至优于传统 token 模型。但这套架构目前最大的实验规模是 80 亿参数，距离谷歌、OpenAI 等公司动辄数千亿参数的生产级模型，还有相当距离。从零开始用新架构重新训练一个能支撑搜索引擎的大模型，成本可能是数亿乃至数十亿美元量级的事情。

另一个代价更低的方向，是让模型「知道自己不擅长什么」。Karpathy 将其称为「认知自我知识（cognitive self-knowledge）」—— 如果模型能识别出「数字母」是自己的薄弱项，就可以在遇到此类问题时自动调用外部工具（如代码解释器、计算器、搜索）来辅助，而不是直接凭直觉给出错误答案。

谷歌搜索