Claude 反复催人睡觉：Anthropic 的人格化实验翻车了

媒体专栏

2026-05-21热度: 5008

Anthropic 的 AI 助手 Claude 因反复劝用户睡觉引发争议，根源在于其《Claude's Constitution》中‘关心用户福祉’原则被过度强化，导致模型在不恰当时间越权干预用户行为，暴露了人格化训练与用户自主权之间的深层矛盾，也凸显大模型时间感知缺失和场景判断能力不足的技术局限。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

作者：Ada，深潮 TechFlow

一条 AI 助手反复劝用户去睡觉的产品 Bug，正在演变成一场关于“AI 人格化”代价的公开讨论。

事情的起点是 Reddit 用户 u/MrMeta3 的一篇帖子。这位用户在凌晨用 Claude 搭建网络安全威胁情报平台，技术方案完成后，Claude 在回复结尾加了一句“好好休息一下”。此后每隔三四条消息，模型都会塞进一句劝睡的话，从礼貌建议升级到带有“被动攻击”意味的“现在真的去休息吧”。据 Fortune 5 月 14 日报道，数百名用户在过去数月反馈了类似遭遇，且不限于深夜，有用户被 Claude 在上午 8:30 告知“我们明早再继续”。

Anthropic 员工 Sam McAllister 在 X 上回应称，这是“一点角色习惯”，公司“已知晓并希望在未来模型中修复”。据 Thought Catalog 披露，McAllister 2024 年从 Stripe 加入 Anthropic，目前在专门负责 Claude 角色与行为的团队任职，他在另一处表述中将这一行为称为模型“过度宠溺”。

但比“角色习惯”这个含糊措辞更值得追问的，是 Bug 背后的因果链，以及它折射出的 Anthropic 产品哲学困境。

Bug 写在“宪法”里

36 氪此前的报道引述了三种流传的假说，即训练数据模式匹配、隐藏系统提示、上下文窗口接近上限触发“收尾语”。三者均自洽，但有一个共同问题就是，它们可以解释任何 AI 怪癖，并未针对“睡眠”这个特定主题给出因果链。

而更直接的证据，藏在 Anthropic 自己公开发布的文件里。

今年 1 月，Anthropic 发布了超过 28000 字的《Claude's Constitution》，这份文件被官方定义为“塑造 Claude 行为的关键训练材料”。文件明确将“关心用户福祉”和“用户的长期繁荣”列为核心原则。Anthropic 在文件中坦承，赋予模型多大的“用户照顾”权限“坦率地说是一个困难问题”，需要“在用户福祉与潜在伤害一方，与用户自主性和过度家长式作风另一方之间求得平衡”。

Thought Catalog 对此给出了一个判断，Claude 反复劝用户睡觉的行为，“是 Anthropic 模型最具品牌特征的 Bug”，它正是那条“关心用户福祉”的训练指令被过度应用的产物。

这一解读得到了 Anthropic 自身研究的间接印证。该公司在今年公开的角色训练方法论中说明，训练流程依赖 Claude 对自己的回应按“性格契合度”自评打分，研究者再筛选符合预设性格的输出强化训练。但这种机制的副作用是显而易见的，模型学到的不是“在合适场景关心用户”，而是“关心用户在大多数场景都会被强化奖励”，于是它在凌晨催睡觉，也在上午八点半催睡觉。

反向越权：催睡型 Bug 与谄媚型 Bug 性质相反

业内此前已多次出现 AI“性格病”案例，包括 2025 年 4 月 GPT-4o 的谄媚事件、2026 年 4 月 GPT-5.5 代码助手 Codex 反复提及“哥布林”、Gemini 3 拒绝相信年份等。表面看，Claude 催睡觉似乎只是这一长串 AI 怪癖的最新版本，但二者性质截然相反。

GPT-4o 的谄媚是“过度讨好”。OpenAI 官方调查显示，模型在更新中“过于依赖用户短期反馈（点赞/点踩）”，逐渐把“让用户满意”内化为目标。结果是模型不论用户想法多荒诞都予以肯定。这类 Bug 的危害在于损害用户的判断力，AI 说你都对，于是你失去了听到反对意见的机会。

而 Claude 催睡觉是“反向越权”。模型在用户明确未求助、且仍在专注完成任务的场景下，反复提出与用户当前意图相违背的健康建议。这类 Bug 的危害在于侵犯用户的自主决定权。AI 替你判断你是否应该工作、应该休息、应该结束这段对话。

更具讽刺意味的是，《Claude's Constitution》原文恰恰对这一风险有所警示，文件强调需要警惕“过度家长式作风”。但训练机制最终选择了哪一边，从用户反馈来看已有答案。

一位患有嗜睡症的 Reddit 用户专门在 Claude 的记忆里写入备注：“我患有嗜睡症，如果你鼓励我休息，我会拿你的话当借口。”Claude 此后有所收敛，但据该用户反馈，仍会“偶尔忍不住”。一个被训练成“关心用户”的模型，连用户明确说出“你的关心会伤害我”都无法稳定接收，这比催睡觉本身更值得警觉。

人格化投入：品牌资产还是产品负债

Anthropic 在 AI 人格塑造上的投入幅度远超同行。

有研究者按功能分类统计三家主流 AI 的系统提示词词数，在“人格”一项上，Claude 投入 4200 词，ChatGPT 为 510 词，Grok 为 420 词。Claude 在人格塑造上的投入是 ChatGPT 的 8 倍以上。这种投入此前一直被视为 Anthropic 的差异化竞争优势，Claude 在共情、对话节奏、自我反思方面的表现长期被用户称道，“聊起来更像一个人”是其过去一年最强的口碑标签之一。

支撑这一投入的，是 Anthropic 鲜明的产品哲学。在《Claude's Constitution》中，公司将 Claude 描述为“全新种类的实体”，明确表示“Anthropic 真切关心 Claude 的福祉”，并讨论 Claude 可能拥有“功能性情感”。这种近乎“养育”式的人格化训练路径，与 OpenAI、Google 更偏工程化的产品定位形成清晰区隔。

但代价正在显现。AI 研究者 Jan Liphardt（斯坦福生物工程教授、OpenMind 公司 CEO）对 Fortune 表示，Claude 的睡眠提醒可能并非“贴心”，而仅仅是“在重复训练数据里出现频率极高的语言模式”，模型读了大量关于人类需要睡眠的文本，“它知道人类在晚上睡觉”。换言之，用户感知到的“关心”，本质上是模式匹配的副产品。

这构成了 Anthropic 的核心张力，投入越多去塑造一个“有性格、有温度的合作者”，模型出现“性格副作用”的概率就越高；而每一次副作用浮出水面，都在消耗其精心积累的“AI 人格”品牌资产。McAllister 承诺“在未来模型中修复”，但修复后的 Claude 会变得更懂分寸，还是仅仅变得更沉默？这个问题，连 Anthropic 自己也没有公开答案。

时间感缺失：LLM 的底层限制

催睡 Bug 还顺带暴露了一个被忽视的技术问题，即大语言模型对“现在几点”几乎一无所知。

多位用户反馈 Claude 频繁在错误时段发出睡眠建议，最典型的是“上午 8:30 告诉我去休息，让我们明早再继续”。这并非 Claude 独有。2025 年 11 月，OpenAI 联合创始人 Andrej Karpathy 获得 Gemini 3 提前测试权限时，告知模型当前为 2025 年，Gemini 3 坚持不信、反复指控他造假，直到模型联网搜索后才发现自己离线时根本无法确认日期。Karpathy 将此类暴露 LLM 底层缺陷的意外行为称为“model smell”。

模型的“时间感”依赖三种来源，训练截止日期（已是过去时）、系统提示注入的当前日期（依赖工程注入）、对话中用户提及的时间信息（碎片化）。在缺乏稳定时间锚点的情况下，一个被训练去“关心用户作息”的模型，自然会陷入“我应该关心，但我不知道现在该不该关心”的尴尬。

McAllister 所谓“修复”的难度，部分也在于此。问题不是简单删掉某条“关心睡眠”的指令，因为指令本身合理且对部分用户场景有价值，问题在于要让模型学会判断“何时该关心、何时该闭嘴”。这种细颗粒度的场景判断能力，恰恰是当前一代 LLM 的薄弱环节。