OpenAI 前 CTO，带来了永远「在场」AI 的原型

AI观察员2026-05-13热度: 9942

Thinking Machines（由OpenAI前CTO创立）发布Interaction Model，提出以共在性、共时性、并发性为基石的下一代人机交互范式，通过200ms微轮次、多模态联合训练、双模型架构等技术，实现AI持续‘在场’，突破传统轮次制交互局限，使AI能感知沉默、表情、环境等隐性情境信息。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

5 月 11 日，Thinking Machines 发布了一个新模型Interaction Model（交互模型）。这家由OpenAI 前CTO Murati创立的AI实验室，之前发表了深刻影响DeepSeek V4的OPD蒸馏范式。这次，他们号称新发布的这款模型代表了下一代人机交互的模式。

Interaction Model

他们的论证起点是传播学。

1991 年，Herbert Clark 和 Susan Brennan 在经典论文《Grounding in Communication》里提出了人类有效交流的三个基础条件。Thinking Machines 把这三个条件拿过来，当作诊断框架，逐条检查当前 AI 交互系统的状态。

Copresence（共在性），即双方共享同一个感知场。你看到的、听到的、正在经历的环境，对方也能感知到。

Contemporality（共时性），即接收几乎与发送同步。你说话的同时，对方就在处理你说的内容，不存在一个「等你说完再开始理解」的断层。

Simultaneity（并发性），即双方可以同时发送和接收信息。你在说话的时候，对方可以同时给出微表情、点头、插话等实时反馈。

Interaction Model

这三个条件在面对面对话中天然满足。你和朋友在咖啡厅聊天时，你们共享同一个物理空间（copresence），你一开口对方就在听和理解（contemporality），对方会在你说话的同时皱眉或点头表示「跟上了」或「不太同意」（simultaneity）。

Thinking Machines 的诊断结论是，当前 AI 系统的前两条完全不满足，第三条在最近的全双工语音模型中有了部分进展，但仍不完整。

AI 从未真正「在场」

Thinking Machines 认为，当前 AI 最不符合在场定义的是，对话系统全部建立在轮次（turn）的概念上。

用户说完一段话，模型处理，模型输出回复。一个 turn 结束，下一个 turn 开始。这个结构在根本层面上切断了共在。

它一没有共在性。AI 只在你主动输入时才感知你。你不说话的时候，你的世界对它不存在。你皱了眉头、走到了窗边、屏幕上弹出了一条坏消息，它完全不知道。它的感知场仅限于你用键盘或麦克风「主动推送」给它的那一条窄管道。

二缺乏共时性。模型必须等你「说完」才开始处理。Voice Activity Detection（VAD，语音活动检测）需要检测到一段足够长的沉默才判定你的 turn 结束。在这个「等你说完」的断层里，模型对你正在说的内容没有任何实时理解。

Thinking Machines 在博客里用了一个类比。试想你和同事在讨论一个关键分歧，但只能通过邮件沟通。你写完发出去，等回复。对方写完发出来，等你的下一封。没有人觉得这种方式适合解决复杂协作问题。

但这就是当前所有 AI 系统的交互模式。

而第三个必要条件并发性是三条中最近两年进展最快的。实时语音 AI 已经在尝试让系统同时收发。OpenAI 5 月 7 日发了 GPT-Realtime-2，字节的 Seeduplex 全量上了豆包。但细看架构会发现，每家对并发的实现深度不同。

而且它们都只解决了并发性这一条，前两条纹丝未动。

通信层全双工，但模型层仍在等你说完

GPT-Realtime-2 是 OpenAI 在 Thinking Machines 发布前 4 天推出的语音模型，也是他们目前最强的实时交互方案。先看它做了什么。

它有 GPT-5 级推理能力、128K 上下文窗口、最重要的是并行工具调用能力的提升，让你能用语音控制系统，调用工具。因此它在 Big Bench Audio 上比前代高 15.2%，作为语音模型本身很强。

但这里我们只关心一个问题，它在三条件上走到了哪里。

先看架构。OpenAI Realtime API 的底层是 WebSocket，一个全双工通信协议。你的音频流持续发送到服务器，AI 的音频流持续返回给你，两个方向同时开放。所以并发性在通信层面是解决了的，你可以在 AI 说话时开口，AI 也能在你说话时继续输出。通道是双向的，没有「一方必须等另一方说完才能开口」的限制。

问题出在通道背后的模型。

WebSocket 虽然持续接收你的音频，但模型并不「一直在听」。服务器端有一个 VAD（语音活动检测）模块夹在你和模型之间，充当门卫。VAD 的工作是判断「用户说完了没有」。只有当它检测到一段足够长的沉默，判定你的 turn 结束了，模型才被唤醒开始处理你刚才说的内容。

Interaction Model

打个比方。通道像一条双向公路，随时可以两边同时走车。但模型像公路尽头的收费站，它不是看到车来就开闸，而是等所有车都到齐（你说完了），才一次性放行处理。

打断怎么办？如果你在 AI 说话时开口，VAD 检测到新的声音活动，系统取消 AI 当前的输出，然后等你说完，再触发新一轮生成。

注意这个过程，打断是 VAD 触发的，不是模型自己意识到你开口了。模型被外部通知「停下来」，然后等新一轮输入攒够了再启动。

有了底层的并发性基础，但并没有解决turn base的老问题，共时性完全无法解决。

模型层全双工，但依然不知道你长什么样

字节跳动在 2025 年 4 月推出的 Seeduplex 比 OpenAI 多走了一步。它是在模型层面实现全双工的语音大模型。

GPT-Realtime-2 的并发性靠的是通信层，WebSocket 允许双向同时传输，但模型本身仍然是「等你说完再想」。Seeduplex 把并发性推进到了模型内部。

它的三流架构（听流、说流、控制流）加上 R-PEC（相对位置编码），让模型真正做到了同时处理输入和输出，听流持续解析你正在说的话，说流同时生成回应，控制流在两者之间做实时仲裁。

结果是误打断率比半双工模型减少 50%，抢话比例下降 40%。

这在并发性上是实打实的进步。GPT-Realtime-2 的打断机制是「取消再重来」，AI 被叫停，等你说完，重新生成一轮。Seeduplex 的打断是连续的，AI 说话的同时在听你说，如果判断你要插话，它平滑地让出来，不需要「取消-等待-重启」这个断裂过程。从对讲机升级成了电话。

的三流架构（听流/说流/控制流）加上 R-PEC（相对位置编码）机制，让模型可以真正地同时收发信息。不是通信层的假并发，而是模型内部同时处理输入流和输出流。结果是误打断率比半双工模型减少 50%，抢话比例下降 40%。用三条件来说，它补上了并发性的缺失。

但共在性和共时性呢？和GPT Realtime一样，纹丝未动。

两者是纯语音模型，没有视觉输入。你不说话时，你对它依然不存在。R-PEC 是相对时序编码，它知道听流中的某个 token 在说流的某个 token「之前」或「之后」，但它没有一个绝对时钟把每个位置锚定到现实世界的某一时刻。

它知道先后顺序，但不拥有连续的存在感。当没有语音活动的时候，三条流没有东西可以处理，模型处于空转状态。

因此打个比方。OpenAI Realtime-2 是一部能打断的对讲机。你按按钮它就停下来听你说。Seeduplex 是一部真正的电话，两个人可以同时说话而不混乱。

但 Thinking Machines 想做的是面对面。

Interaction Model

面对面意味着即使没人说话，两个人也共享同一个空间、同一段时间、同一份沉默。

把交互性焊进模型

对讲机和电话都只解决了三条中的一条。Thinking Machines 要三条全补。怎么做？

先从第一条，共在性来讲起。

共在性，让 AI 接触你正在接触的全部模态

AI 需要和你的感知带宽等宽。你能看到的它也要能看到，你能听到的它也要能听到。

所以他们训练了一个多模态的模型。但为了共时性的满足，他们并没有选择当下主流的给语音模型加上编码器脚手架，来实现多模态功能的路，而是重新训练了一个统一的模型。

共时性，要求不同模态之间的处理要是统一时间的。如果系统需要在时间的精度上对齐多条模态流，视频帧、音频片段、文本 token 同时锚定到同一个表征空间，任何外挂组件的延迟抖动都会破坏对齐。

比如视觉走一个独立编码器（比如 ViT），音频走另一个（比如 Whisper），文本走第三个，三个编码器各有不同的处理延迟，视觉可能需要 80ms，音频 40ms，文本几乎即时。

这些延迟差看起来很小，但会在后续环节产生致命影响。

这就是 Thinking Machine 在技术文档里强调「interactivity must be part of the model itself（交互性必须是模型本身的一部分），而不是通过外部脚手架拼装」的原因。

把所有需要时间精度的功能内化到模型，从零联合训练。这不是审美偏好，而是工程必然。

具体做法是，音频输入用轻量的 dMel（mel 频谱）嵌入层做最小预处理，视频输入把图像切成 40×40 的 patch 后用 hMLP（层次化 MLP）编码，文本用标准嵌入。所有组件和主 Transformer 用 Encoder-free Early Fusion（无编码器早期融合）从零联合训练。

Interaction Model

结果是所有模态从输入到进入 Transformer 的路径被压到最短、延迟被压到最均匀。

在这里，统一表征不是独立的创新点，而是使能条件，它确保模态不互相拖慢，为下一步的时间锚定提供精度基础。

Interaction Model

当然，在这之外，他们选择从头训练模型的另一个理由是，THinking Machine认为交互能力本身就是会随着模型能力增长的，但脚手架不行。

只有做一个统一模型来享受这一增长，交互才能Scale Up起来。

共时性，给模型一个连续的内部时钟

共时性，是这个架构中最核心的点。

模型需要一个连续的内部时钟，而不是被事件唤醒，它才可能一直「在场」。

当前的语言模型在时间维度上是被动的。它的时间观是事件驱动的（event-driven）。有事才醒，没事就睡。

Thinking Machines 把这个范式翻转了。他们的 Interaction Model 运行在 200ms 的 micro-turn（微轮次）上。每 200ms，模型处理一组输入 token，生成一组输出 token。无论你是否在说话，无论是否有「事件」发生，这个 200ms 的心跳永不停止。

为什么是 200ms？因为这是人类对话中最小的有意义反馈间隔。对话分析研究表明，200ms 大约是人产生一个 backchannel 反馈（「嗯」「对」「然后呢」）的最短时间。低于这个间隔，反馈显得不自然；高于这个间隔，对方感觉你「没在听」。

Interaction Model

每个 200ms micro-turn 里，模型先读入所有输入 token（来自各个模态），然后生成应该输出的 token。输入和输出交错排列成连续序列。

沉默不是空白。如果某个 200ms 你什么都没说，模型依然处理这段沉默（音频流中是静默的 mel 特征，视频流中是你当前的画面）。沉默、重叠、打断，全部保留在上下文中。

这带来了之前不可能实现的能力。

TimeSpeak 测试「用户说在第 30 秒时提醒我」，Interaction Model 的宏准确率 64.7%，GPT-4o realtime 只有 4.3%。CueSpeak 测试「当你看到我举手时说出答案」，Interaction Model 81.7%，GPT-4o realtime 2.9%。差距是数量级的，因为 GPT-4o realtime 根本没有内部时钟，它不知道「第 30 秒」在哪里。

Interaction Model

为了让 200ms 心跳在工程层面跑起来，Thinking Machines 做了两件事。

Trainer-sampler alignment（训练-采样对齐）。这个架构要求训练时的时间分辨率必须和推理时完全一致。如果训练时模型看到的是不定长的 chunk（内容块），但推理时必须严格每 200ms 输出一次，模型学到的时间感会走形。为此，他们实现了训练和推理之间的逐比特对齐（bitwise alignment）以解决这个问题。额外开销不到 5%。

Streaming Sessions（流式会话）。传统 LLM 推理框架为每个请求分配内存、做 prefill（预填充）。200ms 一个chunk（内容块）意味着每秒 5 次小预填充，传统框架的读取开销会被放大到不可接受。所以他们重新设计了推理架构。客户端每 200ms 发送一个 chunk（内容块），推理服务器把 chunk （内容块）追加到 GPU 内存中的持久序列上，避免重复分配。这样内存读取的成本被压缩到更低，让它能真正跑起来。

并发性，让输入和输出真正并行

并发性，要求系统必须能同时接收和发送。

标准的自回归 Transformer 每次只做一件事，要么读入 prompt（prefill），要么逐 token 生成回复（decode）。decode 阶段不接受新输入。结果就是，如果 AI 在说话，它就没在听你说话。两者在时间上互斥。

Thinking Machine 把时间切成 200ms 的离散块后，每个块内部的执行顺序是「先读后写」，模型先处理这 200ms 积累的所有输入 token（你说了什么、表情变了什么），然后生成这 200ms 应输出的 token。

从模型内部看，输入和输出仍是序列化的，和传统模型一致。

但从人的感知尺度看，200ms 短到你感知不到这个「先读后写」的间隔。你觉得 AI 在你说话的同时就在回应。因为从你开口到 AI 回应最多只隔 200ms，而人在对话场景下的时间分辨率约 200-300ms，所以你根本感觉不到中间有延迟。

Interaction Model

这不是物理层的真并行，而是在人类感知阈值以下的快速交替，效果等同于并发。

这和 Seeduplex 的双工架构不同。Seeduplex 的三流架构是在模型内部做真正的并行处理听流和说流同时运行。Thinking Machines 是把时间切到足够细，让串行执行在体验层面等价于并行。

后者有一个额外好处，因为每个 micro-turn 里模型是先读完所有输入再生成输出的，它对「此刻的全局状态」有完整感知。而Seeduplex 的并行听说流之间需要一个额外的控制流来仲裁冲突。micro-turn 结构天然避免了这个问题，因为每个时间块只有一个决策点。

但并发性带来一个工程张力。如果模型需要每 200ms 都产生有意义的输出来维持在场感，它就不能花太多时间去「想」。你不能让一个人一边时刻保持眼神接触、一边解微积分。保持存在感和深度思考对计算资源的需求天然冲突。

所以 Thinking Machines 选择了双模型架构。

Interaction Model

Interaction Model（TML-Interaction-Small）是一个 276B 参数的 MoE（混合专家）模型，每次推理只激活 12B 参数。它的职责是保心跳，每 200ms 响应，维持多模态连续双向流，处理对话管理和即时回复。它在标准 benchmark 上接近 GPT-4o 水平，但不做需要长时间思考的深度推理。

Background Model（后台模型）负责深度工作。当 Interaction Model 判断「这个问题需要查资料或推理」时，把任务异步交给后台模型。后台模型产出流式返回，Interaction Model 在合适的间隙把结果自然织入对话中。两个模型共享完整的对话上下文。

Interaction Model