

OpenAI前CTO Mira Murati创立的Thinking Machines Lab发布原生实时交互大模型TML-Interaction-Small,强调‘presence’(持续在场),通过200毫秒微轮次机制实现语音/视觉并发处理、主动打断与同步响应,突破传统回合制交互局限,在多项实时交互基准测试中大幅领先GPT-4o和Gemini等主流模型。
2013 年的科幻电影《Her》中,操作系统 Samantha(萨曼莎)让观众首次具象化了理想的 AI 存在方式:不等你说完即可开口、能感知语气迟疑,且始终「在场」,而非被动等待唤醒。
十三年后,由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览,其构建的交互模型在底层追求上,与 Samantha 的逻辑高度契合。

这篇题为《交互模型:人机协作的可扩展方案》的博客,全篇反复强调的核心便是一个词:「presence」——持续在场。

博客链接地址:https://thinkingmachines.ai/blog/interaction-models/
颇有意思的是,2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式,让人机交互开始更接近人与人的自然交流。

两年后,她带着出走的团队另起炉灶,却又把这件事从头做了一遍。

评论区的吐槽也是一条比一条犀利。


文章开篇指出,结合 METR 在 2025 年的研究报告,主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标,导致目前的交互界面几乎没给人类留出持续参与的空间。
但在实际工作中,需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整,而现有的「回合制」机制恰恰缺乏这样的通道。
语言学者 Clark 和 Brennan 在 1991 年的研究表明:高效沟通依赖共在、同时性和并发性。双方需共处同一情境,同步接收和表达信息;同时,如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示,对话的本质在于高频参与。结合哈耶克 1945 年的理论,真正有价值的知识正存在于这类即时的细节传递中。
现在的模型工作时,用户输入,AI 等待;AI 输出时,则对用户的即时反应一无所知。Thinking Machines 将此比喻为:面对紧迫分歧不去当面沟通,而是靠发邮件来回拉扯。
目前的实时语音市场存在两条存在局限的路线:大多数主流商业系统是靠在模型外接入语音活动检测(VAD)等组件拼接出的「伪实时」。
这种外挂组件的管理方式局限性明显:模型无法主动打断对话,无法对屏幕报错等视觉变化作即时反应,更难以胜任「边听边同传」这类高频并发任务。 而另一方面,市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统,但它们多为较小规模的模型,为了低延迟在综合智能水平上做出了妥协。
Thinking Machines 认同强化学习学者 Richard Sutton 的观点:依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。
为此,他们参考了业界在 全双工语音交互与异步智能体 上的探索(如 Seeduplex、Qwen-omni、MoshiRAG 等),从头训练了原生支持实时交互的系统。该系统由感知时间的「交互模型」(前台)和异步运行的「后台模型」(负责深层推理)协同工作。

基于时间对齐的微轮次分析 / 微轮次机制 :模型以 200 毫秒为处理单元,持续交替处理输入与输出。用户的沉默、抢话均作为真实信息保留。

打破人为轮次边界后,模型能隐式追踪用户是在思考、让步、自我纠正还是邀请回应,无需独立的对话管理模块。它不仅能同步说话、中途插话,甚至能在边听边看的同时,并行调用工具、搜索网页或生成 UI 界面。
在模态处理上,他们省去了独立的大型编码器,音视频经轻量处理后直接与 Transformer 主体联合训练。同时,为满足高频处理要求,团队实现了「流式会话」机制并优化了底层算力与通信,避免反复重分配内存,确保了低延迟的稳定运行。

当遇到复杂任务时,前台会把完整上下文抛给后台,后台将结果流式返回,前台再伺机自然地融入对话,在保证实时响应的同时兼顾深度推理。针对新衍生的安全挑战,模型也进行了拒绝对话的拟真训练与防越狱的鲁棒性测试。
测试中,这款名为 TML-Interaction-Small(活跃参数 12B)的模型表现亮眼。
在评估打断、背景音干扰的 FD-bench v1.5 基准中,TML 获 77.8 分,远超 GPT Realtime-2.0(46.8 分)和 Gemini(54.3 分),轮次切换延迟仅 0.40 秒。在需深度推理的 FD-bench v3 中,其响应质量/Pass@1(82.8/68.0)也稳压竞品高延迟版本。
在其他综合测试中,TML 同样展现了极强的平衡性:QIVD 音视频问答(54.0 分)、BigBench Audio(75.7/96.5 分)以及 IFEval 指令遵循(82.1/89.7 分),并在 Harmbench 保持了 99.0% 的安全拒绝率。虽然在部分纯智力单项上略微落后于 Qwen 3.5 Omni 或 GPT-2.0 极高延迟版,但它是唯一在响应速度与智能水平上实现双优的模型。

为了更精准地衡量原生交互能力,Thinking Machines 自建了多项评测。
对比学术界现有的 StreamBridge、AURA 等文本输出原型,TML 实现了真正的语音并发输出。在考察主动发言的 TimeSpeak(得分 64.7)、同步纠错的 CueSpeak(得分 81.7)、持续视觉追踪的 RepCount-A(得分 35.4)以及看视频抢答的 ProactiveVideoQA 等单项测试中,TML 均取得有效成绩,而对比的主流模型在这些场景下几乎全部得零分或沉默以对。

当然,这套架构目前也有局限:长会话的上下文积累难以管理,且流式音视频高度依赖网络稳定性。此外,该架构尚未扩展至更大参数量的版本,计划于今年晚些时候发布。
参与这项工作的研究员 Neal Wu 概括了他们的初衷:「如果和 AI 协作不再是对着聊天框输入,而更像在和另一个人说话,会怎样?」原生支持交互的模型,就是他们给出的初步尝试。
Thinking MachinesCTO Soumith Chintala 则将整体路线图分为三步:第一步,提升人与 AI 之间的信息带宽;第二步,拉高人类加 AI 的智能上限;第三步,帮助人类在未来的体系中继续发挥核心作用。

在许多 AI 研发方向倾向于让模型更自主、减少人类介入的当下,Thinking Machines 选择了一条不同的路径:让人类的介入变得更流畅,让沟通带宽本身成为一种基础设施。
翁荔更是在推文中提到:「写了 137 页日志,产出了 12 个版本。结果发现,人与人之间的协作,对于改善人与 AI 之间的协作至关重要。」这或许意味着,要研发出一个能理解人类沟通节奏的模型,研究者首先需要深刻体会人类沟通的本质。

不过,一个持续在场、能即时感知情绪和状态的 AI,与传统的工具型 AI 带来的心理感受是截然不同的。当模型在每次交互中的在场感越来越强,人们对它的认知和依赖会发生怎样的改变?
这些触及灵魂的拷问,论文并没有作答,只是留下了一个关于「实时对齐与安全」的开放性方向。但可以预见的是,当科幻电影里的情节真正降临桌面,AI 变成一个一个始终陪伴左右的「存在」时,我们真正需要对齐的,或许不只是模型,更是人类自己在新世界中的位置。
本文来自微信公众号“APPSO”,作者:发现明日产品的APPSO