OpenAI 前 CTO 创业大模型首秀，第一剑先斩 ChatGPT 聊天框

个人专栏

2026-05-13热度: 4233

OpenAI前CTO Mira Murati创立的Thinking Machines Lab发布原生实时交互大模型TML-Interaction-Small，强调‘presence’（持续在场），通过200毫秒微轮次机制实现语音/视觉并发处理、主动打断与同步响应，突破传统回合制交互局限，在多项实时交互基准测试中大幅领先GPT-4o和Gemini等主流模型。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

2013 年的科幻电影《Her》中，操作系统 Samantha（萨曼莎）让观众首次具象化了理想的 AI 存在方式：不等你说完即可开口、能感知语气迟疑，且始终「在场」，而非被动等待唤醒。

十三年后，由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览，其构建的交互模型在底层追求上，与 Samantha 的逻辑高度契合。

TML-Interaction-Small

这篇题为《交互模型：人机协作的可扩展方案》的博客，全篇反复强调的核心便是一个词：「presence」——持续在场。

TML-Interaction-Small

博客链接地址：https://thinkingmachines.ai/blog/interaction-models/

颇有意思的是，2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式，让人机交互开始更接近人与人的自然交流。

TML-Interaction-Small

两年后，她带着出走的团队另起炉灶，却又把这件事从头做了一遍。

TML-Interaction-Small

评论区的吐槽也是一条比一条犀利。

TML-Interaction-Small

人类已被移出 AI 协作群聊

文章开篇指出，结合 METR 在 2025 年的研究报告，主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标，导致目前的交互界面几乎没给人类留出持续参与的空间。

但在实际工作中，需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整，而现有的「回合制」机制恰恰缺乏这样的通道。

语言学者 Clark 和 Brennan 在 1991 年的研究表明：高效沟通依赖共在、同时性和并发性。双方需共处同一情境，同步接收和表达信息；同时，如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示，对话的本质在于高频参与。结合哈耶克 1945 年的理论，真正有价值的知识正存在于这类即时的细节传递中。

现在的模型工作时，用户输入，AI 等待；AI 输出时，则对用户的即时反应一无所知。Thinking Machines 将此比喻为：面对紧迫分歧不去当面沟通，而是靠发邮件来回拉扯。

目前的实时语音市场存在两条存在局限的路线：大多数主流商业系统是靠在模型外接入语音活动检测（VAD）等组件拼接出的「伪实时」。

这种外挂组件的管理方式局限性明显：模型无法主动打断对话，无法对屏幕报错等视觉变化作即时反应，更难以胜任「边听边同传」这类高频并发任务。而另一方面，市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统，但它们多为较小规模的模型，为了低延迟在综合智能水平上做出了妥协。

Thinking Machines 认同强化学习学者 Richard Sutton 的观点：依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。

为此，他们参考了业界在全双工语音交互与异步智能体上的探索（如 Seeduplex、Qwen-omni、MoshiRAG 等），从头训练了原生支持实时交互的系统。该系统由感知时间的「交互模型」（前台）和异步运行的「后台模型」（负责深层推理）协同工作。

TML-Interaction-Small

基于时间对齐的微轮次分析 / 微轮次机制：模型以 200 毫秒为处理单元，持续交替处理输入与输出。用户的沉默、抢话均作为真实信息保留。

TML-Interaction-Small

打破人为轮次边界后，模型能隐式追踪用户是在思考、让步、自我纠正还是邀请回应，无需独立的对话管理模块。它不仅能同步说话、中途插话，甚至能在边听边看的同时，并行调用工具、搜索网页或生成 UI 界面。

在模态处理上，他们省去了独立的大型编码器，音视频经轻量处理后直接与 Transformer 主体联合训练。同时，为满足高频处理要求，团队实现了「流式会话」机制并优化了底层算力与通信，避免反复重分配内存，确保了低延迟的稳定运行。

TML-Interaction-Small

当遇到复杂任务时，前台会把完整上下文抛给后台，后台将结果流式返回，前台再伺机自然地融入对话，在保证实时响应的同时兼顾深度推理。针对新衍生的安全挑战，模型也进行了拒绝对话的拟真训练与防越狱的鲁棒性测试。

一份让主流模型集体关注的成绩单

测试中，这款名为 TML-Interaction-Small（活跃参数 12B）的模型表现亮眼。

在评估打断、背景音干扰的 FD-bench v1.5 基准中，TML 获 77.8 分，远超 GPT Realtime-2.0（46.8 分）和 Gemini（54.3 分），轮次切换延迟仅 0.40 秒。在需深度推理的 FD-bench v3 中，其响应质量/Pass@1（82.8/68.0）也稳压竞品高延迟版本。

在其他综合测试中，TML 同样展现了极强的平衡性：QIVD 音视频问答（54.0 分）、BigBench Audio（75.7/96.5 分）以及 IFEval 指令遵循（82.1/89.7 分），并在 Harmbench 保持了 99.0% 的安全拒绝率。虽然在部分纯智力单项上略微落后于 Qwen 3.5 Omni 或 GPT-2.0 极高延迟版，但它是唯一在响应速度与智能水平上实现双优的模型。

TML-Interaction-Small

为了更精准地衡量原生交互能力，Thinking Machines 自建了多项评测。

对比学术界现有的 StreamBridge、AURA 等文本输出原型，TML 实现了真正的语音并发输出。在考察主动发言的 TimeSpeak（得分 64.7）、同步纠错的 CueSpeak（得分 81.7）、持续视觉追踪的 RepCount-A（得分 35.4）以及看视频抢答的 ProactiveVideoQA 等单项测试中，TML 均取得有效成绩，而对比的主流模型在这些场景下几乎全部得零分或沉默以对。

TML-Interaction-Small