NVIDIA如何转动物理AI的数据飞轮？

阿尔法公社2026-06-24热度: 5023

文章探讨NVIDIA推动具身智能发展的数据策略，指出机器人训练正从依赖遥操数据转向可规模化的传感化人类数据（如第一视角视频、动作捕捉），并结合DreamZero（世界动作模型）和DreamDojo（世界模型）构建物理AI的数据飞轮，强调高质量与大规模真实世界交互数据的采集、对齐与复用是突破泛化瓶颈的关键。

摘要由 Mars AI 生成

本摘要由 Mars AI 模型生成，其生成内容的准确性、完整性还处于迭代更新阶段。

图灵奖获得者Richard Sutton在《苦涩的教训》中提出：长期胜出的，往往是能够持续吸收数据和算力的通用方法。

这个观点被很多AI研究者推崇，放到具身智能领域，这个观点也成立，但它同时面临一个问题：机器人要进入真实世界，首先需要足够高质量、足够大规模、能够进入训练闭环的真实世界交互数据。

在NVIDIA高级研究科学家Jim Fan看来，过去几年由teleoperation （遥操）主导的机器人数据采集方式正在接近上限。遥操数据与机器人本体高度对齐，质量高，但成本、效率和规模都受制于真实机器人系统本身。要让机器人训练进入基础模型级别的数据规模，行业需要新的数据来源。

NVIDIA的数据策略体现出具身数据行业的一个清晰变化：机器人训练正在从依赖遥操数据，转向更可规模化的传感化人类数据（sensorized human data）。第一视角视频、动作捕捉和可穿戴设备采集的人类操作，正在成为新的训练来源。

这也让具身数据的关键问题发生变化：行业不只要采集更多机器人轨迹，还要持续把真实世界交互转化为可训练、可复用、可跨本体迁移的数据资产。

阿尔法公社看好具身智能数据基础设施方向，主导了专注于这个方向的诺亦腾机器人从其母公司诺亦腾（全球数采行业领军企业）的拆分，并在最早期投资了它。诺亦腾机器人以human-centric data为核心路径，围绕人类与真实物理世界的交互，探索同步、多模态、具有物理意义的数据生产体系，把零散的人类交互数据转化为机器人企业和具身智能模型团队可持续使用的训练基础设施。

而要打造具身智能数据的的基础设施，无论是哪一家公司，都要回答好三个问题：高质量数据从哪里来，规模化数据如何获得，以及强化学习所需的环境如何扩展。

具身智能渴望更高质量数据，也渴望更多的数据

VLA是目前具身智能中比较主流的模型结构，它的长处在于对象识别和语义泛化，但机器人进入真实世界后，真正困难的是物理动作泛化：怎样在物体，场景，状态不断变化的情况下，完成好各种推、拉、折叠、插入等动作。

NVIDIA的DreamZero试图从模型层面解题，它属于World-Action Models（世界动作模型），重点是把视频预测变成机器人策略的一部分。

视频在这里代表世界状态的连续变化，动作和未来状态被放在同一个框架中建模。DreamZero论文结果显示，相比VLA，它在真实机器人新任务和新环境泛化中取得超过2倍提升。

物理AI

模型范式从VLA走向WAM，也推动了具身数据的变化。数据不能只停留在“图像-语言-动作标签”，还需要描述动作、物体、场景、状态变化和交互结果之间的物理过程。

目前，具身智能训练数据大致可以分为四类：真实机器人采集的遥操数据，UMI /DexUMI所代表的传感化人类操作数据，EgoScale这类框架所依赖的大规模第一视角人类行为数据，以及DreamDojo所代表的世界模型生成的可交互训练环境。

过去几年，遥操是机器人数据采集的主流方式。它和机器人本体高度对齐，机器人看到什么、执行什么动作、传感器记录什么，数据天然贴近下游策略学习。

对模仿学习和特定机器人任务来说，遥操数据质量很高。但它的规模上限也很明确：必须依赖真实机器人、真实操作者、真实场地和任务重置。因此，遥操更适合作为少量高质量校准、动作对齐和微调数据，从数量上，难以成为机器人基础模型的主数据来源。

物理AI

UMI要解决的，正是依赖真实机器人做野外数据采集时遇到的效率和可扩展性问题。它不把真实机器人带到每一个真实环境里采数据，而是让人类使用手持机械夹爪采集真实环境里的人类演示动作，再把这些演示迁移到机器人策略上。

物理AI

DexUMI是这一思路在灵巧手方向上的延伸。它是一个数据采集和策略学习框架，用人手作为自然操作接口，将灵巧操作技能迁移到不同机器人手上。具体做法是，通过可穿戴手部外骨骼缩小人手与机器人手之间的运动学差距，并提供直接触觉反馈；再用机器人手部图像补全技术缩小视觉差距。DexUMI在两种灵巧机器人手平台上的平均任务成功率达到86%。

物理AI

这里最重要的是数据采集范式变化。过去是人远程操控机器人，让机器人留在采集循环中执行任务，也就是robot-in-the-loop；UMI/DexUMI则让人类操作被传感化、结构化，并尽量对齐到机器人动作空间，转向human-in-the-loop。机器人不再需要亲自生产全部高质量数据，人类操作本身也可以成为可迁移的数据源。

UMI/DexUMI可以产生高质量数据，但数量级仍然有限。它需要专门设备、组织化采集和特定接口，数据采集还没有真正退到后台。

这可以用特斯拉FSD作类比：如果机器人也能找到类似的数据飞轮，让采集自然发生在人类日常行为中，数量级问题才有可能被解决。

人类每天都在真实世界中运动、抓取、使用工具和完成任务，这些行为如果能够被动作标注和结构化，就可能成为机器人学习灵巧操作的规模化数据来源。

物理AI

EgoScale是一个面向灵巧操作的人类到机器人迁移框架。它使用20,854小时带动作标签的第一视角人类视频进行预训练，规模超过此前工作的20倍，让模型学习人类如何移动手腕、控制手部动作和接触物体，并将这些动作经验转换到22自由度机器人灵巧手可用的动作空间。

之后，EgoScale再用少量人机对齐数据，把人类视频中学到的动作表示适配到机器人的感知和控制系统。

从DexUMI到EgoScale，传感化人类数据逐渐清晰起来：一端是高质量、可对齐的人类操作数据，另一端是可规模化的第一视角人类行为数据。二者共同指向同一个变化：机器人训练的原料，正在从机器人自身经验，扩展到人类在真实世界中积累的物理经验。

数据规模之外，机器人还需要可扩展的训练环境。后训练往往需要强化学习，但真实环境受机器人数量、场地、安全、维护和任务重置成本限制，很难大规模试错。Jim Fan 用“一百万个环境就需要一百万台机器人”来说明这个瓶颈。

DreamDojo回答的是“机器人在哪里练”的问题。它是一个机器人世界模型，使用约4.4万小时第一视角人类视频进行预训练，并通过连续潜在动作，让模型学习“一个动作会如何改变世界”。

物理AI

完成目标机器人数据的后训练和蒸馏后，DreamDojo可以在动作条件下实时预测未来画面和世界状态，用于遥操作、策略评估和基于模型的规划。它的论文显示，蒸馏后的模型在超过1分钟的交互中保持稳定。

由此看，NVIDIA的数据策略已经从样本扩展走向环境扩展：DexUMI和EgoScale打开人类物理智能的数据来源，DreamDojo则把人类视频中的交互经验转化为可供机器人评估、规划和试错的世界模型环境。

物理AI的数据飞轮要怎么开始转动？

如果把NVIDIA的数据路线放回物理AI的技术栈中看，它指向的不只是单个模型或单个机器人能力提升，还涉及一个更底层的问题：人类与真实世界交互中产生的数据，如何被持续生产、沉淀，并转化为机器人训练资源。

一种更适合理解具身数据在整个技术栈中位置的拆解方法，是把物理AI分为五层。最底层是物理现实，也就是人、物体、环境和真实交互；往上一层是World Compiler（物理世界编译层），负责采集、同步、表示和物理对齐，把真实世界中的交互转化为机器可以理解和训练的数据；再往上是世界模型，负责仿真、预测和生成式环境；之后是模型层，包括VLA模型、机器人策略和具身推理；最上层是应用层，包括机器人、人形机器人、自动系统和智能体。

沿着这个技术栈往下看，具身智能的竞争不会只停留在模型和应用层。人形机器人能否落地，VLA模型能否泛化，机器人策略能否完成更多任务，最终都取决于真实世界交互能否稳定进入训练闭环。

World Compiler这一层要解决的，正是这种转化问题。原始视频、动作捕捉、手部姿态、物体状态、触觉和场景信息，如果只是分散存在，很难直接支撑机器人模型训练。它们需要被采集、同步、校准、表示和物理对齐，才会从零散的真实交互，变成可训练、可复用、可跨本体迁移的数据资产。

其中最关键的是两类数据能力：高精度人类交互数据提供物理真实性，让模型理解动作、接触和物体变化之间的关系；自然真实环境中的人类行为数据提供世界覆盖率，让模型见到更多场景、任务和长尾行为。二者结合之后，具身数据才有可能从单次采集走向持续生产，形成物理AI自己的数据飞轮：真实世界持续产生交互，数据系统将其转化为训练资源，模型和机器人从中学习，再进入更多真实场景产生反馈。

未来的深层竞争，在于谁能持续把真实世界交互转化为可复用的训练资源。

本文来自微信公众号 “阿尔法公社”（ID：alphastartups），作者：发现非凡创业者的

本内容旨在传递行业动态，不构成投资建议或承诺。