

文章批判具身智能(Physical AI)行业过度依赖‘累计运行小时数’等表面数据指标,指出真实物理交互数据成本高、获取难,重复低信息量样本导致模型进步缓慢;强调应关注数据多样性、长尾失败案例和单位成本下的新颖样本价值,重构数据评估与资本配置逻辑。
原文标题:数据飞轮还是重复样本?Physical AI 该告别「小时数崇拜」了
原文作者:律动BlockBeats
原文来源:https://www.theblockbeats.info/news/62880
转载:火星财经
曾任、兼任多伦多大学并现任佐治亚理工的机器人学者 Animesh Garg,在一篇题为《Moneyball for Physical AI》的文章中,把具身智能的数据竞赛比作棒球史上的「金球」时刻。
他想挑战的是一个越来越常见的融资叙事:机器人公司只要堆更多遥操作、更多真实部署、更多运行小时,就能形成数据飞轮。对投资者来说,这不是学术口水战。具身智能公司的成本结构、商业化速度和模型壁垒,很多时候都被包装进「数据闭环」这四个字里。如果累计小时数并不等于有效模型进步,市场就需要重新看待这些公司的数据资产。
Garg 借用了《Moneyball》的经典类比。2002 年奥克兰运动家队以联盟低薪资球队之一的阵容赢下 103 场比赛,关键不是买到更贵的球员,而是发现市场错估了球员价值。传统球探看重打击率、盗垒和姿势,但更能解释球队得分能力的指标,是上垒率。
在他看来,Physical AI 也可能处在类似阶段。行业承认数据是通向通用机器人模型的必需品,却容易把最容易展示的指标当成最重要的指标:累计遥操作小时、示教轨迹数量、部署机器人数量、生产场景运行时长。
机器人数据和文本数据的供给方式并不一样。大语言模型可以从互联网、代码库、书籍和网页中获得海量低成本文本,瓶颈更多来自算力、清洗和训练效率。机器人模型需要的是带有物理交互、动作反馈和环境变化的数据,每一小时有效数据都要被真实创造出来,背后对应设备、人力、场地、传感器、失败处理和安全成本。
机器人学者 Ken Goldberg 曾用「100,000-year data gap」形容机器人与互联网规模 AI 数据之间的差距。更准确地说,当代大型视觉语言模型训练所消耗的文本和图像数据,如果折算成人类阅读或观看时间,约相当于 10 万年,而机器人缺少同等规模的真实交互数据。这个说法不是在给机器人模型设定精确门槛,而是在提醒行业:真实世界交互数据无法像网页文本一样被低成本抓取。
这也是 Garg 反对「血汗工厂式遥操作」叙事的原因。大量人工遥操作确实能带来动作密集的训练样本,但如果公司只按总小时数评价数据,资金可能流向重复、低难度、低信息密度的样本,而不是最能降低失败率的场景。
在 Garg 的分类里,Physical AI 数据大致分为三类:观察数据、干预数据和部署数据。它们都可能有用,但成本、约束和信息密度差异很大。
第一类是观察数据,比如第一人称或第三人称视频。它的优势是成本低、覆盖广,可以帮助模型理解物体、空间、动作结果和环境分布。短板也很清楚:模型能看到人或物体发生了什么,却未必知道机器人在某一状态下应该输出怎样的动作。
第二类是干预数据,也就是遥操作、示教和人工介入生成的状态到动作轨迹。这类数据对机器人训练更直接,因为它包含「看见什么、怎么动、动完发生什么」的链条。代价是每一条高质量轨迹都要花钱买,人力和设备成本很难像软件数据那样快速下降。
第三类是部署数据,即机器人在真实商业场景运行时产生的遥测数据。它听起来最接近商业飞轮:机器人一边干活、一边赚钱、一边产生训练数据。但这里有一个统计陷阱。
今天最先落地的机器人场景,通常也是变化最少、流程最固定、风险最可控的场景,例如高度结构化的仓储、工厂或单一任务环境。这类生产数据数量可能很大,但分布较窄、重复度较高。模型一旦学到局部规律,后续每多运行一小时带来的新增信息就会下降。
部署数据并非没有价值。真正有价值的,往往不是大量「成功完成任务」的常规片段,而是失败、卡住、异常物体、边界条件和罕见扰动。问题在于,这些长尾样本不会按公司希望的节奏稳定出现,发现、筛选和复盘成本也更高。
Garg 对语言模型 scaling law 的借鉴比较谨慎:数据增加通常会带来模型损失下降,但收益递减。如果样本重复、近似重复,或来自同一个窄分布,新增数据的帮助会更快变小。
放到机器人领域,这个问题更直观。一个机器人学习从固定货架抓取固定包装盒,前几千次示教、失败和修正可能非常有价值。一旦动作、物体、光照和路径都被反复采集,新增数据更像是在复制已经学过的局部经验。
语言模型训练中已经有类似经验:重复和近重复数据会浪费训练预算,过度重复还可能损害泛化。Garg 并没有把这些结论直接套到机器人训练上,而是用它们说明一个方向:衡量数据价值不能只看数量,还要看样本之间到底有多大差异。
对 Physical AI 来说,多样性至少有两层含义。第一是让模型见过更多物体、空间、材质、光照、遮挡和操作方式。第二是避免模型在一个过于简单的任务分布里表现很好,换到稍微不同的场景就失效。
长尾失败案例因此变得关键。真实物理世界不是均匀分布的,低频异常经常决定商业可用性:物体摆放偏一点、包装变形、表面反光、抓手打滑、人突然介入、传感器漏看、地面摩擦变化。模型在常规样本上表现再好,如果处理不了这些尾部事件,部署仍会被少数失败拖住。
这篇文章真正挑战的,是具身智能公司常见的商业化路线:先在窄场景中部署机器人,用人类远程接管保证可用性,同时收集生产数据,再用这些数据训练更强模型,打开更多场景。
Garg 将这类路径称为「neo-integrator」式思路。它试图绕开纯数据采集成本,把机器人放进商业生产中,让运营收入抵消数据成本。相比专门搭建遥操作工厂,这条路听起来更高效。
但飞轮成立有一个前提:早期商业场景产生的数据,必须足够新、足够多样,能帮助模型迁移到更多任务。如果部署场景只是低变化、低熵、强工程定制的窄任务,数据就会很快饱和。公司得到的可能不是通用能力飞轮,而是一组需要持续集成、维护和异常处理的定制项目。
这会带来两类成本。第一,每进入一个新场景,都要投入环境改造、流程适配、失败兜底和安全机制。第二,如果部署本身还没有达到盈亏平衡,扩大规模就不一定是在低成本收集数据,也可能是在用亏损换取大量低新颖性样本。
所以,早期部署不是无用,而是需要更细地看:它带来了多少新任务覆盖,产生了多少失败和异常样本,这些样本能否迁移到其他场景,扣除硬件、人力、维护和集成成本后,每一美元买到的模型改进有多少。
Garg 给出的建议不是停止采集数据,而是替换评价口径。累计运行小时、遥操作小时和轨迹数量可以作为运营指标,但不应被直接等同于模型进步。
更有解释力的问题包括:单个任务的数据什么时候饱和,新增一个任务需要多少工程集成成本,数据覆盖了多少不同场景和动作簇,生产数据中有多少是真正的分布漂移和异常样本,部署流里有多少常规成功片段应该被过滤掉,而不是继续喂给模型。
对应到三类数据,资本配置也会不同。观察数据应优先追求低成本、多样性和广覆盖,用来扩大基础能力边界。高成本的遥操作和示教数据在达到单任务饱和后,应把预算转向更多任务,而不是继续重复同一动作。部署数据则应重点筛选失败、边界条件和分布外样本,丢弃大量信息密度低的常规运行记录。
这套观点对 Physical AI 的估值叙事有现实影响。一个公司拥有更多机器人、更长运行时间、更大遥操作团队,并不自动代表拥有更强模型壁垒。更难复制的能力,可能是持续找到高价值长尾数据、判断某类数据何时饱和,以及用更低成本覆盖更多任务分布。
不过,这仍是一套资本配置视角,还不是行业定论。机器人模型是否会出现类似语言模型的规模收益,部署数据能否在某些高维场景持续产生新信息,不同任务之间的迁移效率有多高,都还要靠更多实证结果回答。
Garg 的提醒落在一个更具体的问题上:Physical AI 的「金球指标」也许不是数据小时数,而是每一美元买到的新颖样本。对于仍在用数据飞轮讲故事的机器人公司,市场最终要看的可能不是累计运行时间有多长,而是这些时间里到底产生了多少新信息。