很多AI产品经理,都被LLM骗了,忽略了世界模型

Kevin
个人专栏
热度: 5078

文章指出大语言模型(LLM)存在空间感知缺陷,无法理解物理空间与人类交互行为,因此难以支撑真正的人形机器人;强调世界模型作为空间智能底座的重要性,并指出vision Pro、XREAL、AndroidXR等空间计算设备通过采集眼球追踪、肢体动作和mesh网格数据,为构建世界模型提供高质量训练基础,推动国产空间计算硬件发展。

摘要由 Mars AI 生成
本摘要由 Mars AI 模型生成,其生成内容的准确性、完整性还处于迭代更新阶段。

回国之后,带着团队仍然紧密的开始推进研发,我发现很多身边的AI产品经理已经越来越被AI带偏了,甚至是AI替代人类,在基础医疗是文本数据下,大语言模型永远不可能替代人类。

因为人类是空间物种,能够在空间里面感知空间的速度、相对距离之外,还有眼球与体态来与这个世界进行交互。

而要人形机器人达到这个地步,就首先要空间智能,也就是世界模型为底座,并且还能够有与这个世界的交互基础行为数据,才能够训练为世界模型,而在vision Pro 与AndroidXR设备,不仅有空间数据还有眼球追踪、头部、以及身体数据,可以反馈人类与世界的交互过程。

而这个叫做基于世界模型的人类世界交互模型。

大语言模型天然的数据缺陷,以及巨高的数据成本

从现在来看,大语言模型天然缺失空间数据,他们没有办法去理解空间之间的相对位置、与世界的相关物理距离,更不能理解与人类行为与世界空间的感知,这就导致现在你看到现在大语言模型生成的视频模型,就有时候会非常奇怪,出现一些非常奇怪的行为与动作甚至是肢体。

同时在YouTube等这些互联网数据,用来训练空间数据成本也巨高,需要将人工生成3D的,再将其标注,完成空间数据。

而在vision Pro与AndroidXR这些操作系统里,有天然的mesh网格数据,也有眼球与肢体,可以天然的标注训练人类与这个世界的交互、以及当前的状态响应数据。

现在机器人的泛化能力很差:没有通用世界模型

因为机器人都是来自大语言模型以及某个人类行为动作的反复学习,但是因为数据量较少,他没有办法泛化到其他通用上,让机器人从一个房间换到一个陌生房间,他就不会了。

这就是LLM的局限,也是数据量、数据质量都不够的情况。

vision Pro的竞争对手XREAL project aura正式上线

在写这篇文章的时候,现在国产的空间计算眼镜第一台,XREAL总算上线了,虽然没有在国内售卖,但是也是第一台国产的空间计算设备,并且还是框架眼镜。

空间计算

基于AndroidXR的空间计算眼镜,不仅可以用手势与头部追踪,主要是真的可以实现vision Pro几乎一切的功能,当然现在分辨率与计算能力还比不上苹果M5芯片性能,但是已经可以达到和M2一样的性能价值。

而今年还有其他的品牌眼镜,比如VIVO、PICO swan 都会逐步上市,这些眼镜也将开始国产空间计算的热度与浪潮

将急速增加世界模型的训练速度,因为照理说作为开发者都会有这些空间数据以及人类交互数据,这些数据都将成为世界模型的一部分。

并且硬件厂商肯定不会去抢开发者生态,终端厂商只要做好自己的终端即可。

只是比较遗憾的是,现在几乎没有产品经理知道这个,如果你关注,希望你可以更早的开始空间计算!

本文来自微信公众号“Kevin改变世界的点滴”(ID:Kevingbsjddd),作者:Kevin那些事儿

声明:本文为入驻“火星财经 专栏”作者作品,不代表火星财经官方立场。
转载请联系网页底部:内容合作栏目,邮件进行授权。授权后转载时请注明出处、作者和本文链接。未经许可擅自转载本站文章,将追究相关法律责任,侵权必究。
提示:投资有风险,入市须谨慎,本资讯不作为投资理财建议。
本内容旨在传递行业动态,不构成投资建议或承诺。