扫描下载APP
其它方式登录
文章系统梳理机器人智能演进路径:从手工编码控制,到深度学习提升感知与控制,再到LLM赋能任务规划,进而发展为视觉-语言-动作模型(VLA)实现推理与行动融合,最终迈向世界模型驱动的‘想象式’决策。重点解析双脑架构、本地化计算部署、开源模型生态及当前技术瓶颈。
文章探讨具身智能领域VLA(视觉-语言-动作)模型当前面临的泛化能力不足、物理交互理解缺失等瓶颈,指出单纯依赖互联网数据的VLA已难以为继;强调唯有深度融合世界模型、构建内在化物理因果推演能力,并依托高质量物理交互数据工厂,才能实现真正可靠的具身智能落地。
上海交大MINT团队提出Evo-Depth模型,以约0.9B参数实现轻量级隐式深度编码,增强视觉-语言动作模型(VLA)的空间感知能力,在仿真和真机任务中分别达到最高95.4%和约90%成功率,兼顾部署效率(3.2GB显存、12.3Hz推理),代码与权重已开源。
论文指出当前视觉-语言-动作(VLA)模型存在依赖视觉捷径、忽视语言指令的问题,导致在分布外场景和指令歧义任务中泛化能力差;为此提出LangForce方法,通过引入对数似然比损失强化语言依赖,显著提升指令跟随能力和OOD泛化性能,同时保留视觉-语言模型的原始语言理解能力。
香港科技大学开源StarVLA项目,提出Backbone-Action Head‘乐高式’统一架构,解决具身智能VLA领域架构割裂、管线强耦合、评测标准不一的碎片化问题,支持多范式模块化组合、协同训练与跨形态混合训练,并实现仿真到真实机器人的无缝部署。
魔搭社区联合多家权威机构发布EAI-100具身智能年度榜单,蚂蚁灵波科技及其自研具身基座模型LingBot-VLA、首席科学家沈宇军双双入选核心榜单;LingBot-VLA具备跨本体跨任务泛化能力,基于超2万小时真实操作数据训练,支持低成本快速迁移与开源适配,推动具身智能工程落地。