扫描下载APP
其它方式登录
论文指出当前视觉-语言-动作(VLA)模型存在依赖视觉捷径、忽视语言指令的问题,导致在分布外场景和指令歧义任务中泛化能力差;为此提出LangForce方法,通过引入对数似然比损失强化语言依赖,显著提升指令跟随能力和OOD泛化性能,同时保留视觉-语言模型的原始语言理解能力。