您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
机器人 正文
发私信给陈淑瑜
发送

0

Goal-VLA——图像生成式VLM化身「世界模型」,实现零样本机器人操作 | ICRA 2026

本文作者: 陈淑瑜   2026-04-24 15:41 专题:ICRA 国际机器人与自动化会议
导语:新加坡国立大学邵林团队提出了Goal-VLA,创新性地将图像生成式VLM(视觉语言模型)作为「以物体为中心的世界模型」,实现零样本机器人操作

一、研究背景  

视觉-语言-动作(VLA)模型是当前具身智能的主流架构,但主要分为两大范式,各自面临根本性局限:端到端VLA模型(如RT-2、OpenVLA)严重依赖海量的「指令-视觉-动作」成对数据进行训练,数据获取成本极高且泛化能力有限;分层模型虽通过中间目标表示连接高层语义与底层动作,但中间目标通常需要3D点云等精确几何输入,在开放环境中难以获取。

如何在不依赖任何任务特定微调和成对动作数据的情况下,让机器人理解语言指令并执行复杂的操控任务,成为具身智能领域亟待突破的核心挑战。

新加坡国立大学邵林团队提出了Goal-VLA,创新性地将图像生成式VLM(视觉语言模型)作为「以物体为中心的世界模型」,通过物体目标状态表示来连接高层语义推理与底层动作控制,仅需自然语言指令和单视角RGB-D图像即可实现零样本机器人操作。

Goal-VLA——图像生成式VLM化身「世界模型」,实现零样本机器人操作 | ICRA 2026 二、核心方法

  Goal-VLA的核心设计是一个解耦式分层框架,将机器人操作分解为目标推理和动作执行两个独立阶段。

第一阶段:目标状态推理(Goal State Inference)

利用文本VLM(如GPT-4V)对自然语言指令进行语义丰富和场景理解,构建详细的物体目标状态描述。随后调用图像生成式VLM(如DALL-E 3、Stable Diffusion)根据丰富的提示词生成目标场景图像。生成的图像直观地展示了任务完成后物体应处的状态,作为「以物体为中心的世界模型」的输出,无需任何3D几何信息。

第二阶段:空间基准计算(Spatial Grounding)

将生成的目标图像与当前观测图像进行像素级语义特征匹配,结合深度图信息,通过特征对应关系求解从当前状态到目标状态的3D变换矩阵(位姿增量)。这一步骤将2D视觉推理转化为3D空间操作指令。

第三阶段:底层策略执行(Low-level Policy)

根据计算出的目标位姿,生成无碰撞的运动轨迹并驱动机械臂执行。底层策略可复用现有的运动规划算法,无需额外训练。

核心创新:合成-反思迭代机制

将生成的虚拟目标图像叠加到真实场景中进行视觉审查——检查目标位姿是否物理可行(如是否超出桌面范围、是否与其他物体碰撞)。若不可行,则自动修正描述并重新生成,形成「合成-反思」的闭环迭代。消融实验显示该机制将基础成功率从40.0%大幅提升至88.8%。Goal-VLA——图像生成式VLM化身「世界模型」,实现零样本机器人操作 | ICRA 2026 

三、亮点总结

  亮点一:无需任何任务特定微调,真正的零样本泛化

 Goal-VLA在无需针对特定任务进行任何微调、无需任何成对动作数据的情况下,实现了强大的机器人操控能力。在RLBench仿真环境的59个任务上,平均成功率达59.9%,显著优于OpenVLA(37.6%)、Pi0(48.9%)、MOKA(37.5%)等需要大量数据训练的基线方法。

亮点二:真实机器人上的卓越表现 

在真实的UFACTORY X-ARM 7机械臂上,Goal-VLA实现了60%的平均成功率,展示了从仿真到真实的良好迁移能力。跨物体、跨环境、跨任务的泛化测试均表现优异,证明了其作为通用机器人操作框架的潜力。

亮点三:图像生成VLM作为世界模型的新范式

 Goal-VLA首次系统性地验证了图像生成式VLM可以作为机器人操作中的「世界模型」——通过生成目标场景图像来预测任务完成后的状态,替代了传统方法中昂贵的3D目标表示。这一范式创新大幅降低了VLA模型的数据需求,为具身智能的普惠化发展开辟了新路径。

──────────────────────────────────────────

上述内容包含AI辅助生成,更详细信息参见两个链接

原文链接:https://arxiv.org/abs/2506.23919

解读来源:https://wxredian.com/art?id=0fc2a93f1d766958a60dfec92cdbc1e2


【封面图片来源:网站名WXRedian,所有者:具身智能之心】

雷峰网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说