您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
机器人 正文
发私信给吴思梦
发送

0

ICRA 2026|美团&北航提出LIBERO-X:五级递进测试揭示VLA模型鲁棒性短板

本文作者: 吴思梦   2026-05-28 15:42 专题:ICRA 2017:创新、创业和解决方法
导语:把VLA评测从平均成功率推进到鲁棒性诊断


原文作者:公众号“计算机顶会大全”

原文链接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA

 

 

论文作者来自美团和北京航空航天大学

论文链接:

arXiv预印本https://arxiv.org/abs/2602.06556

arXiv PDFhttps://arxiv.org/pdf/2602.06556.pdf

官方项目页https://zackhxn.github.io/LIBERO-X/

 

LIBERO-X: Robustness Litmus for Vision-Language-Action Models


ICRA 2026|美团&北航提出LIBERO-X:五级递进测试揭示VLA模型鲁棒性短板

过去,很多VLA模型在标准机器人基准上表现不错,但这并不等于它们真的具备真实部署能力。真实环境中的机器人任务,往往会同时遇到物体位置变化、场景结构变化、未见物体、视觉干扰和语言指令改写等问题。


这篇论文提出LIBERO-X,核心不是再造一个更强模型,而是构建一个更严格的VLA鲁棒性评测基准,用来检验现有视觉语言动作模型到底稳不稳。方法上,LIBERO-X设计了五级递进式测试协议,从局部空间扰动、大范围空间扰动,到场景拓扑重构、视觉属性变化和语义等价指令改写,逐层增加真实部署难度。同时,它构建了更高多样性的训练数据,并通过多标签诊断分析模型在交互类型、子任务数量、空间关系、物体属性等维度上的失败模式。

ICRA 2026|美团&北航提出LIBERO-X:五级递进测试揭示VLA模型鲁棒性短板

实验结果显示,多个代表性VLA模型在LIBERO-X上都会随难度增加明显掉点,尤其在拓扑变化、未见物体、语言改写和多步长程任务中表现不稳定。这说明现有VLA并不是不会完成任务,而是缺少对复杂分布偏移的稳定泛化能力。


这篇工作的价值在于,它把VLA评测从平均成功率推进到鲁棒性诊断。对具身智能研究来说,未来不仅要做更大的模型,也要做更真实的基准、更细的失败分析和更强的空间泛化、语言接地与长程执行能力,这正是VLA实用化落地的重要发文切口。


雷峰网(公众号:雷峰网)

 

雷峰网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说