0
| 本文作者: 吴思梦 | 2026-05-28 15:42 | 专题:ICRA 2017:创新、创业和解决方法 |
原文作者:公众号“计算机顶会大全”
原文链接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA
论文作者来自美团和北京航空航天大学
论文链接:
arXiv预印本https://arxiv.org/abs/2602.06556
arXiv PDFhttps://arxiv.org/pdf/2602.06556.pdf
官方项目页https://zackhxn.github.io/LIBERO-X/
LIBERO-X: Robustness Litmus for Vision-Language-Action Models

过去,很多VLA模型在标准机器人基准上表现不错,但这并不等于它们真的具备真实部署能力。真实环境中的机器人任务,往往会同时遇到物体位置变化、场景结构变化、未见物体、视觉干扰和语言指令改写等问题。
这篇论文提出LIBERO-X,核心不是再造一个更强模型,而是构建一个更严格的VLA鲁棒性评测基准,用来检验现有视觉语言动作模型到底稳不稳。方法上,LIBERO-X设计了五级递进式测试协议,从局部空间扰动、大范围空间扰动,到场景拓扑重构、视觉属性变化和语义等价指令改写,逐层增加真实部署难度。同时,它构建了更高多样性的训练数据,并通过多标签诊断分析模型在交互类型、子任务数量、空间关系、物体属性等维度上的失败模式。

实验结果显示,多个代表性VLA模型在LIBERO-X上都会随难度增加明显掉点,尤其在拓扑变化、未见物体、语言改写和多步长程任务中表现不稳定。这说明现有VLA并不是不会完成任务,而是缺少对复杂分布偏移的稳定泛化能力。
这篇工作的价值在于,它把VLA评测从平均成功率推进到鲁棒性诊断。对具身智能研究来说,未来不仅要做更大的模型,也要做更真实的基准、更细的失败分析和更强的空间泛化、语言接地与长程执行能力,这正是VLA实用化落地的重要发文切口。
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。