ICRA 2026｜美团&北航提出LIBERO-X：五级递进测试揭示VLA模型鲁棒性短板

本文作者：吴思梦

2026-05-28 15:42

专题：ICRA 国际机器人与自动化会议

导语：把VLA评测从平均成功率推进到鲁棒性诊断

原文作者：公众号“计算机顶会大全”

原文链接：https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA

论文作者来自美团和北京航空航天大学

论文链接：

arXiv预印本https://arxiv.org/abs/2602.06556

arXiv PDFhttps://arxiv.org/pdf/2602.06556.pdf

官方项目页https://zackhxn.github.io/LIBERO-X/

LIBERO-X: Robustness Litmus for Vision-Language-Action Models

ICRA 2026｜美团&北航提出LIBERO-X：五级递进测试揭示VLA模型鲁棒性短板

过去，很多VLA模型在标准机器人基准上表现不错，但这并不等于它们真的具备真实部署能力。真实环境中的机器人任务，往往会同时遇到物体位置变化、场景结构变化、未见物体、视觉干扰和语言指令改写等问题。

这篇论文提出LIBERO-X，核心不是再造一个更强模型，而是构建一个更严格的VLA鲁棒性评测基准，用来检验现有视觉语言动作模型到底稳不稳。方法上，LIBERO-X设计了五级递进式测试协议，从局部空间扰动、大范围空间扰动，到场景拓扑重构、视觉属性变化和语义等价指令改写，逐层增加真实部署难度。同时，它构建了更高多样性的训练数据，并通过多标签诊断分析模型在交互类型、子任务数量、空间关系、物体属性等维度上的失败模式。

ICRA 2026｜美团&北航提出LIBERO-X：五级递进测试揭示VLA模型鲁棒性短板