0
| 本文作者: 陈淑瑜 | 2026-04-24 15:57 | 专题:ICRA 2017:创新、创业和解决方法 |
视觉-语言-动作(VLA)模型是具身智能的核心架构,旨在让机器人通过视觉感知和语言理解直接输出动作指令。然而,当前主流VLA模型(如RT-2、OpenVLA)通常架构复杂、训练流程冗长,缺乏一个设计简洁、易于理解和复现的基准模型,阻碍了社区对VLA核心设计决策的系统性研究。
此外,现有VLA模型在训练效率上存在显著差异——有些需要大规模预训练数据,有些依赖复杂的跨模态对齐策略,使得研究者难以区分哪些性能提升来自架构创新,哪些来自工程技巧。社区急需一个「少即是多」的纯净基线来推动VLA研究的健康发展。
LLaVA-VLA基于LLaVA架构构建,通过三个关键设计选择实现了简洁与性能的平衡。
将第一人称视角和第三人称视角的观测图像垂直拼接为单一复合图像,输入视觉编码器。这一设计保留了完整的空间信息,同时避免了多图像独立编码带来的token数量膨胀和信息丢失问题,在信息完整性与计算效率之间取得了优雅的平衡。
将机器人的本体感觉信息(如关节角度、夹爪状态)通过动作分词器编码到与动作token相同的嵌入空间中。这一设计使VLM的语言建模能力能够自然地理解和生成连贯的动作序列,而非将本体感觉作为独立模态处理,简化了多模态融合的复杂度。
设置动作分块大小为5,即模型每次输出连续5步的动作指令。这一隐式规划机制提高了生成动作的时序一致性和执行稳定性,有效减少了单步决策带来的抖动和累积误差。
无需大规模预训练数据,直接从LLaVA-v1.5-7b检查点出发,仅需7小时微调即可获得具备竞争力的VLA模型。同时提供了0.5B参数的小模型版本,可在消费级GPU(如24GB RTX 4090)上部署。

在CALVIN ABC→D基准测试中,LLaVA-VLA达到3.68平均成功步数,优于最流行的基线OpenVLA。而达成这一性能仅需从LLaVA-v1.5-7b检查点微调7小时,无需任何大规模预训练或复杂数据管线,展示了VLA架构本身的巨大潜力。
LLaVA-VLA-0.5b版本仅需24GB显存即可运行(如RTX 4090),在RoboTwin基准测试中,困难任务成功率达28.6%。这一成果使VLA模型从实验室走向普通开发者的桌面成为可能,极大降低了具身智能研究的硬件门槛。
LLaVA-VLA完全开源(MIT许可证),提供了训练代码、测试代码和预训练检查点,并持续更新新功能和环境支持。作为纯净基线,它帮助社区厘清了VLA架构中哪些设计真正重要,推动了VLA研究从「堆砌技巧」走向「理解本质」的健康发展方向。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
原文链接:https://arxiv.org/abs/2602.22663
解读来源:https://github.com/OpenHelix-Team/LLaVA-VLA
雷峰网版权文章,未经授权禁止转载。详情见转载须知。