0
| 本文作者: 陈淑瑜 | 2026-05-25 13:53 | 专题:ICRA 国际机器人与自动化会议 |
来源:公众号“高德技术”
论文主题|Seeing Space and Motion: Enhancing Latent Actions with Spatial and Dynamic Awareness for VLA
论文链接|https://arxiv.org/abs/2509.26251
在机器人"大脑"的进化之路上,如何让AI真正理解三维空间的结构关系,并预判物体的运动轨迹,一直是困扰业界的难题。近日,清华大学深圳国际研究生院与阿里巴巴集团旗下高德地图联合研究团队发布了一项突破性成果——SSM-VLA(Seeing Space and Motion),通过创新的"远视潜动作建模"技术,让机器人首次具备了几何感知的场景理解能力和多尺度时序建模能力,在多项机器人操控基准测试中创下 SOTA 成绩。

如果把机器人比作厨师,现有的VLA模型就像一位"色盲且健忘"的学徒:它能读出菜谱(语言理解),却分不清食材的远近深浅(空间感知弱);刚看一眼锅里的状态就忘了(时序建模差),导致动作断断续续、缺乏连贯性。
具体而言,当前主流方法存在两大结构性缺陷:
瓶颈一:空间感知"浮于表面"
现有VLA模型多采用端到端训练的RGB编码器,其视觉表征偏向颜色、纹理等表层语义,缺乏对物体关系、场景布局、深度信息的显式建模。这就像让一位平面设计师去当建筑师——审美在线,但看不懂施工图。结果是:机器人能认出"红色积木",却判断不好"它离我有多远"、"该从哪个角度抓取"。
瓶颈二:时序建模"鼠目寸光"
绝大多数潜在动作模型(LAM)仅输入两帧图像(当前帧+目标帧)来预测动作,这种"稀疏采样"方式丢失了大量动态信息:物体的运动趋势、接触瞬间的力学变化、长程任务的阶段性规划。就像仅看一张起点和终点的照片,难以推断中间经历了什么,导致动作预测不稳定、物理合理性差。
这两大缺陷相互交织:缺乏几何感知导致动作在3D空间中"对不准",缺乏时序建模导致动作在时间维度上"接不上"。机器人看似在执行任务,实则在"盲人摸象"。
面对上述挑战,研究团队从空间编码、时序建模、推理范式三个维度进行系统性重构,提出SSM-VLA框架:
1. Farsighted-LAM:看得深、看得远的潜在动作模型
几何感知空间编码:引入冻结的DINOv2编码器,提取富含结构先验的视觉特征(空间布局、隐式深度、物体关系),让潜在动作扎根于三维物理空间
多帧时序建模:突破传统两帧限制,同时处理当前帧+未来N个关键帧,捕捉从细微操作到长程规划的完整动态谱系
RGB-D联合监督:解码器同时重建未来帧的RGB和深度图,确保潜在动作既包含语义内容(外观),也包含几何结构(空间)
2. 视觉思维链(Visual Chain-of-Thought):先想象、再行动
受人类"三思而后行"的认知模式启发,SSM-VLA在输出最终动作前,先显式预测未来视觉状态(RGB+深度)。这种"想象-推理-执行"的级联范式,不仅增强了模型的时空理解能力,更提供了可解释的中间表征——你可以直观地看到机器人"脑海中的画面"是否与物理规律一致。
3. 多模态协同注意力:三阶段渐进式推理
通过精心设计的注意力掩码机制,SSM-VLA在一个统一Transformer内实现三阶段协同:
阶段1(视觉预测):基于历史观测和指令,生成下一帧视觉状态
阶段2(潜在动作规划):基于预测帧,生成长程潜在动作序列
阶段3(动作执行):融合全部信息,输出最终机器人动作
这种"双向+单向+因果"的混合注意力结构,既保证了信息流的完整性,又维持了时序因果性。
Farsighted-LAM:如何学习"空间-时序"统一的潜在动作?

Farsighted-LAM架构与 Latent action 可视化
编码器处理DINOv2特征序列,预测离散潜在动作;解码器利用当前帧和潜在动作重建未来帧的RGB与深度。
编码器设计:
输入:当前帧RGB-D + 未来N帧RGB
特征提取:冻结DINOv2编码器提取几何-语义丰富的视觉特征
时空Transformer:通过可学习的潜在动作查询(Latent Action Queries),自回归地生成未来N个时间步的连续潜在向量
向量量化:通过最近邻查找映射到离散码本,形成紧凑的潜在动作表征
解码器设计:
输入:当前帧RGB-D + 离散潜在动作
约束条件:禁止访问中间帧,强制潜在动作承载从当前到未来的全部空间-时序信息
输出:重建未来帧的RGB和深度图
损失函数:L2+LPIPS光度损失 + 梯度感知深度损失,确保外观真实且几何一致

SSM-VLA三阶段级联架构
Stage 1预测视觉状态,Stage 2推断潜在动作,Stage 3生成最终动作。
Stage 1:视觉思维链预测
输入:历史观测(t-H到t)+ 语言指令
输出:下一帧视觉状态(RGB+深度)
监督:与真实下一帧计算重建损失
深度处理:对于无传感器深度数据,通过SfM稀疏对齐生成伪深度标签
Stage 2:远视潜在动作推断
输入:历史上下文 + 预测帧特征
输出:未来N步的潜在动作序列
监督:与预训练Farsighted-LAM编码器生成的ground-truth潜在动作计算交叉熵损失
Stage 3:动作生成
输入:历史上下文 + 预测帧 + 完整潜在动作计划
输出:机器人动作
实现:基于条件流匹配(Flow Matching)的扩散策略,DiT网络作为去噪器
实验结果:全面刷新SOTA,零样本泛化能力惊艳
在最具挑战性的CALVIN ABC-D基准上(训练于A/B/C环境,零样本测试于未见过的D环境,完成1000条指令链、每条5个连续任务),SSM-VLA展现出强大的多任务学习与泛化能力:


SSM-VLA以平均4.38个连续任务的完成长度,超越所有对比方法,创下新纪录。
真实世界:AgileX Piper机器人验证

研究团队还在真实场景中使用AgileX Piper机械臂进行验证,任务为"将粉色玩具放入盒子"。模型先在Open-X-Embodiment等大规模数据集上预训练,仅通过50条人类演示微调即成功部署。面对杂乱、非结构化的真实环境,机器人展现出优异的泛化能力。
为证明各模块的有效性,研究团队进行了严谨的消融分析:
"远视"结构的价值:使用3帧上下文(LAM 3-frame)相比单帧(LAM 1-frame)平均任务链长度提升0.1,相比移除LAM(w/o LAM)提升0.21,证明多帧观测对平滑、物理合理的动作空间学习至关重要;
多模态协同注意力机制:相比简单的因果注意力,结构化注意力机制将平均完成长度从3.70大幅提升至4.38,凸显了其整合过去、现在与未来预测信息的能力;
几何先验的贡献:引入深度监督后,平均完成长度从4.27提升至4.38,验证了显式3D几何信息对空间关系推理与抓取姿态估计的积极作用。
从"看见"到"看懂",从"执行"到"预判",SSM-VLA代表了VLA模型向空间智能与时序智能深度融合的重要迈进。正如论文通讯作者黄汝琪教授所言:"当机器人真正理解空间结构、预判运动趋势,它们才能从'按图索骥'的工具,进化为'见微知著'的伙伴。"
雷峰网版权文章,未经授权禁止转载。详情见转载须知。