0
| 本文作者: 陈淑瑜 | 2026-04-24 17:45 |
大型视觉语言模型(VLM)虽然在2D图像理解和语言推理上表现优异,但在3D空间推理能力上存在明显短板——它们往往难以准确理解物体的相对位置关系、深度信息及3D几何结构,直接制约了其在机器人、自动驾驶等具身智能场景中的应用。
现有多模态融合方法主要存在两大问题:一是浅层融合(Early Fusion)仅在模型输入或早期阶段融合视觉与语言,难以在高层建立细粒度的几何-语义关联;二是后期融合(Late Fusion)各模态独立编码,仅在输出层汇合,无法实现各层级的几何约束传导。这两种范式都难以捕获精细3D几何结构与全局语义之间的深层关联。
为解决上述问题,SpatialStack研究团队提出了 SpatialStack 分层融合框架,通过在模型全层级同步对齐视觉特征、3D几何特征与语言特征,构建真正的几何-语言统一理解能力,为下一代具身物理AI系统奠定技术基础。

SpatialStack 的核心思想是将多尺度3D几何特征与视觉、语言特征在模型各层同步对齐融合,替代传统的浅层或后期单点融合。
模型包含三条编码主干——视觉编码器提取2D视觉特征,3D几何编码器提取多尺度几何特征(包含不同粒度的点云/体素特征),语言模型主干负责语义表征。三条主干的特征不是在某一点汇合,而是通过全层级渐进对齐模块在每一层同步交互融合。
在语言模型的每一个 Transformer 层,SpatialStack 引入跨模态对齐注意力机制,使当前层的语言特征与对应尺度的视觉特征、3D几何特征进行双向交叉注意力计算。每一层的语言表征都被相应尺度的几何约束所引导,实现从粗粒度到细粒度的渐进空间语义对齐。
不同层级的语言表征对应不同尺度的3D几何特征——浅层关注局部点级精细几何,深层关注全局结构级语义,使模型同时兼顾局部几何精度和全局语义理解,避免了传统方法顾此失彼的困境。
基于 SpatialStack 框架构建的 VLM-SpatialStack 模型在多项3D空间推理基准测试上达到当前最优(SOTA)性能,有效验证了全层级渐进融合相对于传统融合范式的显著优势。
SpatialStack 打破了传统 VLM 二维视觉加文字的框架局限,首次系统性地将多尺度3D几何特征嵌入到语言模型的全层级表征学习中。这一范式创新为未来多模态物理AI系统的设计提供了可参考的通用蓝图。
传统方法往往面临局部精确但全局混乱或全局通顺但局部错位的两难困境。SpatialStack 通过多尺度同步建模,使模型既能精确定位冰箱在桌子左边15厘米处,又能理解厨房里所有物体的空间排布关系,在机器人操作和场景理解任务中具有极强的实用价值。
──────────────────────────────────────────
上述内容包含AI辅助生成,更详细信息参见两个链接
原文链接:https://arxiv.org/abs/2026.spatialstack
解读来源:https://blog.csdn.net/amusi1994/article/details/160000279
雷峰网版权文章,未经授权禁止转载。详情见转载须知。