0
| 本文作者: 陈淑瑜 | 2026-06-05 11:50 | 专题:ICRA 2017:创新、创业和解决方法 |
2026年6月4日,在ICRA 2026大会的Keynote 3“Robot Perception and Spatial AI”环节中,MIT副教授Luca Carlone发表了题为“Maps, Memory, and Tasks — Toward Spatial Al for the Next Generation of Robots”的主旨演讲。他系统性地论证了一个核心观点:下一代机器人更需要任务驱动的记忆系统,而非一味追求更精确的地图。

Carlone指出,经典SLAM虽然成功,但流水线极其复杂。稠密条件模型(如Visual Geometry Grounded Transformer)用统一前馈框架革新了这一领域,却受限于帧数处理能力。团队通过子地图切分扩展VGGT,却发现射影歧义导致子地图对齐产生伪影。为此,他们将传统的位姿图优化升级为模型图优化,成功修正了尺度信息。
但仅有地图远远不够。Carlone论证了从地图到记忆的必要性:传统地图只能回答“自由空间在哪”,而记忆应让机器人回答“我上周把钥匙放哪了”、“当时天气怎样”这类涉及时空和经验的复杂查询。团队构建了3D场景图→DAAAM(开放词汇场景图)→情景记忆(基于惊喜度的视频存储)的递进路径,使机器人既能检索事实,也能回放经历。
最后,Carlone提出“记忆应该是绿色的、轻量的”。Clio系统引入信息瓶颈工具构建任务驱动的场景图表征,通过感知具体任务来过滤无关信息,实现更少、更准的存储。其后续工作Found-IT进一步支持在运行时动态指定任务,摆脱了对预设任务列表的依赖。
以下为Luca Carlone在ICRA 2026大会发表的演讲精编稿,AI科技评论基于原英文演讲内容进行不改原意的翻译编辑:
演讲正文:从经典SLAM到语义建图
今天我演讲的主题是“地图、记忆与任务——以及空间AI的未来”。内容主要聚焦于我们实验室最近的工作,包括几周前刚发布的研究。深耕这个领域大约20年,我切身感受到现在是最令人兴奋的时刻。硬件的飞速进步以及基础模型的涌现,让我们能够理解和评估以前无法触及的课题。
当前,从工业界到学术界,各类新型机器人层出不穷。人形机器人有望在复杂的长期任务中与人类无缝协作。但核心问题在于:我们如何让机器人在真实规模的环境中执行这类长期任务?
我认为,要构建这个未来,下一代机器人需要引入任务驱动的记忆系统,而这种系统的核心在于条件化的信息处理。

首先来看3D建图,即从经典建图模型到语义建图模型的演进。随后我将论证为什么仅有地图是不够的,我们必须开始构建机器人的记忆能力。最后,我将探讨如何将记忆设计为支持机器人执行具体任务的工具。

经典SLAM取得了巨大的成功,但其整个流水线极其复杂。过去三年中,稠密条件模型彻底革新了这一领域。它表明你可以利用同一个前馈框架来处理复杂的SLAM问题,将图像直接映射为3D结构和相机位姿。更关键的是,这种新架构能够处理来自多个相机的实时数据流,这在传统SLAM中是难以企及的。
然而,像VGGT这类稠密基础模型同样存在局限。例如,VGGT在内存耗尽前大约只能处理60帧;即使是最新的VGGT-Ω,处理500帧也需要大约一分钟。但在实际的SLAM场景中,包含上万帧、覆盖长期运行轨迹的情况屡见不鲜。

射影歧义与模型图优化
为了扩展这些稠密条件模型,我们的基本思路是将轨迹切分为多个子地图,用VGGT逐个处理后,再利用传统位姿图优化进行对齐。
但测试结果却出乎意料,对齐同一区域的两个子地图时,场景中的衣柜竟然被重复放置在了床的两侧。这些伪影源于计算机视觉中经典的“射影歧义”。
本质上,我们是在利用多个透视相机重建场景,且唯一已知的是相机内参。当固定相机内参时,3D重建的尺度是不确定的。如果相机完全未标定,相似结构的场景就极易被混淆。在一个未标定相机的会话中,你很难区分一个完美的立方体结构与一个变形的结构,因为这种变形极易被误判为相机标定参数的变化。这就解释了为什么SLAM中会产生此类伪影。
基于这一洞察,我们发现不同子地图具有不同的尺度信息。对此,我们的贡献在于证明了通过对子地图施加适当的相似变换,可以有效修正尺度信息。我们将传统的位姿图优化升级为模型图优化,在模型度量空间中进行同步优化,从而解决了部分子地图受尺度歧义影响的问题。
从实际效果看,在相同的场景中,衣柜实现了更紧密的匹配与对齐,尺度信息得到了修正。目前该方法已在室内外各种环境中得到验证,下个月的ICRA上我们还将展示一篇新论文,未来该方法将进一步扩展到更大规模的场景中。
稠密条件模型的应用并不局限于SLAM。我们还尝试将VGGT作为视听觉语言模型(VLA)的工具:由VGGT将图像映射为3D结构和视频token,再将这些token注入VLA中,从而赋予模型更出色的3D场景理解能力。

在Unitree G1机器人的测试中,我们对比了标准VLA(如Octo 1.5)与经VGGT增强后的VLA的操作性能。结果表明,VGGT增强版本在操作任务中的成功率显著提升。
从地图到记忆:3D场景图与DAAAM
接下来讨论超越建图的必要性,即如何提炼环境中的核心语义要素。
传统地图的本质是记录环境的几何结构,机器人只能回答“自由空间在哪里”、“障碍物在哪里”这类基础问题。2015年左右,行业开始向度量语义地图转变,将语义标签附加到标准几何地图上。这让机器人能够处理稍微复杂的查询,比如寻找椅子、桌子或询问桌子的高度。但这些依然停留在基于基础语义的简单检索层面。
我认为,当下的机器人必须实现从地图到记忆的跃升。记忆是指编码、存储和提取环境更泛化信息的能力,同时记录机器人自身的行为体验。
拥有记忆后,机器人就能理解更符合人类习惯的自然语言提问,比如:“我上周把钥匙放哪了?”、“Bob的T恤是什么颜色?”或者“当时天气怎样?”机器人的内部表征必须足够丰富,才能支撑起这类跨越时空与经验的复杂查询。
过去几年,我们一直在倡导使用3D场景图来存储环境中物体、智能体、地点等信息,这可以被视为一种初级的、局部的记忆形式。
3D场景图是一种层次化表征,它遵循环境的多级结构,从底层的几何、物体、智能体、场所,一直延伸到房间和建筑层级。
我们团队不仅提出了新的表征方式,还开发了首个能够直接从传感器数据增量式构建场景图的系统——Hydra。过去三到五年中,我们证实了该系统在室内到公里级室外环境中的建图能力。

尽管这些工具已经能够捕捉基础语义、几何信息以及物体间的关系,但实际的机器人操作往往需要更细腻的知识输入。例如,机器人不仅需要知道“这里有一辆自行车”,更需要记住“这里有一辆蓝色自行车”或“一辆轮胎没气的自行车”。
为此,我们开发了DAAAM。作为首个实时开放词汇3D场景图系统,它能够为物体生成极其丰富的描述。我们借助基础视觉-语言模型(VLM)来标注物体,同时为了确保实时性,引入了帧采集策略来挑选最佳视角,缓解了标注速度慢的瓶颈。随后,这些描述会从物体层级向上传播,为区域乃至整个场景图补充上下文。

生成的场景图支持自然语言查询。我们设计了一种基于智能体的聊天交互方式,允许用户像使用ChatGPT一样检索环境记忆。例如,输入“你看到放在德州仪器入口旁边的护照了吗?”,系统会迅速定位关联位置,推断出护照的具体位置与时间,并回答“15分钟前在那里”。
情景记忆:基于惊喜度的视频存储
在后续迭代中我们发现,现有工作大多基于一种高度“有损”的表征。如果场景图缺少推理所需的信息,机器人就会陷入困境。例如,它可能无法回答关于某个动态动作的提问,或者无法分辨什么是“十字路口”,因为这些动态信息在几何或静态语义建图中被过滤了。
这一局限性的解法同样存在于神经科学中。人类的记忆兼具语义记忆与情景记忆。语义记忆负责检索事实与关系(3D场景图即扮演此类角色,尽管目前还相对局限);而情景记忆则是对事件更生动的片段式记录,就像一段描绘特定遭遇的短视频。正如人类遭遇事故时能极其生动地回忆起画面细节一样,情景记忆关注的就是这类关键事件。
受此启发,我们开发了一个基于惊喜度的机器人情景记忆框架。系统会实时计算一个度量指标,用区域的“惊喜度”来衡量新输入环境带来的冲击。一旦遭遇高惊喜度事件,系统就会自动拦截并存储一段短视频。

这里核心的设计在于惊喜度指标的选取。我们引入了世界模型工具V-JEPA2,用它来捕捉场景的相关动态。因为它能捕捉场景的相关动态,它本质上是一个世界模型。我们将这个框架集成到了3D场景图系统中。通过这个方式,场景图捕捉信息的能力得到了质的提升。通过引入短视频存储,机器人得以应对更高级的条件查询。
在测试视频中,面对用户提问“头盔上是什么颜色?”,由于头盔颜色在移动过程中发生了变化,系统能够调取记忆中的视频片段进行比对推理,准确给出了结合时间轴的正确答案。
任务驱动的记忆:Clio与Found-IT
最后,我想探讨为什么记忆表征必须由任务来驱动。
上述所有探索似乎都在引导我们去存储更多、更丰富的信息(如长文本描述、视频片段等)。然而,面对海量数据,核心问题随之而来:到底什么才是必须记住的?
我们主张,机器人的记忆应该是绿色且轻量的,并非所有信息都具有同等价值。如果机器人只是在厨房里导航到储藏室,它可能只需要记住空间几何;但如果任务是做饭,它就必须精确记住旋钮和灶台的位置。
为了应对这一根本挑战,我们推出了首个构建任务驱动型3D场景图的方法,称之为Clio。不同于传统建图,Clio在输入传感器数据的同时,还会接收一份用自然语言指定的任务列表。系统利用Segment Anything等模型锁定目标物体,并借助信息论中的“信息瓶颈”工具进行聚类与表征设计,确保每一个聚类既具备足够的信息量,又与当前的具体任务高度对齐。

该系统在移动操作任务中表现优异。数据显示,通过感知任务需求,系统能更高效地过滤无关干扰。如表格所示,Clio存储的物体数量远少于其他方法,但由于注意力集中在核心要素上,其任务成功率和召回精度反而实现了显著提升。这一结论在随后的拾取与放置任务中也得到了验证。
上周我们刚发布了一项名为Found-IT的后续工作。简单来说,它是DAAAM的升级版。我们改用基础模型来直接构建场景图,使其能够直接在标准的机器人操作视频上运行。

更重要的是,它不再需要预先指定任务列表,而是支持在运行时动态调整任务。你可以把它想象成一种自适应建图机制,随着机器人的运行,在正确的时间以正确的方式按需绘制地图。
总结而言,空间AI正在经历从传统地图向任务驱动型全局记忆的演进。当然,诸如长短期记忆的衔接、遗忘机制以及神经科学中的其他记忆形态,还有诸多课题值得深入。除了空间理解,我们实验室目前在自动驾驶感知、人体与物体条件预测,以及视觉语言模型(VLM)的不确定性量化方面也取得了不错的进展。最后,如果大家想了解该研究领域的全景,推荐阅读我们近期与多位顶尖学者合作编写的《SLAM手册》,其中涵盖了认证感知、空间理解等诸多核心主题。
Q&A 问答环节
Q: 我想请教一个关于语义不确定性的问题。你如何构建能够对语义不确定性进行鲁棒推理的系统?而且同一种事物可以用语言以许多不同方式描述,机器人是否会被不一致的语言反馈所迷惑?
Luca Carlone: 这确实是大家都非常关注的核心痛点。在不确定性量化方面,我们的研究表明,系统必须同时捕获两个不确定性来源:一个是认知不确定性,另一个是源于模型自身内在局限的系统性概念不确定性。虽然我们在数据集上证实了这种量化方法的可行性,但你提到的挑战其实更为深远。
很多人可能关注到了近期关于Mirage(海市蜃楼幻觉)现象的研究,这是一项针对50个VLM基准测试展开的非常出色的工作。他们发现,即使不提供任何图像,只向模型提问,VLM依然能够煞有介事地给出“答案”。这表明我们对这些基础模型的底层机理依然知之甚少。因此,在安全至上的机器人应用中,语义不确定性量化绝对是一个至关重要的课题。
Q: 我对情景记忆以及CLIP嵌入的应用很感兴趣。存储视频是一个非常直观且有趣的方案,但它的成本不会太高吗?为什么我们必须存储实际的视频,而不是某种更扁平化、更低维的表征?
Luca Carlone: 非常深刻的问题。对此我可以从两方面来解答。
首先,沿着机器人的行进轨迹存储图像或视频并不是一个新概念。在实际应用中,为了实现视觉定位等功能,机器人本来就需要保留大量的沿途轨迹信息。我们的框架并不是额外增加了存储负担,而是提供了一种更聪明、更有选择性的机制,来决定到底该保留哪些帧。
其次,在我提到的“短视频”机制中,系统实际上每次只精简存储大约5个关键帧,因此整体存储量与常规方法相比并没有显著增加。在我们的实验框架下,情景记忆在2到3分钟的运行周期内通常只会触发2到3次。所以从存储开销来看,它并没有想象中那么夸张。
当然,在面对极长序列的实验时,确实需要非常小心。我们的终极目标并不是去存储完整的“梦境”,而是希望提取出更具压缩性的表征来“分析梦境”,从而实现更高的效率。雷峰网(公众号:雷峰网)
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
本专题其他文章