MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

本文作者：陈淑瑜

2026-06-05 11:50

导语：空间AI正在经历从传统地图向任务驱动型全局记忆的演进。

相关资料下载:

ICRA Keynote Luca Carlone 演讲PPT（PDF）

2026年6月4日，在ICRA 2026大会的Keynote 3“Robot Perception and Spatial AI”环节中，MIT副教授Luca Carlone发表了题为“Maps, Memory, and Tasks — Toward Spatial Al for the Next Generation of Robots”的主旨演讲。他系统性地论证了一个核心观点：下一代机器人更需要任务驱动的记忆系统，而非一味追求更精确的地图。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

Carlone指出，经典SLAM虽然成功，但流水线极其复杂。稠密条件模型（如Visual Geometry Grounded Transformer）用统一前馈框架革新了这一领域，却受限于帧数处理能力。团队通过子地图切分扩展VGGT，却发现射影歧义导致子地图对齐产生伪影。为此，他们将传统的位姿图优化升级为模型图优化，成功修正了尺度信息。

但仅有地图远远不够。Carlone论证了从地图到记忆的必要性：传统地图只能回答“自由空间在哪”，而记忆应让机器人回答“我上周把钥匙放哪了”、“当时天气怎样”这类涉及时空和经验的复杂查询。团队构建了3D场景图→DAAAM（开放词汇场景图）→情景记忆（基于惊喜度的视频存储）的递进路径，使机器人既能检索事实，也能回放经历。

最后，Carlone提出“记忆应该是绿色的、轻量的”。Clio系统引入信息瓶颈工具构建任务驱动的场景图表征，通过感知具体任务来过滤无关信息，实现更少、更准的存储。其后续工作Found-IT进一步支持在运行时动态指定任务，摆脱了对预设任务列表的依赖。

以下为Luca Carlone在ICRA 2026大会发表的演讲精编稿，AI科技评论基于原英文演讲内容进行不改原意的翻译编辑：

演讲正文：从经典SLAM到语义建图

今天我演讲的主题是“地图、记忆与任务——以及空间AI的未来”。内容主要聚焦于我们实验室最近的工作，包括几周前刚发布的研究。深耕这个领域大约20年，我切身感受到现在是最令人兴奋的时刻。硬件的飞速进步以及基础模型的涌现，让我们能够理解和评估以前无法触及的课题。

当前，从工业界到学术界，各类新型机器人层出不穷。人形机器人有望在复杂的长期任务中与人类无缝协作。但核心问题在于：我们如何让机器人在真实规模的环境中执行这类长期任务？

我认为，要构建这个未来，下一代机器人需要引入任务驱动的记忆系统，而这种系统的核心在于条件化的信息处理。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

首先来看3D建图，即从经典建图模型到语义建图模型的演进。随后我将论证为什么仅有地图是不够的，我们必须开始构建机器人的记忆能力。最后，我将探讨如何将记忆设计为支持机器人执行具体任务的工具。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

经典SLAM取得了巨大的成功，但其整个流水线极其复杂。过去三年中，稠密条件模型彻底革新了这一领域。它表明你可以利用同一个前馈框架来处理复杂的SLAM问题，将图像直接映射为3D结构和相机位姿。更关键的是，这种新架构能够处理来自多个相机的实时数据流，这在传统SLAM中是难以企及的。

然而，像VGGT这类稠密基础模型同样存在局限。例如，VGGT在内存耗尽前大约只能处理60帧；即使是最新的VGGT-Ω，处理500帧也需要大约一分钟。但在实际的SLAM场景中，包含上万帧、覆盖长期运行轨迹的情况屡见不鲜。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

射影歧义与模型图优化

为了扩展这些稠密条件模型，我们的基本思路是将轨迹切分为多个子地图，用VGGT逐个处理后，再利用传统位姿图优化进行对齐。

但测试结果却出乎意料，对齐同一区域的两个子地图时，场景中的衣柜竟然被重复放置在了床的两侧。这些伪影源于计算机视觉中经典的“射影歧义”。

本质上，我们是在利用多个透视相机重建场景，且唯一已知的是相机内参。当固定相机内参时，3D重建的尺度是不确定的。如果相机完全未标定，相似结构的场景就极易被混淆。在一个未标定相机的会话中，你很难区分一个完美的立方体结构与一个变形的结构，因为这种变形极易被误判为相机标定参数的变化。这就解释了为什么SLAM中会产生此类伪影。

基于这一洞察，我们发现不同子地图具有不同的尺度信息。对此，我们的贡献在于证明了通过对子地图施加适当的相似变换，可以有效修正尺度信息。我们将传统的位姿图优化升级为模型图优化，在模型度量空间中进行同步优化，从而解决了部分子地图受尺度歧义影响的问题。

从实际效果看，在相同的场景中，衣柜实现了更紧密的匹配与对齐，尺度信息得到了修正。目前该方法已在室内外各种环境中得到验证，下个月的ICRA上我们还将展示一篇新论文，未来该方法将进一步扩展到更大规模的场景中。

稠密条件模型的应用并不局限于SLAM。我们还尝试将VGGT作为视听觉语言模型（VLA）的工具：由VGGT将图像映射为3D结构和视频token，再将这些token注入VLA中，从而赋予模型更出色的3D场景理解能力。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

在Unitree G1机器人的测试中，我们对比了标准VLA（如Octo 1.5）与经VGGT增强后的VLA的操作性能。结果表明，VGGT增强版本在操作任务中的成功率显著提升。

从地图到记忆：3D场景图与DAAAM

接下来讨论超越建图的必要性，即如何提炼环境中的核心语义要素。

传统地图的本质是记录环境的几何结构，机器人只能回答“自由空间在哪里”、“障碍物在哪里”这类基础问题。2015年左右，行业开始向度量语义地图转变，将语义标签附加到标准几何地图上。这让机器人能够处理稍微复杂的查询，比如寻找椅子、桌子或询问桌子的高度。但这些依然停留在基于基础语义的简单检索层面。

我认为，当下的机器人必须实现从地图到记忆的跃升。记忆是指编码、存储和提取环境更泛化信息的能力，同时记录机器人自身的行为体验。

拥有记忆后，机器人就能理解更符合人类习惯的自然语言提问，比如：“我上周把钥匙放哪了？”、“Bob的T恤是什么颜色？”或者“当时天气怎样？”机器人的内部表征必须足够丰富，才能支撑起这类跨越时空与经验的复杂查询。

过去几年，我们一直在倡导使用3D场景图来存储环境中物体、智能体、地点等信息，这可以被视为一种初级的、局部的记忆形式。

3D场景图是一种层次化表征，它遵循环境的多级结构，从底层的几何、物体、智能体、场所，一直延伸到房间和建筑层级。

我们团队不仅提出了新的表征方式，还开发了首个能够直接从传感器数据增量式构建场景图的系统——Hydra。过去三到五年中，我们证实了该系统在室内到公里级室外环境中的建图能力。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

尽管这些工具已经能够捕捉基础语义、几何信息以及物体间的关系，但实际的机器人操作往往需要更细腻的知识输入。例如，机器人不仅需要知道“这里有一辆自行车”，更需要记住“这里有一辆蓝色自行车”或“一辆轮胎没气的自行车”。

为此，我们开发了DAAAM。作为首个实时开放词汇3D场景图系统，它能够为物体生成极其丰富的描述。我们借助基础视觉-语言模型（VLM）来标注物体，同时为了确保实时性，引入了帧采集策略来挑选最佳视角，缓解了标注速度慢的瓶颈。随后，这些描述会从物体层级向上传播，为区域乃至整个场景图补充上下文。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

生成的场景图支持自然语言查询。我们设计了一种基于智能体的聊天交互方式，允许用户像使用ChatGPT一样检索环境记忆。例如，输入“你看到放在德州仪器入口旁边的护照了吗？”，系统会迅速定位关联位置，推断出护照的具体位置与时间，并回答“15分钟前在那里”。

情景记忆：基于惊喜度的视频存储

在后续迭代中我们发现，现有工作大多基于一种高度“有损”的表征。如果场景图缺少推理所需的信息，机器人就会陷入困境。例如，它可能无法回答关于某个动态动作的提问，或者无法分辨什么是“十字路口”，因为这些动态信息在几何或静态语义建图中被过滤了。

这一局限性的解法同样存在于神经科学中。人类的记忆兼具语义记忆与情景记忆。语义记忆负责检索事实与关系（3D场景图即扮演此类角色，尽管目前还相对局限）；而情景记忆则是对事件更生动的片段式记录，就像一段描绘特定遭遇的短视频。正如人类遭遇事故时能极其生动地回忆起画面细节一样，情景记忆关注的就是这类关键事件。

受此启发，我们开发了一个基于惊喜度的机器人情景记忆框架。系统会实时计算一个度量指标，用区域的“惊喜度”来衡量新输入环境带来的冲击。一旦遭遇高惊喜度事件，系统就会自动拦截并存储一段短视频。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

这里核心的设计在于惊喜度指标的选取。我们引入了世界模型工具V-JEPA2，用它来捕捉场景的相关动态。因为它能捕捉场景的相关动态，它本质上是一个世界模型。我们将这个框架集成到了3D场景图系统中。通过这个方式，场景图捕捉信息的能力得到了质的提升。通过引入短视频存储，机器人得以应对更高级的条件查询。

在测试视频中，面对用户提问“头盔上是什么颜色？”，由于头盔颜色在移动过程中发生了变化，系统能够调取记忆中的视频片段进行比对推理，准确给出了结合时间轴的正确答案。

任务驱动的记忆：Clio与Found-IT

最后，我想探讨为什么记忆表征必须由任务来驱动。

上述所有探索似乎都在引导我们去存储更多、更丰富的信息（如长文本描述、视频片段等）。然而，面对海量数据，核心问题随之而来：到底什么才是必须记住的？

我们主张，机器人的记忆应该是绿色且轻量的，并非所有信息都具有同等价值。如果机器人只是在厨房里导航到储藏室，它可能只需要记住空间几何；但如果任务是做饭，它就必须精确记住旋钮和灶台的位置。

为了应对这一根本挑战，我们推出了首个构建任务驱动型3D场景图的方法，称之为Clio。不同于传统建图，Clio在输入传感器数据的同时，还会接收一份用自然语言指定的任务列表。系统利用Segment Anything等模型锁定目标物体，并借助信息论中的“信息瓶颈”工具进行聚类与表征设计，确保每一个聚类既具备足够的信息量，又与当前的具体任务高度对齐。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

该系统在移动操作任务中表现优异。数据显示，通过感知任务需求，系统能更高效地过滤无关干扰。如表格所示，Clio存储的物体数量远少于其他方法，但由于注意力集中在核心要素上，其任务成功率和召回精度反而实现了显著提升。这一结论在随后的拾取与放置任务中也得到了验证。

上周我们刚发布了一项名为Found-IT的后续工作。简单来说，它是DAAAM的升级版。我们改用基础模型来直接构建场景图，使其能够直接在标准的机器人操作视频上运行。

MIT Luca Carlone副教授：地图不够用，机器人得「记事」｜ICRA 2026

更重要的是，它不再需要预先指定任务列表，而是支持在运行时动态调整任务。你可以把它想象成一种自适应建图机制，随着机器人的运行，在正确的时间以正确的方式按需绘制地图。

总结而言，空间AI正在经历从传统地图向任务驱动型全局记忆的演进。当然，诸如长短期记忆的衔接、遗忘机制以及神经科学中的其他记忆形态，还有诸多课题值得深入。除了空间理解，我们实验室目前在自动驾驶感知、人体与物体条件预测，以及视觉语言模型（VLM）的不确定性量化方面也取得了不错的进展。最后，如果大家想了解该研究领域的全景，推荐阅读我们近期与多位顶尖学者合作编写的《SLAM手册》，其中涵盖了认证感知、空间理解等诸多核心主题。

Q&A 问答环节

Q：我想请教一个关于语义不确定性的问题。你如何构建能够对语义不确定性进行鲁棒推理的系统？而且同一种事物可以用语言以许多不同方式描述，机器人是否会被不一致的语言反馈所迷惑？

Luca Carlone：这确实是大家都非常关注的核心痛点。在不确定性量化方面，我们的研究表明，系统必须同时捕获两个不确定性来源：一个是认知不确定性，另一个是源于模型自身内在局限的系统性概念不确定性。虽然我们在数据集上证实了这种量化方法的可行性，但你提到的挑战其实更为深远。

很多人可能关注到了近期关于Mirage（海市蜃楼幻觉）现象的研究，这是一项针对50个VLM基准测试展开的非常出色的工作。他们发现，即使不提供任何图像，只向模型提问，VLM依然能够煞有介事地给出“答案”。这表明我们对这些基础模型的底层机理依然知之甚少。因此，在安全至上的机器人应用中，语义不确定性量化绝对是一个至关重要的课题。

Q：我对情景记忆以及CLIP嵌入的应用很感兴趣。存储视频是一个非常直观且有趣的方案，但它的成本不会太高吗？为什么我们必须存储实际的视频，而不是某种更扁平化、更低维的表征？

Luca Carlone：非常深刻的问题。对此我可以从两方面来解答。

首先，沿着机器人的行进轨迹存储图像或视频并不是一个新概念。在实际应用中，为了实现视觉定位等功能，机器人本来就需要保留大量的沿途轨迹信息。我们的框架并不是额外增加了存储负担，而是提供了一种更聪明、更有选择性的机制，来决定到底该保留哪些帧。

其次，在我提到的“短视频”机制中，系统实际上每次只精简存储大约5个关键帧，因此整体存储量与常规方法相比并没有显著增加。在我们的实验框架下，情景记忆在2到3分钟的运行周期内通常只会触发2到3次。所以从存储开销来看，它并没有想象中那么夸张。

当然，在面对极长序列的实验时，确实需要非常小心。我们的终极目标并不是去存储完整的“梦境”，而是希望提取出更具压缩性的表征来“分析梦境”，从而实现更高的效率。雷峰网(公众号：雷峰网)

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

专题

ICRA 国际机器人与自动化会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章