机器人也学会“先想后做”了：Imagine2Act突破高精度操作难题 | ICRA 2026

本文作者：陈淑瑜

2026-04-22 18:32

导语：北京大学董豪团队提出的Imagine2Act框架，让机器人先“想象”出任务完成时的理想状态，再据此规划动作，在多项精细操作任务上取得了显著突破。

把盘子垂直插入碗架的窄槽、将花茎稳稳放入花瓶——这些对人类来说近乎本能的高精度操作，却是机器人至今难以跨越的门槛。北京大学董豪团队在ICRA 2026上提出的Imagine2Act框架，让机器人先“想象”出任务完成时的理想状态，再据此规划动作，在多项精细操作任务上取得了显著突破。

一、背景：高精度操作的两大瓶颈

家庭服务机器人要真正帮人类干活，光会“抓取-放置”远远不够。面对“把笔插进笔筒”“将碗放入碗架”这类关系性重排任务，机器人既要理解物体间的语义关系，更要满足严格的几何约束——偏差几毫米就可能导致任务失败。

当前主流方法存在两大瓶颈：一是传统3D模仿学习缺乏对物体间几何关系的显式推理，在高精度对齐任务上表现不稳；二是利用生成模型的方法往往直接将生成的物体变换当作动作执行，生成噪声会在执行过程中不断累积，导致误差放大。

二、核心方法：想象引导执行，双重对齐保精度

Imagine2Act的核心思路是让机器人在动手前先“想象”任务完成时的场景，再将这个想象目标作为几何先验来引导动作学习。整个框架包含两大模块：

1. 语义几何约束生成模块：给定当前观测和语言指令，系统先用图像编辑模型生成一幅“任务已完成”的场景图像，再通过分割和3D重建提取前景物体的点云，最后将前景点云与背景点云对齐拼接，得到一幅与真实场景几何一致的“想象目标点云”。这一步相当于给机器人一张“正确答案”的草图。

2. 物体-动作一致性学习模块：从想象目标中计算出可移动物体从初始姿态到目标姿态所需的刚体变换，将其编码为“变换Token”输入动作生成网络。同时设计了一个软姿态一致性损失函数：仅在机器人手部运动与物体理想变换之间的偏差超过容忍阈值时才施加惩罚。这种双重对齐机制既利用了物体运动的强信号，又容忍了生成模型带来的小误差。

机器人也学会“先想后做”了：Imagine2Act突破高精度操作难题 | ICRA 2026