ICRA 2026 | DiffuDepGrasp：扩散模型助力Sim2Real机器人抓取

本文作者：陈淑瑜

2026-05-27 18:46

导语：该框架的核心创新在于设计了“扩散深度生成器”，能够在不引入部署端额外推理延迟的前提下，高效模拟真实的物理传感器噪声

来源：公众号“具身智能之心”

原文链接：https://mp.weixin.qq.com/s/_1gQE9UMwLHh-sm1xR_Hbg?scene=1&click_id=118

近年来，基于深度强化学习和模仿学习的端到端机器视觉控制策略展现出巨大的应用潜力。然而，受限于真实深度传感器固有的物理噪声与几何信息缺失，仿真策略向现实世界（Sim2Real）的直接迁移始终面临着巨大的鸿沟。

针对这一挑战，我们提出了一种面向零样本Sim2Real迁移的机器人抓取框架 DiffuDepGrasp。该框架的核心创新在于设计了“扩散深度生成器”，能够在不引入部署端额外推理延迟的前提下，高效模拟真实的物理传感器噪声，从而使完全在仿真中训练的策略，能够在真实的复杂抓取任务中实现高达 95.7% 的零样本迁移成功率。

目前，相关论文“DiffuDepGrasp: Diffusion-based Depth Noise Modeling Empowers Sim2Real Robotic Grasping”已被机器人领域顶级会议International Conference on Robotics and Automation（ICRA 2026）接收。

论文链接：https://arxiv.org/pdf/2511.12912

项目主页：https://diffudepgrasp.github.io/

研究背景

机器人抓取决策的鲁棒性高度依赖于对环境空间几何的精准感知。深度图因其天然的几何对齐特性，比传统RGB 图像对光照和纹理变化更具鲁棒性，已成为驱动端到端视觉控制策略的核心范式。然而，在通往通用机器人操作的道路上，Sim2Real Gap依然是制约策略从仿真走向现实的关键瓶颈。

在仿真环境中，深度图往往是理想且完美的几何投影。但在现实世界中，受传感器特性及环境噪声影响，真实深度图往往充斥着严重的空洞和随机伪影。这种感知层面的失真，会导致在仿真中表现卓越的策略在现实部署时彻底失效。

目前主流的解决路径主要面临数据效率与部署复杂性的双重挑战：

训练端增强的局限性：基于规则或随机生成的程序化噪声(图1: c)往往过于理想化，难以捕捉复杂物理环境下的长尾分布；而基于学习的映射方法则过度依赖大规模、高成本的成对实测数据集，面临严重的数据稀缺挑战。
部署端开销的桎梏：深度图修复(图1: h)或利用视觉基础模型进行提取中间表征(图1: d, i)，虽能一定程度缩小域偏差，但其额外的计算开销削减了机器人高频闭环控制的响应速度，带来一定的计算延迟。

为系统性地应对上述挑战，我们提出了 DiffuDepGrasp，一个面向深度感知的机器人抓取零样本Sim2Real迁移框架。为解决数据稀缺问题，我们训练了一个以深度基础模型的输出作为条件引导的条件扩散模型，该模型仅需少量非成对真实RGB-D数据即可学习复杂噪声分布，显著降低数据依赖性与采集成本。

为模拟真实传感器噪声的同时保持完美的几何精度，我们引入了“噪声嫁接”模块，将学到的噪声模式与仿真器提供的真值深度相结合。该框架的DiffuDepGrasp能够避免在策略部署时引入额外的计算延迟，并降低对高性能硬件的依赖，在利用仿真离线数据训练得到的策略能够在部署时，无需对深度数据进行额外的任何处理。

我们构建了完整师生蒸馏流程，利用生成的高保真数据训练视觉策略，通过广泛的真实世界抓取实验，在下游任务中验证了我们框架的有效性，证明了其强大的零样本迁移和泛化能力。

ICRA 2026 | DiffuDepGrasp：扩散模型助力Sim2Real机器人抓取

图1: 不同 Sim2Real 迁移基线下的深度视觉观测对比

技术方案

图2: DiffuDepGrasp方法框架

DiffuDepGrasp的核心在于解耦几何精度与视觉真实度，整体框架（如图2所示）包含四个关键阶段：

Stage 1: 教师策略训练

为了获取用于模仿学习的高质量专家数据，我们首先在仿真环境中训练了一个拥有特权状态信息的教师策略。我们将该学习过程建模为一个马尔可夫决策过程(MDP)，其中教师策略π θ (als)学习从精确的环境与机器人状态到底层动作指令的直接映射。通过在Isaac Gym中利用近端策略优化(PPO)算法进行大规模并行训练，该策略能够探索并学习高效且鲁棒的抓取行为。

Stage 2: 扩散深度生成器

为了学习真实世界深度传感器的复杂噪声分布，我们设计了条件扩散生成器 Diffusion Depth Generator (DDG)，该阶段的核心任务是在高质量几何先验的引导下，从随机噪声中生成具有真实传感器采集的深度图相同特性的伪影模式。扩散深度生成器是跨越Sim2Real Gap的核心组件，具体包含两个协同模块：

扩散深度模块：利用Video Depth Anything 模型提取时间一致性的几何先验，引导条件扩散模型学习真实 RGB-D 数据中的传感器噪声分布。
噪声嫁接模块：为了防止扩散模型破坏绝对几何精度，该模块通过生成掩码，将学到的逼真噪点“嫁接”到完美的仿真深度图底层上，实现了物理精准与视觉逼真的统一。

Stage 3: 学生策略蒸馏

为了实现纯视觉闭环部署，我们将专家知识蒸馏给仅依赖视觉与机器人本体状态的学生策略。首先，利用Diffusion Depth Generator将仿真收集到的海量专家轨迹转化为带有高保真噪声的深度数据；随后，学生网络利用预训练的 ResNet-18 提取堆叠深度图的视觉特征，并与 MLP 编码的本体关节角度进行拼接；最终，基于 Diffusion Policy 的模仿学习范式，学生策略学会了在噪声干扰下稳定预测专家级的平滑动作。

Stage 4: 零样本 Sim2Real 部署

训练后的学生策略直接部署于机械臂上，输入原始的真实深度图即可实现闭环抓取，无需任何在线预处理计算开销。

实验验证

为全面验证 DiffuDepGrasp 框架的有效性与鲁棒性，研究团队开展了从Diffusion Depth Generator深度噪声建模能力到端到端 Sim2Real 迁移的系统性评估，在 Isaac Gym 仿真环境与部署了 Franka Emika Panda 机械臂（配备 UMI 并行夹爪与 RealSense D455 深度相机）的真实闭环控制系统中进行了详尽的实验任务测试。

高质量的数据生成能力

在视觉可视化结果中（如图3所示），Diffusion Depth Generator生成的深度图能够生成因传感器特性导致的空洞空间分布以及物体和夹爪边缘处的复杂物理噪声纹理。

图3: DiffuDepGrasp 深度噪声生成效果可视化

特征空间定性评估

为直观呈现不同数据分布的特征空间关系，我们采用t-SNE对仿真和真实环境各8000帧深度数据进行降维可视化。如图4所示，Diffusion Depth Generator生成的数据分布与真实传感器数据实现了高度重合，大幅减小了仿真与现实的深度域偏差。

图4: 特征空间t-SNE可视化

生成能力定量评估

为定量评估不同基线生成深度图的真实性，我们采用两种广泛应用的分布度量指标：FID与KID。分值越低，表明数据分布相似度越高，即生成图像在视觉质量与多样性维度更逼近真实数据。如表1所示，我们的Diffusion Depth Generator取得了最低的 FID (87.01) 和 KID (7.09) 分数。