0
| 本文作者: 吴思梦 | 2026-05-28 17:51 | 专题:ICRA 国际机器人与自动化会议 |
原文作者:深蓝学院
原文链接:https://zhuanlan.zhihu.com/p/2020641171664282025

变形物体的机器人操作是机器人学领域的核心挑战,这类物体的动力学特性随形态动态变化且无法提前完全观测,传统方法难以实现跨类别、跨实例的实时适配。
李飞飞团队联合德克萨斯大学奥斯汀分校在ICRA2026上提出的 RAPID(Rapid Adaptation of Particle Dynamics) 方法,将快速运动适配框架从刚体操作扩展至变形物体领域,通过粒子位置捕捉物体形态变化,设计双阶段训练策略实现仿真到真实世界的零样本迁移。
在22自由度移动机械臂的1D插入、2D覆盖任务中,对未见动力学、类别和实例的变形物体保持80%以上成功率。
这一研究工作为变形物体移动操作提供了新路径,但局限也清晰:仍依赖仿真训练,且对形变极剧烈的特殊材质(如高弹性织物)是否同样有效,有待进一步验证。

机器人操作变形物体需精准感知并实时适配其动力学特性,但传统方法面临三重核心壁垒:
一是变形物体动力学兼具刚体属性(质量、位置)和形态变化特性(拉伸、弯曲等),无法通过先验信息获取且动态变化;
二是经典RMA框架仅考虑刚体物理参数,未纳入形态变化维度,无法直接迁移至变形物体操作;
三是现有sim2real方法存在明显缺陷,模型基方法依赖完全观测无法应对遮挡,系统辨识方法需大量真实轨迹难以实时适配,基于真实世界数据的方法则泛化性差、数据集规模受限。
同时,传统机器人方法缺乏人类操作时的实时在线适配能力,要么将变形物体当作刚体处理,要么需针对特定物体提前大量训练,难以满足真实场景的多样化需求。

关键突破:粒子位置锚定形态变化,扩展RMA至变形物体领域
RAPID的核心创新在于提出“粒子位置捕捉形态变化” :
仿真中变形物体的近期真实粒子位置,可有效表征其形态变化规律,这一发现让RMA框架向变形物体操作的扩展成为可能。

▲图 | RAPID 方法整体框架:从仿真学习到真实世界部署的变形物体移动操作流程©【深蓝具身智能】编译
相较于传统方法,RAPID实现了三个核心维度的突破:
动力学表征的完整性:
首次将形态变化纳入变形物体的动力学嵌入表征。融合刚体的质量、位置参数和粒子位置反映的形态变化信息,构建了更贴合变形物体特性的动力学描述体系,弥补了传统表征仅关注刚体属性的缺陷;
无特权信息的实时推断:
通过双阶段训练设计,将仿真中依赖的粒子位置、真实物理参数等“特权信息”,转化为仅通过机器人视觉观测(深度图像)和动作序列即可推断的嵌入特征,彻底摆脱了对仿真专属信息的依赖,实现了真实场景的信息适配;
端到端的仿真到真实迁移:
全程基于机器人机载视觉传感器和关节角度信息完成训练,无需任何真实世界数据微调,直接实现零样本跨域迁移,同时有效解决了操作过程中的物体遮挡、非俯视视角等真实场景常见问题。
与现有sim2real方法相比,RAPID无需依赖物体分割掩码、稠密描述符等中间表征,直接通过视觉观测和动作序列完成动力学推断与动作规划,大幅提升了方法在真实场景中的鲁棒性和实时性。

技术架构:双阶段训练+在线适配,实现变形物体操作的端到端闭环

▲图 | RAPID 方法详细流程:仿真双阶段训练与真实世界部署©【深蓝具身智能】编译
RAPID整体采用双阶段仿真训练+真实世界在线部署的架构,融合强化学习与嵌入特征回归——
既利用仿真特权信息完成基础策略训练,又通过适配模块实现真实世界的信息映射。
核心是构建形状嵌入和动力学嵌入两大特征,并完成从特权信息到视觉信息的推断迁移。
整个技术流程清晰分为训练Phase I、训练Phase II和真实世界部署三个核心环节,各环节衔接形成端到端的操作闭环。
在OmniGibson仿真环境中,利用变形物体的真实粒子位置、质量、位置等特权信息,完成视觉运动策略和两个核心编码器的端到端训练,为后续真实世界的适配奠定基础:

▲图 | 仿真阶段 I:基于特权信息训练编码器与视觉运动策略©【深蓝具身智能】编译
形状编码器 ():
以变形物体的近期真实粒子位置和机器人动作作为输入,编码生成形状嵌入(),该特征专门表征物体的形态变化规律,是适配变形物体独有的核心特征;
动力学编码器 ():
以物体的质量、位置等刚体物理参数为输入,编码生成动力学嵌入 (),表征刚体层面的基础动力学特性;
视觉运动策略:
将机器人单帧深度图像 ()、形状嵌入和动力学嵌入作为联合输入,输出 22 自由度机械臂的全维度动作指令,通过强化学习完成端到端训练,实现仿真环境中变形物体操作的最优动作规划。
该阶段的核心设计是将形态变化和刚体动力学信息解耦编码——
既让视觉运动策略的学习更具针对性,也为后续适配模块的训练提供了明确、可监督的目标特征。
为让方法适配无任何特权信息的真实世界,本阶段用两个专用适配模块替代Phase I的编码器。
核心通过L1损失回归,实现从机器人视觉观测+动作序列到形状/动力学嵌入的精准推断,彻底摆脱对仿真特权信息的依赖:

▲图 | 仿真阶段 II:训练适配模块,摆脱对特权信息的依赖©【深蓝具身智能】编译
形状适配模块 ():
以机器人近期深度图像、关节角度和动作序列为输入,替代形状编码器生成推断形状嵌入 (),并以 Phase I 生成的真实形状嵌入为监督,通过 L1 损失让推断嵌入无限逼近真实值;
动力学适配模块 ():
输入与形状适配模块完全相同的视觉和动作信息,替代动力学编码器生成推断动力学嵌入 (),同样以真实动力学嵌入为监督完成 L1 损失回归;
策略轻量微调:
用两个适配模块生成的推断嵌入,替换Phase I中的真实嵌入,对视觉运动策略进行轻量强化学习微调;同时为避免两个适配模块编码冗余信息,阻断动力学适配模块到形状适配模块的上游梯度,确保二者在相同输入下,分别捕捉形态变化和刚体动力学的独立特征。
本阶段完成后,Phase I的形状编码器和动力学编码器将被舍弃,最终训练得到的模型仅包含视觉运动策略和两个适配模块,完全满足真实世界的无特权信息使用要求。
在真实世界部署时,RAPID无需任何额外微调,直接加载仿真训练得到的视觉运动策略和适配模块,实现完全自主的在线闭环操作。

▲ 图| 真实世界部署阶段:加载适配模块与策略,实现在线闭环操作©【深蓝具身智能】编译
核心执行流程为:
多维度信息采集:
机器人通过机载RGBD相机获取224×224分辨率的深度图像(采集频率3Hz),同时实时采集自身关节角度数据,构建包含最近10组“深度图像-观测-动作”的滑动数据窗口;
嵌入特征实时推断:
将滑动窗口的多维度数据同步输入形状和动力学适配模块,实时生成推断形状嵌入和推断动力学嵌入,完成对变形物体当前动力学特性的精准感知;
全自由度动作规划:
视觉运动策略以当前深度图像、关节角度和两个推断嵌入为联合输入,输出机械臂的全自由度动作指令,指导机器人完成与变形物体的交互操作;
周期性嵌入特征更新:
为保证视觉运动策略的时间行为一致性,避免视觉噪声导致的动作抖动,嵌入特征并非逐帧更新,而是每5个时间步更新一次,平衡实时性与稳定性。
整个部署过程完全自主进行,无需人类干预,能够有效应对真实场景中物体随机摆放、光照条件变化、操作过程中物体遮挡等各类复杂问题。

实验验证:2类核心任务,82.5%综合成功率超越SOTA
研究团队以TIAGo 22自由度双臂移动机械臂为实验平台,OmniGibson为仿真训练环境,设计1D插入、2D覆盖两类典型变形物体移动操作任务。
设置主流SOTA方法为对比基线,并设计三组消融实验,从定量和定性双维度验证RAPID的性能,所有真实世界实验均使用仿真中从未出现的物体、环境和光照条件,模拟真实场景的未知性。

▲图 | 一维插入和二维覆盖任务使用的所有未见真实世界变形物体©【深蓝具身智能】编译
实验任务:
1D插入任务要求将绳索、线缆等20类1D变形物体的一端插入杯子、碗等20类容器,300秒内完成即为成功;
2D覆盖任务要求将毛巾、塑料袋等20类2D变形物体覆盖在容器开口处,300秒内完成90%以上面积覆盖即为成功,每个任务重复20次。

▲图 | 两类任务的仿真与真实世界场景:一维插入任务与二维覆盖任务©【深蓝具身智能】编译
对比基线:
选取DMfD(基于仿真专家演示的变形物体静态操作方法)、DDOD(基于稠密物体描述符的变形物体操作方法)为基线,由RAPID完成所有基线方法的抓取和导航环节,仅让基线执行核心操作,保证对比公平性。
消融实验:
设计RAPID-No-Adapt(移除双适配模块)、RAPID-No-Shape(移除形状适配模块)、RAPID-E2E(跳过双阶段训练,直接端到端训练)三组消融实验,验证各核心模块和训练策略的必要性。
RAPID在1D插入任务中成功率85%,2D覆盖任务中80%,综合成功率82.5%,显著超越DMfD(10%)、DDOD(17.5%)两类SOTA方法。
基线方法的失败主要源于物体遮挡/变形导致的中间表征失效,以及对未知动力学的无适配能力。

▲图 | RAPID 在一维插入和二维覆盖任务中的动力学自适应行为©【深蓝具身智能】编译
消融实验则进一步验证了核心设计的必要性

▲图 | RAPID、对比基线及消融实验在 20 次测试中的成功次数与成功率©【深蓝具身智能】编译
此外,动力学嵌入的可视化结果显示,其特定维度与物体柔软度呈强相关性,且能实时跟踪物体刚度的动态变化,证明RAPID实现了对变形物体动力学特性的在线精准推断。

▲图 | RAPID 在一维插入和二维覆盖任务中的动力学嵌入可视化及刚度动态变化跟踪结果©【深蓝具身智能】编译

方法的优势与现实局限
泛化能力突出:首次实现对未见动力学、类别、实例变形物体的零样本操作,适配从柔软丝带、布料到刚性线缆、钱包的全范围物体,突破传统方法“一类一训”的局限;
场景鲁棒性高:无需物体分割、稠密描述符等中间表征,直接从视觉和动作信息推断动力学,可应对真实场景的遮挡、非俯视视角、光照变化等问题;
训练效率优异:全程基于仿真训练,无需采集标注真实世界数据,大幅降低研发成本,相比真实数据驱动方法更易规模化推广;
实时性满足实操:仅通过机载传感器实现在线推断,嵌入特征周期性更新的设计,兼顾实时性与动作稳定性,满足真实操作的时间要求。
任务复杂度有限:仅验证了1D插入、2D覆盖两类单目标基础操作,尚未拓展至折叠、打结、缠绕等需要精细形态控制的复杂任务;
物体范围有约束:实验对象均为小型桌面变形物体,未验证对大尺度物体(床单、地毯)和特殊变形物体(粘弹性物体、流体)的适配能力;
环境假设较理想:假设实验环境为静态,未考虑真实场景中的动态干扰(如物体碰撞、人为干扰),易导致动力学推断和动作规划失效;
依赖仿真粒子建模:方法核心依赖仿真中粒子位置对形态变化的表征,若粒子建模与真实物体形态变化规律偏差较大,会降低sim2real迁移性能。

RAPID的核心价值,在于首次打通了快速运动适配框架从刚体到非刚体的扩展路径,提出了粒子位置表征变形物体形态变化的新范式,为变形物体未知动力学适配提供了通用方法论。
尽管目前受限于任务和环境假设,但这一探索让机器人向人类般灵活操作变形物体的目标迈出了关键一步。
论文标题:Rapid Adaptation of Particle Dynamics for Generalized Deformable Object Mobile Manipulation
论文地址:https://arxiv.org/pdf/2603.18246v1.pdf
项目地址:https://sites.google.com/view/rapid-robotics
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。