您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
机器人 正文
发私信给陈淑瑜
发送

0

ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

本文作者: 陈淑瑜   2026-05-25 16:57 专题:ICRA 国际机器人与自动化会议
导语:T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。

来源:公众号“机器之心”

原文链接:https://mp.weixin.qq.com/s/4DffsUZw-FLuawiMh7a-AA


本文的共同第一作者为新加坡国立大学博士生费昕,新加坡国立大学博士生徐志轩。合作者为浙江大学实习生方怀聪、新加坡国立大学博士生张添睿。通讯作者为新加坡国立大学计算机学院助理教授、RoboScience 首席科学家邵林,研究方向为机器人学习与灵巧操作。


T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互


目前,该论文已被机器人领域顶级会议 IEEE International Conference on Robotics & Automation(ICRA 2026)接收。


  • 论文标题:T (R,O) Grasp: Efficient Graph Diffusion of Robot-Object Spatial Transformation for Cross-Embodiment Dexterous Grasping

  • 论文链接:https://arxiv.org/pdf/2510.12724

  • 项目主页:https://nus-lins-lab.github.io/trograspweb/


一、引言


灵巧手抓取是机器人完成复杂操作的基础。目前基于深度学习的方法主要可以分为机器人中心 (robot centric)、物体中心 (object-centric) 和交互中心 (interaction-centric) 三种。


机器人中心的模型直接学习观测(如点云、图像)到动作指令的映射,推理速度快,但样本学习效率低,难以实现跨智能体的泛化。


物体中心的方法预测物体上的接触信息(如接触点或接触热力图),泛化性强,但根据接触信息优化抓取的动作指令复杂耗时,且无法适用于观测信息不全的应用场景。


此前,D (R,O) Grasp 提出了交互中心的灵巧手抓取表征,通过机器手与物体点云间的距离矩阵表示交互关系,弥补了机器人中心方法的泛化性不足,提升了物体中心方法的推理效率。


然而,D (R,O) 距离矩阵的预测需要巨大的计算开销,且该方法依赖于机器手初始姿态的合理性,因此难以基于 D (R,O) 表征搭建大规模灵巧手抓取模型。


为克服以上局限性,我们提出 T (R,O) 图结构作为灵巧手抓取的统一表征(如图 1 所示),将物体与机器手关节的几何、拓扑信息编码为节点,将其相对的位置关系表示为边。相较于 D (R,O) 距离矩阵,T (R,O) 图结构在保持表达能力的同时,提供了更高效、更轻量的建模方案。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 1.  T (R,O) 图结构与扩散过程


二、方法


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 2.  T (R,O) Grasp 整体框架


给定物体点云和不同机器手的 URDF 配置文件,模型的目标是输出多样的抓取姿态,并具备跨智能体的泛化能力。T (R,O) Grasp 的整体框架如图 2 所示,主要分为以下三部分:


1. T (R,O) 图结构的构建

2. 图扩散网络的训练与关节位姿矩阵的预测

3. 基于关节位姿矩阵的逆运动学求解


2.1 T (R,O) 图结构的构建


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 3. T (R,O) 图结构的构建


如图 3 所示,T (R,O) 图结构基于物体 — 机器手的相对位姿建模其交互关系。首先,物体点云通过预训练的 VQ-VAE 编码为图中的物体节点;其次,结合机器手关节的几何 BPS 特征与关节位姿信息,构建图中的关节节点;最后,在物体 — 关节和关节 — 关节之间,以相对位姿关系定义图中的边。


2.2 图扩散网络的训练与关节位姿矩阵的预测


基于 T (R,O) 图结构,模型可对关节位姿进行标准 DDIM 范式下的加噪 — 去噪训练,进而完成关节位姿矩阵的预测。其中,Denoiser 由多层 Transformer 组成,其网络结构如图 4 所示。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 4. T (R,O) Denoiser 网络架构


此外,得益于 DDIM 在推理阶段对多种 guidance 的良好支持,T (R,O) Grasp 在训练完成后能够在多种条件约束下生成抓取姿态,例如指定抓取方向、限定物体上的抓取区域等。


2.3 基于关节位姿矩阵的逆运动学求解


模型预测得到机器手在抓取时各关节的位姿矩阵,即可通过 Pyroki toolkit 即时求解如下逆运动学问题,得到抓取姿态的动作指令。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互


三、实验结果


在实验中,我们系统评估了 T (R,O) Grasp 在无条件生成以及条件约束生成(抓取方向与抓取区域)两种设置下的灵巧手抓取性能。实验采用抓取成功率、多样性和推理速度三个指标对模型进行评价。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 5. T (R,O) Grasp 与 baseline 性能对比


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 6. T (R,O) Grasp 在无条件设置下的灵巧抓取


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 7. T (R,O) Grasp 在给定抓取方向下的灵巧抓取


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 8. T (R,O) Grasp 在给定抓取区域下的灵巧抓取


图 5-8 显示,T (R,O) Grasp 在两种设置下的性能均超越现有方法,具备在多种约束下跨智能体生成准确、多样灵巧手抓取的能力。此外,T (R,O) Grasp 在实验硬件平台 NVIDIA 40GB A100 上平均可达到 5 FPS 的推理速度,为动态场景下实现闭环抓取提供了基础。


在真实机器人实验中,我们将算法部署于 xArm 机械臂平台,并在 XHand 和 LEAP Hand 两种灵巧手上进行了测试。实验结果表明,T (R,O) Grasp 在 XHand 和 LEAP Hand 上分别达到了 91.0% 和 90.0% 的抓取成功率。此外,在动态传送带环境中,T (R,O) Grasp 同样能够完成稳定抓取,验证了其在动态场景下的闭环抓取能力。


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 9. T (R,O) Grasp 在 XHand 与 LEAP Hand 上的真实机器人抓取


ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

图 10. T (R,O) Grasp 在传送带动态环境的真实机器人抓取


雷峰网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说