您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给陈淑瑜
发送

0

高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

本文作者: 陈淑瑜   2026-06-11 14:12 专题:ICRA 2017:创新、创业和解决方法
导语:用 3D 点云提升机器人跨视角、跨物体泛化,80 条示范即可完成新任务微调。

来源:公众号“INFINITY”

原文链接:https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

用 3D 点云提升机器人跨视角、跨物体泛化,80 条示范即可完成新任务微调。


机器人基础模型为什么泛化差?很多时候不是模型不够大,而是它看世界的方式不对。


现在主流机器人基础模型大多依赖 2D 图像。图像能提供外观,但它本质上是三维世界压扁后的投影。相机角度一变,背景一换,物体型号稍有不同,像素分布就变了。实验室里跑得好,到了客户现场就开始掉成功率。


FP3 要处理的就是这个输入模态缺陷。


它提出了首个面向机器人操作的 3D 基础策略模型,也就是 3D Foundation Policy。简单说,FP3 不再只让机器人从 2D 图像里学动作,而是把策略建立在 3D 点云空间里,让模型直接理解物体、机械臂和环境之间的空间关系


这也是当前 VLA 路线向 3D 空间延伸的代表性工作。FP3把视觉输入从二维图像推进到三维空间。


这篇工作由清华大学 IIIS 联合上海 AI Lab、上海期智研究院发布,通讯作者为高阳获 ICRA 2026 Robot Learning 方向最佳论文提名;它也是本届 ICRA 入围中的国产具身基础模型成果。

高阳是清华大学交叉信息研究院助理教授、上海期智研究院 PI,同时也是具身智能公司千寻智能联合创始人、首席科学家。他的研究方向包括计算机视觉、机器人学习和具身智能。其本科毕业于清华大学计算机系,博士毕业于 UC Berkeley,师从 Trevor Darrell。高阳团队长期关注机器人如何真正理解三维世界,近期代表工作包括 FP3、ATM、CoPa 等。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间


它的产业价值很直接:80 条示范学会新任务,单卡约 2 小时微调;在从未见过的场景和物体上,零样本成功率达到 82.5%。这两件事对应机器人落地最真实的两个障碍:数据采集贵,换场景就废。


FP3 给出的不只是好看的数字,更是一个国产开源 3D 基础策略模型的起点。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

1.3B 参数 3D 点云基础策略模型,基于 DROID 60k 轨迹预训练,支持少量数据微调和未见场景泛化。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

2D 观察的根本问题


机器人做操作任务,真正需要判断的是三维关系。


杯子在哪里,离夹爪多远,开口朝哪个方向;毛巾边缘是否被捏住,桌上杂物有没有挡住目标;倒水时,容器、杯口和机械臂姿态之间是什么关系。这些都发生在三维空间里。


2D 图像的问题,是它把三维世界压成了一张平面图。


一个杯子从正面看、侧面看、俯视看,像素形状会变化。相机高一点、低一点、偏一点,物体在画面中的大小、位置和轮廓都会变。光照变暗,背景变复杂,桌面颜色变了,图像分布也会变。


对人来说,这些变化不影响判断。人会自动补出物体的三维形状和空间位置。


但对 2D 策略模型来说,它看到的是像素。模型必须靠大量数据去学会:这些不同画面其实是同一个三维场景。


机器人不是在图片里移动鼠标。它要在三维世界里抓、推、折、倒和接触。输入如果只保留 2D 投影,模型就要从数据里重新学三维关系。数据少一点,泛化就崩。

FP3 的出发点,是不要让模型先从 2D 图像里猜 3D,而是直接给它 3D。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

点云为什么有用


点云是一组三维坐标点。


RGB-D 相机可以同时获取颜色和深度。把每个像素根据深度投回三维空间,就能得到场景中物体、桌面和障碍物的 3D 点集合。这些点没有 CAD 模型那么干净,也没有网格那么规整,但它直接记录了物体表面和空间位置。


FP3 用的就是点云。


它的输入包括三部分:3D 点云、语言指令、本体感受状态。语言指令告诉机器人要做什么,本体感受告诉机器人自己的关节和状态,点云告诉它外部世界的三维结构。模型输出的是未来动作序列。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

Uni3D 提取 3D 点云特征,CLIP 编码语言,DiT 生成未来动作序列。


点云最大的价值,不只是“信息更丰富”。它真正关键的地方,是坐标系可以和相机视角解耦。


只要相机标定正确,不同角度看到同一个场景,最后还原到世界坐标系里的点云可以保持一致。换句话说,相机角度变化带来的不变性,不完全需要模型靠数据学出来,而是可以通过几何计算直接得到。


这和 2D 图像完全不同。2D 模型要学会:这个角度下的杯子,和另一个角度下的杯子,是同一个杯子。点云模型则可以直接看到:杯子表面的点在三维空间里大致在哪里,杯口朝向哪里,离夹爪有多远。


这就是结构性优势。


FP3 不是从零训练一个小型点云编码器。它用了 Uni3D ViT。


Uni3D 是一个预训练 3D 点云编码器,可以理解成 3D 世界里的视觉骨干网络。它的参数量约 300M,作用是把点云里的几何形状、空间位置和语义信息,编码成策略模型能理解的特征。相比小型 3D 编码器,它的表达能力更强,也已经具备一定 3D-语言对齐能力。


FP3 的主干架构是 DiT。DiT 是 Diffusion Transformer,也就是扩散 Transformer。它不是一步预测下一个动作,而是从一段噪声动作开始,在点云、语言和机器人状态的约束下逐步去噪,生成未来一串动作。


这适合机器人操作。折叠毛巾、清理桌面、扶起杯子、倒水,都不是单步动作,而是一段连续动作。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

预训练让 80 条示范就够了


FP3 走的是预训练加后训练路线。


预训练,是先让模型在大规模、多任务数据上学习通用表示。后训练,是再用少量高质量数据适配具体任务。


它先在 DROID 数据集上预训练。DROID 是一个大规模真实机器人操作数据集,可以理解成机器人领域的“预训练语料库”。它收集了大量真实机器人在不同场景、不同任务下的操作轨迹。FP3 使用约 6 万条轨迹进行预训练,覆盖 86 个任务和 564 个场景。论文摘要也写到,FP3 是首个大规模 3D foundation policy model,并预训练于 60k 条点云观测轨迹。


这一步的意义,是让模型先学到通用操作共性。


比如机械臂怎么接近物体,夹爪怎么闭合,物体被推、拿、放时空间关系怎么变化,倒水时容器姿态和任务目标如何对应。这些不是某一个单独任务的技巧,而是跨任务存在的操作规律。


有了预训练,后训练就不需要从零学。


FP3 后训练只需要 80 条示范。具体是每个任务 8 个场景,每个场景 10 条。它使用 LoRA 微调,单卡约 2 小时完成。


LoRA 是一种低成本微调方法。它不重训整个大模型,只更新少量新增参数,所以显存和时间成本更低,工程上更容易落地。


传统机器人模仿学习,新任务经常需要 200 条左右示范,甚至更多。采机器人数据不是写文本,也不是爬网页。它要人操作、设备运行、失败重置、数据清洗和质量检查。每多采一条,都是现实成本。


FP3 能用 80 条示范跑起来,说明预训练表示确实迁移了。它不是把新任务完全从零学一遍,而是在已有 3D 操作表示上做适配。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

实验结果


FP3 测了 4 个下游任务:折叠毛巾、清理桌面、扶起杯子、倒水。


这些任务不是简单抓取。折叠毛巾涉及柔性物体,清理桌面涉及多物体和空间整理,扶起杯子需要判断物体姿态,倒水需要连续控制容器角度。它们都要求模型理解三维几何和动作之间的关系。


先看域内结果。域内指的是模型见过的场景和见过的物体。只用 80 条示范后训练,FP3 平均成功率达到 95%。


同样条件下,DP 是 36.25%,DP3 是 22.5%,OpenVLA 是 7.5%。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

展示 FP3 在未见场景、未见物体、不同视角和干扰条件下的泛化结果。


DP 是经典扩散策略,主要基于 2D 观察。DP3 是小型 3D 策略。OpenVLA 是大规模 2D VLA。这个对比说明一个问题:大模型如果只看 2D,不一定比更合适的 3D 策略更强;小型 3D 策略有 3D 输入,但模型规模和预训练不足,也撑不起基础模型式泛化。


真正重要的是野外零样本。


野外零样本指的是:测试场景从没见过,测试物体也从没见过,部署时不再给新场景数据继续训练。这个设置更接近真实客户现场。


在这个设置下,FP3 平均成功率是 82.5%。


DP 是 1.25%,DP3 是 2.5%,OpenVLA 是 3.75%。FP3 如果从零训练、没有预训练,成功率也是 1.25%。


这组结果说明两件事。


第一,2D 方法在野外场景几乎全崩。它们在训练环境里可能学到了有用的动作模式,但一换新场景、新物体和新背景,像素分布变了,模型就不知道该怎么泛化。


第二,3D 输入本身还不够。FP3 从零训练只有 1.25%,说明只给点云、不给大规模预训练,模型也学不到足够通用的操作表示。


消融实验也指向同一个结论。


去掉 3D、换成 2D 图像,野外性能从 95% 跌到 55%。去掉预训练,野外性能跌到 0%。3D 点云提供了更合适的空间输入,大规模预训练提供了可迁移的操作表示。两者缺一项,泛化都会崩。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

80 条示范后,FP3 域内成功率 95%,野外零样本成功率 82.5%,显著高于 DP、DP3、OpenVLA。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

产业意义


FP3 的产业意义,第一层是降低部署门槛。


机器人公司最怕的不是模型在实验室做不出 demo,而是每到一个新现场都要重新采大量数据。现在很多策略模型学习新任务,往往需要 200 条示范起步。复杂一点的任务,还要更多。


FP3 把这个数字压到 80 条,并且用 LoRA 单卡约 2 小时完成后训练。


这意味着新任务适配不再一定是重训练工程。新物品、新桌面、新工位,只要数据采集和标定流程稳定,就有可能用少量示范快速适配。


第二层是解决换场景掉成功率的问题。


这是机器人落地最真实的障碍之一。实验室里光线、相机、桌面、物体都可控。客户现场不一样。光照乱,背景乱,物体型号变化,摆放方式变化,遮挡和干扰物更多。2D 模型在这些变化面前很脆弱,因为它严重依赖图像外观。


FP3 的零样本泛化结果,直接对应这个痛点。


第三层是国产开源 3D 基础模型的起点。


现在机器人基础模型的叙事,主要被 π0、OpenVLA、GR00T 这些海外路线占据。FP3 的位置不同。它从 3D 点云基础策略切入,做的是大规模 3D 操作模型。


不是每家公司都有资源从头训练一个 1B 级机器人基础策略模型,也不是每家公司都能组织大规模多任务数据预训练。如果 FP3 的代码、权重和训练方案能够持续开源和维护,它可以成为国内团队做 3D 策略微调、任务适配和场景泛化的底座。


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

判断


FP3 最重要的判断,是把视角不变性从“需要学”变成了“可以算”。


2D 模型面对相机角度变化,只能靠数据学不变性。它需要看过足够多角度、足够多背景、足够多物体,才可能知道这些视觉变化背后是同一个三维结构。


点云不一样。只要相机标定正确,同一个物体在世界坐标里的形状和位置可以直接算出来。模型少学一层不必要的视觉变化,就能把能力用在真正的操作关系上。


第二,80 条示范的数据效率说明预训练迁移是真实有效的。


机器人数据稀缺不是口号,而是每个真实项目都会遇到的成本问题。FP3 如果没有预训练,野外性能直接跌到接近不可用;有了 DROID 上的大规模 3D 预训练,再用 80 条示范微调,就能达到可用成功率。


第三,FP3 的限制也很清楚


它当前语言侧主要依赖 CLIP,语言理解能力有限。CLIP 可以把图像和文本对齐,但它不是为复杂机器人指令推理设计的。点云提供了几何,但语义理解还不够强。


复杂指令、隐含目标、长程任务分解、多物体关系推理,都不是单靠点云就能解决的。


下一个问题已经摆在这里:把 VLM 的语义理解和 3D 点云的几何理解真正融合起来。


2D VLA 强在语义和常识,3D 策略强在空间和操作。如果能把两者合在同一个策略系统里,机器人基础模型才更接近真实部署需要的形态。


FP3 的意义,不是证明 3D 可以替代一切。


它证明的是:机器人基础模型不能永远只看 2D 图像。


世界是三维的,机器人也必须从三维开始学习。


? 论文:https://arxiv.org/abs/2503.08950


高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文:机器人基模从 2D 图像走向 3D 操作空间

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说