高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文：机器人基模从 2D 图像走向 3D 操作空间

本文作者：陈淑瑜

2026-06-11 14:12

专题：ICRA 国际机器人与自动化会议

导语：用 3D 点云提升机器人跨视角、跨物体泛化，80 条示范即可完成新任务微调。

来源：公众号“INFINITY”

原文链接：https://mp.weixin.qq.com/s/z637jkIgnTctdXUdjkiJZg

高阳团队 FP3 入围 ICRA 2026 机器人学习最佳论文：机器人基模从 2D 图像走向 3D 操作空间

用 3D 点云提升机器人跨视角、跨物体泛化，80 条示范即可完成新任务微调。

机器人基础模型为什么泛化差？很多时候不是模型不够大，而是它看世界的方式不对。

现在主流机器人基础模型大多依赖 2D 图像。图像能提供外观，但它本质上是三维世界压扁后的投影。相机角度一变，背景一换，物体型号稍有不同，像素分布就变了。实验室里跑得好，到了客户现场就开始掉成功率。

FP3 要处理的就是这个输入模态缺陷。

它提出了首个面向机器人操作的 3D 基础策略模型，也就是 3D Foundation Policy。简单说，FP3 不再只让机器人从 2D 图像里学动作，而是把策略建立在 3D 点云空间里，让模型直接理解物体、机械臂和环境之间的空间关系。

这也是当前 VLA 路线向 3D 空间延伸的代表性工作。FP3把视觉输入从二维图像推进到三维空间。

这篇工作由清华大学 IIIS 联合上海 AI Lab、上海期智研究院发布，通讯作者为高阳，获 ICRA 2026 Robot Learning 方向最佳论文提名；它也是本届 ICRA 入围中的国产具身基础模型成果。

高阳是清华大学交叉信息研究院助理教授、上海期智研究院 PI，同时也是具身智能公司千寻智能联合创始人、首席科学家。他的研究方向包括计算机视觉、机器人学习和具身智能。其本科毕业于清华大学计算机系，博士毕业于 UC Berkeley，师从 Trevor Darrell。高阳团队长期关注机器人如何真正理解三维世界，近期代表工作包括 FP3、ATM、CoPa 等。

它的产业价值很直接：80 条示范学会新任务，单卡约 2 小时微调；在从未见过的场景和物体上，零样本成功率达到 82.5%。这两件事对应机器人落地最真实的两个障碍：数据采集贵，换场景就废。

FP3 给出的不只是好看的数字，更是一个国产开源 3D 基础策略模型的起点。

1.3B 参数 3D 点云基础策略模型，基于 DROID 60k 轨迹预训练，支持少量数据微调和未见场景泛化。

2D 观察的根本问题

机器人做操作任务，真正需要判断的是三维关系。

杯子在哪里，离夹爪多远，开口朝哪个方向；毛巾边缘是否被捏住，桌上杂物有没有挡住目标；倒水时，容器、杯口和机械臂姿态之间是什么关系。这些都发生在三维空间里。

2D 图像的问题，是它把三维世界压成了一张平面图。

一个杯子从正面看、侧面看、俯视看，像素形状会变化。相机高一点、低一点、偏一点，物体在画面中的大小、位置和轮廓都会变。光照变暗，背景变复杂，桌面颜色变了，图像分布也会变。

对人来说，这些变化不影响判断。人会自动补出物体的三维形状和空间位置。

但对 2D 策略模型来说，它看到的是像素。模型必须靠大量数据去学会：这些不同画面其实是同一个三维场景。

机器人不是在图片里移动鼠标。它要在三维世界里抓、推、折、倒和接触。输入如果只保留 2D 投影，模型就要从数据里重新学三维关系。数据少一点，泛化就崩。

FP3 的出发点，是不要让模型先从 2D 图像里猜 3D，而是直接给它 3D。

点云为什么有用

点云是一组三维坐标点。

RGB-D 相机可以同时获取颜色和深度。把每个像素根据深度投回三维空间，就能得到场景中物体、桌面和障碍物的 3D 点集合。这些点没有 CAD 模型那么干净，也没有网格那么规整，但它直接记录了物体表面和空间位置。

FP3 用的就是点云。

它的输入包括三部分：3D 点云、语言指令、本体感受状态。语言指令告诉机器人要做什么，本体感受告诉机器人自己的关节和状态，点云告诉它外部世界的三维结构。模型输出的是未来动作序列。

Uni3D 提取 3D 点云特征，CLIP 编码语言，DiT 生成未来动作序列。

点云最大的价值，不只是“信息更丰富”。它真正关键的地方，是坐标系可以和相机视角解耦。

只要相机标定正确，不同角度看到同一个场景，最后还原到世界坐标系里的点云可以保持一致。换句话说，相机角度变化带来的不变性，不完全需要模型靠数据学出来，而是可以通过几何计算直接得到。

这和 2D 图像完全不同。2D 模型要学会：这个角度下的杯子，和另一个角度下的杯子，是同一个杯子。点云模型则可以直接看到：杯子表面的点在三维空间里大致在哪里，杯口朝向哪里，离夹爪有多远。

这就是结构性优势。

FP3 不是从零训练一个小型点云编码器。它用了 Uni3D ViT。

Uni3D 是一个预训练 3D 点云编码器，可以理解成 3D 世界里的视觉骨干网络。它的参数量约 300M，作用是把点云里的几何形状、空间位置和语义信息，编码成策略模型能理解的特征。相比小型 3D 编码器，它的表达能力更强，也已经具备一定 3D-语言对齐能力。

FP3 的主干架构是 DiT。DiT 是 Diffusion Transformer，也就是扩散 Transformer。它不是一步预测下一个动作，而是从一段噪声动作开始，在点云、语言和机器人状态的约束下逐步去噪，生成未来一串动作。

这适合机器人操作。折叠毛巾、清理桌面、扶起杯子、倒水，都不是单步动作，而是一段连续动作。

预训练让 80 条示范就够了

FP3 走的是预训练加后训练路线。

预训练，是先让模型在大规模、多任务数据上学习通用表示。后训练，是再用少量高质量数据适配具体任务。

它先在 DROID 数据集上预训练。DROID 是一个大规模真实机器人操作数据集，可以理解成机器人领域的“预训练语料库”。它收集了大量真实机器人在不同场景、不同任务下的操作轨迹。FP3 使用约 6 万条轨迹进行预训练，覆盖 86 个任务和 564 个场景。论文摘要也写到，FP3 是首个大规模 3D foundation policy model，并预训练于 60k 条点云观测轨迹。

这一步的意义，是让模型先学到通用操作共性。

比如机械臂怎么接近物体，夹爪怎么闭合，物体被推、拿、放时空间关系怎么变化，倒水时容器姿态和任务目标如何对应。这些不是某一个单独任务的技巧，而是跨任务存在的操作规律。

有了预训练，后训练就不需要从零学。

FP3 后训练只需要 80 条示范。具体是每个任务 8 个场景，每个场景 10 条。它使用 LoRA 微调，单卡约 2 小时完成。

LoRA 是一种低成本微调方法。它不重训整个大模型，只更新少量新增参数，所以显存和时间成本更低，工程上更容易落地。

传统机器人模仿学习，新任务经常需要 200 条左右示范，甚至更多。采机器人数据不是写文本，也不是爬网页。它要人操作、设备运行、失败重置、数据清洗和质量检查。每多采一条，都是现实成本。

FP3 能用 80 条示范跑起来，说明预训练表示确实迁移了。它不是把新任务完全从零学一遍，而是在已有 3D 操作表示上做适配。

实验结果

FP3 测了 4 个下游任务：折叠毛巾、清理桌面、扶起杯子、倒水。

这些任务不是简单抓取。折叠毛巾涉及柔性物体，清理桌面涉及多物体和空间整理，扶起杯子需要判断物体姿态，倒水需要连续控制容器角度。它们都要求模型理解三维几何和动作之间的关系。

先看域内结果。域内指的是模型见过的场景和见过的物体。只用 80 条示范后训练，FP3 平均成功率达到 95%。

同样条件下，DP 是 36.25%，DP3 是 22.5%，OpenVLA 是 7.5%。

展示 FP3 在未见场景、未见物体、不同视角和干扰条件下的泛化结果。

DP 是经典扩散策略，主要基于 2D 观察。DP3 是小型 3D 策略。OpenVLA 是大规模 2D VLA。这个对比说明一个问题：大模型如果只看 2D，不一定比更合适的 3D 策略更强；小型 3D 策略有 3D 输入，但模型规模和预训练不足，也撑不起基础模型式泛化。

真正重要的是野外零样本。

野外零样本指的是：测试场景从没见过，测试物体也从没见过，部署时不再给新场景数据继续训练。这个设置更接近真实客户现场。

在这个设置下，FP3 平均成功率是 82.5%。

DP 是 1.25%，DP3 是 2.5%，OpenVLA 是 3.75%。FP3 如果从零训练、没有预训练，成功率也是 1.25%。

这组结果说明两件事。

第一，2D 方法在野外场景几乎全崩。它们在训练环境里可能学到了有用的动作模式，但一换新场景、新物体和新背景，像素分布变了，模型就不知道该怎么泛化。

第二，3D 输入本身还不够。FP3 从零训练只有 1.25%，说明只给点云、不给大规模预训练，模型也学不到足够通用的操作表示。

消融实验也指向同一个结论。

去掉 3D、换成 2D 图像，野外性能从 95% 跌到 55%。去掉预训练，野外性能跌到 0%。3D 点云提供了更合适的空间输入，大规模预训练提供了可迁移的操作表示。两者缺一项，泛化都会崩。

80 条示范后，FP3 域内成功率 95%，野外零样本成功率 82.5%，显著高于 DP、DP3、OpenVLA。

产业意义

FP3 的产业意义，第一层是降低部署门槛。

机器人公司最怕的不是模型在实验室做不出 demo，而是每到一个新现场都要重新采大量数据。现在很多策略模型学习新任务，往往需要 200 条示范起步。复杂一点的任务，还要更多。

FP3 把这个数字压到 80 条，并且用 LoRA 单卡约 2 小时完成后训练。

这意味着新任务适配不再一定是重训练工程。新物品、新桌面、新工位，只要数据采集和标定流程稳定，就有可能用少量示范快速适配。

第二层是解决换场景掉成功率的问题。

这是机器人落地最真实的障碍之一。实验室里光线、相机、桌面、物体都可控。客户现场不一样。光照乱，背景乱，物体型号变化，摆放方式变化，遮挡和干扰物更多。2D 模型在这些变化面前很脆弱，因为它严重依赖图像外观。

FP3 的零样本泛化结果，直接对应这个痛点。

第三层是国产开源 3D 基础模型的起点。

现在机器人基础模型的叙事，主要被 π0、OpenVLA、GR00T 这些海外路线占据。FP3 的位置不同。它从 3D 点云基础策略切入，做的是大规模 3D 操作模型。

不是每家公司都有资源从头训练一个 1B 级机器人基础策略模型，也不是每家公司都能组织大规模多任务数据预训练。如果 FP3 的代码、权重和训练方案能够持续开源和维护，它可以成为国内团队做 3D 策略微调、任务适配和场景泛化的底座。

判断

FP3 最重要的判断，是把视角不变性从“需要学”变成了“可以算”。

2D 模型面对相机角度变化，只能靠数据学不变性。它需要看过足够多角度、足够多背景、足够多物体，才可能知道这些视觉变化背后是同一个三维结构。

点云不一样。只要相机标定正确，同一个物体在世界坐标里的形状和位置可以直接算出来。模型少学一层不必要的视觉变化，就能把能力用在真正的操作关系上。

第二，80 条示范的数据效率说明预训练迁移是真实有效的。

机器人数据稀缺不是口号，而是每个真实项目都会遇到的成本问题。FP3 如果没有预训练，野外性能直接跌到接近不可用；有了 DROID 上的大规模 3D 预训练，再用 80 条示范微调，就能达到可用成功率。

第三，FP3 的限制也很清楚。

它当前语言侧主要依赖 CLIP，语言理解能力有限。CLIP 可以把图像和文本对齐，但它不是为复杂机器人指令推理设计的。点云提供了几何，但语义理解还不够强。

复杂指令、隐含目标、长程任务分解、多物体关系推理，都不是单靠点云就能解决的。

下一个问题已经摆在这里：把 VLM 的语义理解和 3D 点云的几何理解真正融合起来。

2D VLA 强在语义和常识，3D 策略强在空间和操作。如果能把两者合在同一个策略系统里，机器人基础模型才更接近真实部署需要的形态。

FP3 的意义，不是证明 3D 可以替代一切。

它证明的是：机器人基础模型不能永远只看 2D 图像。

世界是三维的，机器人也必须从三维开始学习。

? 论文：https://arxiv.org/abs/2503.08950

0人收藏

专题

ICRA 国际机器人与自动化会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章