独家｜北大董豪：「仅停留在数据层面的Scaling Law，教不出通用机器人」

本文作者：齐铖湧

2026-06-16 10:27

导语：「数据量×任务量」二维Scaling才是具身AGI正解。

「数据量×任务量」二维Scaling才是具身AGI正解。

作者丨齐铖湧

编辑丨林觉民

近段时间，具身智能的模型技术迭代方向，节奏放缓，分歧不断。

对此，北大副教授董豪（上纬启元首席科学家）分享了一个新观点：现在主流的模仿学习、强化学习、仿真数据各有硬伤，行业需要换套思路。在不久前的百度智能云的具身智能论坛上，董豪详细分享了他的想法，董豪主张用二维横向Scaling Law新思路，把世界模型、生成数据、人类示教这些热门技术串成一条线，让机器人任务越学越多的同时，实现数据越用越省。（雷峰网）

董豪坚信，这才是家用和通用人形机器人能大规模落地的关键。

以下为董豪分享内容，经AI科技评论独家获取并做不改变原义的整理删改：

模仿学习只能完成冷启动，单一示范数据存在天然缺陷

谈及大模型行业共识的 Scaling Law，董豪将当前具身模型训练划分为两大阶段：预训练依托模仿学习，后置迭代依靠强化学习，两套方案各有显著短板。

模仿学习优势在于快速冷启动，依托标准化人工示范数据，能快速赋予机器人基础操作能力，逻辑与大语言模型训练逻辑相通。但其致命短板在于训练样本全部为正确轨迹，完全缺失故障、失误样本分布。即便积累上万条标准操作数据，机器人在真实场景执行出错后，不具备自主调整、纠错能力。

国内已有成熟落地探索，北京智源研究院基于 15 款异构双臂机器人搭建大规模多模态数据集，训练出可跨硬件通用的 VLA 视觉语言动作模型，成为模仿学习路线标杆工程。

仿真赛道同样跑出阶段性成果，上海人工智能实验室推出 InternData-A1 纯仿真合成数据集，无需真机采集，在多项实操任务中，训练完成成功率甚至超过真机实拍数据。

强化学习补齐容错短板，
“模仿 + 强化” 实现全自主连续作业

仅依靠模仿学习不足以支撑通用机器人落地，强化学习是行业确定性演进方向。

董豪重点解读经典 Dagger 数据聚合框架，该思路早年已在自动驾驶领域验证价值：纯正常行驶数据会造成模型容错能力缺失，必须补充故障场景样本。机器人执行失误后接入人工干预，将纠错轨迹纳入训练集，持续提升真机环境任务稳定性。

董豪分享了实验室最新落地成果：团队已实现机器人全自主洗衣流程，设备可自主规划移动路径、开合洗衣机门，抓取衣物失败后会像人类一样主动重试，整套流程无需人工介入。

实践证明，模仿学习打底、强化学习持续迭代的组合方案，能够支撑机器人在固定空间完成高强度连续作业。

独家｜北大董豪：「仅停留在数据层面的Scaling Law，教不出通用机器人」

一维缩放逻辑走到尽头，横向二维 Scaling Law 重构行业增长曲线

即便实现模仿 + 强化学习闭环，传统一维 Scaling Law 依旧无法描绘通用具身智能的长期增长天花板。对此董豪提出核心创新观点：横向二维 Scaling Law，在原有数据量维度之外，新增任务数量坐标轴。

这套框架下，随着数据集持续扩充，机器人全新任务初始完成率同步上涨，达成高成功率所需的样本量持续下降。行业需要规避两种低效增长曲线：数据增长与可掌握任务仅呈线性关系、边际收益持续递减。

理想技术曲线为 “高效红线”—— 伴随模型迭代、数据规模扩张，机器人可掌握的任务数量高速提升，实现 “越学越省”，这也是物理世界 AGI 的必经之路。近半年行业火热的世界模型、Umi 等技术概念，底层目标全部服务于这条全新增长曲线；真机真实数据、仿真合成数据、硬件无关通用预训练数据，所有技术创新都围绕二维缩放逻辑落地。

多路径数据增强落地

1 条真机数据生成 50 条等效样本、人示教低成本转机器人轨迹。董豪披露团队最新生成式数据增强研究成果：依托世界模型与生成 AI，单条真机采集轨迹，可生成 50 条物体摆放、空间位置差异化的高逼真等效训练数据，极大缓解真机数据采集成本高、样本稀缺的行业痛点，大幅提升真实数据利用效率。

仿真体系的价值不止基础动作训练，更是家用机器人突破非标家电操作瓶颈的关键。

家用设备型号繁杂、操作逻辑差异大，若模型具备读取说明书、理解设备操作逻辑的能力，将大幅拓宽落地边界。室内导航、多物体空间关系推演等任务，可通过仿真批量生成海量训练素材；仿真数据与真机数据双向互补，持续拓宽机器人能力边界。

当前前沿模型已可识别各类家电，接收 “焖米饭、榨橙汁” 自然语言指令后，自主匹配设备完成全套操作。在规模化数据采集层面，团队探索普惠化低成本方案：通过穿戴式手持相机记录人类操作视频，直接转化为机器人可训练轨迹。同等预算下可获取海量示范数据，持续优化二维缩放增长曲线，长期压低机器人数据采集边际成本。