0

作者丨齐铖湧
编辑丨林觉民
近段时间,具身智能的模型技术迭代方向,节奏放缓,分歧不断。
对此,北大副教授董豪(上纬启元首席科学家)分享了一个新观点:现在主流的模仿学习、强化学习、仿真数据各有硬伤,行业需要换套思路。在不久前的百度智能云的具身智能论坛上,董豪详细分享了他的想法,董豪主张用二维横向Scaling Law新思路,把世界模型、生成数据、人类示教这些热门技术串成一条线,让机器人任务越学越多的同时,实现数据越用越省。(雷峰网(公众号:雷峰网))
董豪坚信,这才是家用和通用人形机器人能大规模落地的关键。
以下为董豪分享内容,经AI科技评论独家获取并做不改变原义的整理删改:

01
谈及大模型行业共识的 Scaling Law,董豪将当前具身模型训练划分为两大阶段:预训练依托模仿学习,后置迭代依靠强化学习,两套方案各有显著短板。

模仿学习优势在于快速冷启动,依托标准化人工示范数据,能快速赋予机器人基础操作能力,逻辑与大语言模型训练逻辑相通。但其致命短板在于训练样本全部为正确轨迹,完全缺失故障、失误样本分布。即便积累上万条标准操作数据,机器人在真实场景执行出错后,不具备自主调整、纠错能力。

国内已有成熟落地探索,北京智源研究院基于 15 款异构双臂机器人搭建大规模多模态数据集,训练出可跨硬件通用的 VLA 视觉语言动作模型,成为模仿学习路线标杆工程。
仿真赛道同样跑出阶段性成果,上海人工智能实验室推出 InternData-A1 纯仿真合成数据集,无需真机采集,在多项实操任务中,训练完成成功率甚至超过真机实拍数据。

02
强化学习补齐容错短板,
“模仿 + 强化” 实现全自主连续作业
仅依靠模仿学习不足以支撑通用机器人落地,强化学习是行业确定性演进方向。
董豪重点解读经典 Dagger 数据聚合框架,该思路早年已在自动驾驶领域验证价值:纯正常行驶数据会造成模型容错能力缺失,必须补充故障场景样本。机器人执行失误后接入人工干预,将纠错轨迹纳入训练集,持续提升真机环境任务稳定性。
董豪分享了实验室最新落地成果:团队已实现机器人全自主洗衣流程,设备可自主规划移动路径、开合洗衣机门,抓取衣物失败后会像人类一样主动重试,整套流程无需人工介入。
实践证明,模仿学习打底、强化学习持续迭代的组合方案,能够支撑机器人在固定空间完成高强度连续作业。



03
即便实现模仿 + 强化学习闭环,传统一维 Scaling Law 依旧无法描绘通用具身智能的长期增长天花板。对此董豪提出核心创新观点:横向二维 Scaling Law,在原有数据量维度之外,新增任务数量坐标轴。
这套框架下,随着数据集持续扩充,机器人全新任务初始完成率同步上涨,达成高成功率所需的样本量持续下降。行业需要规避两种低效增长曲线:数据增长与可掌握任务仅呈线性关系、边际收益持续递减。
理想技术曲线为 “高效红线”—— 伴随模型迭代、数据规模扩张,机器人可掌握的任务数量高速提升,实现 “越学越省”,这也是物理世界 AGI 的必经之路。近半年行业火热的世界模型、Umi 等技术概念,底层目标全部服务于这条全新增长曲线;真机真实数据、仿真合成数据、硬件无关通用预训练数据,所有技术创新都围绕二维缩放逻辑落地。


04
1 条真机数据生成 50 条等效样本、人示教低成本转机器人轨迹。董豪披露团队最新生成式数据增强研究成果:依托世界模型与生成 AI,单条真机采集轨迹,可生成 50 条物体摆放、空间位置差异化的高逼真等效训练数据,极大缓解真机数据采集成本高、样本稀缺的行业痛点,大幅提升真实数据利用效率。
仿真体系的价值不止基础动作训练,更是家用机器人突破非标家电操作瓶颈的关键。
家用设备型号繁杂、操作逻辑差异大,若模型具备读取说明书、理解设备操作逻辑的能力,将大幅拓宽落地边界。室内导航、多物体空间关系推演等任务,可通过仿真批量生成海量训练素材;仿真数据与真机数据双向互补,持续拓宽机器人能力边界。
当前前沿模型已可识别各类家电,接收 “焖米饭、榨橙汁” 自然语言指令后,自主匹配设备完成全套操作。在规模化数据采集层面,团队探索普惠化低成本方案:通过穿戴式手持相机记录人类操作视频,直接转化为机器人可训练轨迹。同等预算下可获取海量示范数据,持续优化二维缩放增长曲线,长期压低机器人数据采集边际成本。


05
董豪也总结了整场分享核心结论:行业需要跳出传统一维 Scaling Law 思维,以二维双维度视角重构具身智能技术研发思路。
全新增长曲线的核心诉求,是在稳定任务成功率的前提下,依靠增量数据持续拓展机器人可执行任务边界。当下市场热议的世界模型、Umi、人类视频预训练等不同技术路线,看似方向分散,底层目标高度统一:加速二维高效增长曲线成型。
只有走完这条技术路径,通用具身智能、家用服务机器人才具备规模化商业化落地基础。(雷峰网)


雷峰网原创文章,未经授权禁止转载。详情见转载须知。