您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给齐铖湧
发送

0

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

本文作者: 齐铖湧   2026-06-16 10:27
导语:「数据量×任务量」二维Scaling才是具身AGI正解。
独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」
「数据量×任务量」二维Scaling才是具身AGI正解。

    作者丨齐铖湧

    编辑丨林觉民

    

                                                                                                               

近段时间,具身智能的模型技术迭代方向,节奏放缓,分歧不断。

对此,北大副教授董豪(上纬启元首席科学家)分享了一个新观点:现在主流的模仿学习、强化学习、仿真数据各有硬伤,行业需要换套思路。在不久前的百度智能云的具身智能论坛上,董豪详细分享了他的想法,董豪主张用二维横向Scaling Law新思路,把世界模型、生成数据、人类示教这些热门技术串成一条线,让机器人任务越学越多的同时,实现数据越用越省。(雷峰网(公众号:雷峰网)

董豪坚信,这才是家用和通用人形机器人能大规模落地的关键。

以下为董豪分享内容,经AI科技评论独家获取并做不改变原义的整理删改:

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

01

模仿学习只能完成冷启动,单一示范数据存在天然缺陷

谈及大模型行业共识的 Scaling Law,董豪将当前具身模型训练划分为两大阶段:预训练依托模仿学习,后置迭代依靠强化学习两套方案各有显著短板。

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

模仿学习优势在于快速冷启动,依托标准化人工示范数据,能快速赋予机器人基础操作能力,逻辑与大语言模型训练逻辑相通。但其致命短板在于训练样本全部为正确轨迹,完全缺失故障、失误样本分布。即便积累上万条标准操作数据,机器人在真实场景执行出错后,不具备自主调整、纠错能力。

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

国内已有成熟落地探索,北京智源研究院基于 15 款异构双臂机器人搭建大规模多模态数据集,训练出可跨硬件通用的 VLA 视觉语言动作模型,成为模仿学习路线标杆工程。

仿真赛道同样跑出阶段性成果,上海人工智能实验室推出 InternData-A1 纯仿真合成数据集,无需真机采集,在多项实操任务中,训练完成成功率甚至超过真机实拍数据。

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

02


强化学习补齐容错短板,

“模仿 + 强化” 实现全自主连续作业

仅依靠模仿学习不足以支撑通用机器人落地,强化学习是行业确定性演进方向。

董豪重点解读经典 Dagger 数据聚合框架,该思路早年已在自动驾驶领域验证价值:纯正常行驶数据会造成模型容错能力缺失,必须补充故障场景样本。机器人执行失误后接入人工干预,将纠错轨迹纳入训练集,持续提升真机环境任务稳定性。

董豪分享了实验室最新落地成果:团队已实现机器人全自主洗衣流程,设备可自主规划移动路径、开合洗衣机门,抓取衣物失败后会像人类一样主动重试,整套流程无需人工介入。

实践证明,模仿学习打底、强化学习持续迭代的组合方案,能够支撑机器人在固定空间完成高强度连续作业。

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

03

一维缩放逻辑走到尽头,横向二维 Scaling Law 重构行业增长曲线

即便实现模仿 + 强化学习闭环,传统一维 Scaling Law 依旧无法描绘通用具身智能的长期增长天花板。对此董豪提出核心创新观点:横向二维 Scaling Law,在原有数据量维度之外,新增任务数量坐标轴。

这套框架下,随着数据集持续扩充,机器人全新任务初始完成率同步上涨,达成高成功率所需的样本量持续下降。行业需要规避两种低效增长曲线:数据增长与可掌握任务仅呈线性关系、边际收益持续递减。

理想技术曲线为 “高效红线”—— 伴随模型迭代、数据规模扩张,机器人可掌握的任务数量高速提升,实现 “越学越省”,这也是物理世界 AGI 的必经之路。近半年行业火热的世界模型、Umi 等技术概念,底层目标全部服务于这条全新增长曲线;真机真实数据、仿真合成数据、硬件无关通用预训练数据,所有技术创新都围绕二维缩放逻辑落地。

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」
独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

04

多路径数据增强落地

1 条真机数据生成 50 条等效样本、人示教低成本转机器人轨迹。董豪披露团队最新生成式数据增强研究成果:依托世界模型与生成 AI,单条真机采集轨迹,可生成 50 条物体摆放、空间位置差异化的高逼真等效训练数据,极大缓解真机数据采集成本高、样本稀缺的行业痛点,大幅提升真实数据利用效率。

仿真体系的价值不止基础动作训练,更是家用机器人突破非标家电操作瓶颈的关键。

家用设备型号繁杂、操作逻辑差异大,若模型具备读取说明书、理解设备操作逻辑的能力,将大幅拓宽落地边界室内导航、多物体空间关系推演等任务,可通过仿真批量生成海量训练素材;仿真数据与真机数据双向互补,持续拓宽机器人能力边界。

前前沿模型已可识别各类家电,接收 “焖米饭、榨橙汁” 自然语言指令后,自主匹配设备完成全套操作。在规模化数据采集层面,团队探索普惠化低成本方案:通过穿戴式手持相机记录人类操作视频,直接转化为机器人可训练轨迹。同等预算下可获取海量示范数据,持续优化二维缩放增长曲线,长期压低机器人数据采集边际成本。

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」
独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

05

行业统一底层逻辑:所有前沿技术,都是为加速二维 Scaling 增长曲线

董豪也总结了整场分享核心结论:行业需要跳出传统一维 Scaling Law 思维,以二维双维度视角重构具身智能技术研发思路。

全新增长曲线的核心诉求,是在稳定任务成功率的前提下,依靠增量数据持续拓展机器人可执行任务边界。当下市场热议的世界模型、Umi、人类视频预训练等不同技术路线,看似方向分散,底层目标高度统一:加速二维高效增长曲线成型。

只有走完这条技术路径,通用具身智能、家用服务机器人才具备规模化商业化落地基础。(雷峰网)

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」
独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

雷峰网原创文章,未经授权禁止转载。详情见转载须知

独家|北大董豪:「仅停留在数据层面的Scaling Law,教不出通用机器人」

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说