您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
机器人 正文
发私信给吴思梦
发送

0

ICRA 2026 | 新加坡国立大学提出FD-VLA:力蒸馏视觉语言动作模型,攻克接触丰富操作

本文作者: 吴思梦   2026-05-28 15:56 专题:ICRA 2017:创新、创业和解决方法
导语:把VLA从看懂再行动推进到理解接触再行动


论文原文链接

arXiv预印本页面:https://arxiv.org/abs/2602.02142v2

arXiv全文PDF:https://arxiv.org/pdf/2602.02142v2

DBLP页面:https://dblp.uni-trier.de/pid/00/9938.html(内含更详细的引用信息)

Semantic Scholar页面:https://www.semanticscholar.org/paper/FD-VLA:-Force-Distilled-Vision-Language-Action-for-Zhao-Wang/84496e9c36fa5b863f5702abb1dbc5560ee7db5b

 

原文作者:公众号“计算机顶会大全”

原文链接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA

 

 

ICRA 2026| FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

 ICRA 2026 | 新加坡国立大学提出FD-VLA:力蒸馏视觉语言动作模型,攻克接触丰富操作

过去,VLA模型主要依赖视觉和语言来完成机器人操作,但在真实场景中,很多任务并不是看见就能做好。比如插头插入、按钮按压、擦白板等接触丰富任务,真正影响成功率的是接触力、阻力变化、摩擦和细微形变。


这篇论文关注的正是VLA的力觉短板。论文提出FD-VLA,通过力蒸馏机制,让模型在训练阶段利用真实力信号学习潜在力表示;在推理阶段,则不再依赖实体力传感器,而是根据视觉观察和机器人本体状态预测力标记,并与视觉语言信息共同生成动作。这样既保留了力觉对接触操作的帮助,又降低了真实部署时对昂贵、脆弱传感器的依赖。

 ICRA 2026 | 新加坡国立大学提出FD-VLA:力蒸馏视觉语言动作模型,攻克接触丰富操作

创新点主要在于三方面:一是把力觉信息以蒸馏方式融入VLA,而不是简单拼接原始力信号;二是利用视觉和本体状态预测接触相关力表示,提升任务相关性和鲁棒性;三是在真实机器人平台上验证擦白板、按按钮、插头插入等典型接触任务。实验表明,FD-VLA整体成功率明显高于无力觉版本和直接输入原始力信号的方法,说明可学习的力表示比粗暴使用传感器数据更有效。


这篇论文的价值在于,它把VLA从看懂再行动推进到理解接触再行动。对具身智能研究来说,力觉蒸馏、触觉增强、状态建模和接触丰富操作,正在成为VLA实用化落地的重要发文切口。

 



雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说