0
| 本文作者: 吴思梦 | 2026-05-28 15:56 | 专题:ICRA 2017:创新、创业和解决方法 |
论文原文链接
arXiv预印本页面:https://arxiv.org/abs/2602.02142v2
arXiv全文PDF:https://arxiv.org/pdf/2602.02142v2
DBLP页面:https://dblp.uni-trier.de/pid/00/9938.html(内含更详细的引用信息)
Semantic Scholar页面:https://www.semanticscholar.org/paper/FD-VLA:-Force-Distilled-Vision-Language-Action-for-Zhao-Wang/84496e9c36fa5b863f5702abb1dbc5560ee7db5b
原文作者:公众号“计算机顶会大全”
原文链接:https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA
ICRA 2026| FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

过去,VLA模型主要依赖视觉和语言来完成机器人操作,但在真实场景中,很多任务并不是看见就能做好。比如插头插入、按钮按压、擦白板等接触丰富任务,真正影响成功率的是接触力、阻力变化、摩擦和细微形变。
这篇论文关注的正是VLA的力觉短板。论文提出FD-VLA,通过力蒸馏机制,让模型在训练阶段利用真实力信号学习潜在力表示;在推理阶段,则不再依赖实体力传感器,而是根据视觉观察和机器人本体状态预测力标记,并与视觉语言信息共同生成动作。这样既保留了力觉对接触操作的帮助,又降低了真实部署时对昂贵、脆弱传感器的依赖。

创新点主要在于三方面:一是把力觉信息以蒸馏方式融入VLA,而不是简单拼接原始力信号;二是利用视觉和本体状态预测接触相关力表示,提升任务相关性和鲁棒性;三是在真实机器人平台上验证擦白板、按按钮、插头插入等典型接触任务。实验表明,FD-VLA整体成功率明显高于无力觉版本和直接输入原始力信号的方法,说明可学习的力表示比粗暴使用传感器数据更有效。
这篇论文的价值在于,它把VLA从看懂再行动推进到理解接触再行动。对具身智能研究来说,力觉蒸馏、触觉增强、状态建模和接触丰富操作,正在成为VLA实用化落地的重要发文切口。
雷峰网(公众号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。