ICRA 2026 | 新加坡国立大学提出FD-VLA：力蒸馏视觉语言动作模型，攻克接触丰富操作

本文作者：吴思梦

2026-05-28 15:56

导语：把VLA从看懂再行动推进到理解接触再行动

论文原文链接

arXiv预印本页面：https://arxiv.org/abs/2602.02142v2

arXiv全文PDF：https://arxiv.org/pdf/2602.02142v2

DBLP页面：https://dblp.uni-trier.de/pid/00/9938.html（内含更详细的引用信息）

Semantic Scholar页面：https://www.semanticscholar.org/paper/FD-VLA:-Force-Distilled-Vision-Language-Action-for-Zhao-Wang/84496e9c36fa5b863f5702abb1dbc5560ee7db5b

原文作者：公众号“计算机顶会大全”

原文链接：https://mp.weixin.qq.com/s/SbiHonAq0qYEP-sC-sB-bA

ICRA 2026| FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation

ICRA 2026 | 新加坡国立大学提出FD-VLA：力蒸馏视觉语言动作模型，攻克接触丰富操作

过去，VLA模型主要依赖视觉和语言来完成机器人操作，但在真实场景中，很多任务并不是看见就能做好。比如插头插入、按钮按压、擦白板等接触丰富任务，真正影响成功率的是接触力、阻力变化、摩擦和细微形变。

这篇论文关注的正是VLA的力觉短板。论文提出FD-VLA，通过力蒸馏机制，让模型在训练阶段利用真实力信号学习潜在力表示；在推理阶段，则不再依赖实体力传感器，而是根据视觉观察和机器人本体状态预测力标记，并与视觉语言信息共同生成动作。这样既保留了力觉对接触操作的帮助，又降低了真实部署时对昂贵、脆弱传感器的依赖。

ICRA 2026 | 新加坡国立大学提出FD-VLA：力蒸馏视觉语言动作模型，攻克接触丰富操作

创新点主要在于三方面：一是把力觉信息以蒸馏方式融入VLA，而不是简单拼接原始力信号；二是利用视觉和本体状态预测接触相关力表示，提升任务相关性和鲁棒性；三是在真实机器人平台上验证擦白板、按按钮、插头插入等典型接触任务。实验表明，FD-VLA整体成功率明显高于无力觉版本和直接输入原始力信号的方法，说明可学习的力表示比粗暴使用传感器数据更有效。

这篇论文的价值在于，它把VLA从看懂再行动推进到理解接触再行动。对具身智能研究来说，力觉蒸馏、触觉增强、状态建模和接触丰富操作，正在成为VLA实用化落地的重要发文切口。

雷峰网(公众号：雷峰网)

0人收藏

专题

ICRA 国际机器人与自动化会议

本专题其他文章

吴思梦

编辑

发私信

当月热门文章