ICRA 2026 | SurgVidLM：在机器人辅助手术中利用大语言模型实现多粒度视频理解

本文作者：陈淑瑜

2026-05-27 18:43

导语： SurgVidLM是首个旨在解决手术视频全过程及细粒度理解的视频语言模型

来源：labren

原文链接：https://mp.weixin.qq.com/s/VrNm2pwk9-dBltTqcASSVQ?scene=1&click_id=117

香港中文大学任洪亮教授团队论文（SurgVidLM：在机器人辅助手术中利用大语言模型实现多粒度视频理解）被机器人领域顶会 IEEE International Conference on Robotics and Automation (ICRA 2026) 录用！

ICRA 2026 | SurgVidLM：在机器人辅助手术中利用大语言模型实现多粒度视频理解

论文题目：SurgVidLM: Towards Multi-grained Video Understanding with Large Language Model in Robot-assisted Surgery

论文作者：王冠锟（香港中文大学），王骏逸（香港中文大学），莫汶锦（香港中文大学），白龙（香港中文大学），袁焜（斯特拉斯堡大学、慕尼黑工业大学），胡铭（上海 AI Lab）, 吴锦林（中国科学院香港创新研究院），何军军（上海 AI Lab），黄一鸣（香港中文大学），Nicolas Padoy（斯特拉斯堡大学），雷震（中国科学院香港创新研究院），刘宏斌（中国科学院香港创新研究院），Nassir Navab（慕尼黑工业大学），任洪亮（香港中文大学）

论文简介：手术场景理解对于机器人辅助手术中的手术培训和机器人决策至关重要。多模态大语言模型（MLLMs）的最新进展在提升医疗领域场景感知方面展现了巨大潜力，能够辅助外科医生理解手术场景与流程。然而，现有方法主要面向图像分析或全局视频理解，忽视了细粒度视频推理，而这对于分析特定过程及捕获手术流程中详细的任务执行细节至关重要。为了弥补这一空白，我们提出了 SurgVidLM，这是首个旨在解决手术视频全过程及细粒度理解的视频语言模型。为了训练 SurgVidLM，我们构建了 SVU-31K 数据库，这是一个包含超过 3.1 万个“视频-指令”对的大规模数据集，支持对手术流程进行整体理解与详细分析。在此基础上，SurgVidLM 引入了一种两阶段的 StageFocus（阶段聚焦）机制：第一阶段提取全局流程上下文，第二阶段则在时间线索的引导下进行高频局部分析。此外，我们还开发了多频融合注意力机制（Multi-frequency Fusion Attention），以有效整合低频和高频视觉标号（Tokens），确保保留关键的任务特定细节。实验结果表明，在全过程和细粒度视频理解任务中，SurgVidLM 的表现显著优于同等参数规模的最先进（SOTA）视频大语言模型，展现了其捕获复杂机器人辅助手术语境的卓越能力。

主要贡献：

本文提出了首个专门针对机器人辅助手术设计的模型 SurgVidLM。该模型支持从宏观的整段视频理解到微观的细粒度视觉推理，实现了多粒度的手术场景分析。
我们通过一种创新的Knowledge Augmentation Pipeline构建了大规模数据集 SVU-31K。该数据集涵盖了全过程视频与细粒度视频理解的任务标注，使模型能够具备结构化且感知上下文的手术视频理解能力。
SurgVidLM 引入了 StageFocus 机制，实现了从全局到局部的循序渐进理解。同时，通过集成多频融合注意力机制（Multi-frequency Fusion Attention），促进了低频与高频视觉标号（Tokens）之间的交互，从而完整保留了环境上下文与任务细节信息。
在 SVU-31K 数据集上进行的广泛实验与消融研究表明，在同等参数规模下，SurgVidLM 在多粒度手术视频理解任务中的表现优于当前最先进的（SOTA）视频大语言模型。实验结果凸显了其在机器人辅助手术场景理解中的应用潜力。

SVU-31K数据的收集与构建流程图。

SurgVidLM 整体架构图。第一阶段（Stage 1）专注于对全过程视频的整体理解；第二阶段（Stage 2）则融合当前阶段与前一阶段的信息，以实现精准的细粒度视频理解。

SurgVidLM 与 Vid-LLMs 在 SVU-31K 多粒度视频理解任务中的性能比较。

精细视频推理任务的定性比较示例。

【香港中文大学任洪亮教授课题组】

香港中文大学（CUHK）医学机器人感知与人工智能研究课题组欢迎博士/博士后/研究助理加入，主要领域包括：医学机器人与智能系统、图像引导手术中的AI学习与控制、医疗机电一体化、连续和柔性机器人与传感器、变刚度调控技术、AI辅助内窥诊断、医学图像处理等。更多详情，请参阅任洪亮教授Google Scholar信息页与实验室网站http://labren.org/

参考文献：

Wang, G., Wang, J., Mo, W., Bai, L., Yuan, K., Hu, M., ... & Ren, H. (2025). Surgvidlm: Towards multi-grained surgical video understanding with large language model. arXiv preprint arXiv:2506.17873.

0人收藏

专题

ICRA 国际机器人与自动化会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章