CVPR2026 | 极少数据训练的通用目标检测模型, 无需提示跨域泛化, 遥感数据表现优异！

本文作者：陈淑瑜

2026-05-28 10:46

导语：无需任何文本或视觉提示的通用区域候选网络PF-RPN，通过可学习视觉嵌入替代文本嵌入实现开放世界目标定位

来源：公众号“遥感与深度学习“

原文链接：https://mp.weixin.qq.com/s/ojm6yRWRURFIL1UlD9ZwPw?scene=1&click_id=138

题目：Prompt-Free Universal Region Proposal Network
会议：The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
论文： https://arxiv.org/abs/2603.17554
数据： CD-FSOD benchmark、ODinW13 benchmark，共19个数据集
代码： https://github.com/tangqh03/PF-RPN
年份： 2026
单位： 南京大学、中国科学技术大学

CVPR2026 遥感AI方向合集：CVPR2026

创新点

提出无需任何文本或视觉提示的通用区域候选网络PF-RPN，通过可学习视觉嵌入替代文本嵌入实现开放世界目标定位
设计稀疏图像感知适配器（SIA），利用混合专家机制自适应融合多层次视觉特征以初始化和更新可学习嵌入
提出级联自提示模块（CSP），通过深到浅的迭代精化机制逐步扩展目标区域激活、抑制背景噪声
设计中心性引导查询选择模块（CG-QS），利用中心性评分优先选取靠近目标中心的查询以提升候选框质量

背景

现有目标检测中的区域候选网络（RPN）在面对未见域时泛化能力不足，难以识别未知类别目标。开放词汇目标检测（OVD）方法虽具备一定泛化能力，但通常依赖类别名称或样例图像作为提示输入，在工业缺陷检测、水下目标检测等实际场景中提示信息往往不可获取，限制了其灵活性。

部分无提示OVD方法尝试借助生成式视觉语言大模型（VLM）自动生成描述以消除手动提示的依赖，但此类方法引入了显著的内存和推理延迟开销。因此，亟需一种高效的区域候选网络，能够在无任何外部提示的条件下跨域泛化，直接应用于多种下游检测任务。

数据

CD-FSOD Benchmark

包含六个具有显著域偏移的跨域数据集

ArTaxOr：昆虫图像数据集
Clipart1k：手绘卡通图像数据集
DIOR：遥感图像数据集
DeepFish：水下鱼类图像数据集
NEU-DET：工业缺陷图像数据集
UODD：海洋生物图像数据集

ODinW13 Benchmark

包含13个来自多样化场景的数据集

涵盖野生动物摄影、家用物品、航拍图像等多种应用领域
用于评估模型在多样真实场景下的跨域泛化能力

训练数据

使用MS COCO数据集的5%（80类）进行检测数据训练
使用ImageNet数据集的5%（1000类）补充分类数据，以缓解图像编码器的域偏移偏差

方法

PF-RPN总体框架

PF-RPN基于Grounding DINO构建，以可学习嵌入替代文本嵌入，通过纯视觉特征生成目标候选框，无需任何文本或图像提示。图像编码器提取多层次特征图后，依次经过SIA模块、CSP模块和CG-QS模块，最终输出高质量目标候选框。

CVPR2026 | 极少数据训练的通用目标检测模型, 无需提示跨域泛化, 遥感数据表现优异！

稀疏图像感知适配器（SIA）

使用混合专家（MoE）路由机制

对各层特征图进行全局平均池化后，通过轻量MLP路由器预测各层重要性权重
自适应选取Top-k（默认k=2）最具信息量的特征层，抑制冗余噪声

利用交叉注意力机制将选中层的全局与局部特征融合至可学习嵌入中，使其获得粗粒度与细粒度的视觉语义表示

级联自提示模块（CSP）

从深层到浅层迭代精化可学习嵌入

在每一层计算当前嵌入与视觉特征图的余弦相似度，生成目标区域掩码
通过掩码平均池化将目标内部特征累积更新至嵌入中

默认迭代3次，在精度与效率之间取得最优平衡，引入的推理延迟极小

中心性引导查询选择（CG-QS）

使用轻量MLP作为中心性评分网络，为每个查询预测其靠近目标中心的概率

训练时以查询点到真实框四条边距离的几何均值作为监督信号
推理时将中心性评分与分类评分结合，优先选取靠近目标中心的高质量查询

目标损失函数

联合优化回归损失（L1+GIoU）、对比分类损失、路由负载均衡损失和中心性损失
通过超参数λ控制中心性损失权重（默认λ=5），避免其主导优化过程影响回归性能

结果与分析

PF-RPN在CD-FSOD和ODinW13共19个跨域数据集上均显著超越现有OVD模型、传统RPN及多模态大语言模型，展现出强大的零样本跨域泛化能力。此外，与同类无提示方法相比，PF-RPN在大幅提升检测性能的同时，推理速度和显存占用均具有明显优势，具备更高的实际部署价值。在遥感场景下，PF-RPN在DIOR数据集上同样取得了最优性能，显著领先于GLIP、YOLOE、YOLOWorld等对比方法，验证了其在遥感图像目标定位任务中的有效性。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章