CVPR 2026 | MOGeo：跨视角多目标地理定位技术

本文作者：陈淑瑜

2026-06-01 17:18

导语：MOGeo使得跨视角图像目标地理定位从单目标地理定位到更符合实际需求的多目标地理定位。

来源：公众号“深圳大学计算机与软件学院”

原文链接：https://mp.weixin.qq.com/s/_ZOHn92s_WAcU6q3Y0X38Q

跨视角目标地理定位技术广泛应用于辅助自动驾驶、智慧城市、航海导航等场景，核心是根据参考图像内目标的GPS确定查询图像内感兴趣目标的GPS等信息，面临着跨视角图像特征差异大、数据匮乏、定位精度不足等行业共性挑战。

深圳大学计算机与软件学院未来媒体技术与计算研究所朱映映教授课题组在该方向上独立完成一项创新工作，并发表在CVPR 2026会议上，该工作使得跨视角图像目标地理定位从单目标地理定位到更符合实际需求的多目标地理定位，下面让我们深入了解下它。

Bo Lv, Qingwang Zhang，Le Wu，Yuanyuan Li, Yingying Zhu*

Shenzhen University

项目主页： https://github.com/LV-BO001/MOGeo

问题定位

跨视角目标地理定位（Cross-View Object Geo-Localization, CVOGL）是一项在卫星图像中定位查询图像中的感兴趣目标GPS的技术。该技术在辅助自动驾驶、智慧城市构建以及航海导航等关键场景中具有重要应用价值。现有方法在目标位置建模阶段通常依赖欧式距离矩阵或高斯分布进行位置编码，然而此类表征方式不可避免地引入大量冗余噪声信息，从而削弱了关键位置信号的表达能力，导致目标定位精度受限。此外，大多数现有方法基于单目标假设，即默认查询图像中仅包含一个目标实例，这一前提与真实世界中多目标共存的复杂场景存在显著偏差。因此，现有方法在面对实际多目标地理定位任务时往往表现出明显的泛化能力不足，难以满足复杂环境下的高精度定位需求。

方法概览

该工作提出了一种基于查询目标位置增强方法的跨视角多目标地理定位方法MOGeo。该方法从根本上突破了传统单目标建模范式，通过引入多查询目标的并行建模机制，实现了跨视角多目标地理定位任务在复杂真实场景中的有效扩展。在保持与现有最优方法参数规模相当的前提下，MOGeo同时提升了定位精度与推理效率。此外，结合面向感兴趣区域的脉冲式位置编码与对比学习策略，有效增强了关键位置信息表达与目标间的判别能力。

该方法主要包含以下三个部分：

并行多查询建模机制（Parallel Multi-Query Modeling）

首先，通过构建多查询目标的并行输入与并行预测框架，实现跨视角多目标的统一定位，有效满足复杂场景下多目标同时定位的实际需求。

脉冲式位置编码与跨视角特征增强（Impulse-based Positional Encoding & Feature Fusion）

其次，引入面向查询图像中感兴趣目标的脉冲式位置编码，以强化关键区域的空间表征能力，并设计跨视角特征融合模块，进一步提升目标位置表达的准确性与鲁棒性。

对比损失增强区分能力

最后，通过引入对比损失，有效拉开不同目标特征之间的分布差异，从而增强多目标场景下的区分能力与定位稳定性。

与现有跨视角单目标地理定位方法相比，在模型参数规模基本相当的前提下，所提出的MOGeo在定位精度与推理速度上均取得了显著提升。

技术贡献

提出了一种基于脉冲式位置编码的查询目标表示方法

采用脉冲式位置编码机制，强化查询目标的空间位置信号，有效抑制传统连续编码中引入的冗余噪声干扰，为跨视角特征融合提供稳定且高精度的位置信息支撑；

设计了一种基于残差思想的跨视角图像融合方法

通过建模查询目标表示与参考图像特征之间的相似性关系，生成跨视角注意力映射，并结合残差式二次融合策略，有效避免注意力信息被背景特征淹没，从而显著增强目标区域的判别性表达；

引入了对比学习机制增强目标的区分能力

引入对比学习机制，通过拉开不同目标特征向量之间的距离，从而增强多目标场景的区分能力和稳定性。

技术方案

该方法的整体流程如图1所示。模型输入为同一地理位置下的查询图像与参考图像。由于成像视角的显著差异，两者之间存在较大的视觉与语义鸿沟，同时在目标层面共享有限的跨视角一致语义。此外，查询图像中往往包含多个感兴趣目标，使得跨视角匹配与定位问题更加复杂且具有挑战性。

图1. 方法流程

首先，针对跨视角多目标地理定位中查询目标位置信息表达不充分的问题，本文提出了一种基于脉冲式位置编码的多头查询表示方法（MOPE）。该方法受Dirac δ函数启发，通过构建one-hot空间掩码，将查询点映射为特征图中的离散“预位置”表示，从而显式消除连续位置编码带来的模糊性。随后，通过通道拼接与逐元素增强策略，将位置编码与视觉特征进行融合，在避免语义信息对位置信号稀释的同时，强化关键目标区域的响应能力，实现多目标的独立且稳定表示。

图2. 跨视角多特征融合模块

其次，在跨视角特征对齐与匹配阶段，本文设计了一种基于注意力驱动的跨视角多特征融合方法（CVMF）。该方法通过对查询目标特征与参考图像特征进行归一化处理，并基于矩阵相似性计算构建跨视角注意力映射，从而刻画不同视角下的潜在对应关系。在此基础上，结合加权融合与特征拼接策略，对注意力信息进行逐级增强，有效避免目标响应被背景特征淹没。同时，通过多头并行机制实现多目标的同步建模，从而提升复杂场景下的匹配精度与鲁棒性。

最后，为提升多目标之间的判别能力，本文引入了一种基于特征分布约束的对比优化机制。通过构建基于注意力特征的相似性损失函数，显式拉开不同目标之间的特征距离，同时保持同一目标在跨视角下的一致性，从而缓解多目标场景中的特征混淆问题，提升定位结果的稳定性与区分能力。

总体而言，本文将脉冲式位置编码、多特征融合机制与对比学习策略进行统一建模，形成完整的MOGeo框架，在跨视角多目标地理定位任务中有效缓解语义鸿沟与多目标干扰问题，在定位精度与计算效率之间取得良好平衡，实现高效、精准且鲁棒的多目标定位。

如图所示，所提出的方法能够有效支持真实场景下的跨视角多目标地理定位任务。值得注意的是，在模型参数规模与现有最先进方法保持相当的情况下，本文方法在定位精度与推理效率上均实现了显著提升，充分验证了其在复杂实际应用场景中的有效性与实用性。

图3. 定位效果图对比

图4. 模型参数量与推理速度对比

跨视角多目标地理定位在实际应用中面临视角差异显著、多目标干扰复杂等挑战，现有方法难以满足复杂场景下的跨视角多目标定位需求。针对这一问题，本文提出了一种跨视角多目标地理定位方法MOGeo。该方法通过脉冲式位置编码强化目标位置信息表达，结合跨视角特征融合与对比学习机制，有效提升多目标场景下的匹配与定位能力。在模型参数规模与现有最先进方法基本一致的情况下，所提出方法在定位精度与推理速度上均取得显著提升，为跨视角多目标地理定位提供了一种高效且鲁棒的解决方案。

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章