来源:公众号“遥感与深度学习“原文链接:https://mp.weixin.qq.com/s/2bONrB7za70sCN9b43H-ig?scene=1&click_id=34
题目:F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation
会议: The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026
论文: https://arxiv.org/abs/2506.07847
数据: DeepGlobe、Inria Aerial
年份: 2026 (本篇基于2025年6月arxiv版)
单位: 悉尼大学、阿德莱德大学、清华大学、埃迪斯科文大学
CVPR2026 遥感AI方向合集:CVPR2026

创新点
- 提出基于自适应频率分解的多分支网络 F2Net,将超高分辨率遥感图像分解为高频与低频分量分别处理,兼顾细节保留与语义建模
- 设计混合频率融合模块(HFF),通过跨分支通道注意力实现高、低频特征的层次化自适应聚合
- 提出跨频率对齐损失(CFAL),利用对称 KL 散度约束高低频分支在语义层面保持一致性
- 提出跨频率平衡损失(CFBL),显式正则化各分支梯度范数,解决多分支联合训练中的梯度失衡问题
背景
超高分辨率(UHR)遥感图像语义分割在城市规划、环境监测等领域具有重要应用价值,但其极大的图像尺寸给现有分割网络带来严峻的计算挑战。传统方法通常采用下采样或裁块两种策略适配网络输入,前者丢失细粒度边界细节,后者破坏全局上下文一致性。
为此,学界提出多分支架构(如 GLNet、ISDNet)以同时保留局部细节与全局语义,但这类方法存在两个核心问题:一是分支内部计算效率低(如反复裁块推理),二是多分支并行训练引发梯度竞争,导致收敛不稳定与特征对齐困难。本文从频率域视角出发,通过将图像分解为高低频分量并为各分量设计专属分支,同时引入专用损失函数,系统性地解决上述问题。

数据
DeepGlobe
- 共 803 张超高分辨率卫星图像,分辨率为 2448×2448 像素
- 按 455/207/142 划分训练、验证和测试集
- 包含七类地表语义标注:城市、农业、牧草地、森林、水体、裸地及未知类(未知类不参与评估)
Inria Aerial
- 共 180 张高分辨率航空影像,分辨率为 5000×5000 像素,覆盖多样城市场景
方法
自适应频率分解(AFD)
- 对输入图像先通过逐点卷积进行跨通道映射,再沿通道维度分组
- 为每组特征动态生成空间自适应低通滤波器(Softmax 归一化),并通过单位核相减得到对应高通滤波器
- 输出高频分量(保留原始分辨率)与低频分量(可安全下采样),供后续分支分别处理
高频分支
- 输入为全分辨率高频特征,采用基于状态空间模型(VMamba)的多阶段编码器提取层次化表示
- 每个阶段由多个 Visual State Space(VSS)块构成,通过 SS2D 模块捕获空间长程依赖
- 相邻阶段间施加下采样以逐步扩大感受野,最终输出高频语义特征图
低频分支
短程子分支
- 基于 CNN 骨干网络(DeepLabv3+ResNet-18)对下采样低频分量建模局部语义特征
- 处理分辨率为原图的 1/4,兼顾局部细节与计算效率
长程子分支
- 基于轻量级视觉 Transformer(TinyViT)建模长程全局依赖
混合频率融合模块(HFF)
- 对两个低频子分支分别施加通道注意力,再通过跨分支注意力矩阵建模两者间的特征交互关系
- 融合后的低频联合特征再与高频分支输出经第二个 HFF 模块进行最终聚合
跨频率损失函数
CFAL
:采用对称 KL 散度约束高、低频分支输出在语义层面的一致性,防止融合时的语义错位CFBL
:计算各分支相对于交叉熵损失的梯度范数,并惩罚其与均值的偏差,抑制某一分支主导优化过程
结果与分析
F2Net 在 DeepGlobe 和 Inria Aerial 两个基准上均达到当前最优性能,相比已有最佳 UHR 分割方法在 mIoU 上取得了显著提升。消融实验进一步验证了各分支、融合模块及损失函数的独立贡献,以及三者协同带来的性能增益。



