研究成果｜CVPR 2026 面向隐私约束跨域语义分割的风格自适应泛化框架

本文作者：陈淑瑜

2026-05-29 11:16

专题：CVPR 计算机视觉与模式识别会议

导语：当模型内部不可访问时，如何提升冻结语义分割模型的跨域泛化能力

来源：公众号“ICGS实验室”

原文链接：https://mp.weixin.qq.com/s/kDssjQmcJYnAJnG1THufKQ?scene=1&click_id=40

基本信息

题目：SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains

会议：IEEE Conference on Computer Vision and Pattern Recognition (CCF-A，计算机视觉顶会)

年份：2026年

主要单位：清华大学深圳国际研究生院、中山大学、国家超级计算深圳中心

主要作者：李庆美（清华大学深圳国际研究生院博士后）、张洋（中山大学22级本科生）、张配沣（中山大学23级本科生）

通讯作者：付昊桓、郑珏鹏

Part.1

研究背景

语义分割是计算机视觉中的基础任务，广泛应用于自动驾驶、智慧城市和医学影像等场景，但真实部署中的图像往往来自不同城市、天气、光照或成像设备，源域和目标域之间存在明显分布差异，导致模型在未知场景中性能下降。现有领域泛化语义分割方法通常依赖模型微调或内部特征调整，而在许多实际应用中，模型会因为隐私保护、知识产权或部署安全而被冻结，外部用户无法访问模型参数和结构。因此，本文关注一个更贴近真实部署的问题：当模型内部不可访问时，如何提升冻结语义分割模型的跨域泛化能力。

Part.2

核心贡献点

为了解决隐私约束下模型参数不可访问、未知目标域风格高度多样的问题，本文提出了 SAGE 框架，这是一种面向冻结语义分割模型的风格自适应泛化方法。SAGE 不修改模型内部参数，而是从输入层生成视觉提示，引导模型适应不同目标域风格，包含两大核心创新：

风格提示生成 (Style-Prompt Generation): SAGE 摒弃了单一固定提示的设计，首先通过风格迁移构造多种源域风格变体，并为每一种风格训练一个专门的 style-prompt generator。该生成器由可学习边界提示模板和轻量调制网络组成，能够根据输入图像内容动态生成视觉提示。边界式设计既能注入风格先验，又尽量避免干扰图像主体区域，从而在不访问模型内部参数的情况下提升冻结模型的泛化能力。
自适应提示融合 (Adaptive Prompt Fusion): 拥有了多种风格提示后，如何为未知目标图像选择合适提示是关键。SAGE 将多个 style-prompt generator 产生的提示送入轻量级注意力融合模块，以输入图像特征作为查询，自适应计算不同风格提示的重要性，并生成最终融合提示。这样，每张目标图像都能获得与自身视觉风格更匹配的 prompt，避免固定提示在复杂目标域中失效，实现隐私约束下更稳健的跨域语义分割。

Part.3

实验结果

本文在 GTAV、SYNTHIA、Cityscapes、BDD-100K 和 Mapillary 五个语义分割基准数据集上进行了评估，覆盖 GTAV、Cityscapes 和 SYNTHIA 作为源域的三组跨域设置。实验采用 ADE20K 预训练的 SegFormer-B5 作为隐私语义分割模型，并保持模型主体冻结。结果表明，SAGE 在隐私约束方法中取得稳定领先的性能：在 GTAV 作为源域时，平均 mIoU 达到 42.09%；在 Cityscapes 作为源域时，平均 mIoU 达到 43.90%；在 SYNTHIA 作为源域时，平均 mIoU 达到 37.58%。相比直接使用冻结模型的 baseline，SAGE 带来约 3.4 到 6.3 个百分点的平均精度提升；相比已有隐私兼容方法 A2XP，平均提升约 10.2 到 12.9 个百分点。