0
| 本文作者: 陈淑瑜 | 2026-05-29 11:16 | 专题:CVPR 计算机视觉与模式识别会议 |
来源:公众号“ICGS实验室”
原文链接:https://mp.weixin.qq.com/s/kDssjQmcJYnAJnG1THufKQ?scene=1&click_id=40
基本信息

题目:SAGE: Style-Adaptive Generalization for Privacy-Constrained Semantic Segmentation Across Domains
会议:IEEE Conference on Computer Vision and Pattern Recognition (CCF-A,计算机视觉顶会)
年份:2026年
主要单位:清华大学深圳国际研究生院、中山大学、国家超级计算深圳中心
主要作者:李庆美(清华大学深圳国际研究生院博士后)、张洋(中山大学22级本科生)、张配沣(中山大学23级本科生)
通讯作者:付昊桓、郑珏鹏
Part.1
研究背景


语义分割是计算机视觉中的基础任务,广泛应用于自动驾驶、智慧城市和医学影像等场景,但真实部署中的图像往往来自不同城市、天气、光照或成像设备,源域和目标域之间存在明显分布差异,导致模型在未知场景中性能下降。现有领域泛化语义分割方法通常依赖模型微调或内部特征调整,而在许多实际应用中,模型会因为隐私保护、知识产权或部署安全而被冻结,外部用户无法访问模型参数和结构。因此,本文关注一个更贴近真实部署的问题:当模型内部不可访问时,如何提升冻结语义分割模型的跨域泛化能力。
Part.2
核心贡献点


为了解决隐私约束下模型参数不可访问、未知目标域风格高度多样的问题,本文提出了 SAGE 框架,这是一种面向冻结语义分割模型的风格自适应泛化方法。SAGE 不修改模型内部参数,而是从输入层生成视觉提示,引导模型适应不同目标域风格,包含两大核心创新:
风格提示生成 (Style-Prompt Generation): SAGE 摒弃了单一固定提示的设计,首先通过风格迁移构造多种源域风格变体,并为每一种风格训练一个专门的 style-prompt generator。该生成器由可学习边界提示模板和轻量调制网络组成,能够根据输入图像内容动态生成视觉提示。边界式设计既能注入风格先验,又尽量避免干扰图像主体区域,从而在不访问模型内部参数的情况下提升冻结模型的泛化能力。
自适应提示融合 (Adaptive Prompt Fusion): 拥有了多种风格提示后,如何为未知目标图像选择合适提示是关键。SAGE 将多个 style-prompt generator 产生的提示送入轻量级注意力融合模块,以输入图像特征作为查询,自适应计算不同风格提示的重要性,并生成最终融合提示。这样,每张目标图像都能获得与自身视觉风格更匹配的 prompt,避免固定提示在复杂目标域中失效,实现隐私约束下更稳健的跨域语义分割。
Part.3
实验结果


本文在 GTAV、SYNTHIA、Cityscapes、BDD-100K 和 Mapillary 五个语义分割基准数据集上进行了评估,覆盖 GTAV、Cityscapes 和 SYNTHIA 作为源域的三组跨域设置。实验采用 ADE20K 预训练的 SegFormer-B5 作为隐私语义分割模型,并保持模型主体冻结。结果表明,SAGE 在隐私约束方法中取得稳定领先的性能:在 GTAV 作为源域时,平均 mIoU 达到 42.09%;在 Cityscapes 作为源域时,平均 mIoU 达到 43.90%;在 SYNTHIA 作为源域时,平均 mIoU 达到 37.58%。相比直接使用冻结模型的 baseline,SAGE 带来约 3.4 到 6.3 个百分点的平均精度提升;相比已有隐私兼容方法 A2XP,平均提升约 10.2 到 12.9 个百分点。


消融实验和可视化结果进一步表明,SAGE 能够减少目标域分割噪声,保留更完整的目标边界,并更好地识别交通标志等细粒度目标。
SAGE 为隐私约束下的跨域语义分割提供了一种轻量、高效且易部署的解决方案。该方法无需访问模型内部参数,也不需要修改冻结骨干网络,仅通过输入级风格提示和自适应融合机制,就能显著提升冻结模型在未知域上的泛化能力,为视觉模型在隐私保护和安全部署场景中的应用提供了新的思路。
本专题其他文章