【CVPR 2026】自-交叉注意力SCA，兼顾自身依赖与跨分支交互的增强特征，即插即用！

本文作者：陈淑瑜

2026-05-29 16:28

专题：CVPR 计算机视觉与模式识别会议

导语：ParTY：富有表现力的文本到动作合成的部分指南

来源：公众号“AI缝合术”

原文链接：https://mp.weixin.qq.com/s/dvUEI6c9RijskB-Xe1mX_g?scene=1&click_id=52

【CVPR 2026】自-交叉注意力SCA，兼顾自身依赖与跨分支交互的增强特征，即插即用！

一、论文信息

论文题目：ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis中文题目：ParTY：富有表现力的文本到动作合成的部分指南论文链接：https://arxiv.org/pdf/2603.09611

所属单位：庆熙大学

核心速览：

提出ParTY框架以解决文本到动作合成中特定身体部位动作表达不足和全身动作连贯性差的问题，通过部分引导网络、部分感知文本接地和整体-部分融合模块提升性能。

二、即插即用模块原理解读

图. 自-交叉注意力（改进到2D，适用于图像处理和计算机视觉任务）

1. 实现过程：

对输入的多分支拼接特征执行自注意力，建模特征内部依赖并通过残差连接增强；

再经 Split 操作，将特征分为共享查询 Q' 与绿、红两个独立分支，各分支生成键 Kp、值 Vp；

随后两个并行交叉注意力分支以 Q' 为查询，分别与两个分支的 Kp、Vp 计算注意力，建模跨分支交互，各分支输出再做残差连接；

最后融合两个交叉注意力分支的输出，得到兼顾自身依赖与跨分支交互的增强特征。

2. 作用与适用领域

兼顾特征内部依赖建模与跨分支信息交互，能高效融合多模态、多尺度或多源特征，适用于图像分割、图像翻译、多模态图像生成、图像修复等计算机视觉任务，尤其适合多源信息协同场景，提升特征判别性与鲁棒性。

三、全文内容概览

图3. ParTY系统概述。文本嵌入首先经过基于部分感知的文本定位处理，随后各部分Transformer为整体Transformer生成部分引导信息，用于生成运动令牌；在生成过程中会应用整体-部分融合技术。符号{Part}表示该处理过程同时应用于手臂和腿部。

1. 研究内容：

提出ParTY框架，旨在解决文本到运动合成中“部分运动表达”与“全身连贯性”的权衡问题，通过三模块协同提升运动生成质量：Part-Guided Network（部分引导网络）、Part-aware Text Grounding（部分感知文本接地）、Holistic-Part Fusion（整体-部分融合）。

2. 针对问题：

现有方法存在两大局限：（1）整体生成方法缺乏部分语义对齐，无法准确反映特定身体部位动作；（2）部分生成方法独立生成各部位运动，导致全身连贯性差（如颈部扭曲、肢体运动错位）。

3. 关键技术：

1. Temporal-aware VQ-VAE：通过局部时间增强（LTE）和全局时间增强（GTE）保留运动序列的时间信息，减少量化损失；

2. Part-aware Text Grounding：将文本嵌入通过多个MLP生成多样化表示，结合LLM生成的部位描述作为辅助监督，动态选择与各部位匹配的嵌入；

3. Part-Guided Network：先生成部位运动 tokens 作为“部分引导”，再通过整体-部分融合（HPF）模块将部位信息融入整体运动生成，确保连贯性。

图2。时间感知型 VQ - VAE 的架构。 VQVAE 部分采用相同的架构，唯一区别在于处理的是局部运动数据而非全身运动数据。

4. 实验效果：

在HumanML3D和KIT-ML数据集上，ParTY在传统指标（R-Precision、FID、MM-Dist）上达到SOTA；新提出的部分级指标（部位R-Precision、FID）和连贯级指标（ temporal coherence, spatial coherence）显示：相比ParCo（部分方法）和MoMask（整体方法），ParTY在部位语义对齐（如左腿弓步动作）和全身连贯性（如避免颈部扭曲）上均显著提升。