0
| 本文作者: 陈淑瑜 | 2026-05-29 16:28 | 专题:CVPR 计算机视觉与模式识别会议 |



一、论文信息

论文题目:ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis中文题目:ParTY:富有表现力的文本到动作合成的部分指南论文链接:https://arxiv.org/pdf/2603.09611
所属单位:庆熙大学
核心速览:
提出ParTY框架以解决文本到动作合成中特定身体部位动作表达不足和全身动作连贯性差的问题,通过部分引导网络、部分感知文本接地和整体-部分融合模块提升性能。

二、即插即用模块原理解读


1. 实现过程:
对输入的多分支拼接特征执行自注意力,建模特征内部依赖并通过残差连接增强;
再经 Split 操作,将特征分为共享查询 Q' 与绿、红两个独立分支,各分支生成键 Kp、值 Vp;
随后两个并行交叉注意力分支以 Q' 为查询,分别与两个分支的 Kp、Vp 计算注意力,建模跨分支交互,各分支输出再做残差连接;
最后融合两个交叉注意力分支的输出,得到兼顾自身依赖与跨分支交互的增强特征。
2. 作用与适用领域
兼顾特征内部依赖建模与跨分支信息交互,能高效融合多模态、多尺度或多源特征,适用于图像分割、图像翻译、多模态图像生成、图像修复等计算机视觉任务,尤其适合多源信息协同场景,提升特征判别性与鲁棒性。

三、全文内容概览


1. 研究内容:
提出ParTY框架,旨在解决文本到运动合成中“部分运动表达”与“全身连贯性”的权衡问题,通过三模块协同提升运动生成质量:Part-Guided Network(部分引导网络)、Part-aware Text Grounding(部分感知文本接地)、Holistic-Part Fusion(整体-部分融合)。
2. 针对问题:
现有方法存在两大局限:(1)整体生成方法缺乏部分语义对齐,无法准确反映特定身体部位动作;(2)部分生成方法独立生成各部位运动,导致全身连贯性差(如颈部扭曲、肢体运动错位)。
3. 关键技术:
1. Temporal-aware VQ-VAE:通过局部时间增强(LTE)和全局时间增强(GTE)保留运动序列的时间信息,减少量化损失;
2. Part-aware Text Grounding:将文本嵌入通过多个MLP生成多样化表示,结合LLM生成的部位描述作为辅助监督,动态选择与各部位匹配的嵌入;
3. Part-Guided Network:先生成部位运动 tokens 作为“部分引导”,再通过整体-部分融合(HPF)模块将部位信息融入整体运动生成,确保连贯性。

4. 实验效果:
在HumanML3D和KIT-ML数据集上,ParTY在传统指标(R-Precision、FID、MM-Dist)上达到SOTA;新提出的部分级指标(部位R-Precision、FID)和连贯级指标( temporal coherence, spatial coherence)显示:相比ParCo(部分方法)和MoMask(整体方法),ParTY在部位语义对齐(如左腿弓步动作)和全身连贯性(如避免颈部扭曲)上均显著提升。


5. 结论:
ParTY通过显式部位语义对齐和动态融合机制,成功平衡了部分运动表达与全身连贯性,提出的评估指标为文本到运动合成提供了更全面的评价体系,推动该领域从“整体生成”向“精细化部位控制”发展
本专题其他文章