CVPR 2026 Oral 最佳论文候选 | 浙大&蚂蚁提出 HTD-Refine：对齐高阶动力学，让单目人体动作恢复告别“滑步”与“抖动”

本文作者：陈淑瑜

2026-06-01 15:13

导语：通过显式地预测并对齐这些高阶动力学特征，HTD-Refine 成功让单目视频恢复出的动作变得既丝滑又真实。

来源：公众号“我爱计算机视觉

原文链接：https://mp.weixin.qq.com/s/zw_R86_cL48P-IEwE3PJfw

在 3D 人体动作恢复（Human Motion Recovery, HMR）领域，我们常常面临一个尴尬的局面：即便模型预测的关节点位置在数值上已经足够精确，但生成的动作看起来总觉得“假”。要么是由于过平滑而失去了力量感的“慢动作”，要么是伴随着令人不适的细微抖动，甚至在地面上反复“滑步”。

CVPR 2026 Oral 最佳论文候选 | 浙大&蚂蚁提出 HTD-Refine：对齐高阶动力学，让单目人体动作恢复告别“滑步”与“抖动” — 对比图：TRAM 与 TRAM + HTD-Refine 的效果。TRAM 虽然位置误差低，但动力学不一致；而 HTD-Refine 恢复了准确的速度和加速度，动作更自然。

最近，来自浙江大学、蚂蚁集团和得克萨斯大学奥斯汀分校的研究者们给出了一个极具物理直觉的解决方案。他们认为，动作的“自然感”并不只取决于位置，更取决于位置随时间的变化方式。为此，他们提出了一个名为 HTD-Refine 的后处理框架。该框架的核心在于引入了一个名为 PVA-Net 的网络，其中 PVA 分别代表了位置（Position）、速度（Velocity）和加速度（Acceleration）。通过显式地预测并对齐这些高阶动力学特征，HTD-Refine 成功让单目视频恢复出的动作变得既丝滑又真实。

论文地址: https://arxiv.org/abs/2605.26879
项目主页: https://zju3dv.github.io/htd-refine/
录用会议: CVPR 2026 Oral(最佳论文候选)

为什么现在的 3D 动作看起来不自然？

单目视频恢复全局人体动作一直是个难题。现有的方法（如 TRAM、WHAM 或 GVHMR）虽然在关节点位置精度上卷到了厘米级，但在时间连续性上往往表现不佳。

究其原因，主要有两点：一是人体动作对数值误差极其敏感，微小的姿态偏差在运动链上传导后，会造成剧烈的动力学失真；二是现有的训练数据大多是低帧率（如 30 FPS）的，模型很难捕捉到动作中的高频瞬态变化。为了缓解抖动，很多模型会引入强力的平滑滤波器，但这又会导致动作变得“肉”，失去了原本的爆发力和节奏感。

作者们敏锐地观察到，如果能直接从视频中估计出人体每个关节点的速度和加速度，并将它们作为“锚点”来约束 3D 轨迹的优化，就能在保留高频细节的同时消除不自然的抖动。

方法详解：PVA-Net 与全局优化

HTD-Refine 的工作流程主要分为初始化、动力学估计和运动优化三个阶段。

1. PVA-Net：捕捉运动的“精气神”

为了获取可靠的高阶线索，研究者设计了 PVA-Net。这是一个轻量级的时序 Transformer 模型，它的任务是直接从视频序列中预测相机空间下的 3D 关节点速度和加速度。

输入（Input）：单目视频帧序列。
输出（Output）：每帧的 2D 关节点位置、相机空间的 3D 关节点速度和加速度。

在架构设计上，PVA-Net 使用了冻结的 ViTPose 编码器提取空间特征，并配合一个带有旋转位置编码（Rotary Positional Embeddings, RoPE）的 8 层 Transformer 来建模时间依赖。RoPE 的引入让模型对时间偏移更加敏感，能够更好地捕捉动作的启停和节奏。

为什么要预测加速度？作者解释说，加速度（二阶差分）对全局尺度模糊不敏感，且能有效抵消相机的低频漂移，是比绝对速度更鲁棒的监督信号。

2. 全局运动优化

有了 PVA-Net 提供的“参考答案”，接下来的任务就是调整初始的 人体统计模型（Skinned Multi-Person Linear model, SMPL） 参数，使得生成的 3D 轨迹在投影到相机空间后，其速度和加速度能与预测值对齐。

优化过程的目标函数包含五个部分：

速度一致性项 ：确保 3D 轨迹的一阶变化符合预测。
加速度一致性项 ：确保二阶变化（如突然的转向或停顿）准确。
2D 关键点约束 ：保证 3D 姿态与视频中的 2D 观测一致。
加加速度平滑项 ：抑制极高频的噪声。
参数正则项 ：防止优化后的结果偏离初始估计太远。

此外，为了解决顽固的“滑步”问题，作者还加入了一个简单的后处理步骤：根据预测的速度大小判断手脚是否处于接触状态，并进行位置锁定。

实验结果：抖动直降，精度飞升

研究团队在 RICH 和 EMDB 等极具挑战性的野外数据集上进行了测试。结果显示，HTD-Refine 展现出了极强的“普适性”，能够显著提升各种主流 HMR 模型的表现。

在移动相机场景（EMDB-2）下，将 HTD-Refine 应用于 TRAM 模型后，Jitter（抖动） 指标从 25.1 骤降至 6.6，FS（脚部滑动） 也从 12.0 降至 7.5。更难得的是，在提升动作平滑度的同时，反映全局位置精度的 W-MPJPE 也得到了优化。

定性结果（可视化）更加直观。从对比图中可以看到，原始 TRAM 模型在世界坐标系下的轨迹往往伴随着剧烈的震荡和明显的滑步，而经过 HTD-Refine 优化后，人体在空间中的移动变得非常平稳，且脚部与地面的接触感更加扎实。

PVA-Net 的性能表现

作为一个核心组件，PVA-Net 本身的预测精度直接决定了优化的上限。研究者在附录中详细展示了 PVA-Net 的架构细节和评估结果。

实验表明，PVA-Net 在速度和加速度预测上达到了极高的准确率。在 EMDB 数据集上，其加速度预测在 10% 误差阈值下的 PCE（Percentage of Correct Estimates） 达到了 99.6%。

此外，相比于单帧检测器 ViTPose-L，PVA-Net 输出的 2D 关键点在时间上更加稳定，其加速度误差（ACCEL）显著降低。

消融实验：谁才是功臣？

为了验证各个模块的贡献，作者在 EMDB 数据集上进行了详细的消融实验。

速度与加速度的互补性：移除加速度监督（w/o acc）后，抖动从 6.6 升至 9.7；移除速度监督（w/o vel）后，滑步现象明显增多（7.5 升至 8.8）。这说明速度负责维持接触相位的一致性，而加速度负责稳定高阶动力学。
2D 约束的局限性：如果只使用 2D 关键点进行优化（w/o vel, w/o acc），虽然 2D 对齐变好了，但由于深度模糊，3D 姿态往往会发生扭曲，甚至出现脚部背屈等不自然姿势。
后处理的作用：最后的接触锁定步骤虽然会轻微牺牲整体关节点精度（WA-MPJPE 从 71.2 升至 71.7），但它能极大地提升视觉上的“接地感”，消除滑步。

写在最后

HTD-Refine 说明想要恢复自然的动作，仅仅盯着“位置”是不够的。通过显式地建模速度和加速度等，为模型引入基本的物理常识也很重要。

入群加好友(v:xiao-ma-baoli)，请备注你感兴趣的技术方向

0人收藏

专题

CVPR 计算机视觉与模式识别会议

本专题其他文章

陈淑瑜

编辑

发私信

当月热门文章