0
| 本文作者: 陈淑瑜 | 2026-06-01 15:13 |
来源:公众号“我爱计算机视觉
原文链接:https://mp.weixin.qq.com/s/zw_R86_cL48P-IEwE3PJfw
在 3D 人体动作恢复(Human Motion Recovery, HMR)领域,我们常常面临一个尴尬的局面:即便模型预测的关节点位置在数值上已经足够精确,但生成的动作看起来总觉得“假”。要么是由于过平滑而失去了力量感的“慢动作”,要么是伴随着令人不适的细微抖动,甚至在地面上反复“滑步”。

最近,来自浙江大学、蚂蚁集团和得克萨斯大学奥斯汀分校的研究者们给出了一个极具物理直觉的解决方案。他们认为,动作的“自然感”并不只取决于位置,更取决于位置随时间的变化方式。为此,他们提出了一个名为 HTD-Refine 的后处理框架。该框架的核心在于引入了一个名为 PVA-Net 的网络,其中 PVA 分别代表了位置(Position)、速度(Velocity)和加速度(Acceleration)。通过显式地预测并对齐这些高阶动力学特征,HTD-Refine 成功让单目视频恢复出的动作变得既丝滑又真实。

单目视频恢复全局人体动作一直是个难题。现有的方法(如 TRAM、WHAM 或 GVHMR)虽然在关节点位置精度上卷到了厘米级,但在时间连续性上往往表现不佳。
究其原因,主要有两点:一是人体动作对数值误差极其敏感,微小的姿态偏差在运动链上传导后,会造成剧烈的动力学失真;二是现有的训练数据大多是低帧率(如 30 FPS)的,模型很难捕捉到动作中的高频瞬态变化。为了缓解抖动,很多模型会引入强力的平滑滤波器,但这又会导致动作变得“肉”,失去了原本的爆发力和节奏感。
作者们敏锐地观察到,如果能直接从视频中估计出人体每个关节点的速度和加速度,并将它们作为“锚点”来约束 3D 轨迹的优化,就能在保留高频细节的同时消除不自然的抖动。
HTD-Refine 的工作流程主要分为初始化、动力学估计和运动优化三个阶段。

为了获取可靠的高阶线索,研究者设计了 PVA-Net。这是一个轻量级的时序 Transformer 模型,它的任务是直接从视频序列中预测相机空间下的 3D 关节点速度和加速度。
在架构设计上,PVA-Net 使用了冻结的 ViTPose 编码器提取空间特征,并配合一个带有旋转位置编码(Rotary Positional Embeddings, RoPE)的 8 层 Transformer 来建模时间依赖。RoPE 的引入让模型对时间偏移更加敏感,能够更好地捕捉动作的启停和节奏。
为什么要预测加速度?作者解释说,加速度(二阶差分)对全局尺度模糊不敏感,且能有效抵消相机的低频漂移,是比绝对速度更鲁棒的监督信号。

有了 PVA-Net 提供的“参考答案”,接下来的任务就是调整初始的 人体统计模型(Skinned Multi-Person Linear model, SMPL) 参数,使得生成的 3D 轨迹在投影到相机空间后,其速度和加速度能与预测值对齐。
优化过程的目标函数包含五个部分:
此外,为了解决顽固的“滑步”问题,作者还加入了一个简单的后处理步骤:根据预测的速度大小判断手脚是否处于接触状态,并进行位置锁定。
研究团队在 RICH 和 EMDB 等极具挑战性的野外数据集上进行了测试。结果显示,HTD-Refine 展现出了极强的“普适性”,能够显著提升各种主流 HMR 模型的表现。
在移动相机场景(EMDB-2)下,将 HTD-Refine 应用于 TRAM 模型后,Jitter(抖动) 指标从 25.1 骤降至 6.6,FS(脚部滑动) 也从 12.0 降至 7.5。更难得的是,在提升动作平滑度的同时,反映全局位置精度的 W-MPJPE 也得到了优化。

定性结果(可视化)更加直观。从对比图中可以看到,原始 TRAM 模型在世界坐标系下的轨迹往往伴随着剧烈的震荡和明显的滑步,而经过 HTD-Refine 优化后,人体在空间中的移动变得非常平稳,且脚部与地面的接触感更加扎实。

作为一个核心组件,PVA-Net 本身的预测精度直接决定了优化的上限。研究者在附录中详细展示了 PVA-Net 的架构细节和评估结果。

实验表明,PVA-Net 在速度和加速度预测上达到了极高的准确率。在 EMDB 数据集上,其加速度预测在 10% 误差阈值下的 PCE(Percentage of Correct Estimates) 达到了 99.6%。


此外,相比于单帧检测器 ViTPose-L,PVA-Net 输出的 2D 关键点在时间上更加稳定,其加速度误差(ACCEL)显著降低。

为了验证各个模块的贡献,作者在 EMDB 数据集上进行了详细的消融实验。

HTD-Refine 说明想要恢复自然的动作,仅仅盯着“位置”是不够的。通过显式地建模速度和加速度等,为模型引入基本的物理常识也很重要。