DeepFake 新高度：一阶运动模型让“万物皆可动”

本文作者：蒋宝尚

2020-04-26 18:17

导语：万物皆可动

作者 | 蒋宝尚

编辑 | 丛末

DeepFake一方面被骂作“AI毒瘤”，另一方面在B站上大行其道。最近，这项技术又用在了在线视频会议身上。

一键换脸，身临其境与马斯克开会，商讨火箭上天大计的项目，也登上Github热榜。

DeepFake 新高度：一阶运动模型让“万物皆可动”

据称，这是一位来自俄罗斯的程序员开发的开源“视频会议阿凡达”软件Avatarify，背后所用的技术基于名为First Order Motion的核心模型，这个模型可以对视频中的对象进行动画处理，并生成视频序列。First Order Motion模型来自 NeurIPS 2019 论文《First Order Motion Model for Image Animation》，最初的目的是让“静态图片”动起来。如下图所示：“你动，它也动”。

DeepFake 新高度：一阶运动模型让“万物皆可动”

根据作者介绍，这个模型可以轻易地让“权游”中的人物模仿特朗普进行讲话，还可以让静态的马跑起来，另外还可以完成模特的“一键换装”。

DeepFake 新高度：一阶运动模型让“万物皆可动”

论文解读：一阶动画模型的来源与主要想法

DeepFake 新高度：一阶运动模型让“万物皆可动”

论文多数作者是来自意大利的特伦托大学，还有一位是 snap 公司的员工，论文已经发表在NeurIPS 2019 上。

DeepFake 新高度：一阶运动模型让“万物皆可动”

First Order Motion模型运作流程

整个模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中，该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示。而在图像生成模块中，模型会对目标运动期间出现的遮挡进行建模，然后从给定的名人图片中提取外观信息，结合先前获得的特征表示，进行视频合成。该模型对硬件要求比较高，想实现33帧/秒的视频效果，需要一张1080ti显卡，也即需要英伟达10系显卡中的卡皇加持。

模型细节与方法

一阶动画模型的思想是用一组自学习的关键点和局部仿射变换来建立复杂运动模型，目的是为了解决大目标姿势动态变化的情况下，传统模型生成质量较差的问题。

另外，作者引入了「遮挡感知生成器」，可以指示源图像中不可见的物体部分，从而利用上下文推断这部分内容。再者为了改进局部仿射变换的估计，作者扩展了常用于关键点检测器训练的等差损耗。最后作者还发布了一个新的高分辨率数据集Thai-Chi-HD，用于评估图像动画和视频生成框架的参考基准。作者根据汽车驾驶视频中类似物体的运动情况，对源图像中描绘的物体进行“动画化”。

没有直接监督，而是采用了一种自监督策略，该策略的灵感来源于Monkey-Net。

注：Monkey-Net是通过深度运动迁移使任意物体动画化。

对于训练，作者使用包含相同对象类别的大量视频序列集合。模型被训练来通过组合单帧和学习的视频中运动的潜在表示来重建训练视频。观察从同一视频中提取的帧对，模型学习将运动编码为特定的关键点位移和局部仿射变换的组合。

在测试时，将模型应用于源图像和驱动视频的每一帧的帧对，并对源对象进行图像“动画”。运动估计模块的作用是估计一个密集的运动场（dense motion field），该密集运动场随后被用来调整计算特征图与物体姿势。

另外，作者采用的是后向光流，因为它可以有效地实现双线采样。运动估计模块没有直接进行预测，而是分两步进行，在第一步中，从稀疏轨迹集近似两个变换，其中两个变换是通过使用自监督方式学习关键点获得的。视频和图像中的关键点由编码器-解码器网络分别预测。

另外，稀疏运动表示非常适合于动画，因为在测试时，可以使用驱动视频中的关键点轨迹来移动源图像的关键点。使用局部仿射变换的好处是能够对每个关键点附近的运动进行建模，与仅使用关键点置换相比，局部仿射变换能够对更大的变换族（ larger family of transformations）进行建模。

在第二步中，密集运动网络结合局部近似以获得密集运动场，除了密集的运动场之外，该网络还输出遮挡遮罩，该遮挡遮罩指示视频中的哪些图像部分可以通过源图像的扭曲来重建，以及哪些部分应该内嵌(即从上下文推断)。

实验

作者在四个数据集上进行了训练和测试，结果显示与所有实验相比，一阶动画模型能够渲染分辨率非常高的视频。 VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、作者自己收集的数据集。

其中，VoxCeleb 是从YouTube的视频中提取到的包含1251人共超过10万条语音的数据集。数据集是性别平衡的，其中男性为55%.。说话人涵盖不同的种族，口音，职业和年龄。UvA-Nemo 是一个由1240个视频组成的人脸分析数据集。作者使用1116个视频进行训练，124个视频进行评估。

伯克利的这个，包含了由Sawyer机器人手臂在桌子上推着不同物体的视频收集的视频。它包括42880个训练视频和128个测试视频。每个视频都有30帧长，分辨率为256×256。作者自己收集的数据是YouTube上的285个关于太极功夫的视频，其中252个用于训练，28个用于测试。在训练之前对视频进行了预处理，分割之后训练集为3049个训练视频，285个测试视频。

DeepFake 新高度：一阶运动模型让“万物皆可动”