解决MR视频的痛点，谷歌用机器学习重现被头显遮挡的脸

本文作者：小哲打豆豆

2017-03-14 17:33

导语：Google的研究者们能帮助你透过对方的VR头显，看到他的脸。这项技术大大增强了VR的社交属性。

雷锋网按：许多人都喜欢制作将用户拍摄进去的VR游戏视频，称之为MR视频，但戴着头显拍摄意味着人脸被挡住了，针对这个问题，谷歌想出了一个办法。本文编译自Google Blog。

虚拟现实（VR）带给我们身临其境的绝妙体验，让我们能亲眼感受虚虚实实的新奇环境。但是与现实的分享相比，VR头显不能完整显示其他参与者的影像，因此难以将这种体验分享给其他人。

这道沟壑可以通过一种叫做混合现实（Mixed Reality， MR）的技术来弥补。这项技术作为一种媒介转化方法，把VR用户所见的虚拟世界转化为二维的影像，如此便可以让其他人清楚的看到VR使用者的体验。虽然混合现实技术让体验的分享变得可行，但头显设备却依然遮挡着用户的面部表情和眼神，成为了虚拟现实提供深度参与感体验和全视野的绊脚石。

谷歌机器感知（Google Machine Perception）团队的研究者们已经和Daydream Labs 以及YouTube Spaces一起，共同寻找如何能在制造出一种虚拟的“透视”效果，从而移除头显，让我们能看到其他人脸部的解决方案。

解决MR视频的痛点，谷歌用机器学习重现被头显遮挡的脸

雷锋网注：VR用户在绿幕前与虚拟环境相融合，并制造出混合现实的效果：传统混合现实的面部是被遮挡的，而我们的结果可以显示面部。注意头显上有一处标记帮助位置识别。

我们的技术融合了3D视觉，机器学习以及图形技术。

动态脸部模型捕捉

我们技术的核心思想是使用用户的脸部3D模型作为被遮挡的脸的代理模型。这个代理模型被用来合成混和现实中的脸。首先，我们使用称为“注视点决定的动态表情（gaze-dependent dynamic appearance）”的技术，来捕捉本人脸部的3D模型。初始的校准需要用户坐在一个彩色深度摄像机以及一个显示器前，用眼睛盯住屏幕上的标记。通常只需要不到一分钟，就可以用这种一次性的校准方法得到用户脸部的3D模型，然后放在数据库中学习。这个数据库将不同注视点和眨眼动作对应到各种表情图片。这个注视点数据库（以注视点作为索引的面部纹理模型）让我们能动态的根据注视点的不同而生成不同的面部表情，进而合成出自然而生动的脸。

解决MR视频的痛点，谷歌用机器学习重现被头显遮挡的脸

雷锋网注：左图中，用户的面部在她盯着屏幕上标记的时候被摄像头记录下来。右图中我们展示了重建的3D面部模型的动态特性：通过移动或点击鼠标，我们能模拟注视点移动和眨眼效果。

校准和对齐

制作一段混合现实视频需要特制的设备——一台校准过，和头显时间同步的外置摄像机。摄像机拍摄一段VR用户在绿幕前的视频，然后剪下用户的影像合成到虚拟世界中，最终生成混合现实的视频。其中非常重要的一步就是要准确的估计摄像机和头显坐标系统的校准值。这些校准技术通常需要大量的手动调节，并需要很多步骤才能完成。我们在头显前加了一个标记，使用3D图像追踪简化了上述的过程，使我们通过VR设备就可以自动地优化校准值。

至于头显的移除，我们需要把3D的面部模型和摄像机影像中可见的部分面部对齐，并完美的缝合在一起。一种可行的缝合方法是将面部模型直接放在头显后边。前边提到的使用到VR头显定位的校准技术，能够提供足够的信息来决定如何放置模型，让我们能够把虚拟的脸渲染在影像里。

合成与渲染

对齐之后，最后一步就是通过恰当的3D面部模型渲染，使它和原视频完美融合。使用一台经过SMI改装，能够实现眼球追踪技术的HTC Vive头显，结合我们的动态注视点数据库，我们能够重现用户的注视点。这些眼球追踪器得到的图片并不足以直接重建被遮挡的面部区域，但是足够提供很精细的的注视点信息。我们可以使用追踪器得到的注视点实时数据，精确生成出用户的表情和眼睛的眨动。在运行时，在预处理阶段得到的注视点数据库会告诉我们最符合所查询注视点的面部照片，同样也会留意脸部美化的问题，比如颞骨是不是平滑。

此外，考虑到注视点数据收集和实际运行时的光线的变化，我们还进行了色彩矫正，并添加了羽化效果，这样一来合成加入的部分就和其余的面部更相称了。

正如“恐怖谷（uncanny valley）理论” 提到的，人类对脸部的人工处理是有高度敏感性的，即使是合成中微小的不足也会引起你的留意，让你觉得不自然。为了减少这方面的影响，我们并没有完全移除头显，而是选择了一种“潜水面具效果”的方式，把色彩校正过的面部图像和半透明的头显合成在一起。提醒观看者头显的存在能帮我们避免“恐怖谷”效应，也能让对齐和调色算法的小错误不那么显眼。

有了可以看到用户面部表情和真实注视点的半透明头显，这段视频就可以和虚拟世界融合起来，制作出最终的混合现实视频了。

结果与展望

我们运用了我们的头显消除技术来优化混合现实，使得媒介不光能展示VR使用者如何和虚拟环境互动，同时还能生动形象的展示他们的面部表情。下边是一个我们技术应用的例子，一位艺术家在虚拟环境中使用谷歌画刷（Google Tilt Brush ）：

解决MR视频的痛点，谷歌用机器学习重现被头显遮挡的脸

雷锋网注：在混合现实的展示下，一位艺术家正在用谷歌画笔进行3D艺术创作。上边的图是传统的混合现实，头显遮挡了面部。下边是我们的结果，整个的面部和眼睛都自然生动的展现了出来。

我们展示了这项技术的潜力，它的应用却不仅仅只在混合现实中。头显移除技术还将优化虚拟现实有关的通讯和社交的各种应用，例如VR会议，多人VR游戏，以及和朋友家人的旅游探险。从被头显遮挡什么也看不到，到生动真实的面部图像，能看到VR世界中同伴们的脸注定是VR领域一个重大的变革，而我们也很高兴能亲历这样的变革。

via Google

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

1人收藏

小哲打豆豆

作者

关注IoT和电动汽车，欢迎勾搭

发私信

当月热门文章