照片欲静而 AI 不止，MIT 黑科技让图像秒变小视频

本文作者：no name

2016-09-14 09:53

导语：你有想过吗？给你展示任何一张照片的时候，你看到的也许不仅仅是静止的图像，而是一段灵动的“小视频”。

你有想过吗？给你展示任何一张照片的时候，你看到的也许不仅仅是静止的图像，而是一段灵动的“小视频”。如今，在机器学习的帮助下，可以根据静止的照片，预测到接下来的一连串动作，准确率还相当的高。

无论是美女骑车、狗接飞盘，还是有人突然的跌倒等等，想象出这些连续的动作是我们最基本的技能之一，我们无需考虑用于预测的大量信息，比如重力、惯性和跌倒的本能反应等。那么，要让电脑学会这种预判的能力无疑是机器视觉中的一个关键挑战。

来自麻省理工学院的研究人员正在努力解决这个难题，他们已经展示出了一系列非常令人印象深刻的结果。通过使用专门训练过的神经网络，将图像转化为视频，并由计算机预测接下来会发生什么。但是，他们的模型仍然有很多局限性，视频通常只有几秒钟长，文件很小，而且图像经常很混乱。但这仍然是机器想象力方面一次令人印象深刻的创举，计算机在像人一样理解世界的道路上又前进了一步。

训练这个神经网络使用了超过 200 万个从 Flickr 下载的视频片段。所有场景被分为四种类型：高尔夫球场、海滩、火车站和医院。这组连续镜头的画面很稳定，消除了相机抖动。通过这些数据，团队的神经网络不仅能够产生类似这些场景的短视频，也能根据一个静止图像产生连续的画面。这实质上是预判了接下来会发生的动作，但目前的效果还很有限，只能推测像素的变化，而不是基于整个场景的理解。

下面是效果图：

照片欲静而 AI 不止，MIT 黑科技让图像秒变小视频

这里，我们可以看到实现后的效果，例如在海滩上，你可以看到波浪的起伏；在火车站，预测模型会预判火车行驶。然而，当要求预测某人如何穿过高尔夫球场时，结果看起来有些失真，图像也很模糊。

研究人员提到计算机的预测往往并不符合正常逻辑，但至少其对运动轨迹的判断是合理的。

机器学习系统在相关领域已经取得了许多进展，包括预测握手和拥抱等行为，甚至能够生成匹配视频的音频。Facebook 的 AI 部门负责人 Yann LeCun 在去年的一次采访中提到了这个话题，表示预判运动轨迹是开发预测计算机的重要一环。但是，要做到真正理解视频或图像，及其接下来可能发生的动作，还需要花费研究人员更多的精力。

“假如你正在看希区柯克的电影，这时我问，‘从现在开始的15分钟后，电影情节会发展成什么样子呢？’你此时就必须设法预判出凶手是谁。”

LeCun说：“要完全解决这个问题，就需要了解这个世界和人性，这才是真正的乐趣所在。”

人工智能在预测方面的能力已经越来越强，但要想做到更加准确、自然、符合实际的效果，还需要更加完善的模型。研究人员也许需要考虑更多的因素，建立更加复杂的神经网络，利用更多的数据集训练模型。只有这样，才有可能通过机器学习技术，真正实现对图像中的连续动作进行提前预判。

via the verge