深度丨CES现场采访联想CTO芮勇：我在联想做的 AI 项目，以及对人工智能的看法

本文作者：老王

2017-01-05 20:08

导语：CES 2017 中，AI 科技评论等媒体对联想集团高级副总裁、首席技术官芮勇博士进行了采访。

雷锋网按：芮勇博士自 11 月初正式公布去联想担任 CTO 后很少公开发声，而在今日的 CES 2017 现场中，雷锋网按等媒体对联想集团高级副总裁、CTO 芮勇博士进行了采访，芮勇博士非常详细全面地回答了他在联想所负责的 AI 项目以及对人工智能的看法。以下为采访内容：

问：在大多数人眼中联想还是一个更加专注在具体产品的公司，您的到来会给联想带来什么？在您看来什么样的产品才是最创新的？

芮勇：联想还是一家挺低调的公司，我加入之后才有了这样的感觉。其实联想有很多非常创新的产品和技术，可能之前的宣传不太够。

过去这几年其实元庆一直在倡导一个口号和转型，就是把联想从设备 Device Only 要转变为设备+云，Device+Cloud。为了达到这一点，其实有很多的工作要做，并且这中间可能有很多是跟技术有关的，这可能也是我为什么今天会坐在这样一个位置上的原因。就像你提到的，光有设备可能它只是一个很冰凉的设备，它之后一定要有内容和服务，最好还能希望这个内容和服务是因人而异的，是个性化的，是懂得我们用户的。那它一定要有后面的人工智能的一些支撑。

我过去也从事了大概二十多年和 AI 有关的东西，从最早的图像识别、图片搜索，到今天做自然语言等等，我自己的感觉是我希望今后在联想研究院做这么几个大的方向的事情：

智能设备：

包括柔性设备以及 AR。

智能的云：

我们回忆一下和云最有关系的就是数据中心。30 年以前的数据中心大家可能都有个感觉，一个很大的机房，一个很传统、很物理的设备。我们可以想象一下这个传统的数据中心它的利用率其实不是那么高的。如果我们这里运行一个传统数据中心的公司，老凉那有一个公司，中新社这儿有一个公司，别人有一个公司，你们每个公司都希望你们有一定的存储和运算能力在我们这个传统的数据中心上，平常运算量、存储量都不大，但是每年有一个星期叫做 CES，CES 的时候，整个存储非常大，你的数据量都非常大，但是作为一个传统的数据运营中心来说，它必须在最高峰的时候能满足你的需求，所以它不得不买很多的硬件设备在那，传统的数据中心的利用率最高也就是 30%，这已经是做得非常非常好了。

最后是在 10 年以前从传统的数据中心我们发展到了虚拟的数据中心，它的利用率基本上上升到 50%。这几年一个大的趋势，数据中心也好，云也好，一个大的趋势叫做软件定义的数据中心，Software Defined Data Center，这里面我们笼统地称为软件定义的数据中心，它里面其实有三个很重要的部分，一个是叫软件定义的网络，Software Defined Network，还有 Software Defined Computing，还有 Software Defined Storage。

这种 Software Defined 它有什么好处呢？

第一，它的利用率可以从传统数据中心的 30% 和虚拟数据中心的 50% 提高到今天的几乎 80%，利用率非常非常大幅地往上提高，成本就低了很多。

第二，更重要的一点就是它的部署变得非常非常迅速。在传统数据中心时代，如果老凉给我们的公司挂个电话说我明天想再多上几台机器，他可能要花几个星期的时间才能把新机器部署出去，做各种测试都没有问题。但是软件定义的数据中心在几天甚至几小时这件事情就彻底解决了，所以说软件定义的数据中心这是一个智能云今后的发展趋势，这也是我想做的第二件大的事情。联想研究院也在这方面有很多的投入。比如我们在软件定义的存储，软件定义的网络上面已经比现有的解决方案多了3到10倍的速度。这是我第二个想做的事情。雷锋网

智能的服务：

智能的服务就更离不开人工智能了。这也是我很感兴趣的一个方面。人工智能发展到今天有很多分支，但是为什么叫人工智能呢？它的意思是它区别于由自然界演化而来的智能，我们人的智能是由自然界慢慢演进而来的，人工智能是一个非自然的、人做出来的，它希望计算机能够模拟像人一样的一些智能。

比如我们人类可以看，我们人类可以听，我们可以说，我们可以想，所以人工智能几个大的分支就包括了像计算机视觉，我在这方面做了二十多年，包括语音的识别，语音的合成，我觉得前面的计算机视觉和语音识别还是属于人工智能的感知，叫做 perception，但是人更重要的一个智能是认知，叫 cognition，这个和另一个分支是有关系的，就是自然语言的理解，这是它的第三个分支。第四个分支就是跟一些机器学习的算法是很有关系的。今天响彻全球各地的一个词语叫做深度学习，但是你再往前看几年可能会有人提到 SVM(支持向量机)和 particle swarm optimizer（粒子群优化算法），每年都有不一样的算法，但是现在很热的叫深度学习。所以第四个分支就是一些基础的机器学习的算法。所以在这几个方面联想研究院都会做大力的投入。

有了这些基础算法的支持，我们就可以想象，我们就有能力把智能的设备、智能的云通过智能的服务都串在一起。我想稍微提一下为什么联想做这件事情是一个很合适的公司，其实全球没有几家很合适做这样一件事的公司。我们看联想的结构，联想有三个大的business unit，一个是做 PC 的，全球第一。第二个是做手机的，全球很多市场都是名列前茅的。这两个都是device。所以，联想是占有了device这个入口。

第三个BU叫做数据中心集团。这个集团做的是云。这是第二个。第三，我们当然有我们的研究院，有我们做创投的集团。我们在人工智能上有很多的投入。所以你把这几个BU和研究院和创投集团加在一起，它给你画出来了一个图就叫做 Device+Cloud Powered by AI。我们其实可以想象，有的公司是只做device的，有的公司是只做cloud的，有的公司是只在人工智能上有投入的，真正的从设备到云和人工智能都有投入的，可能联想是很有机会做出一些非常有意思的事情的。

我之前还跟很多内部同事和外部朋友们聊一件事情，我希望我刚才讲的这三个元素可以互动，形成一个正反馈的过程。为什么呢？我们可以想象。因为联想拥有智能设备，所以它拥有入口，拥有入口其实就拥有一定量的用户，有了用户之后，联想做出来的智能服务它的某一个 Service 就可以从用户那里去学很多的东西，从用户的交互那里，这个智能的服务就变得越来越好。这个智能的服务越来越好的时候，它就能卖更多的设备。卖了更多的设备的时候就有更多的用户，有了更多的用户，它的智能的服务就会越来越好。所以这三个就变成了一个正反馈的过程。这个正反馈的过程如果能够做成，它会形成一个大的爆发性的增长。

所以这就是我对今后的三个愿景和具体的方向的想法。

深度丨CES现场采访联想CTO芮勇：我在联想做的 AI 项目，以及对人工智能的看法

（图为 CES 现场，芮勇博士在联想展台演示新品）

问：深度学习是需要时间和大量的样本去记录的，这些样本是如何去获取的？

芮勇：非常好的问题。其实我是这么看的，不仅仅是深度学习，如果把这个机器学习或者是人工智能要做得好，可能有四个大的因素才能做得好。

一、算法要好

拼到一定程度的时候，你会发现 SVM 就是拼不过深度学习了，因为你不管是在做语音识别的时候还是做OCR（光学字符识别）的时候，还是在做图片分类的时候，现在深度学习每一样它都占第一了。所以，第一个你的算法要比别人好。

二、运算能力要非常强大

运算力不大，可能几个月都没办法收敛，你没办法训练。

三、优质的数据

我没说非常大的数据，当然大可能是其中一个方面，但是大的数据如果它不代表你的序列空间，它仍然不是一个好的数据。我们如果整个的序列空间是整个会议室，我有很多很多很多的数据就在那个角落上，它仍然没有办法训练出一个好的模型，因为它的数据是有 Bias 的。所以第三个很重要的是在数据上是非常非常重要的。

其实我个人对这三点是很有感触的。第四点最后再讲。这三点非常重要的是，80 年代末、90 年代初的时候我自己也写过人工神经网络的模型，其实今天的深度学习就是一个穿了另外一个马甲的人工神经网络。当然在 26、27 年以前，当时的人工神经网络只有三层，输入层一层，隐含层一层，输出层一层。

今天我们叫深度学习是因为它的隐含层有很多很多层，很深，所以叫深度学习。当时为什么在 80 年代末、90 年代初我自己写的那个只有一层呢？就是因为我刚才说的前三点，

第一，算法上没有到那个境界，可能这个稍微偏学术一点，因为你做训练误差反馈回来的时候要求偏导的，偏导数大家可能知道，求第一次的时候就已经有很多的 Noise 在里面了，你如果想有两层隐含层的话你要求第二次偏导，第二次偏导的时候那个东西就不能用了，所以在 20、30 年以前这个算法就没到那个地步。这是第一。

第二，我记得我当时还是运行在一个当时一个很牛的机器上 486，当时已经是最好的机器了。但是 486 还没有我们今天一个比较强大的手机的运算能力大。今天我们在 GPU 上跑的运行的分布式的训练结果如果在当年我那台 486 上跑，可能到明年还没有训练完，没有办法等，你等不起这个时间，所以计算力也没到。

第三，训练数据太小。今天的深度学习，因为它的层很多，它可调参数经常就是几百万个，几百万个可调参数你没有上亿的训练样本一定是过拟合的。过拟合的意思就是你在训练的时候一点误差都没有，一到真正用的时候全部都是错的，因为你想这个道理，如果你只有一千个样本，你有一百万个参数要去调，一定是过拟合的结果。所以说30年以前也没有很多的数据，还没有大数据，只有小数据。

所以，基于这三个原因，30 年以前是没办法出现深度学习的，因为我自己做过。今天不一样，这三个算法上有大的改进。第二个是在运算能力上有大的改进。第三个是在数据和训练样本上有大的改进。

四、人工智能落地

人工智能真是要做得好，光去弄前面三个也不够，要和垂直行业怎么结合，怎么落地。因为无论如何人工智能是要落地的。你无论是跟一个下棋的落地，还是跟某一个智能聊天机器人去落地都可以，还是说我给某一个用户推荐一款电影也可以。因为我之前跟中科院的植物所做过一款怎么去识别花、树之类的。每年春天在北京你到香山植物园转的时候，走了一半看见这个树真漂亮，叫什么，那个花叫什么，你都不知道，你问周围的人也没人告诉你，你能不能拿出手机一拍，原来这个叫这个花，不仅告诉你是什么花，还告诉你它是比较喜欢阳光的，最早是从南美洲什么什么地方过来的，人工智能一定要落地，要和 domaine knowledge 要发生关系。你如果不落地，你为了识别不同种类的花，你可能识别得不准，但是你和这些植物学家进行一定的交流之后你会发现他们有很多的垂直行业的知识。比如说不仅仅要看这个花的瓣，还要看这个花的蕊和它的茎和叶是什么样的，就是说这些domain knowledge一定要跟人工智能相结合才能落地。

所以说我个人的体会是这四点都做好了才能把这件人工智能的事给做好。

为什么在联想我觉得可以做这个事？

第一，我们有算法。我希望在我加入之后在算法上还会有大的突破。

第二，我们的运算能力是很强的。大家可能不太清楚，全球前 500 个超级计算机中间的99个是联想做的。所以有强大的计算能力。

第三，有没有大数据？联想这么大的公司，内部的数据，外部的数据，各种数据都是非常非常多的。这些数据就可以使得我们能够训练我们的模型。

第四，因为我们是在全球有 60 多个分支机构，我们的产品遍布全球的 160 多个国家，所以我们跟各个行业、各个国家有很多的接触。所以，我们对行业的知识也很了解。

这四个事情相互结合在一起，我觉得联想在人工智能上是可以有很多建树的。

深度丨CES现场采访联想CTO芮勇：我在联想做的 AI 项目，以及对人工智能的看法

问：现在有很多公司都在做人工智能这一块，怎么样去评价这家公司做人工智能做得好不好？人工智能做得好与不好的评价标准，您觉得应该怎么衡量？

芮勇：这个问题可能从两个角度来看。

第一，因为现在人工智能这个词用英文讲叫 Overloaded Tone，不知道中文怎么翻比较好，就是说这一个词其实有很多不同的意思。人工智能公司我觉得有一些是在做基础算法的，这样的公司是很多的，不管是做 Vision，还是做 Speech，做这些基础算法的公司是容易评价的，一些基础算法我们拿出来，是骡子是马拿出来溜溜，因为有很多全球标准的数据机器都在那，如果我们做图像的分类，我们就在 ImageNet 上跑一跑，看看谁的错误率低。我们如果做语音识别的话，我们就在 Standard 上跑一下，看看谁的错误率低。这是一类公司，做基础算法的，我觉得他们可以做这样一个对比。

还有一类人工智能公司其实他们是把基础算法应用在不同的应用上去的。

比如说国内有很多像智能助手这样的公司，这些你去做评价的时候就是偏主观的了，因为没有一个很客观的东西，因为有的人工智能助手是全方位的人工智能助手，另外一个人工智能助手可能是我只是给你订餐或者是订车我会比较了解，别的事情它不一定会做，这种情况下你就很难评价一个全方位的、比较广的一个比较深的垂直的领域。

所以，我觉得是从这两个方向来看。基础算法的用标准数据去做评价。真正做应用的，可能它的广度和深度都要看，当然最重要的是看的是用户买不买单，用户用不用它的东西。

问：刚才听您讲的 AI 都是基于联想的设备，有没有扩展到其他的领域，比如说无人驾驶？

芮勇：也不完全是，因为我觉得有一些基础的 AI 平台的东西可以完全是很开放的平台，比如另外一个智能设备，甚至我们今天在联想可能不做冰箱，不做微波炉，不做洗衣机，但是这些东西基于同一个 AI 平台你可以对它的数据进行分析，对它之间的相互连通的信息进行分析，你可以给用这个洗衣机、电冰箱和微波炉的用户提供一些很好的建议，我觉得这些都是可以做的，所以我们会有一个很开放的平台。

问：AR 和 VR 这两种业务的前景是怎么看的？另外一个是联想在这块有什么比较具体的布局？准备怎么去做？

芮勇：计算机视觉里面有一个很重要的分支叫三维视觉，三维视觉它包括了三维的物体重建，三维的环境重建。比如我现在有一个摄像头，我如果对着一个物体晃一晃扫一扫，我能不能把这个三维物体的模型能建起来？我对整个环境扫一扫，能不能把三维的环境建起来？所以说三维视觉一直是人工智能中间一个很重要的分支，不管是 VR 也好，AR 也好，它的最重要的技术基础就是三维视觉，没有三维视觉是没有 VR 也没有 AR 的，因为它需要知道你现在戴的这个头盔或者是一个别的什么设备也好相对于你这个物理坐标系在哪里，这六自由度是从哪里来的，这个必须要从三维的计算机视觉中得到，所以，AR 和 VR 一定是人工智能的一个部分。

第二，我对 VR 和 AR 怎么看？它们的应用场景可能不是完全一样的。VR 可能对一些非交互性的、单边内容的传输会很有效果，比如说我们想看一个 3D 的电影，你戴上一个VR的眼镜可以享受一款非常好的 3D 的电影，甚至我们打一个 3D 的 Game，有交互，但是你可能不能站起来，就是 VR 和 AR 一个很不一样的地方是戴VR头盔的朋友，我建议你们坐在椅子上玩比较好，因为你太投入的时候会出问题的，因为你这个时候要么有一根线拽在后面或者怎么样，其实你很投入的时候已经沉浸在一个 VR 的世界里面，一根线把你头拽住了，可能会摔倒，这是VR对于玩儿 Game 和看电影是非常有好处的。

AR 是完全另外一个不同的场景，AR 最重要的是它是一个增强的现实。增强的现实其实是把物理世界和虚拟世界无缝地给拼在一起，最简单的一个 AR，比如我看到某个人，我如果戴着一个 AR 的眼镜，我突然忘了，这人好面熟，就想不起来上次在哪见的，有这个 AR 的眼镜之后，它最简单的功能就是做出人脸识别，告诉我这是谁谁谁，上次我们是在哪在哪见的面，这个可能会免去很多的社交上的尴尬。

但这个 AR 只是一个最初级的，它只是在物理实体的边上加上一些虚拟的信息，更有意思的 AR 是物理和实体能够相互交互。比如说我们现在打一款游戏。VR 可能跟你现在这个房间是一点关系都没有的，但是 AR 游戏，我如果戴上 AR 眼镜，它其实是可以根据我现在这个会议室的物理场景给我设计一个打游戏的过程，我待会儿去另外一个会议室，回到我酒店的房间，物理场景不一样，它给设计的 Game 也都不一样，所以我觉得这是一个非常不一样的地方。

所以，在我个人看来，从平台角度看，可能 AR 会是今后一个更大的平台，如果我们把几个垂直行业能落地得很好，这个可能是一个很大的平台，前景会非常非常好。我们在联想公司也好，联想研究院也好，我们在这方面都会有大的投入。

问：现在AI人才是全球都在争夺的，联想在这方面准备出什么自己的独家秘招呢？

（雷锋网在提出这个问题时，芮勇博士先是风趣地开了个小玩笑，用一句“我就是那个独家秘笈”引起了全场一阵欢笑。）

芮勇：现在 AI 的人大家都在抢，我最近也在招这方面的人才，因为我们要成立一个 AI 方面的大的团队，竞争都很激烈。我觉得联想能告诉一些有志于人工智能产业人才的事情就是把人工智能能做好的那四点：好的算法、强大的运算力、大数据和垂直领域能不能接地气。我觉得这四个方面，联想都是有优势的：

第一，好的算法，当然我们希望这个人来了以后就有好的算法，这些是他可以做的事情。

第二，运算力，前 500 名我们占了 99 名，并且我们现在不仅看 CPU 的集群，我们看 GPU 的集群，我们看 FPGA 的集群。

第三，联想有很多大的数据。公司内部也有很多很多的数据。我现在不是担心我们没有数据怎么办，而是我现在数据很多，我现在要有足够的 AI 的人才来帮我分析这些数据。

第四，其实我们有很多垂直领域，在国内我们跟医院、运营商、零售行业有很多的合作，这些垂直领域，我们都可以帮助它的人才把具体的算法落地到某一个领域，这些可能是最吸引人才的地方。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。