小猴机器人：征途路上，星辰大海

本文作者：技术人攻略

2014-09-19 13:22

导语：当机器智能超越人类智能，意味着第二个临界点到来，这种智能会在多大程度上操纵人类的认知方式？一个有人性的世界是否会由此终结？人工智能这把通往未来的钥匙，究竟能打开一扇什么样的门？

文：Gracia，摄影：周振邦

导语：小猴机器人，清华人工智能专业博士在读。2009年开始，他参与实验室的无人车项目，和军事交通学院共同研发“军交猛狮III号”无人车。这辆由黑色现代ix35改装的大家伙，配备雷达、摄像头和GPS传感器，可精确识别路况、判断障碍物，并自主进行刹车、油门、制动、换挡等操作。身为概率论、AI、Python的狂热爱好者，小猴正致力于用概率图模型方法，让机器变得更聪明。

在我的书柜顶层，放着侯世达的《哥德尔、埃舍尔、巴赫：集异璧之大成》，这本被誉为人工智能“圣经”的厚重大部头，出版于70年代中期，曾获得普利策文学奖，轰动一时。其后，人工智能领域研究进入拐点，关注“人类思维如何运作”的传统研究方式进入死胡同，逐渐淡出公众视野。直到80年代末期，人工神经网络发明，基于大量训练样本的机器学习模型，取代传统人工规则，这一领域才重新取得突破性进展。

随着大数据与人工智能结合，我们逐渐进入一个算法主导的世界，无所不在的机器智能，精确记录着你的点滴，计算着你的喜好，推荐你需要的物品，物理世界和虚拟世界的分界变得模糊。在欢天喜地迎接万亿级别新市场同时，也不乏对科技和人类未来的反思，对技术“奇点”的担忧是其中之一。大约一万年前，人类在改造自然的能力上逐渐占据主导，迎来了自身的大繁荣。当机器智能超越人类智能，意味着第二个临界点到来，这种智能会在多大程度上操纵人类的认知方式？一个有人性的世界是否会由此终结？人工智能这把通往未来的钥匙，究竟能打开一扇什么样的门？需要每位参与者谨慎思考。

“三清团”（清华本科、硕士、博士）的经历，让小猴养成了严谨、务实的科学态度。他喜欢用“科技工作者”称呼自己，并且善于用通俗易懂，带点戏谑的方式，把那些看起来高深的理论，解释得通俗易懂。他曾做过一份《机器学习周刊》，用自己鲜明的个性，把严肃、枯燥的技术新闻，解读得无比鲜活。即使整整一下午，我耳边回荡着“卷积神经网络”、“约束玻尔兹曼机”、“马尔科夫随机场”这样的专业名词，听起来仍是津津有味。或许因为成长于广袤的内蒙，小猴身上带着大山和草原一般的洒脱与乐观，在他钟爱的无人车上，印上了一个美好的Slogan：我们的征途是星辰大海。

小猴机器人：征途路上，星辰大海

技术人攻略：你们的无人车项目始于何时？做到了什么程度？有哪些难点？

我现在清华“不确定性人工智能实验室”读博士，主要做和不确定性相关的东西，例如：知识挖掘、知识图谱、读心机器人、视觉识别、四旋翼、自平衡车、足球机器人等项目。

实验室的无人车项目从2005年开始启动，目前已和若干高校，以及上汽、北汽等公司联合，共有100多人参与。我2009年加入该项目，从做模型车开始，逐渐做到大车。目前为止，该车已通过约5万公里测试，在全程无人工干预情况下，高速路跑下来没问题。2012年12月，央视曾跟拍过我们从北京收费站入口，跑到天津收费站出口的全过程。

接下来的挑战是错综复杂的城区道路，解决复杂问题的方式是剥洋葱，剥到我们能解决的那一层。城市道路抽象地看，可分成机场高速、环路、普通城市道路、小区道路，难度依次提升。以“机场接人”这个任务为例，无人车需要从机场一号航站楼，跑到天安门旁的工信部大院。这段路涉及机场高速、东二环、前门大十字路口等许多交通元素，逐步搞定预计要用两年时间。

无人车行走依靠三大工具，一是GPS卫星定位，二是激光雷达，三是相机。雷达和相机实现局部定位，GPS实现全局定位。这里面有很多技术难点，其中之一就是如何实现高精度定位。

普通车道线的宽度是3.3米，手机上的GPS号称误差2.5米，一旦出现5米左右的误差，会导致从左拐车道偏移到直行车道。针对高精度定位需求，已出现了一些高层次GPS定位方法，例如RTK-GPS、差分GPS，通过静态GPS基站和卫星同时定位，精度可达到50厘米。

一辆无人车的总成本高达200万人民币，激光雷达国外卖6万刀，国内加上税得到80万人民币，用精度更高的航天级传感器，成本会高达上百万。差分GPS市价30万，基站覆盖范围10公里。从机场到天安门这段路约29.1公里，想实现全程信号覆盖，至少得建3个基站。如果用3G，不用搭建基站，但信号覆盖效果会是个问题。所以最后的定位方式会结合多种传感器做融合推理。

Google无人车依赖GPS，及传感器做特征抽取，并把这些信息连到一块分析。分析过程用到了SLAM（协同定位与绘图）技术，它是一个机器学习算法，在机器人领域应用得很广。根据车的移动，不断调整地理位置估计，当搜集的信息足够多时，就能实现精准定位。如果有足够完善的地图，就不需要用到SLAM，直接把场景和地图特征做Mapping就可以。

小猴机器人：征途路上，星辰大海

技术人攻略：你现在主要的研究方向是什么？

我个人的兴趣是用概率模型（例如概率图模型）方法解决人工智能问题。在无人车这块，正尝试通过深度学习模型，对人的驾驶及周围环境建模，训练出一些模型，和车的控制算法结合，让机器变得更聪明。

传统控制方式会写一些if、then条件，例如：如果视野里出现红色，则前方有红灯。但仅凭这一条规则判断，结果会存在一定不确定性。图模型则会连接更多前件和后件，根据已有知识，去推论图里面某一个节点或者某一条边，是否会存在或发生。仍然拿红灯举例，根据先验知识，红灯一般在高处。除了判断颜色之外，还需要判断红灯和地面之间的关系。如果在地面上检测出来一个红色物体，那么它是红灯的可信度不会很高，如果在天空上，那么很可能是一个红灯。

除无人车外，我还对自然语言处理感兴趣，例如做Email的Intention Direction分析，怎么知道某封邮件是找你要资料的Email，还是老板通知你去开会的Email。再进一步，通过智能助理提醒你，回复前两天别人找你要资料的Email，或只对老板让你开会的Email做出响应。如何理解你老板，和开会这两件事，涉及到对人和事件的识别与抽取，这中间可以做大量的尝试，会让你对人工智能的能力感到很振奋。

我参与过最有趣的人工智能项目是MSRA的“读心机器人”：你在心中设想一个公众人物，它能通过一系列问题，猜出你心里想的那个TA是谁。这实际上是一个排序算法，根据用户的每一次回答调整 Ranking。其中的技术涉及到知识库构建，所有人物的背景知识都从互联网上抓取。还涉及到群体智能，通过用户的回答调整算法。

技术人攻略：刚提到用图模型方法解决人工智能问题，图模型有哪些好处？如何实现？

用图模型解决问题的方法，在人工智能里被称为“连接主义”。过去我们常把数据看成一个个孤立的点，针对点做假设。但实际上，可能很远的地方一个毫不相干的信息，会触发你这里致命，或决策性的响应。所以用图来研究人工智能是很自然的方式。

Google知识图谱（Knowledge Graph）就是根据图模型构建起来的，我们一般叫它知识库（Knowledge Base）。例如你想搜索关于奥巴马总统的知识，传统搜索引擎做关键字匹配，难免会搜出一些不需要的东西。用知识图谱方式，全世界有1000个人叫奥巴马，但可能只有一个人和“米歇尔（奥巴马的妻子）”有关系，通过这类联系，迅速定位出目标。

但如何能知道米歇尔和奥巴马之间的联系呢？这就涉及到知识库的构建。构建分为两步，第一步是Entity Linking，找出材料中提到了知识库里的谁？第二步是Slot Filling，找出在说他的什么事？

人类的思考过程并不仅依靠输入的材料，而是会结合已有常识分析。例如大部分人大学毕业都在22岁左右，大部分人会在30岁之前结婚、生子，大部分人寿命不会超过100岁……这一系列概率分布构成了人的背景知识，利用这些知识可以辅助和改进人工智能效果。

常识一般分三类，第一类叫事实，例如：布莱尔是英国总理。这个层面的知识可以从大英百科全书或Wikipedia上拿到；第二类常识，例如：布莱尔是个人，他是个男人。涉及上下层级关系，要更难一些；第三层更困难，例如：布莱尔是个男人，男人通常会和女人结婚，通常会在结婚后两年生小孩。第三层涉及的规则，是真正的人类智力和人工智能之间的壁垒所在，如何能够有效挖掘出这些规则，是目前人工智能遇到的最大挑战。

技术人攻略：除了规则挖掘，人工智能遇到的难题还有哪些？

所有做人工智能和机器学习的人，遇到最普遍的难题是：缺乏被标记好的数据。举个例子，我们面前这一瓶可乐，网络上能找到成千上万张图片，但就是没有标记出来它是一瓶“可乐”。即使在电商网站上，这张图很可能也并不会标记为“可乐”，而是叫“解暑佳品”。在这样的情况下，机器又如何能知道对应的图就是“可乐”呢？

再举个极端的例子，你在朋友圈贴了几张美食的图片，发了一句感慨：今天真开心。这句话和美食没有任何关系，根本没法处理。而有的人会说：我在大众点评上找了一家烤肉店，味道非常不错。那“烤肉”这个词就能抓出来了。所以这不是技术上的问题，而是要看你能拿到多少数据。

怎样从这些没有标记过的数据中，搞出一点苗头出来，这就是当下最火的深度学习要做的事。有别于深度学习直接用原始数据的生猛做法，传统解决办法是用远程监督（Distant Supervision）技术获取数据，例如从网上抽出一些可能的标签，在“减肥佳品，消暑必备可乐”这句话里，会抽出“减肥”，“消暑”、“可乐”这些名词。统计相似的图片里面，有哪些关键词经常出现，用不确定性解决这个问题。算完之后给出一个概率：这个东西在谈可乐的概率80%，在谈减肥的概率20%。只要数据量够大，这些都不是问题。

机器学习上手很容易，关键是能挖出什么东西来。真实数据里噪声非常多，缺失的信息也很多，实践者要学会绕出这些坑，从纷乱的数据中找出规律。在深度学习还没到大家脑海里之前，大部分机器学习学者都在观察数据有什么特征，这叫做特征工程。例如你发现数据里所有单词的第一个字母都大写，就把它当成一个特征，别人如果没用到这个特征，你的算法就超前了。搞人工智能的人，必须对数据敏感，能从数据里发现一些别人看不到的端倪。机器学习是一个优化过程，但能从数据里挑什么来做优化，需要专业技术。而且数据特征和领域有紧密关系，广告、网页的、图片识别的特征各不一样，用到的模型也可能不一样。

技术人攻略：前阵子媒体报道已有机器通过图灵测试，你怎么看？

前阵子宣称通过图灵测试的那台计算机，模拟了一位13岁的匈牙利外国男孩，并且还是得了病的那样一个人的智能。做了许多限制条件，把AI设计成有缺陷的人，试图蒙混过关。

实际上，真正的人工智能学家根本不会致力于去通过图灵测试。我们不去争论什么是真正的人工智能，而做以下设想：如果有一台无人车，可以让驾驶过程中90%的场景全都和人一样。逐渐把这种算法应用到地铁、飞机驾驶，并且都做到效果无限和人逼近。最后这些综合起来，形成一个整体，你觉得它算不算人工智能？

人工智能分为两派，以Google为首的一派搞统计，以侯世达为首的一派搞规则。两派人总在争论，究竟谁才是真正的人工智能。讨论参与到最后，就变成了人和机器最后到底谁会控制谁的畅想。畅想完了之后总还要干活，作为科技工作者，不如埋头把活干好。在局部范围内让机器人去逼近人，如果能做到一个比较良好的状态，就称其为在这个领域内，达到一定程度的人工智能。比起通过图灵测试，这应该是更为实际的目标。

对于图灵测试智能与否，也有学者吐槽。去年人工智能大会（IJCAI）上，Hector Levesque就指出：人与机器的区别应该在于认知和理解，比如“指代消歧”能力，普通人可以轻松结合上下文，分辨出文中的“它”指的是谁，但目前机器要做到这点挺难。

技术人攻略：Yann LeCun（燕乐存）预测这两年会大量出现人工智能、机器学习的初创公司，你关注到有哪些这个领域的公司？

国外机器学习的初创公司很多，方向也相对比较杂，应用领域包括广告、机器人、智能家居等。例如今年初Google以4亿美金收购了DeepMind，这家公司的创始人之一是Yann LeCun的学生，他们把深度学习模型应用到游戏领域，做了个自动玩超级玛丽的算法，发了篇很厉害的Paper。

深度学习最牛的地方，在于完全不需要定义规则，所有规则都由机器自己学习得出。在超级玛丽游戏里，你根本不用定义马里奥和乌龟的距离，只需定义活下去这个目标，把整幅截图给机器，它自然就能找出在什么场景或什么动作序列下，游戏角色能存活最长时间。

这家公司价值如此大，关键还在于，超级玛丽通关的算法，实际上跟其它高精尖领域的控制算法原理一样。例如航天飞行器的控制算法，是在模拟器里，用模型驱动参数变化，给出结果并反复训练的过程。广告系统也类似，Google以前通过人，或者简单算法调整广告系统的参数，一方面效果达不到，另一方面浪费人力物力，深度学习或者超参优化能自动化地解决这个问题。

国内的创业环境更偏向于短平快，做机器学习初创的公司主要集中在广告、营销方向，包括舆情监控、精准投放等领域。也有像Face++这样的，用机器学习做人脸识别，并做到这个领域的世界冠军。

技术人攻略：机器学习、深度学习、人工智能、模式识别之间的区别与联系是什么？想进入这个领域的人应该如何提升？

人工智能是目标；机器学习是一种技术手段；模式识别与机器学习有交集，但不一定非要经历机器学习的训练过程，可通过给匹配给定模式的方式实现；和深度学习对应的是浅层学习，都属于机器学习的方式之一。

想进入人工智能领域，首先得了解它的发展历史。从技术上看，人工智能应用领域基本可以落在图像识别、声音识别，自然语言处理这三类。从中找到你的载体，再从载体上寻找和明确要解决的科学问题。接下来看别人的解决方案是如何实现的，世界冠军的标准是什么，朝着把世界冠军打败的方式去努力。这是所有做科研的人应该遵循的成长方式。

现在最火的深度学习领域的顶级牛人有4位，包括神经网络的发明人、就职于Google的Geoff Hinton；Facebook人工智能研究院主任Yann LeCun；加拿大Montreal大学教授Yoshua Bengio；百度首席科学家Andrew Ng。他们当年都曾在NEC Lab里共事。

2006年之前，支持向量机模型（Support Vector Machine）占据了机器学习领域的江山。神经网络出来了之后，在性能上压倒式地超越了SVM，在语音和图像识别两个领域，把原有的世界机器学习纪录全干掉了，所以一下子火了。不过目前深度学习在自然语言上还没有特别好的解决方案。

大家普遍认为，人工智能这一行对数学有很高的要求，尤其是线性代数和概率论。以下几本机器学习的书，也可以看看：《Pattern Recognition and Machine Learning》、《Machine Learning——An Algorithmic Perspective》、《Programming Collective Intelligence》、《Machine Learning in Action》、《Machine Learning for Hackers》。想做得好，还得多看Paper。不管是Paper还是新闻，推荐都尽量看英文原文。

技术人攻略：你在清华从本科一直读到博士，谈谈在清华成长的感受吧？

外界对清华同学的吐槽比较多，比如情商低，自视甚高等。有些看法很片面，但至少我们做事情很认真。个体行为在一定程度上代表着学校，如果自己做事不靠谱，别人会说那个清华的谁不靠谱，有负于前面成百上千的师兄师姐营造出来的形象。

别人眼中的清华学子可能很乖巧好学。但真的乖吗？不一定。好学吗？有时候也会犯懒。这跟是不是清华其实没关系。我从小也算是“别人家的孩子”，除了学习和品行不错，内心其实很叛逆。许多同学来自于格式化的城市，我却成长于广袤的内蒙古，大兴安岭给了我洒脱的性格。我可能并不算典型的清华同学，所以这里谈的都是些个人看法。

我从小非常喜欢看书，语文和英语很好，差点去学文科。但后来发现应试教育里那些文科的东西，不像理科那么有确定性。比如历史，让你谈一下对鸦片战争的看法。我想这还不如解方程，于是学了理科。结果因为数学不行，各种被虐。

大一期中考试，我微积分考了52。从2004级开始，国内一些省份已经把微积分放进了高中数学，而我高中没学，对微积分一窍不通。当时心里有巨大压力，想着这回完了，我要被清华退回去了。后来一转念，数学天赋我没有，但刻苦这件事是可以做到的。为了向老师请教学习方法，我每天帮老师擦黑板（微积分上了三学期，我擦了整整三学期黑板），并把能找到的数学习题集都做了一遍。期末考试前，我做过的草稿纸，垒起来已足足有10公分高，但心里仍然是没底。老师说：你如果再不及格，我就放过你（这句话更多是为安慰我，后来才听说这位老师是名捕之首！）。结果是我考了98分，在半个小时之内做完了所有的题，许多题目熟悉得甚至不用算就知道答案。从那时候我就觉得，在清华混，努力是个很重要的因素。

技术人攻略：你未来一到两年的计划是什么？

我明年博士毕业，导师是国内人工智能领域的专家李德毅老师。他教导我做事要有载体、要思路清晰、要坚持，对我影响很大，完全能跟我长辈相提并论。

我现在大部分时间都在忙无人车。希望能在未来几年，把无人车做到世界顶尖，让中国自己的无人车在国际上占有一席之地。

毕业之后打算继续搞科研，通过一个载体，把自己的模型放上去不断优化。我不想完全去做产品，产品导向会有KPI要求，被虐成渣会影响家庭辛福。而且做科研可以经常换一些话题，新的事物一旦出现，就可以转过去。但做产品可能三、五年都得耗在一条产品线上，世界在变化，好多好玩的事情不断在发生，就没办法去做了。

我是一个比较胆小的人，不适合一个人创业，让我抛下身家冒险，我做不来。如果有一个好朋友，他又对项目很有信心，我在里面帮他做一部分力所能及的事倒是可以。

我也搞不了偏商业化的东西。曾有人找我做高频交易机器人，但那不是我的兴趣所在。一旦你进入一个高频交易所，每天给他们写脚本，但那件事情并不是你想做的。只是你有的那块技术正好变成了他们比较重要的一块积木，上面和下面的积木都会挤压着你，带着你走向一个你不知道是什么样的地方。我想做一块独立、自由的积木，最好是变形金刚那种，最好周围的积木也不太规则，这样大家就不会完全拼在一块儿，求同存异，会更有趣。

作者介绍：技术人攻略访谈是关于技术人生活和成长的系列访问,由独立媒体人Gracia创立和维护。报道内容以“人”为核心，通过技术人的故事传递技术梦想；同时以小见大，见证技术的发展和行业的变迁。在这个前所未有的变革时代下，我们的眼光将投向有关：创造力、好奇心、冒险精神，这样一些长期被忽略的美好品质上。相信通过这样一群心怀梦想，并且正脚踏实地在改变世界的技术人，这些美好的东西将重新获得珍视。
联系方式 gracia@devlevelup.com 微博: @技术人攻略
订阅：微信搜“技术人攻略”或“dev-levelup”

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

2人收藏

技术人攻略

作者

技术人攻略访谈是关于技术人生活和成长的系列访问，由独立媒体人Gracia创立和维护。报道内容以“人”为核心，通过技术人的故事传递技术梦想；同时以小见大，见证技术的发展和行业的变迁。在这个前所未有的变革时代下，我们的眼光将投向有关：创造力、好奇心、冒险精神，这样一些长期被忽略的美好品质上。相信通过这样一群心怀梦想，并且正脚踏实地在改变世界的技术人，这些美好的东西将重新获得珍视。联系方式gracia@devlevelup.com 新浪微博 @技术人攻略微信公众账号：dev-levelup

发私信

当月热门文章