李德毅：没有交互认知，自动驾驶或是个陷阱

本文作者：新智驾

2016-11-23 23:38

导语：2016 年 11 月 23 日，科大讯飞举行了年度发布会。在会上，中国工程院院士、欧亚科学院院士、中国人工智能学会理事长李德毅作了主题为「交互认知」的演讲。

编者按：2016 年 11 月 23 日，科大讯飞举行了年度发布会。在会上，中国工程院院士、欧亚科学院院士、中国人工智能学会理事长李德毅作了主题为「交互认知」的演讲。雷锋网进行了编辑和整理（有删减）：

计算机界对计算认知了解的太多，但对交互认知了解的还不够。

今天我想讲一讲交互认知。为什么要研究交互认知？我们还是从图灵测试谈起。图灵测试本质上就是一个交互测试。

自闭症是交互认知障碍的一种典型疾病，自闭症就是在交互上遇到了很多困难。如果现在我们把人换成一个聊天机器人，把这台机器换成一个自闭症患者。我想问：测试者还能区分谁是人谁是机器人吗？这就是图灵测试的瑕疵。

我们看看这样一个对话：你今天吃的是什么？

同样的问题，机器人回答的不一样。一开始它很有礼貌回答：蛋炒饭。后来它就开始解释。如果你还一再的问它：你今天吃的是什么？它就说：「你丫有病啊！」

这体现了聊天人的性格，修养和幽默。这就叫做不确定性的交互，我们需要的不是一个「问题-回答」系统，需要一个活生生的聊天机器人。因此我们看到聊天总是在特定的语境和语义下发生的。

在过去的半个世纪的自然语言理解当中，我们对此是不是关注了太多的语法和语构、或是语境和语用、或者是语言交互中的不确定性？

李德毅：没有交互认知，自动驾驶或是个陷阱

我们要研究交互，交互认知的外在表现：如何听说、如何看、如何感觉。听说是语言交互，看是图像交互，听是体觉交互。脑认知的内涵应该是三个：记忆认知、计算认知和交互认知，而不是一个。

我们认为研究交互和记忆是有道理的。语言可理解为对交互认知的语义标注，图像可理解为对交互认知的情感标注，体觉可称之为肢体语言。交互认知的度量可用情商和智商表示。

李德毅：没有交互认知，自动驾驶或是个陷阱

有一个著名的艾伯特定律告诉我们，语义的作用只占 7%，语言的作用占 38%，面部表情和记忆的作用要占到 55%。能不能把这些情感通过语音表现出来？为什么不做这样的情感研究？语音语调是情感的流露，是言外之意。

因此，我们强调做一个好的机器人，首先要有交互能力。

交互认知的不确定性包括：交互触发的瞬间性、交互方式的随意性、交互内容的未知性。这就要求我们把不确定性人工智能研究好。不确定性人工智能要在看似瞬间性随意性和未知性中，发现交互认知的基本规律性，又能体现不确定性的魅力。

与听觉，触觉等相比，视觉主导着我们的情感知觉，并影响我们的思维方式。因此，生物视觉图像交互的情感表达，成为交互认知的核心。

图灵测试有一个漏洞。如果被测试的一方支支吾吾保持沉默或主动插话介入，就可能颠覆测试者的主导地位，也很难区分到底对方是人还是机器人，再次暴露出图灵测试的瑕疵。图灵测试原本是测试对方是否具有人的智能。如果图灵测试的漏洞被多次利用，图灵测试就转化为比拼测试双方谁更睿智的问题，不在乎双方是生物人还是机器人。

因为这个漏洞，我们开始研究交互认知，研究如何突破图灵测试的漏洞。

对话是最直接最便捷的交互，是几乎所有服务机器人的必备，可否把对话机器人作为研究交互认知的突破口？

聊天是浅层次，短时长的对话，也是最通用的对话，聊天也许是在讲废话，但可带来亲和感，在社交生活中不可或缺，不会聊天的对话机器人太乏味。所以，交互认知可从研发「互联网+对话机器人」开始。

从对话的语境和语用入手；
优先考虑情感交互；
强调纯净感，交互感和构想感；
关注交互认知环境中的选择性注意；
研究不确定性交互认知中的客观性，普遍性和积极意义，寻找不确定性中的基本确定性。

李德毅：没有交互认知，自动驾驶或是个陷阱

对话是所有服务机器人绕不过去的坎。对话机器人自身是活生生的认知主体，不是一个刻板的「问题——回答」系统。充满不确定性和变通，有情感和语言交互能力。我们需要聊天的机器人。利用云模型的不确定性研发对话机器人。

对话机器人的形式化约束有：

特定的对话背景；
对话双方是有个性的机器人；
用动画体现情感交互语音交互和文字交互，话题情感性格等不确定性。

随着对话的深入，不确定性会大幅度降低。所以我们提出不要老是关注语义和语构，我们现在要关注应用和语境。在这种情况下，我们要研发对话引擎。

基于检索搜索引擎生成可选到答句集；
借用机器翻译技术润色答句，保持个性。

重视语境和语用

有社交的技巧背后是与特定的语用相关。举个例子，一大早睡觉被吵醒，听到楼下有人大喊：

「打死，打死，往死里打！」

「反了，反了，反了你。」

怎么去理解这个语义？到窗户一看，原来是正在指挥倒车。所以我说要研究语用和语境，重视语境和语用。不要老是停留在语义和语构里。说话人的身份、年龄、对话和时间与用语语调、用语习惯，都很重要。

对话一般是两个人的，实际上，还要研究三人对话多人对话和复杂系统涌现中的交互认知。

2006 年，我们研究过掌声之间的交互。人们有过这样不常有的生活经历：音乐厅音乐厅里有一个精彩的节目结束后，观众会爆发出雷鸣般的掌声在很短的时间内，这种嘈杂的掌声会突然转变成有节奏的掌声，似乎有一股神秘的力量驱使观众一致的鼓掌，这是一个典型的复杂系统交互认知导致的自组织同步现象。

一个值得警示的现象：如果连浅层次、短时长的对话机器人的交互认知都做不好，如果机器人不具备最基本的语音交互，图像交互和体感交互能力，中国的服务机器人产业就跳不出同质化，玩具化低端化的怪圈。高开低走，只能把服务机器人行业推入血腥的红海。

交互认知的本质：协商和学习

协商包括：协商达成共识、协商达成一定程度的共识以及没有共识，但知晓了对方的认知力与下一次交互。共识是交互认知的结果，是认知主体，任何一方单独进行计算或推理，无法得出的新的认知，是计算认知记忆认知替代不了的。

学习包括：一方可从另一方获得新的认知、学习是相互的。人类社交活动中的交互认知，以及人和自然自然人机器人之间的交互认知，大大扩展了三个人一群人，乃至整个人类的智能。

案例一：

机器人来到一扇门前问，这门怎么开？

作为物联网的终端门答：我是一个滑动门。

案例二：智能驾驶中的交互认知

李德毅：没有交互认知，自动驾驶或是个陷阱

智能驾驶中的交互认知非常重要。

比如无人车上路，老百姓觉得它是幽灵，不敢乘坐，因为它没有交互。驾驶员的环境和周边车辆群体的交互认知。每一个司机都认为是最合理的，在客观上就会造成一个交通拥堵。这就是交互认知的结果。

李德毅：没有交互认知，自动驾驶或是个陷阱

再比如，两辆人驾车和多辆带有自动驾驶模式的车混合行驶，由于自动驾驶模式缺少交互认知能力，受到人驾车干扰，预设的自动驾驶门槛立马崩溃，几乎全部转为人工驾驶。所以我把它叫做：自动驾驶亦或是个陷阱。

怎么办？我们要让智能车成为可交互的轮式机器人：它是一个认知主体，有一个驾驶脑，同时我们还允许双驾双控。我们允许驾驶位上，可以有驾驶员或者可空缺。

与程序调试，试验和维护人员、与乘客、与执勤交警有交互，如果这样的车不能做到与人之间的交互，那怎么能成一个产品？所以要让智能车成为可交互的轮式机器人。交互认知是非常重要的。

李德毅：没有交互认知，自动驾驶或是个陷阱

移动互联网的终端已经从 PC 转变为手机，进而转变为机器人，在机器人联网的时代，人工智能是否应该更多地关注交互认知？研究人与人、人与机器人、机器人与机器人或者混合的认知主体之间的交互认知。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

新智驾

编辑

发私信

当月热门文章