全球AIoT产业·智能制造峰会
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
特写 正文
发私信给林藠头
发送

1

前Google高级管理科学家林德康回国创业,做了一款你没见过的语音助手

本文作者:林藠头 2016-07-18 14:39
导语:“我们自己并不重新发明这种交互过程,实际上我们是把一句话翻译成App里的操作,App可以做什么,我们把语音指令翻译成动作。”

编者按:林德康,前Google高级管理科学家(senior staff research scientist),主攻自然语言处理。在加入Google之前,林德康是加拿大Alberta大学计算机教授,发表过逾90篇论文、被引用超过12000次,他也是国际计算语言学会ACL Fellow——整个华人圈的ACL Fellow不用一只手都数得过来。难怪他回国之后,有人惊异于他“竟然没选择去清华教书,也没接受BAT的邀请”,而是联合发起了一家小小的初创公司:奇点机智。

奇点机智做的还是林德康最擅长的NLP相关的事情,目前主攻一款语音助手“小不点”,林德康说它“跟大部分语音助手的方式不太一样,甚至可以说很不一样”。产品目前在开发完善中,年内会上线。

雷锋网(公众号:雷锋网)来到了位于中关村某办公大楼的奇点机智办公室,大约有30余位全职员工在从事语音助手的研发工作,其中部分员工来自Google、微软,绝大多数员工毕业于北大、清华、浙大、南大等高校。创始人邬霄云曾在Yahoo、Google北美研究院工作,在大规模机器学习、自然语言处理等领域有10多年项目经验积累。

这款语音助手和Siri、Cortana等等有什么不同?以下是林德康自述,雷锋网整理。

前Google高级管理科学家林德康回国创业,做了一款你没见过的语音助手

Google Now、Siri、Cortana这种都是操作系统的owner做的语音助手 ,他们只着重于操作系统能做的事情,比如设闹钟、发信息等等,外接app的时候,也只能接操作系统刚好能做的事情,比如Siri“用微信给XX发信息”,这个是基于Siri自己首先可以发信息,才可以接入微信。

另一种语音助手,Viv、Soundhound和国内一个叫渡鸦科技的公司类似,他们的想法是手机上只需要他们这一个App,这个App可以做所有事情,打车、订外卖、订机票。比如订机票,语音助手理解语义之后,去访问比如说携程的服务器端口,向携程的后端直接发一个webrequest,填参数,然后返回订票结果——整个过程用户只需要跟手机助手交互,不用去跟订票软件交互。所以这类助手除了做语义分析的工作,还需要重新发明(recreate)用户的交互过程,这些订票的流程需要自己做一遍。

我们自己并不重新发明这种交互过程,实际上我们是把一句话翻译成App里的操作,App可以做什么,我们把语音指令翻译成动作。比如在携程订票,用户说完“我要订从哪里到哪里的机票之后”,界面就会到携程里订机票的界面,并且预填好语音里已经有的信息——语音完成一部分App的操作工作。我们是帮用户更简洁地操作这些App。

说到这里,林德康展示了几个功能,首屏状态下按住Home键说“给孟X发个红包”,经过一层层自动索引,手机直接进入微信孟X的聊天窗口,再弹出红包界面,整个过程,用户只需要输入红包金额点击发送就可以完成;按住Home键说“告诉林XX我迟到了”,微信跳到了和林XX的聊天界面并且对话框已经预先输入了“我迟到了”四个字,用户要做的只需要按“发送”。

有的APP功能隐藏得很深(比如预约用车,因为叫车软件可能并不希望用户预订,所以稍微隐蔽一些),但功能有,这时候你说“我想明天预定一个5:00去首都机场T3的专车”,就比手动操作APP要简便,我们想做的就是这件事情。我们说cover一个app,比如微信,会包括发红包、放大字体、付款等等几乎所有的操作,Siri所说的Cover可能只是接入发信息这个功能。

(雷锋网:每一个App的每一个操作都需要“翻译”,开发工作量会很大吗?)

每一个App可以做的事情其实不是很多,比如携程到底有多少功能,就订票而言,在语音助手理解起来,都是“从一个城市飞到另一个城市”这一件事。微信看似这么多功能,实际上所有的项目加起来也就几十个(当然不包括玩游戏的部分)。

我们做的更多的是自然语言方面的事情,比如发红包,“把红包发给谁”、“给谁谁谁发红包”、“我想发给红包给谁”,“从北京到上海的航班”和“从北京到上海的飞机”说的其实是一回事,不管怎么说,机器都要能分析出来,这一部分是我们的核心竞争力。我们的语料来自网页和其他的语料库,几乎所有的网页都拿来学,我们学习时需要从海量的语料里找出语料之间的相关性,然后应用到助手里。

我们的做法跟大部分语音助手的方式不太一样,甚至可以说很不一样。大部分语义分析都是靠语法,我们也用语法,但我们用的办法不太一样,我们不用语法驱动理解的过程,语法有的话更好,没有也可以,这样我们的系统更robust一些,可以handle更复杂的变量。

编后:NLP是个世界级难题,Google、微软也没有很好的解决方案。如果有好的解决方案,意味着整个迁移学习、机器学习领域都会有一些质的进展。Viv宣称要“吞并整个互联网”,吊足了观众胃口,但产品到目前也没有和用户见面。奇点机智的这款助手“小不点”,会给我们带来一些耳目一新的体验吗?

下个月的12、13号,雷锋网将在深圳举办一场盛况空前的人工智能与机器人峰会,林德康也会出席,关于这款助手的更多技术细节我们留到大会上展现。届时我们将发布“人工智能&机器人Top25创新企业榜”榜单,为此我们在搜集并确认AI、机器人、自动驾驶、无人机等几个领域的优质项目。如果您的项目是相关领域的,且足够有技术壁垒、足够有成长性,欢迎联系2020@leiphone.com。

雷锋网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情

编辑

你先说有什么事,我好决定在不在。
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说