您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
特写 正文
发私信给林藠头
发送

4

做自然语言的LSK,说要从哲学层面去解决语义分析问题

本文作者:林藠头 2016-05-17 07:47
导语:发明创造都是有机缘巧合的,经历了很多事情之后,突然有一天他就想通(语义分析)这个问题了,就像那个苹果砸到牛顿头上,突然想通了万有引力。

按:做语义分析的公司雷锋网接触得不算少,但说要从“哲学层面”解决语义分析问题的,LSK是第一个,雷锋网感到很好奇,于是找到陈严——他是LSK深度人工智能的联合发起人,另一位发起人陈峰常驻甘肃。

陈严:LSK是一套基于认知的语义识别方案。LSK分别对应Language、Semantic、Knowledge。

Google的语义分析是这么做的,最早它是用关键词来匹配,从数据库里区匹配最接近的结果;后来开始理解语法,梳理主谓动宾状的语法树,这就涉及分词。英语的句法结构是比较规整的,而且词和词之间有空格,不需要分词,但汉语不一样,‘我吃了一个苹果’,是把‘我吃’当成一个单位,还是‘吃了’当成一个单位呢?我记得Google后来是和一家叫海量分词的公司和合作,做了大量的分词,但这个也只能解决一部分问题。

Google翻译的结果其实是不那么令人满意的,我们随手输入“苹果红了”,它翻译成“red apple”,其实是不准确的。

人对事物的识别建立在一套认知系统上,语言只是一种表现形式。我们决定从认知层面去着手,首先我们要建立一套知识体系,比如“吃”这个字——说起吃,我们头脑里会想到吃了什么、谁吃了、在哪里吃的、吃了还是没吃——是一套复杂的认知体系,LSK是建立在这套认知系统上的语义识别。

语义的表现形式多种多样,但内核其实都是类似的,如果机器“知道”这个词什么意思,就不会被语音的表现形式迷惑,“吃了吗你”、“你吃了吗”,系统会得出相同的翻译结果。我们的系统学一个词就是一个词,它把“吃”学透,学习的词汇越多,就越准确。

雷锋网:团队的技术背景大多是怎样的?

陈严:技术背景不重要,核心人物才是最重要的,爱因斯坦写相对论的时候是一个人写的,不是找了一堆人写的。这类问题能想清楚的只是一个人,最多两个人,世界上所有的发现都是这样的。

雷锋网:咱们团队里面那个人是谁?

陈严:陈峰,山峰的峰。

我和他都是甘肃电信的,我们被派到北京三年,后来电信整改等等一些原因,我们离开电信系统回了甘肃,开始做LSK。同时我们也有别的事情在做。

他学地质出身,17岁开始搞计算机,我们一起经历了很多事情。发明创造都是有机缘巧合的,经历了很多事情之后,突然有一天他就想通(语义分析)这个问题了,就像那个苹果砸到牛顿头上,突然想通了万有引力。

(按:在网络上搜不到陈峰的相关背景。从官方给过来的资料中显示,陈峰是“中国电信甘肃号百公司技术总监”、“神州数码科技公司大客户事业部技术总监”、“曾获2004年美国ESRI公司全球特殊贡献奖”、“·个人专利《统一对象标识技术》”。)


雷锋网:但是这样的人只适合一些学术研究、发论文,真正要做产品,还是要很多人去做一些工程性的工作吧?

陈严:我们还没有开始融资,也没有产品化,只要开始落地,技术合格的人容易招。陈峰这样的人凤毛麟角。

雷锋网:这类型的人才,院校里面应该很多。

陈严:院校里面都是基于算法去做一些事情,其实算法是第二位的,第一位的是结构。神经网络是也是算法。

雷锋网:神经网络是算法的话,那它对应的结构是什么?

陈严:对应的结构……神经网络我还真不是很懂,我感觉它是模拟人脑的结构,可能更偏重学习。

按照Google的关键词匹配的方法,它只能解释库里有的,遇到系统里没有的事物就没办法。但所有的未知知识都是由已知知识去描述的,在我们的体系里面可以做到这一点。

我们上升到哲学层面去解决这个问题,世界上的事物之间的关系归根结底都可以由拥有、属于、时间、空间等等一些基本词汇来描述,“苹果红了”,是苹果拥有红色,还是苹果属于红色?空间和时间的定义,都可以由这些基本词汇去描述,这些词汇只有11个,全世界的知识都逃不出这11个词。

理论上是这样的,但实际的系统实现遇到的难题很多。

雷锋网:这个有点超乎我的认知。

陈严:比如社会关系学,就是人与人之间的关系,人与人之间的关系可以由一些词去描绘,这些特定的词可以抽象出来——一定要抽象到最高级也就是最底层的东西。自然语言认知的层次:关键字、语法层、逻辑层、哲学层、抽象层,一共五层,我们给微软顶多看到第二层,它就已经很吃惊了;科大讯飞看到我们的技术文档,只说了一句话:“这根本做不出来”;跟薛蛮子也谈了,他感兴趣,但是又不投钱。2012年,我们谈了不少投资人,总觉得对不上。

当时自己状态也不好,不知道在哪里落地,应答、舆情分析、翻译,具体产品的方向没有确定,拿去做语音导航似乎又体现不出优势,加上自己还有一些国土资源方向的项目在做,融资的事就放下了,但技术一直在进展。陈峰这几年全职在做这个事情——前些年做国土项目有一些积累,足够他只专心在这一件事情上。

现在我们更完善了,原先可以理解句子,现在可以理解100字左右的长句子。我可以讲解一下它是怎么推理的,比如“陈严借给林总一本书”,LSK可以推断“林总需要还给陈严一本书”,这是它自己产生的,已经具备逻辑思维了。

雷锋网:过去6年,LSK的技术团队主要在做什么工作?

陈严:没有团队,就他一个人,就陈峰一个人。过去6年,他就在研究哲学问题,然后把它转化成知识性的东西。

陈严给雷锋网演示了一个DEMO,显示LSK是如何工作的。做NLP的读者可以看看,是否能看出端倪。

做自然语言的LSK,说要从哲学层面去解决语义分析问题

遗憾的是,陈严的手机上没有装APK(他说并没有开发安装包),而陈峰远在甘肃。除了这个视频,雷锋网并没有获得其他测试产品的机会。对于这个产品以及陈严描述的原理,雷锋网有一肚子的问号。

当雷锋网向一位同是做机器翻译(并且已经成规模,有稳定的商业模式)的业者表达疑问,说感觉有些“民科”,他隔了三四个小时给我回了一段话:

“似乎确凿就是民科。刚刚去找来‘LSK理论’著作拜读了一下,通篇没有任何形式化定义。至少以目前的计算机原理来说,这是不可计算的。”

懂行的朋友出来说个究竟?

附注:雷锋网将于8月12、13日在深圳举办全球人工智能与机器人创新大会,会议召开的同时我们将颁发Top25人工智能创业项目的榜单。目前我们正准备遍访机器人、人工智能、无人机及自动驾驶相关的创业项目,有杀错,没放过,如果觉得自己是这个行当的顶尖企业,欢迎发邮件到 2020@leiphone.com 自荐。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

编辑

你先说有什么事,我好决定在不在。
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说