0
本文作者:张驰 | 2016-06-28 10:03 |
今年8月,雷锋网将在深圳举办一场盛况空前,且有全球影响力的人工智能与机器人峰会。届时雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前,我们正在拜访人工智能、机器人领域的相关公司,从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中,请联系:2020@leiphone.com。
要让机器理解人类的话语,自然语言处理(NLP)是其中的关键技术。微软将这一技术用在了小冰、Cortana这样的虚拟助手,以及Skype的实时翻译上;Facebook智能助手M的核心技术之一也是NLP。但稍微调戏一下就会发现,这些通用的虚拟助手往往会答非所问,而M的背后更是有人类训练师的支撑。但这并不妨碍NLP技术在特定领域解放人力。
玻森数据通过中文语义分析开放平台为开发者提供NLP API服务,目前有15个处理引擎,其中3个供内部使用,能实现文本的信息分类、情感分析、实体识别、文本聚类和关键词提取等功能,主要服务对象是咨询公司、金融及媒体机构。比如,商家可以用相关引擎分析用户对产品的评价。
玻森联合创始人李臻介绍,一些实验室也有做NLP引擎,但一般会针对具体的问题,而商业化语义引擎则要能快速进入某个领域,提供快速、标准的服务。目前有约6000开发者在使用玻森数据引擎。
玻森引擎对本文的摘要分析
2015年初,出于政府信息公开力度加大的原因,玻森开始开发企业情报服务系统“风报”。它以玻森的NLP引擎为基础,根据政府文书、新闻报道、公司内部文件、财务数据和行业指数等(非)结构数据,分析公司的经营信息,用于风险控制和情报分析。以往了解一家公司可能需要自行查询政府数据库,并搜索相关媒体报道才能形成初步判断,但李臻表示,他们可以按时间、性质和事件形成公司的完整报告。这显然能节省不少时间。
提供企业信息服务的公司不少,有天眼查、企查查、启信宝等。李臻告诉雷锋网,风报的核心是分析能力。企业信息涉及很多裁判文书,提炼关键信息要进行去重、实体抽取、分词、清洗及分析等,这这些不是信息汇总就能完成的。
之所以选择企业情报服务是因为有一定的行业基础。玻森联合创始人之一的纪敏曾负责数十个企业上市及并购项目,具有丰富的投融资经验。
风报中的关系挖掘展示
李臻表示,玻森的主要优势在于NLP及语料库两方面。
玻森引擎自2006年开始,到2013年正式进行项目研发,有较长时间的技术积累,NLP引擎能进行半监督半自动化的学习。它已经在汽车、新闻和体育等行业有所应用。以汽车为例,可以为汽车之家这样的网站提供汽车咨询,客户访谈方面的分析,这需要对文本信息进行分词、抽取等,结合行业用户的知识体系再做引擎开发。李臻表示,目前少有其它公司用NLP做企业情报分析,因为NLP技术有比较高的进入门槛,一方面需要大量语料库的积累,另一方面需要对应用场景有深入理解的行业专家。
另外,目前主流的NLP技术以统计机器学习为基础,这就需要大规模的语料库,没办法做通用处理,需要根据行业进行定制。机器学习近二十年的进展很迅速,“更多的数据胜过更好的算法”成了业内许多人的共识。在良好算法的基础上,语料对NLP模型的准确性和通用性非常重要。而玻森目前在中文分词、实体识别、关系抽取、情感分析上积累了上百万条标注语料。
未来,玻森还会开发机器人客服系统,这也是NLP应用较广泛的领域,比较知名的公司有智齿客服。甚至,它还有图像处理产品研发的打算,按李臻的说法,图像识别所用算法与NLP相近。联想到国外知名创业公司MetaMind在2015年从NLP领域转型到图像分析,这并不是令人意外的产品路线。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。