您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给奕欣
发送

0

阿里巴巴开源语音识别模型 DFSMN

本文作者:奕欣 2018-06-07 15:00
导语:阿里巴巴达摩院机器智能技术实验室语音识别团队于即日推出了新一代语音识别模型——DFSMN,与此同时团队已将这一模型开源。
开发
企业:阿里巴巴
操作:开源
内容:阿里巴巴开源语音识别模型 DFSMN

雷锋网 AI 研习社消息,阿里巴巴达摩院机器智能技术实验室语音识别团队于即日推出了新一代语音识别模型——DFSMN,与此同时团队已将这一模型开源。

阿里巴巴达摩院机器智能技术实验室此前在刷新 SQuAD 成绩KITTI 成绩上有着突出表现,也凭借在 AAAICVPR 的论文发表,在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有突出表现。此次开源事件,也是阿里巴巴达摩院机器智能技术实验室首次凭借开发事件获得加分。

据雷锋网 AI 研习社此前了解,这一模型正是在国际声学会议 ICASSP 2018 上做 oral 报告的 DFSMN(深度前馈序列记忆网络)。DFSMN 使用基于 BLSTM 的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。而官方介绍,对比目前业界使用最为广泛的 LSTM 模型,训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。

据悉,DFSMN 模型不仅被谷歌等国外巨头在论文中重点引用,更基于世界最大的免费语音识别数据库 LibriSpeech,将全球语音识别准确率纪录提高至 96.04%。

去年 12 月,上海地铁与阿里云携手推出了上海地铁语音售票机。而刚刚结束的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的「AI 收银员」在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。这两者都是针对在嘈杂真实环境中的语音识别应用。

正如阿里巴巴达摩院机器智能技术研究院的语音交互智能实验室首席科学家鄢志杰此前接受雷锋网采访时所表示的一样,「今天语音交互技术的真实水平,与用户的期待、业界的 PR 存在明显的鸿沟。」而本次阿里巴巴开源 DFSMN,也是希望能让更多的开发者群体在语音识别领域能发光发热。

GitHub开源地址:https://github.com/alibaba/Alibaba-MIT-Speech

雷峰网版权文章,未经授权禁止转载。详情见转载须知

阿里巴巴开源语音识别模型 DFSMN

分享:
相关文章
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说