2020最佳AI新基建年度榜
您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界 正文
发私信给贝爽
发送

0

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

本文作者:贝爽 2020-09-28 20:33
导语:Everyone can AI 的理想又近了。

无人猪场,需要EasyDL。

“母猪正在生产中,无法实时知道有几只猪崽,健康情况如何”,一位坐拥上数千头猪的河南养猪大户最近总是陷入这样的焦虑。

席卷全国各地的猪瘟刚刚过去,为了加强防护,他的猪场几乎开启了无人养殖的模式,这也为他带来了很多头疼的问题。

工作人员进出一次猪棚,需要消毒、检测,全副武装,对于大规模养殖来说,成本、耗时不说,更重要的风险很高,他清楚地记得一头猪感染猪瘟,导致猪棚内上百只猪死亡的画面。

在严格的控制人员进出的情况下,像“猪口普查”,“健康检查”等工作也变更难了。

回想起去年这个时候的焦虑,这位养猪大户轻松了不少。现在的他通过AI技术,可以在家中实时监控猪棚内的状况、判断猪崽的健康状态。

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

不仅降低了管理的风险和成本,提高了效率,而且还避免了因其他工作人员经验不足,而对猪崽健康状况的判断失误,这也是大规模养殖普遍存在的一个痛点。

而这项AI技术就是百度的零门槛AI开发平台—EasyDL。

“零代码”搞定AI需求

EasyDL是基于百度飞桨深度学习平台推出的高效易用的零门槛、一站式AI开发平台,支持智能数据、模型开发、服务部署等全流程服务。目前已经支持图像分类、物体检测、图像分割、音视频分类、语音识别自训练、表格数据预测、文本分类、情感倾向分析等任务类型,可以帮助中小企业结合业务需求,解决效率和成本的问题。

怎么理解呢?

比如,上述猪崽体检方面,用户只需将病猪的图像数据导入EasyDL平台,训练定制化AI模型,就可以将“人为诊断经验”复制为机器学习经验,再经过物体检测技术,无需人眼观察也可以准确判断猪崽的健康状态。

如此来说,EasyDL可以理解成:根据定制化场景需求,通过学习“有经验的专家知识”,来代替人类解决规模化的复杂问题,进而提升成本和效益。

值得一提的是,百度AI平台研发部总经理忻舟,在接受雷锋网(公众号:雷锋网)采访时多次提到:

“EasyDL的目标是降低AI门槛,让零算法基础的用户,不用一行代码也可以基于需求和数据,定制自己的AI解决方案”。

这一点在AI养猪、肉牛称重,工业质检、桥梁检修等诸多成功案例中都有所体现,而且也普遍受到了用户的好评。

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

但忻舟也强调:

“简单不意味着妥协,EasyDL会始终秉持最初的研发理念:简单且专业”。

自2017年底上线,到如今近三年的技术研发和迭代,EasyDL在数据服务、模型精度、部署服务等方面不断升级,已经能够处理更多、更复杂的应用场景。

在这里,忻舟为我们分享了一个典型案例:EasyDL帮助一家专业猎头公司解决了其核心业务问题。

这家公司名为瀚才猎头,自创立以来一直面临着一个核心问题:200万条数据的人才库,利用率只有不到10%。

作为一家猎头公司,如何高效地为客户推荐合适的人才是他们的核心业务,也是其在行业发展中的核心竞争力。

瀚才猎头有5位创始人,在业务发展过程中积累了很多重要的客户资源和庞大的人才库,但其非结构化数据库和传统简历初筛方法,让这些资源和优势没有得到很好的发挥和利用。

而这个局面在使用EasyDL后发生了改变。以前按照关键词搜索的方法,每天只能找到60-70份合适的候选者简历,现在经过数据结构化处理后,20分钟就可能达到600-1000份,而且准度达到了95%以上。

整个效率提升了200倍,节省了时间、人力成本的同时,200万简历库也得到了充分的利用。

一位创始人坦言,他们之所以选用EasyDL,不仅是因为数据结构化的效果好,更重要的是其零开发门槛、一站式服务的特性,节省了自己配置技术团队,做数据处理、算法研发和算力支持的成本。

那么,无任何开发经验的HR是如何完成AI模型训练和部署的呢?

EasyDL操作流程只需以下四步:创建模型、数据准备、模型训练和应用部署。

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

他们根据业务需求,按照“职级”和“职能”两级分类对200万数据的人才库进行了结构化处理:

  • 创建模型:登录EasyDL平台,完成注册和模型选择。

  • 数据方面:200万人才数据,手动标记1万条,再通过EasyData智能标注完成剩余199万条数据标注。

  • 模型训练:导入全部数据,在平台内置的文心(ERNIE)预训练模型基础上进行训练。

  • 部署方面:训练好的模型可直接生成供调用的API,而且有完善的SDK代码包可以使用。

可以看到,以上操作过程无需任何代码基础,只要按照业务需求,完成数据处理和提交,选择部署方式即可,而且精准度很高。不过1小时的AI模型训练,帮助他们解决了自创业以来最头疼的业务问题。

另外,需要强调的是,以上看似简单,易操作的背后,是其内部复杂、先进的AI技术支持。

降本增效,一站式AI服务

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

在数据处理环节,EasyData提供了数据采集、清洗、扩充、标注全方位服务。

根据2019年AI机器学习项目调研的报告,96%的企业都在“数据”一环遇到了难题,尤其是数据标注,耗时,而且准确度不高。

针对这一问题,忻舟介绍称,EasyData提供了丰富的智能标注方案,支持物体检测、图像分割和文本分类三种数据类型的智能标注,只需标注少量数据,其余便可通过“智能标注”自动完成。在相同任务和同等模型效果下,数据标注量平均可以减少70%。

在上述简历库的文本分类中,员工手动标记了1万条,其余199万全部是自动完成。

另外,在数据采集、清洗和扩充方面也经常出现问题。忻舟介绍称,一家做果蔬智能识别系统的创业公司,他们的果蔬电子秤,在超市试运营时,经常会出现因物体遮挡、光线不足,导致数据采集质量差的问题。

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

在使用EasyDL后,通过对图像数据进行相似度的去重去模糊,剪裁,旋转,镜像以及数据增强等处理,在50种水果的测试中,准确率达到了95%以上。

同时,EasyDL还在数据采集方面,提前对端设备进行了测评和适配,免除了使用者在设别选型、调试和集成开发工作上的成本,将采集效率从“周级”提升到了“小时级”。

最后,忻舟重点强调称,EasyDL根据实际的用户需求还提供了数据回流功能,在数据处理上形成了一个完整闭环,使数据处理更加高效。

在模型训练方面,EasyDL内置了基于百度海量数据库的超大规模视觉预训练模型和文心ERNIE 2.0。“这也是EasyDL性能远超其他AutoDL产品的独特优势”,忻舟强调称。

瀚才的简历文本分类采用文心(ERNIE)预训练模型,训练效果达到了95%+。预训练相当提前学习了大量NLP语料,在一定的背景知识下,再通过持续学习的语义理解框架,对输入数据进行识别,可以有效提高识别的精准度。

在模型训练上,百度还融合了自研的高性能自动数据增强(Auto Augment)、自动超参搜索(Auto Finetuner)和NAS(自动网络架构搜索)等自动化建模技术,可以进行模型自动调优,降低算法工程师的调优成本,同时,模型精度也可以平均提升10%以上。

在服务部署环节,EasyDL提供了公有云 API、本地服务器部署、设备端 SDK、软硬一体产品,4大部署方式,用户只需经过简单的设置,就可以将训练好的模型转换为满足业务场景需求的服务。

其中,设备端 SDK,适配了NV Jetson 系列、Intel 神经加速棒、华为 NPU、华为 Atlas、高通 DSP、RK 等十几种业界主流的端设备。

在软硬件一体部署上,EasyDL适配了市面上6种高性价比的软硬件,覆盖高中低全矩阵,模型识别速度可提升十倍,例如EasyDL加小体积低功耗的英特尔芯片,在轻量级模型MobileNet V2上,25毫秒就可以完成端到端的预测和推理;英伟达Jason可以满足中高性能和超高性能的场景化需求,而它在V2模型上只需要4毫秒。

加速AI落地,直击各行各业

2020年,EasyDL开始走向加速AI场景化落地的阶段。

AI落地,是近些年人工智能产业发展的主旋律。一方面,计算机视觉、自然语言处理等技术已逐渐趋于成熟,急需走向现实场景发挥价值,另一方面,随着社会的快速发展,中小企业的AI需求空间也在进一步突显。

但要想在AI和需求之间达到最佳匹配,还存在很多挑战。

从2017年正式上线,实现从0到1的跃迁,到2018年成功案例的大量出现,EasyDL在AI落地方面已经初见成效。忻舟表示,2020年,随着技术的逐步成熟,EasyDL会加快落地速度,进一步提升AI落地能力。

具体来讲,将继续从以下三个难点入手:

AI门槛:这是所有企业寻求智能化转型的首要痛点,尤其是对于中小企业而言,一方面不懂技术,不知道哪些场景需求可以通过AI来实现。即使了解,对于复杂的AI技术,学会应用也是一大难点。

另一方面,对于有技术团队的企业来讲,AI底层基础设施要求很高,需要大量的资源、成本投入,而且最终达成的效果可能也未必能够满足需求。

从这两点出发,EasyDL一直致力于开发零算法基础,人人可用的AI开发平台,同时,基于百度的海量数据和研发优势提升模型训练性能,打造从端到端的一站式服务,满足算法工程师们的应用需求。

目前EasyDL的零门槛、专业性强等特性已经被中小企业广泛接收,其官网显示,使用EasyDL的用户数已经超过70万,覆盖20多个行业场景,包括互联网、工业、农业、医疗、物流、零售、教育、交通等;

定制化需求:各行各业有着丰富的定制化场景需求,其中,最为明显可以说是零售行业,如商品检测中的相似、遮挡检测,智能结算中的 SKU 快速更新等,都需要定制化的AI解决方案。

在这方面,EasyDL除了提供通用版本外,还开发了零售行业版。为了应对更复杂场景的检测需求,零售版主要新增了以下核心功能:

  • 打造软硬一体的全自动 SKU 采集箱,降低 SKU 数据采集成本,让采集数据更加标准、规范。

  • 自动图像合成技术,基于SKU 单品图和货架图,自动合成各类实景图,模拟真实场景中物品的遮挡、旋转、重叠等状况,提高模型的泛化能力。

  • 提供除商品检测外的翻拍识别、货架拼接、货架层数识别、价签识别等增值功能,并提供完善的 SDK。

基于以上技术,零售版已经在商品陈列审核、无人药柜等多个场景下被广泛使用。百度团队透露,接下来,还会针对农业、工业等行业推出更多定制化版本。

AI技术能力:它是任何AI产品应用落地的基础,也是核心。在这方面,基于百度飞桨开源深度学习平台的EasyDL具备独特的领先优势。

一般来讲,市场上AutoDL产品的核心竞争力,无外乎两个方面:一是效率问题,AI应用最基础的诉求就是如何帮助企业降低时间成本,抢占市场先机。

围绕这一点,EasyDL在模型方面,基于飞桨的超大规模预训练、并行训练,显著提升模型训练速度;在数据服务方面,为数据采集提前适配主流硬件,并提供从采集到回流的完整解决方案,节省数据处理时间。EasyDL是业内首个提供一站式智能数据服务的产品。

最后值得一体的是,设备端的部署服务。忻舟介绍称,边缘端部署因为算力低、内存小的特性,近些年在行业内非常火爆,用户需求非常大。因此,为企业提供高性能的边缘端部署方案也是EasyDL的重点研发方向。

二是使用效果,这是满足企业AI需求的关键性指标。从技术层面来看,可以具体理解为文本分类的准确性,物体检测的精准度。

在这方面,EasyDL内置的基于飞桨的文心ERNIE和超大规模图像预训练模型发挥了独特优势,经检测,在视觉任务中,通过百度数据库10万+分类、6500万张图片训练的预训练模型,平均精度可提升 3.24%-7.73%;在物体检测任务中,经过800+标签、170万图片,1000万+检测框训练的预训练模型,平均精度可提升1.78%-4.53%。

除此之外,百度团队还升级了模型压缩技术,通过降低端侧模型体积,进一步提升模型性能。

最后谈到EasyDL的进一步研发方向,忻舟表示,将继续围绕简单、但更专业的理念来开展,具体来说涉及以下几个方面:

  • 覆盖范围:除了扩展已有的算法类型,如 CV、NLP,传统ML方向,语言识别方向外,还将推出OCR、视频追踪等定制化能力。

  • 技术优化:持续提升模型效果,提高训练速度和精度,加速模型推理。同时结合不用场景,推出更多类型的预训练模型。

  • 易用性:在数据、模型、服务等方面,持续降低使用门槛。

另外,忻舟还重点提及了EasyDL的共享生态建设。他表示,希望更多企业能够加入到EasyDL落地中来,通过真实的业务需求,探索更多AI应用空间,由此,EasyDL也能够根据实际场景,不断提升技术能力,为更多企业赋能。

出于这一目的,百度团队近日还推出了“万有引力计划”,进一步降低AI门槛,助力中小企业降本增效。

削平“AI门槛”,挖掘潜在场景

毋庸置疑的是,AI应用场景巨大且丰富,但需要深度的探索和挖掘。

此次,为了颠覆各行各业对AI高门槛的认知,百度EasyDL面向所有中小企业推出了——万有引力计划。

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

该计划旨在为万家有AI需求的企业各提供一万元专项基金,推动其智能化转型。

通过EasyDL经典版免费完成模型定制、部署与应用,即可领取万元专项代金券。

无需了解算法细节,最快10分钟就可以训练出高精度AI模型。如果AI落地效果突出,还有机会获得最高十万元的特殊补贴!

参与详情见:百度EasyDL零门槛AI开发平台雷锋网雷锋网

雷锋网原创文章,未经授权禁止转载。详情见转载须知

5分钟上手,10分钟定制高精度AI模型,百度EasyDL到底有多硬核?

分享:
相关文章

文章点评:

表情
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说