深度：芸芸众司向AI进军路上的笑与泪

本文作者：伍文靓

2019-04-11 18:48

导语：公司要对机器学习项目有一个清晰的认知，这一点十分关键。在AI、自动化和机器人领域，因野心过大而导致失败已不是什么新鲜事。

深度：芸芸众司向AI进军路上的笑与泪雷锋网注：【图片来源：Future of Life 所有者： The FLI Team 】

此AI非彼AI

人们可能已经厌倦了听AI改变科技公司的老生常谈。但抛开市场炒作不谈，对于AI公司来说，有充分的理由去研究怎样利用AI将公司收益最大化。

首先我们要将AI这个术语抛之脑后。虽然“AI”可以用来代表一个致力于制造智能机器的学术领域，但不得不说，它是一个定义松散的术语。这个术语为不择手段的供应商留下了发挥空间，让他们可以借由这个噱头，来重塑自己软件的古板形象。

华威商学院的副教授Panos Constantinides表示，“现在，几乎所有的事情都能与AI扯上关系，这正是炒作的关键点。”他补充说，“这种炒作之所以存在，是因为我们对AI缺乏清晰的认识。”所以，为了避免这种情况，我们要清楚这一点：如今大多数技术供应商在谈论AI时，其实指的是机器学习。

机器学习是AI的一个子集，通过机器学习，计算机能够自行分析大量数据，然后执行相应的任务，而不再需要等待程序员发出指令。

最近，由于计算机视觉、语音识别和自然语言理解等领域取得了突破性进展，人们对机器学习也产生了浓厚兴趣。这些领域的蓬勃发展其实要归功于实现机器学习的新方法，比如深度学习，而深度学习又得益于现代处理器的强大功能和大量可收集的数据资源。

从理论上讲，机器学习有望使大量工作自动化，即便是目前仍需要人类手动完成的任务。虽然，机器学习已经用于客户查询服务、后台管理，甚至汽车驾驶等领域，但现实情况是，想要在生产中完全依赖基于机器学习技术的系统，芸芸众司还有很长的路要走。

O'reilly做了一项调查来判断AI在企业中的使用情况，尽管AI的使用情况因行业而异，但是，不到75%的受访者表示，他们的企业要么正在评估“AI”，要么还没有开始使用“AI”：

深度：芸芸众司向AI进军路上的笑与泪雷锋网注：【图片来源：ZDNet 所有者：O'Reilly 】

机器学习无孔不入

不少赫赫有名的企业已经使用机器学习：劳斯莱斯通过分析互联网传感器的数据，及时发现飞机引擎的磨损迹象，并提前进行维修；谷歌使用了DeepMind的技术，将用于冷却数据中心的能量降低了大概40%；亚马逊使用图像识别来识别顾客从Go商店里购买的商品，而Go商店是亚马逊旗下的自助商店。

早在多年前，机器学习就已经应用于各大企业，只是它的表现有点平淡无奇：亚马逊的智能系统会推荐你买更多产品；Netflix的智能系统会推荐你看更多节目；在微软等公司运营的全球安全系统中，一旦出现网络威胁，系统就会发出警告。

最近，像花旗集团这样的金融投资公司也开始使用机器学习来警惕欺诈交易和支付错误。

您的公司很有可能也使用了基于机器学习的服务，哪怕和机器学习只有一点点关系也算。例如，在自然语言处理和语音识别中使用机器学习，从而驱动客服中心的聊天机器人或是其他自动响应系统。

总体上来说，O'reilly的受访者认为，客户服务和IT是自己公司使用“AI”最多的两个领域。而其他公司已经着手通过机器学习为员工执行的重复性任务建模，试图将这些任务自动化。目前，已有一些公司专攻这一领域，也就是所谓的机器人流程自动化(RPA)。

实际上，RPA并不总是涉及机器学习，而且从历史上看，RPA是由开发人员来实施的，他们为软件过程的自动化制定规则。RPA不应该与机器学习相混淆（因为自动化过程的步骤可以由开发人员编写），但是，弗雷斯特公司预测，机器学习未来将在RPA中扮演更重要的角色。

这家分析公司在一篇报告中指出：“目前，众多企业已经将包括机器学习和文本分析在内的AI模块构建技术与RPA相结合，从而为数字工作者带来更大的收益。”但是，在生产过程中使用机器学习的公司仍然只是少数，大部分公司只是试用机器学习系统，或者仅仅使用像Gmail这样包含机器学习功能的服务。

华威商学院的教授Mark Skilton表示，“企业追求RPA，这无可厚非。据我估计，目前，社会上有20%至30%的工作已经使用了这项技术，但机器学习的应用范围仍然非常小。”

不过，正如O'reilly的报告显示，有近三分之二的受访公司计划，在未来一年里，投入至少5%的IT预算来开展AI项目。各家公司都已开始察觉，在未来几年内，机器学习系统有潜力让公司现有的效率，服务和产品质量更上一层楼。

不少企业告诉弗雷斯特公司，他们投资自动化的主要原因是想节约成本。下图是企业对“采用自动化技术最大的收益是什么，或者可能是什么？”这个问题的回答，弗雷斯特公司对回答进行了整理和分析。

深度：芸芸众司向AI进军路上的笑与泪雷锋网注：【图片来源：ZDNet 所有者：Forrester 】

机器学习的正确打开方式

当然，尚不清楚进行机器学习的理由就贸然采用机器学习，这种做法并不明智。那么，机器学习究竟能做些什么呢?

机器学习最经典的任务就是在大量数据中找到目标。在实践中，这种识别能力可以从音频中识别单词，从照片中识别人脸，或者理解一个单词在句子中的意思。

如果想要引入机器学习，你需要该领域专家的协助，还需要一个内部数据库。在项目开始之前，你还有很多事情要考虑，比如，自己要利用机器学习完成什么目标，机器学习是否是完成目标的不错选择，以及你需要的机器学习类型（监督机器学习、无监督机器学习和增强机器学习）。

除此之外，你还要清楚自己在收集什么数据类型，怎样让这些数据适合于训练机器学习模型，以及这些数据有哪些特性利于训练机器学习模型。Constantinides教授说，“数据科学家需要创建机器学习算法，但如果你的数据有误，就没办法正常运行机器学习。”

还有一个问题是，使用现有的数据来训练模型可能会要求你寻求进一步的许可，或者实施额外的保护手段来遵守隐私法规，比如欧盟的GDPR。

Constantinides教授表示，在训练深度神经网络时，想要获得GDPR的同意尤其具有挑战性，因为GDPR为机器学习技术的使用设置了额外障碍。他解释道，“数据大量集聚，我们很难确切地知道它们到底来自哪里。”

当涉及到技术选择时，你需要决定是租用云硬件，还是构建自己的深度学习平台。亚马逊、微软和谷歌等公司是主要的云平台提供商，它们提供一系列按需付费的机器学习服务，包括语音识别、计算机视觉、自然语言处理、情感分析、数据预测和翻译等。有时，这些服务被捆绑成更高级、更复杂的产品，如聊天机器人创建工具包和零售商推荐引擎。

除了按需服务之外，包括AWS、Google Cloud和Microsoft Azure等在内的云平台还提供其他服务，允许企业利用这些平台的云基础设施，来训练和运行自己的机器学习模型。模型经过训练之后，就可以满足这些公司对数据的需求，但这一目标完成的前提是内部数据科学家、领域专家和IT运维人员的共同努力。

云平台提供商甚至已经开始提供服务，将机器学习模型的培训过程进行部分自动化，尽管这些服务旨在增强数据科学家的技能，而不是取代他们。

还有一些服务简化了机器学习模型的训练过程，比如微软的Machine Learning Studio、谷歌的Cloud AutoML和亚马逊的AWS SageMaker。

与此同时，机器学习模型(例如，在计算机视觉任务中给图像贴标签)的训练数据准备，往往由众包网站外包给自由职业者。

如果你决定在公司内部建立自己的机器学习系统，这笔费用可不是一个小数目。但如果你预计培训过程将持续数月，并且工作量巨大，那么它可能比使用云服务更实惠。

另外，你需要投资一个性能强大的GPU来完成你想要的一切任务，而不仅仅是训练神经网络，因为训练这种支持机器学习的类脑数学模型相对简单。而且，通常来说，GPU是训练神经网络的必需品，因为它们能够并行执行大量的矩阵乘法，这有助于加快训练的速度。

如果你不打算训练有大量图层的神经网络，你可以选择消费级显卡，比如英伟达的GeForce GTX 2060，售价只要320英镑左右，但仍然提供1920个CUDA核心。

然而，重型训练需要更加专业的设备。用于机器学习的最强GPU之一是英伟达的Tesla V100，它包含640个AI定制张量计算核心和5120个通用高性能计算CUDA核心。但是，这种显卡的价格远远高于消费级显卡，PCI Express版本的价格最低也要7500英镑。

如果要构建AI工作终端或服务器的话，成本要再高出一个数量级，英伟达的DGX-2专攻机器学习和AI研究，它包含16张Tesla V100卡，售价高达39.9万美元。

深度学习软件框架也数不胜数，这种软件框架允许用户使用不同的编程语言来设计、训练和验证深度神经网络。其中，谷歌的TensorFlow软件库因为许多优点而广受欢迎：允许用户使用Python，Java，c++和Swift等多种编程语言；可用于多种深度学习任务，例如图像识别、语音识别；可以在CPU、GPU及其他处理器上运行；有许多可用的教程和实现模型。

另一个常用的框架是PyTorch，这个框架对初学者很友好，因为它提供了开发人员熟悉的命令式编程模型，并允许程序员使用标准Python语句。PyTorch还可以与多种深度神经网络(从CNNs到RNNs)协同工作，并在GPU上高效运行。

其他框架包括Cognitive Toolkit、MATLAB、MXNet、Chainer和Keras。

从计算机硬件，到机器学习框架，科技的进步意味着，现在，公司部署训练有素的机器学习模型已经不再遥不可及，这些模型在物联网传感器采集的数据中识别目标，也会变得更加便捷。

机器学习应远离核心业务

公司可以用什么类型的项目来检验机器学习的效果呢？Constantinides教授建议从简单的任务开始，也就是说从一个非关键的业务领域切入，然后进行扩展。

Constantinides教授以客服中心的聊天机器人为例，为广大企业提供了一个可行的选择。这种聊天机器人可以回答一些重复性强的问题，如果问题太复杂，它就可以将客户交给人工客服。

“大多数公司都认为客服中心位于公司核心竞争力之外，”Constantinides教授说道，“因此，从这里开始的风险相对较低。”Constantinides补充说，公司的聊天机器人项目运行稳定后，就可以转向另一种基于机器学习的服务，也就是所谓的推荐引擎。

该服务能够帮助扩大公司AI项目的规模。一旦获得了客户的数据，公司就可以开始进行不同类型的预测，或是提出相关的问题，比如“您会考虑购买其他产品吗？”

同样，弗雷斯特公司的Gownder也强调了这一点：将启动项目的重点缩小到特定任务十分重要。在一份报告中，他举了一家医疗科技公司的例子，这家公司专注于为放射科医生分析医疗扫描结果，而不是设定从整体上攻克癌症这种更宽泛更难以实现的目标。

项目随时失败的可能性

公司要对机器学习项目有一个清晰的认知，这一点十分关键。

弗雷斯特公司的Gownder也表示，在AI、自动化和机器人领域，因野心过大而导致失败已不是什么新鲜事。就像安德森癌症中心曾花费6200万美元，使用IBM的Watson帮助病人确定治疗方案，然而，项目最终还是失败了。

一般来说，在使用机器学习技术时，我们有必要控制自己的期望值，要意识到机器可能会带来并不完美的结果：语音识别会转录错误，面部识别系统会辨认错误的人。正因如此，这些系统的用途是辅助人类进行判断，缩小选择范围，而不是直接取代人类。

虽然，自动化的趋势减少了社会上从业人员的数量，但是，以目前的科技水平来说，想要完全实现自动化还为时尚早。

Gownder在弗雷斯特的报告中也指出了过度过快自动化的危险。报告里援引了汽车制造商Tesla的举措为例，在发现机器人不适合执行某些任务后，该公司决定让人类重返生产线。他说道，“自从让人类重返生产线以来，Tesla的Model 3成为美国最畅销的汽车之一，从2018年1月仅生产1825辆汽车，增长到7月12日的14250辆。”

另外，企业还面临着一个更为复杂的问题，那就是开展机器学习项目需要数据科学专业家的帮助。例如，O'Reilly的调查中，超过一半的受访者表示，自己的企业需要相关领域的专家指导。在O'Reilly的另一份报告中，数据科学和数据工程再次被列为公司在分析相关的技能方面存在最大差距的两个领域。

深度：芸芸众司向AI进军路上的笑与泪雷锋网注：【图片来源：ZDNet 所有者：O'Reilly 】