硝烟里的大模型，求变的机器视觉：「数据」决定天花板，「平台架构」是底牌？

本文作者：刘路遥

2023-08-30 18:06

导语：大模型时代，企业的自我革新是一项系统性的工程。

如果问最近哪个行业最热，无疑是大模型。

ChatGPT的落地证明了，大模型已经能够针对任务进行场景化应用，离用户更近了。

当一批类ChatGPT的通用大模型层出不穷时，另一批参与者着眼于“更容易落地”的行业垂直大模型，也走到了舞台中央。

机器视觉作为大模型重点应用的垂直领域，必将从这场技术革命中受益，但工业场景与生俱来的碎片化、样本量少等特点，也对大模型的应用提出了挑战。

大模型这一颠覆性的技术，究竟应当如何应用于工业中，大家还处在相应的探索中。

机器视觉的长期痛点：样本少、时间短、爬坡要求高

在人工智能和机器人领域，存在一个莫拉维克悖论，即对于计算机而言，只需很少的计算能力，就能掌握人类的逻辑推理等高级智慧，但对于人类无意识的感知、运动等低级智慧，却需要极大的计算资源。

这一悖论，在工业领域更加凸显。

在工业领域，用自动化的机器人替代人类，完成一个简单的动作，存在极大的瓶颈。

以摁压、扣接这类精密组装的动作为例，人类可以在手指不做出明显向前位移的情况下，仅通过肌肉的弹力或指尖的触感出色完成工作；但对于机器人来说，仅为了完成这一简单的动作，就需要进行大量的计算。

不仅如此，由于工业各细分领域千差万别，每一项固定工序背后都需要进行大量的计算，这些训练工作叠加起来的时间和成本，是企业难以负荷的。

当下，小样本学习技术、预训练、预适应，是目前阶段最适合工业场景的，这源于工业实际应用场景的严苛要求：样本少、时间短、爬坡要求高。

样本量少是工业领域的典型难题。

很多情况下，工厂里的边缘AI应用，缺少丰富、多样化的产品样本，并不利于进行模型的训练。

“缺陷检测场景中，工厂里会有很多正常的好样本，但异常样本的积累，通常要花几个月甚至半年的时间。”凌云光知识理性研究院副院长全煜鸣告诉雷峰网(公众号：雷峰网)。

假设一款新手机即将发布，前期模组生产已经耗费大量时间，最终组装仅剩两三个月，很难在这段时间中积累到足够的异常样本。

要在获取的样本极少，而产能爬坡要求极高的情况下，让整个产线适应新产品，就会对小样本、预训练、预适应提出极高的要求。

对于小样本来说，模型上面需要有极其严苛的适应性，数据上面要有很好的增广能力，要具备在样本少的情况下，增广样本给自己的模型做训练的能力。

寻找共性，是增广样本数量一个较为常用的办法。有一些缺陷，在某几个行业是相通的，比如中框、结构件的外观检测和手机整机的外观检测，再比如锂电和光伏的外观缺陷检测等，都存在一定的相通性。

“凌云光建立了拥有500万样本的专用工业数据集，可以对缺陷的机理进行研究，再加上深度学习和人工智能算法平台F.Brain，能够使得预训练模型和积累的工业数据集，有比较好的样本扩增的功能。”全煜鸣接着补充道：“生成缺陷只是第一步，还要兼顾与场景融合过程中的科学性，才能够保证小样本缺陷图增广的有效性。”

预适应和小样本一样，其目的在于使相关模型具有更好的精度和更广的适应范围，以满足不同工业场景，从而在一定程度上缓解产品在实验室中表现稳定，一到真实产线上就“歇菜”的普遍问题。

一边，工业场景对小样本学习技术提出了高要求；另一边，工业场景对产品的要求也日益提高。

首先，生产的精度要求越来越高。

宁德时代的倪军教授曾提出“极限制造”的概念，表示工业领域做到6σ（每百万个产品里头有一两个不良品）远远不够，而是需要做到9σ-12σ，即对不良品的要求上升到十亿级，每十亿个产品当中，只允许出现1-3个不良品，这对机器视觉厂商是个极大的挑战。

其次，3C制造领域、汽车、印刷品等行业的升级，对产品良率和产品形态提出了更高的要求。

在此过程中，怎样将物理世界的缺陷，通过摄像头感知到光电领域、数字领域，并对不同类型和程度的瑕疵进行科学分级，最终定义良品与不良品，实际上是一个难题。

这是因为，无瑕疵的产品几乎不存在，所谓的良品来自于人们对其的定义。

比如，苹果和富士康通过三级质量分级完成了对于良品的定义，为其提供视觉感知系统的凌云光，则对标人眼感知，将缺陷细化分级为十级，以此针对不同客户的质量要求，通过微调来满足需求。

这一切，都建立在一个前提基础上，即有一套能够精确感知缺陷的视觉系统。

其中有两大挑战，一个来自于数据，一个来自于平台架构。

To B 丛林探险，向场景要什么样的数据？

人工智能由两个部分驱动，一是数据，二是模型。

数据的重要性，正如ML（Machine Learning）大牛吴恩达提出的著名“二八定律”：80%数据+20%模型=更好的AI。

随着预训练大模型技术的发展，对于数据质量、数量和多样性的要求越来越高。

从样本中积累行业知识、场景知识是一条重要的路径。以显示屏裂纹检测为例，只有掌握了相关缺陷和产品物理位置的关系、物理形态上是否垂直于边缘、不同位置产生缺陷的概率等数据，才能够打造出好的预训练模型。

但要获取到精准的数据，却并不容易。

一是数据的完整性问题；
二是数据的维度单一性问题，检测点获取到的数据以及制程点的人机料法环测数据，能否从逻辑上实现闭环建模；
三是做知识抽取和知识沉淀时，实际上获取到的结论在验证阶段仍会出现偏差，需要更大数据量的验证；

全煜鸣坦言，即使是有着20多年行业积累，已经拥有数十亿级相关样本的凌云光，在数据获取过程中也依然面对上述的挑战。

在全煜鸣看来，减少上述问题带来的影响，需要做到精准感知和数据获取的标准化。

精准感知是对器件提出的要求。

照明系统、感知元件、光学传递相应的镜头以及待测目标，都要能够做到相关的标准度。只有在模块级做到精准，才能够在系统级的度量达到成像性能的一致性。

对于照明系统来说，辐射通量、光谱信息、时间的稳定性、温度的稳定性等度量指标，要能够在模块级进行测量和度量；对于感知元件来说，灵敏度、量子的效率、暗噪声、动态范围，也要能够进行精准的度量、调节；对于被测目标，要能够完整的对光电成像的过程进行物理建模和理论分析。

数据的标准化是从维度上说的。

比如对一个产品进行质检，其维度包括整体产品数据、瑕疵数据、产品履历、不同制程段的检测结果等各个方面，既有图像数据又有文本数据，有结构化数据和非结构化数据。

但需要注意的是，并非所有数据都有价值，数据的标准化过程，需要舍弃那些永远无人关心的沉默数据，留下有用的数据。

“数据的标准化是一个系统性的问题，对数据的单位、背景条件、存储都应该有相应的标准。比如，数据需要以什么样的形式存储下来，是不是要有产品的大图，有缺陷的小图用什么格式定义，在什么地方可以获取到等。”全煜鸣对雷峰网介绍道。

实现数据标准化只是第一步，在此基础上，还需要进一步实现数据的精准化，以及数据知识化。

数据的精准化，指的是能够重复获取的、稳定的、客观的数据。实现精准的数据，是挖掘到带有工艺知识和场景的知识化数据的基础。

以手机维修产线为例，维修不同产品过程中产生的数据，其实就包含了对手机或者手机主板怎样进行下一步检测的知识。最终将维修记录整合成标准操作流程的过程，就是将一般数据变成带有知识沉淀的数据的过程。

将带有知识沉淀的数据，用到知识图谱和大模型上，可以帮助终端客户缩短整体业务流程。

比如，富士康主板维修严重依赖于有经验的工人，但制造业人力供应链存在不稳定的弊端，对于富士康产线的工人来说，离职率会达到100%以上，尤其是一些有经验的工人很难被留住。相应的，老师傅的知识和经验也会跟着人一起走。

“通过知识图谱将大模型拓展至主板维修环节，过去 1500 步工序才能搞定一块主板，现在 15 步就能完成，产线 UPPH 足足提升了37%，让一线维修工真正可以‘入职三个月，五年老司机’。”

从标准化数据，到精准化数据，再到带有工艺知识的数据，三者之间层层递进，而数据自始至终都是穿插在中间的一条重要主线。

向平台化架构要体验

机器视觉设计多个学科，其复杂性导致通用性差，且高度依赖数据驱动。

在全煜鸣看来，机器视觉到今天，依旧像一门民间艺术，光、机、电、算、软各自为战，从成像的硬件，到成像的方案，再到算法软件平台，并没有形成一个整体的解决方案。

与此同时，随着大模型时代的到来，要把数据处理好，对技术架构带来全新挑战。如果没有全新的技术架构和全新的解决方案做支撑，就会出现技术投入越大，复杂度越高，但可持续性越弱的问题。

基于此，行业在思考如何高效地利用数据迭代模型的同时，也越来越重视技术架构的创新。

不过，企业在技术架构的搭建过程中，需要注意两个问题。

首先，要警惕脱离具体场景诉求谈技术架构，要基于业务搭建技术架构、平台，否则就是做无用功。

做架构的第一件事，是把需求捋清楚，把业务目标捋清楚，然后才有可能找到合适的方案。

据全煜鸣介绍，为更好做到从场景中来回到场景中去，凌云光将技术规划和产品规划分成了三个部分。

第一部分是目前已经落地应用的解决方案，比如2D视觉、3D视觉的量测、检测方案，思考怎样提高效率、提高精度，降低整体对端侧算力的要求。

第二部分是在一些新兴，短期有落地应用机会的创新方案上，领先行业半步，进行人才补齐等资源投入。

不过，全煜鸣也提到，“因为不能脱离客户的实际需求做研究，因此判断怎么样才是技术上提前半步，是比较难的。”

第三部分是针对超前的研究，进行提前布局。比如，凌云光三年前开始进行大模型和知识图谱的能力构建，提前将整体的技术框架进行落地。

也就是说，对于不同时期或者不同成熟度的解决方案，应当能够分梯次落地应用，并且做到一个闭环。

其次，当前构建的架构要有足够的灵活性，能应对未来的变化，保持旺盛的生命力。

也就是说，要具备能够诞生多个可模块化快速复制的集成用例，并且在平台化的技术架构基础上设计横向快速复制的方法。

一个既支持现在，又能支持未来的架构，不仅可以避免重复建设，节约成本投入，还可以更好地得到综合成本的下降。

技术架构走向平台化是重要趋势之一，凌云光2018年左右开始向平台化方向转变，时隔5年，到今年又发布了全新的KingKong技术架构，包含视觉、数字基准、大脑、自动化和驾驶舱五个部分。

在全煜鸣看来，KingKong技术架构的特征可以概括为三点：

对于视觉领域，是一个科学的标定和图像的科学评价，整体系统的一致性非常好；
在数据层面，有精准的数据，并且是带有知识的数据；
AI 模型上，是数据加知识的双轮驱动。

对于凌云光而言，这些技术为平台构建了丰富的、有差异化的平台功能与服务，提高了基础技术能力，为业务的安全、稳定、高效运行提供了保障。

对于客户来说，一个更具有一致性的技术架构，更能帮助提升缺陷产品的检出精度，加快交付，从而带来生产效率的提升，拉动产能。

一般而言，新设备进入工厂要经过NPI新品导入，之后便是产量和质量爬坡阶段。这个阶段越短，客户就越能省下更多物料和人员成本，更快进入大批量生产阶段。

“KingKong技术架构调整后，能够让手机的中框、顶框、底框的外观检测，到手机的整机外观检测，交付时间缩短。并且这样的解决方案，能够拓展到锂电外观、圆柱外观检测上。”全煜鸣介绍道。

垂直大模型叩响工业大门，颠覆性技术随时可能发生

人工智能领域的发展突飞猛进，大模型将对全行业都将产生颠覆性地重构，已经是业界共识。

在工业领域，从生产优化到供应链管理，从质量控制到创新设计，大模型正逐渐改变着工业领域的运作方式和业务模式。

然而，工业领域的复杂性和专业性，决定了通用大模型无法直接应用，尤其在一些要求高精度和领域专业知识的领域。

面对种种挑战，能针对行业细分领域提供更精确、可解释、安全和定制化的解决方案，比通用模型更具优势和适用性的垂直模型，受到越来越广泛的关注。

通用大模型虽然在多个领域都表现出色，但并不具备深入的领域专业知识。

以工业质检领域为例，产品质检涉及到大量数据和复杂的图像、声音、视频等信息，要求模型能够准确地识别和分析各种缺陷和问题，甚至是微小的变化。

但是，通用模型很难在短时间内学会这些领域知识，也很难捕捉到产线上工艺流程和设备运行等细节。

垂直模型具备专业知识，能够更好的理解和处理行业数据和任务，并且能达到更高的精度和性能，提供更准确的结果。

工业领域数据的稀缺性和特殊性，也使得通用模型难以应对。

要达到高精度，模型通常需要大量高质量的训练数据，然而在某些工业领域，特别是新兴或者小规模领域，短期内难以积累足够的异常样本，经常出现模型缺乏足够数据进行训练的情况。

此外，工业领域的数据还具有许多特殊性，对大量实时数据、多种类型数据、异常数据的处理和分析，是一项异常复杂的工作，难以被通用模型所理解。

垂直模型则降低了对数据的需求，只需较少的场景训练数据，就能实现高效开发，且定制成本更低。

工业领域讲求实际，对稳定性、可控性的要求极高，垂直模型更能获得客户的信任。

对于工厂来说，需要模型能够提供清晰的解释和推理过程，以便能够理解和信任模型的判断，从而做出下一步决策。

通用大模型通常是“黑盒模型”，内部运行机制较为复杂，难以提供透明的解释，较高的风险使其难以获得客户的信任；垂直大模型则能将其决策过程和推理逻辑展现出来。

安全和隐私问题，是敲开工业客户的最后一道大门。

工业领域的数据庞大且复杂，通用大模型尚难以提供足够的数据安全保障，并且工业领域的生产流程、产品工艺、设备参数等都属于工业企业的敏感数据，通用大模型的在训练过程中必然会接触广泛的公共数据，存在将工厂敏感数据泄露出去的风险。因此，很多企业在权衡风险与收益后，并不愿意将自己的数据提供出来。

垂直模型由于可以在特定领域内进行本地化处理，从而能够减少数据共享和隐私泄露的风险。

大模型的产生让人们意识到，整个机器视觉的解决方案，很有可能被一些极具革命性和创造力的新模型所重构。

全煜鸣坦言，“最近看到很多颠覆性技术，一些原先的技术路径或者解决方案，很有可能会被新技术颠覆。目前，凌云光F.Brain深度学习平台已实现工业场景数据、算法（模型训练）、推理为一体的云边端协同一体化平台。首先，通过算法平台进行特定场景的数据增广，模型训练精调，再由推理平台完成对多端多平台的部署优化。”

不过，工业场景对精确度、可靠性的要求极高，现阶段，这些新模型的直接导入应用还存在一定的瓶颈。

在全煜鸣看来，这是时代抛给企业的两个命题，一边企业要沿着已有的路线不停迭代，保证满足客户4个9，12个σ的确定性需求和规格；一边要保持技术的敏感性和兴奋度，警惕会带来颠覆性的新技术。

然而，要打磨出对行业有颠覆性价值的模型，绝不是一项闭门造车的工程。

企业需要在通用大模型基础上，微调行业大模型，最后再精调成相关制造场景的模型。

过程中，企业需要对不同产品和行业特点有深刻的认识；需要有行业高质量数据的积累；有在数据上进行研发、运算及推理的能力；有懂行业know-how的研究员和科学家等等。

这意味着，那些深耕于产业，能触达更多客户的行业场景，更容易从生产线上获取大量行业数据，且已经积累了较多科学精准样本的企业，将更好地满足工业领域的需求和挑战，同时具备更快的技术迭代速度和竞争优势。

结语

ChatGPT 带来的热度，就像是将一根针丢进了一片铁屑中，其与各行各业之间的连接，是确定无疑的。

但现阶段，关于大模型应当怎样在工业领域落地，怎样在边端、云端做相应的优化、轻量化，最终怎样做到投资回报的闭环，给工业带来效益，还处在相应的探索中。

这一过程中，充满着无数的变数，很难评判哪一家公司更有可能胜出。

但可以确定的是，市场竞争的核心将始终围绕一个词：真实需求。

接下来，在机器视觉领域，能在包括光学相机成像系统、软件和算法等AI技术上，做出对客户的提质增效、降本减存有数量级和革命性帮助的解决方案，将获得更大的加速度。如果您有更多关于机器视觉的故事和看法，欢迎添加作者微信MOON_ERS进行交流。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

刘路遥

主笔

VX：MOON_ERS 欢迎交流

发私信

当月热门文章