尴尬的2.5D ：3D的「里子」，2D的「面子」

本文作者：刘路遥

2023-09-21 10:07

导语：机器视觉领域，仍旧以2D为主，3D（2.5D）为辅。

2D和3D是机器视觉领域两个重要的概念，一个维度之差，带来的是从平面信息到空间信息的质的飞跃。

3D视觉诞生之初以人眼作为参照，目的是让机器能够更清晰地认知人类所处的三维世界。

这个赛道的企业无不以“3D视觉”自居，然而，在这场从2D到3D的技术接力赛中，也潜藏着一个不被外界所知的维度——2.5D。

“一大半宣称3D视觉的公司，其实都是2.5D，不是真3D，而且能做到2.5D已经很不容易。”机器视觉从业者马迪这句话，揭下了不少3D视觉公司身上的新衣。

所谓的3D，很可能是2.5D

在机器视觉中，3D和2D的区别主要三点：

第一，物体的识别和测量。

2D获取的信息相对简单，只能看到物体的平面信息。3D则是在2D的基础上，增添了深度信息。提供了一个超级“数据集”，能更准确地识别物体的形状和位置，弥补2D无法进行深度测量和分析的不足。

第二，处理对象。

2D图像由像素点组成，每个像素点都有一个颜色值，最终呈现出来的是一个规整、对齐的像素图；3D图像由许多点云组成，点云记录的是物体在空间中的位置和形状，点云是不对齐、无序的。

第三，算法上也有区别。

2D视觉常用的算法和技术包括边缘检测、特征提取、图像分割、物体识别等。3D视觉常用的则是深度估计、点云处理、三维重建、SLAM等。前者通过分析像素之间的关系和特征来实现，后者则通过分析和处理深度图或点云数据得到。

换句话说，2D视觉对平面信息可以直接获取，但3D视觉的深度信息，却需要通过计算得到。

以深度学习的理解能力为例，深度学习在2D上做图像识别分类能达到九十多分，但当其碰到点云时，表现就会降至七八十分。

3D成像在国内的发展历史并不是很长，2D成像处理已经很成熟，但3D的成像处理却很难。

“真正的3D，因为有多个视角，所以得用多个深度图表示，深度图的融合，只能通过点云处理，点云是不对齐和无序的，可以旋转和缩放，这个门槛卡住了很多的工程师。”马迪解释道。

但下游客户的确有大量3D需求，面对3D成像技术这道难关，2.5D顺势而生。

作为技术过渡阶段的产物，2.5D兼具2D和3D的部分特征，形成了对图像的独特处理方式。

相比2D，2.5D增加了深度信息，与3D相比，2.5D图像又并非通过点云，而是通过颜色传递高度信息。并且不同于3D的多视角，2.5D是单视角，信息比较残缺，很多算法最终都会回归到2D算法上。

“2.5D和3D的本质区别，可以从视角来解释，单视角很有可能是2.5D，必须得是多视角才是真3D，多视角是判断真假3D的一个充分不必要条件。”马迪对雷峰网(公众号：雷峰网)指出，从视角角度可以很容易区分3D、2.5D、2D的不同。

技术上的亟待突破投射到下游应用中表现为：机器视觉的相关工位，仍旧以2D为主，3D（2.5D）为辅。

“检测任务就属于大部分没有解决，还靠人工在搞，小部分解决那些，基本依靠2D，当2D无法胜任时，会用3D解决，并且很多所谓的3D也不是真3D，而是2.5D。”

不过，2.5D的存在也有其合理性，在部分非复杂应用场合中，客户又需要获取深度信息时，相比高成本的3D视觉，2.5D常常能以绝对的性价比取胜。

2.5D拉低了3D视觉门槛，真3D技术壁垒依然很高

从趋势看，人眼的世界是个三维世界，从替换人眼的角度，3D视觉一定是未来的趋势，好比以前手机用2D相机，现在都在往3D相机转，大量场景需求只是时间问题。

不过现阶段，需要真3D的下游应用场景还不够多。

以3D检测为例，“目前检测任务大部分还在依靠人工，小部分用机器视觉解决的，基本上用的都是2D。”

追根溯源，是3D视觉产品在客户端的接受度还不够高。

一方面，3D相机的成本太贵，导致设备整体价格较贵；另一方面，多视角混合的真3D，超出了大部分工程师的处理水平，视觉厂商要真正把3D做好很难。

因此，站在解决问题和性价比角度考虑，在2D视觉足够解决场景问题的情况下，客户并不愿意为成本更高的3D买单。

在追求优质性价比的工业市场上，那些需要获取深度信息的场景客户，从成本方面考虑，选择2.5D视觉，已经能够满足基本需求。

这使得3D视觉行业的进入门槛变低，而技术壁垒和行业难题犹存。

多位机器视觉投资人也曾对AI掘金志表达过这个观点。

目前，结构光、ToF和双目立体是三个主流的3D成像技术，其他成像技术都是在其基础上的变形，国内均已有成熟的开源算法。

“反正都是开源的，只要学过算法，即便没在机器视觉公司工作过，也很快能跑起来。”王浅介绍，他有不少朋友硕士毕业后到机器人或视觉公司工作，并且一开始就承担核心研发工作，“都是先在实验室用存量数据或者公用数据，跑起来后，再去工厂用他们的数据。”

晏小锋认为，除开半导体这类壁垒极高的领域，一旦出现新兴技术和市场，国内就开始内卷，但以3D成像技术为例，要做到低功耗、低延迟、高帧率、高分辨率，国内外仍然有不小差距。

前两年疫情催生下，机器人行业需求爆发，3D视觉作为机器人在复杂环境实现“无触式”的关键技术，受到资本热捧，尤以距离落地更近的中游设备商和方案商，最受追捧。

在此过程中，一项新的产业，攀附着3D视觉行业悄然生长：3D视觉创业培训。

传感器从业者贾科介绍，北京有一家小公司，专门做3D传感器的解决方案培训班。他们会先从传感器圈子找人参加各种行业论坛，一旦发现哪个老板想融资，就和对方建立合作，从研发培训课程，到企业一步步搭建，再到配套硬件，提供一条龙服务。

“这个公司有个公众号，每天讲一点秘密，底下评论的全是这个圈子的老板，大家都是一条流水线快速培训起来的，各种忽悠资本不挺香吗？”贾科对雷峰网说。

这类企业带着明确的To VC目的，“因为3D是一个很好的概念，所以玩命往上凑”，他们在低水平处重复建设，不仅毫无技术差异化可言，还拉低了3D视觉行业的整体对外形象。

至于业内发展较好的企业，也大都沿袭着主流的成像技术，用着成熟的开源算法，虽在国产替代浪潮中有所成绩，但极少有企业能拿出创新技术或方案，能解决传统视觉厂商解决不了的问题。

或许正因如此，在3D投融资热潮过去后，不少投资人选择“弃城而逃”。

当然，3D视觉创业者谷永道出投资人离场的部分原因：真正懂机器视觉的投资人，凤毛麟角。

“机器视觉属于硬科技赛道，对投资人有专业性方面的要求，即使不是互联网背景、金融背景，哪怕是半导体背景，也看不懂机器视觉赛道。”

事实上，从技术底层看，3D视觉领域的技术壁垒依然很高。

不同于投资人的观点，创业者、从业者普遍认为：3D视觉行业不是技术壁垒变低，反而是客户有很多痛点问题需要解决，但目前还没有真正被突破。

比如高速、高精度场景，国内极少有企业能做得了。

“国外一家传感器公司，专吃高速场景，售价比国产最低端相机贵30%-40%，并且不带服务，还能保证四成的毛利。”贾科进一步解释，这家公司之所以能做得好，是因为花真金白银给客户定制CMOS芯片。国内极少有企业做高速高动态场景，部分原因在于给钱也买不到国外的定制芯片。

这些技术实现过程中的曲折，非业内出身的人，很难有深刻的体会。

一位二十年从业经历的行业老兵表示，目前国内大多数视觉公司实现不了真3D，一方面出在技术积累上，一方面出在数据积累上。

国外机器视觉，从20世纪70年代起就已真正开始发展，而机器视觉在国内的发展，不过是近二十年的事。

除了3C、汽车、新能源、锂电、光伏等已经相对成熟的制造业，其他行业的工业客户，对于瑕疵样本的留存意识不足，导致数据获取成本非常昂贵。

当下，大家都在试图用AI解决制造业中的瑕疵检测难题，但依然很难达到客户“4个9”（即0.9999，特定时间10000个里一个瑕疵品）的要求。

在谷永看来，这是因为一个AI模型的质量，主要由数据的数量跟质量决定。但工业场景里，瑕疵品的数量非常少，出现概率在千分之一甚至万分之一，再加上客户没有留存意识导致的样本数据积累严重不足，也使得AI技术做工业瑕疵检测缺乏土壤。

因此，虽然部分企业宣称能在视觉检测样本库不够大的情况下，用AI生成一些相似的样本库，但实际上检测精度会有所下降。

“那些说能用几十张图训练出一个AI模型，并且检测效果也非常好的公司，都是给投资人讲故事。他们的AI模型实际是从几千甚至上万张图片训练出来的大模型中，‘瘦身’优化出来的小模型。”在谷永看来，从技术原理上讲，通过虚拟方式生成瑕疵样本并非不可能，而是现阶段的技术还达不到。

换句话说，现阶段机器视觉领域的AI，投喂什么就认识什么，并且投喂的数据都需要来自实际的瑕疵品，不具备推演的能力。

而一旦实现虚拟瑕疵，AI能像人脑一样归类和推演出成千上万种瑕疵，即使客户没有针对实际瑕疵品做留存，检测准确率也将大大提升。

一边是人才流失，一边是人才浪费

不同于2D视觉能够直接获取平面信息，3D视觉的深度信息，需要通过计算得到。

“直接获取最容易，加一步计算，就挡住了一半的人。相比2D，2.5D也要获取精确的深度信息，因此能做到2.5D已经很不容易。”马迪表示。

在3D视觉概念已经无孔不入的今天，真实应用场景中运行的却大多是2.5D相机，甚至2D相机。

这一反差背后的原因在于，将3D变成现实的人才，并非真正的3D人才。

行业驱动从本质上讲，是人才驱动。

但目前中国机器视觉行业普遍的现状是：高端人才不足；学校教育与市场需求脱轨；人才浪费。

首先，从整个3D视觉行业来看，视觉相关的毕业生中，大专生的供应量占比最大。

“目前机器视觉工程师中，专科毕业生占据绝大部分，因为视觉行业存在大量较为简单的视觉任务识别工作，因此即使是明星企业，也需要相当数量的专科生来完成这部分工作。”

与数量众多的专科生形成鲜明对比，进入视觉行业的高端人才太少了。

作为一项新兴技术，3D视觉以其想象力，在过去两年成为工业领域里的一条吸金赛道，少数明星企业吸引到了不少高端人才，但他们的生存状态，并不代表赛道的普遍情况。

谷永是3D视觉领域极具代表性的创业者，毕业于华中理工大学，然而当他回到母校做宣传时却发现，自己根本招不到人。

“所有的硕士跟博士一毕业后全部进入大厂，或者进入一些有名的AI公司，这些公司开得起钱。视觉公司大都是一些小的创业公司，稳定性不强。”

其次，全国各大高校每年为机器视觉领域培养的毕业生并不少，但只有很少的人在学校里学习到了真3D的相关知识，大部分学校培养出来的都是2.5D或者2D的视觉工程师。

魏源观察到，很多大专毕业的机器视觉工程师，往往都会2D算法，懂得深度图或者图像，但是他们通常不懂点云，也不会点云处理算法。

再者，机器视觉领域还存在一个极为矛盾的现象，即人才不足背景下的人才浪费问题。

“机器视觉领域的人才浪费当下还比较普遍”马迪认为，至少在去年，甚至今年上半年，都还有公司付着博士的薪水，却让博士干着一位专科生就能干的应用工程师的活。

机器视觉市场，成熟状态下的分工模式，将是研发与项目相互独立，博士生、研究生更多进行纯研发的研究，本科生、专科生更多接触项目和应用。

“按理说，应该要给他们做好分工，但以检测行业来说，一开始并不容易判断一个项目的检测难度，一般的处理方式是，先找一个中等水平的工程师进行实验判断，如果项目难度小，就将任务下发给技术能力更低的工程师来做，如果项目难度大，就向上找能力更强的人来做。”

在不少业内人看来，机器视觉领域的人才浪费，更是行业发展初期的一个必经的阶段。

一方面，现阶段的机器视觉还并非一个盈利赛道，企业养不起纯研发，只能让博士生、研究生们到一线接触项目，接触应用，既是为了赚钱，也能了解市场需求。

另一方面，行业初期需要做大量奠基工作，一般的工程师做不了，需要由高屋建瓴的人牵头执行。

马迪以行业融资规模前几名的梅卡曼德举例，“梅卡曼德就比较典型，拿着投资人的钱就可以请得起硕士、博士还有更贵的行业专家，现在梅卡曼德的相机已经迭代到第4代，相机已经稳定可靠了。”

开创奠基的工作一完成，硕士、博士们便自然回归研发工作，相机的使用则可以完全交由真正的集成商，集成商再启用大专毕业生、初级工程师，将3D相机具体落地到产线和产品中，解决许多之前解决不了的视觉任务。

结语

2.5D是技术跃迁过程中一个阶段性的产物，如果说以互补关系存在的2D和3D是技术天空的两颗恒星，那2.5D就是划过天边的一颗流星，只会在穿越大气层时摩擦出耀眼的火光，而后将随着3D视觉的成熟归于堙灭。

国内3D视觉行业更大的问题在于，无论线激光或者结构光，高端都较为空白，中端亟待充实，太多公司在低水平重复建设中耗费大量精力。

与此同时，行业发展也需要警惕一味追求高精度，因为站在客户角度，无论2D、2.5D、3D，能解决问题的，就是“火眼金睛”。

机器视觉优秀人才的匮乏，从业者能做的较为有限，更多需要政府、资本的支持。毕竟只有当行业聚集的优秀人才足够多时，行业才能够快速发展。

国内3D视觉尚处发展初期，整个供应链在逐步进步，下游终端产品的场景应用也在不断拓展，我们期待一个成熟商业闭环的到来，但也需要给予这个年轻赛道更多的时间。作者长期关注机器视觉赛道，如果您有更多故事和观点，欢迎添加微信MOON_ERS进行交流。

文中马迪、王浅、贾科、谷永皆为化名。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

刘路遥

主笔

VX：MOON_ERS 欢迎交流

发私信

当月热门文章

从“装备大模型化”看宇视的「务实」与「创新」