如何看待AI和保险的“水土不服”（上篇）

本文作者：刘海涛

2020-05-31 23:05

导语：难以落地的原因来自于“傲慢与偏见”。

23时55分，降旗、升旗仪式开始，中葡双方护旗手入场。23时58分，在葡萄牙国歌声中，葡萄牙国旗和澳门市政厅旗开始缓缓降下。

1999年，上海弄堂里，张医生正和家人端坐在彩电前，见证这一历史时刻的到来。滴、滴、滴、滴，腰间的BB机显示一条消息“暴露了，快走”。

随着最后一名嫌疑犯张医生被抓获，上海市医保部门的第一次联合打击骗保案正式告破，五名医保“蛀虫”全部落网。

在充满庞氏骗局的时代，他们没有想到自己的暴露，竟然源于当时尚在萌芽中的技术“行为识别”，也就是今天的人工智能。

作为当年那次行为识别的研发人员之一，好人生科技首席健康经济学家汤子欧博士，略带自豪的表示：“和今天的算力相比，我们那时候完全是小米加步枪，只能按照逻辑在数据库里一遍一遍刷数据，当时我们开玩笑说，要是把电脑弄坏了，可能就赔了，因为刷出来的数据价值可能还没有那台电脑高。”

入行26年的汤子欧博士，2000年就已经在出国培训中接触保险人工智能风控，之后又成为首位华人北美健康险管理师，寿险管理师，国际健康风险管理协会（IHRMA）理事，并创立了中国首家独立资质的商业健康保险公司。

他向雷锋网表示，AI保险风控热度看似很高，但是里程碑根本没有到来，应用都停留在浅层。虽然产品给大家的感觉是不明觉厉、但扒开发现，无非实现只是小区门口识别车牌这类的需求。

究其原因，并非是保险行业根本不需要深层次的需求，而是一批学术型的创业者，唯技术论，坚持“数据为王”，不愿意接受行业过去积累的知识，产品效果不好之后就开始抱怨，找各种数据不足、算力欠缺、预算太低的借口。

以下是专访的完整内容，雷锋网做了不改变原意的编辑。

雷锋网：AI已经在保险风控、医保审核等场景中应用，是否已经有了明显的效果、应用不好的原因是什么？

汤子欧：AI要结合行业特点才能发挥作用，目前来看，AI在保险行业的应用，还没有发挥出明显的作用。

其实AI在保险行业应该是大有可为的，比如做单证收展。保险行业每天有大量的投保单、理赔单需要人来处理，这种情况下，利用AI做这些单证的收展可以极大提升审核的效率和质量。

另外，利用AI可以发现大规模数据的异常值，人们常说，事出反常必有妖。保险行业每一分每一秒都在产生大量新数据，这些新数据的审核，依靠人力总会出错。

对于数据，人工智能会比人更敏感，例如从统计学角度的找均值、方差，一旦发现高度聚集性的正态分布，就需要关注找原因，以及反标签的数据，例如男性发生了妇科用药。

但现在的情况是，AI大数据风控根本没发挥有效的应用。

原因在于，最开始的那些技术大牛、一直追捧技术、却没有有效利用行业多年积累的经验、也没有和行业的需求结合在一起，这是很悲哀的现象。

虽然设计出的产品给大家的感觉是不明觉厉、但是扒开发现，无非实现只是小区门口识别车牌这类的需求。

最终造成这类AI创业企业迟迟无法上市、盈利又困难、对整个市场估值都产生负面影响，最后跌的很惨。

举一个例子形容，那些学术派创业者，面对保险公司的需求，直接就表示：“只要你把数据给我，我什么都能给你解决”。

但保险公司听到这句话的反应，肯定直接一愣。因为这是站在技术的角度看问题，“通过数据发掘、发现普遍规律。”

但是从保险精算的角度，首先保险数据隐私安全非常重要、另外这些健康险数据往往存在大量的噪音，直接拿数据找规律，得出的规则肯定不靠谱。

经过几百年的发展，保险精算已经积累大量规则性逻辑，AI只有和这些基础结合才更适合保险行业。

但学术派人工智能创业者，非要直接不信这些知识，坚持“数据为王”，这也是目前双方谈不拢的主要原因，深度学习的学者不愿意了解精算知识，也不愿意深入。

最终造成依靠数据开发的风控产品，大大偏离市场的预期，未来这种矛盾可能会长期存在。

雷锋网：以好人生的经验来看，保险公司对于评判AI风控产品的好与坏，有怎样的标准。

汤子欧：经验是人类的知识，大数据挖掘结果是计算机的知识，对于AI产品，最终还是服务人类，最重要的评判标准是体验。

作为服务人类生产生活的产品，AI首先应该对人的生活发挥具体的效用，这个达不到，其他都是空话。

好人生对人工智能的应用，具体的场景包括风控核保、理赔、风控和创新。对于保险公司的作用，有一个代表性案例。

一家保险公司，直接将十几万例数据丢给我们，要求在两天时间内计算出可以节约多少成本。

要求和评判标准非常明确，但这么简单的需求，那些算法很强、建模能力很强的学术型创业公司也不一定可以完成。

这些数据好人生的风控模型两小时就可以完全跑完，并可以识别出10%的异常情况，再对这10%的数据进行分析，更改参数再跑一次，从中得到5%的确定数据，最终统计效率在95%以上。

统计出来的这5%数据，可以依靠精算的经验，分门别类的报告就可以完成目标。所以直接有用才最关键，把精力全花在算法上，往往就是镜花水月。

雷锋网：保险AI产品主要的服务对象就是保险公司，从保险公司的角度，对于AI的诉求是什么？不同部门又有怎样的差异？

汤子欧：从客户角度来说，保险公司评价产品的优与差，不同的部门评价方法往往不同。

第一、销售部门，对于人工智能的诉求是识别什么样的人，会买他的产品，所以主要基于行为识别。

好人生对于这个需求，也开发了相应的行为识别产品，通过既往的健康行为和医疗行为，判断其购买倾向。

但用户最终买不买保险，买哪个产品，并不是理性的，而是感性的。用户买保险的时候很少有人会意识到自己真正需要什么，往往是根据自己的基础认知和当下感受就买单，最终并没有经过需求适应性评估。

第二、两核部门，即核赔和核保。两者的考核指标不完全相同，核保部门目标是不能放坏人进来太多；核赔部门目标是不能让坏人得逞的太多。

所以就现在就产生两个需求：

第一，回顾性风控，要求对过去两年的数据，进行批量审核管理。

第二，在线实时风控，现场决定出好人还是坏人。

前两年健康险公司创业野蛮生长时代，有些公司为了获得用户量，就曾大量放水，不管是谁，一律通过，但是很快就发现赔付率过高，然后股价很快就掉下来，开始重视实时风控。

综合来看，两核部门的初步要求都是真实核验，即使在线快速完成，也必须要有核赔算法在背后做支撑。

但目标虽然一样，具体实现又有较大差别。

核保是基于既往数据和行为时间序列进行分析，并和标准值比较，最终确定差距大小。

核赔是对不同供方需方数据，进行大规模比对，其中需要识别的数据既有需方，也有供方，也就是医疗行为和就医行为，所以比风控更加复杂。

第三、产品精算部，这个需求只有深入到保险公司内部，才能了解。因为保险精算的需求在于，通过AI发现普遍性风险规律，也被称为保障标的。

保障标的主要有三个特点：被普遍关心和认可；风险不可人控；风险可被预测。

这个过程一定需要人工智能在背后做算力支撑。20年前，自己做精算师的时候，完全依靠手工，速度非常慢。

现在通过人工智能做支撑，保障标的的创新速度在逐渐加快，迭代周期逐渐缩短，甚至通过人工智能可以把过去联想不到的风险事件内在关联逐一发现。

面对保险公司内部诉求的不同，AI产品只有贴合市场导向，才能实现价值。

雷锋网：好人生过去有哪些实际案例可以证明，AI风控对于保险公司有明显的作用？

汤子欧：过去有一个大型保险公司的团险案例，它有一张服务几十万人规模企业的团险订单，这种巨量客户，虽然保费很可观，但他实际非常痛苦，原因在于亏损十分严重。

每年都在亏，但又不能丢，这么大的规模，一旦释放到市场，足够可以养活一家小型保险公司，而且这种鸡肋型的团单案例，市场上也并不少见。

对这个案例，不能执行回顾型的两年不可抗辩，好人生当时采用的逻辑是在理赔过程中，实时进行风控。每一单都切入智能理赔的模块，模块中内嵌风控算法，并作API接口输出和输入，在安全屋经过核算之后，再进行理赔终决，很快输出结果，这种快是实时的。

项目进行一个周期之后，我们统计发现，从所有理赔中筛查出8~9%的索赔异常，而且经过人工核实，其中98%基本正确。

给这种鸡肋型团险业务解决很大的问题，因为其最终和雇主谈判过程中，利润也仅仅在2~3%之间，或亏或赚都在这个区间之内，节省8~9%，利润就全出来了，实现转亏为盈。

雷锋网：保险风控是AI落地的重要方向，但有专家认为，很多时候智能风控根本用不到复杂的机器学习模型，一个简单的决策树或基础的统计模型就能解决，您怎么看？

汤子欧：这首先是一个比较普遍的现象，无论保险、银行，还是其它应用人工智能行业。

这些应用目前都仅停留在浅层，所以才有专家说，相对简单的决策树就可以解决问题。

无法进入的深层或者不需要复杂模型的原因，首先是因为行业过去长期粗放式的发展，导致大量简单错误数据混在里面，所谓的噪声；其次专业性问题，是否具有几十年的从业经历，看到那些行业深层次的需求。

反向来看“保险行业是否不需要复杂的算力和因素？”其实是需要的。

从市场平均利润率角度，矮子当中拔将军，今天我的产品在行业领先一厘米，就开始沾沾自喜，但明天忽然发现大家都涨了一厘米，就要面临价格战了。

所以为了避免价格战，一定要做长期的技术储备。

今天的模型确实够用，因为99%的人，还没有认识到危机，保险公司面对人工智能的到来，甚至也是两眼一抹黑。但这种情况不会持续，更不会发生利用简单模型就可以躺在那一直赚钱的情况。

我认为现在AI对保险行业的能量只发挥了百分之十几，行百里者半九十，越往后就越能发现，新的需求和知识，这个知识一旦你知道别人不知道，产品的竞争力就越强。

但越往后，往往越难，难点在于潜在规律的发现周期不确定，可能是两个月、也可能是两年。

以金融危机为例，现在都知道因为金融创新问题，每十年会发生一次。但保险科技的需求周期，还没有被发现。

而且人类是善于忘记的，三年以上，自己最初做这件事的原因可能都会忘记，然后就进入意想、癫狂之中，爆雷可能就是早晚的事，就看谁在爆雷之前接盘，最终吃下苦果。

像金融危机这么严重都需要十年以上的数据才能发现。一家风控公司，AI只是手段，可能今天适用，明天又有另一种新的方法，数据和经验的有效整合才是最核心的要素。

雷锋网：既然数据才是最核心的要素，现在行业在数据利用上存在怎样的问题？

汤子欧：现在数据利用最大的问题在于只注重“量”，忽略了时间序列。

一些人工智能公司为了积累量，就在横断面上搜集大量数据，在和保险公司、政府医保合作中，一下子可能获得几百万例数据，但都是两年之内的，之后就宣称有庞大的数据量。

这种数据积累我是不看好的，因为横断面数据训练的模型，只能反馈这个时间点的静态规律，过两年可能就完全不灵。

统计学角度上，基于时间序列的分析非常重要，这和人的特点有很大关系。黑格尔说：历史给人的唯一教训，就是人们从未在历史中吸取过任何教训，

人本身就具有健忘、盲目从众、容易被麻醉和带偏的特点，所以人的真实行为需要依靠时间序列进行观察，不能只从横断面看静态。

雷锋网：如果说现在人工智能的应用只是停留在浅层，那如果向更深的角度发展，遇到像数据噪音过多等问题、应该怎样解决。

汤子欧：健康险风控不是一招鲜吃遍天，大体上可以分为管理式医疗、慢病管理，健康促进这三类，三类的风控点完全不同。

管理式医疗侧重是管供方，慢病管理供方需方两头管，健康促进主要是管需方，这里面的底层认知面非常广。

目前AI做的都只是简单行为识别、纠错，现在这些能力达到的平均数在8~9%，估计未来可能会实现15~20%，就到达技术的边界，即使是加上未来的技术，也在30%以内。

真正要提升，方向就要拓宽，借助其他技术门类，解决传统的灰色地带问题，例如滥用，这些其他技术门类就是行业过去已有的知识，所谓的经验。

1999年，自己参加世界银行学院培训里面一节课就讲到：现在没有办法对人类的行为进行高效的识别，但可以进行定向分析，弥补算力的不足。

这个观点同样适合现在，我们不能对海量的数据在各个角度、各个维度都精算一遍，因变量就可能变成自变量，最终数据的排列组合非常巨大，即使是现在的算力也无法满足。

所以如果要深入，就要依靠行业的既有知识和大数据的应用高效结合，这种结合谁做得好，谁就会实现领先。

雷锋网：很多风险控制，更多是靠人的经验判断。您认为人工和智能，哪个更重要？

汤子欧：在相当长一段时间内，人的经验肯定比智能重要，我举一个例子，做保险科技的企业，是否知道保险公司具有医院报销目录，而且可以通过医院认证，更深入来说，是否知道这个目录和医保不同，一些特殊药品存在不同理赔范围，同一种诊断，理赔可能包含手术，也可能不包含。

这些知识一定需要多年的经验积累，不仅是保险，其他行业也是一样，人的经验会占据主导地位，开始由行业专家主导人工智能在各个行业的发展，实现遍地开花。

因为人工智能仅仅是一种工具，基于行业认知的有效利用非常重要。

所以我建议人工智能的算法学者，应该留在大学校园里面，不要出来创业，没什么意思，最终会发现真正落地到行业，很难变现。

对知识领域认知的深度，也就是模型训练中的监督字典，所谓的金标准，AI在所有行业的应用都需要以这个为基础原点，智能首先需要靠谱的东西，这个东西就是人的经验。无监督学习在有深度领域知识的行业很难成功。

雷锋网：对于医保风控中长期存在的数据标准化问题，正在推行的DRG技术能否做到改变，最终这这种技术对医保控费可以达到是什么样的效果。

汤子欧：这是供方风控范畴的内容。我本人对于DRG 的应用是持负面态度的，不要说三年能否抗过去，我觉得一两年就会爆。

2000年，还在上海医保基金的时候，我们就已经尝试过DRG 的方法，最终放弃选择了global budget（总额预算制）和多维因素分析。而且这些方法和原理，我后来带到了好人生，也包括现在的大数据风控，关键是和DRG在方法上有区别。

好人生参与的医保基金审核项目，都是基于这些大数据理论，不管以后称为DIP还是大数据风控等其他名称，作为DRG的替代方案，也已经在准备逐渐推行。

DRG 和DIP（总额预算制）相比有什么不同？首先DRG最大的问题就来源于出生时的背景条件，最开始是被美国人创造的。

它的研发背景不是大量线上数据的时代，依靠一张一张统计表，按照统计学角度，一步步按照一级指标、二级指标迭代出来，所以是基于统计数据，按指标产生的体系。

DRG的称呼就是分析诊断相关疾病组的分类付费方式，把相关疾病聚集在一起，进行分类付费，策略就是刚性一刀切，方法学上称为白名单制，入组制。这种刚性一刀切的入组制，在医保应用中一定会出现，严重的溢出效应。

按照健康险精算逻辑，去不去看病，80%由需方决定，看病以后，发生的医疗费用多少80%是由供方决定。

所以应用DRG，就会出现一部分溢出费用，出现在其他诊断类目之下。最终发现DRG里面是大晴天，形势一片大好，外面全是重灾区，医保基金总盘子和过去一样，照样爆。

医保局采用这个策略，也是被迫的无奈之举，其实最终的诉求还是把控医保的总盘，只要不爆就完成目标，进一步控费就是更好的表现。

所以，目标直接应该朝向总盘子，绕了一圈上线DRG，总盘子根本没管，所以DRG之内效果非常好，不管的地方就拼命用。

总额预算制的目标就是直接指向总盘，现在的技术已经能够达到，实时进行大数据分析，算力也不受限制。

好人生的大数据风控引擎每个月都会输出一个全量数据、多维分析，简单化处理的话，可以找出前3%，所谓枪打出头鸟，干掉风险最大的。

按照这种逻辑，前3%缩回去以后，后面的情况也会逐渐发生变化，逐渐整个趋势会向均数靠近。

这种方法很智慧，也比较适合我们的国情，实行刚性一刀切人家可能直接造反了，因为能量本身就比你大，一下得罪太多供方，就走不通了。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

刘海涛

编辑

专注AI医疗的新势力和投融资丨微信ID：Daniel-six

发私信

当月热门文章