如何看待 AI 和保险的“水土不服”(下篇)

在上篇文章《如何看待AI和保险的“水土不服”》中,好人生科技首席健康经济学家汤子欧博士向雷锋网讲述了“AI风控和传统风控的矛盾”、“保险公司对AI的诉求”等业内的深坑与难点。

他向雷锋网表示,AI保险风控热度看似很高,但是里程碑根本没有到来,应用都还停留在浅层。

究其原因,并非是保险行业对AI没有深层次的需求,而是一批学术型的创业者,唯技术论,坚持“数据为王”,不愿意接受行业过去积累的知识,产品效果不好之后就开始抱怨,找各种数据不足、算力欠缺、预算太低的借口。

在本篇文章中,汤子欧博士将继续探讨“AI迟迟未能在保险业真正落地”的原因。

以下是专访的完整内容,雷锋网做了不改变愿意的编辑。

雷锋网:搭建一个很贵的机器学习团队,做出又大又复杂的机器学习模型,但在有些情况下,往往只能解决一些小问题,是否存在大炮打苍蝇、杀鸡用宰牛刀的问题?这个问题您认为该怎么解决?

汤子欧:从方法论角度,保险风险点比银行要多,而健康险又是保险行业风险点最多的,因为这种逻辑是和人打交道,一旦掌握好,就有可能成为全球最大的单一金融分类,规模上超过银行、超过互联网,这在美国已经是事实。

所以这些风险点注定不可能用一个模型解决,否则必然会存在方法的误区,无法兼顾有效性,单一风险覆盖率也会下降。

利用大数据建模,必然是勤快人不能懒。我们好人生的策略其实也是这样,针对一个风险点,至少存在一个模型,也肯定越多越好。

因为单一建模,可能会遇到多元共线性、风险交叉的情况。面对这些问题,用一个模型处理,究竟是作为噪音、还是因变量很难确定。

这个世界上许多事物都存在广泛相互的内在联系,也就是统计学上的多元共线性。

雷锋网:复杂的机器学习模型,在非强关联数据的分析上,有着一定的优势。但因为保险是个难以预测的领域,一旦数据过于多元,会出现过拟合的现象,噪声数据过多直接影响结果。这个问题通常有哪些解决方法?

汤子欧:过拟合本身就是一个伪命题,是象牙塔里面的人,把书本的概念卖到了社会,并引起一系列的误解。

过拟合是一个暂时性现象,原因来自于过多采用了自变量β而造成的结果,过拟合和不过拟合的区别就是预测结果和真实事件的吻合程度,所谓的拟合优度。

那些过拟合的模型,表面上使用过多自变量β显得非常精妙,但预测的结果和事实偏离甚远,这也是当年发生金融危机之后,华尔街被诟病的主要原因。

因为变量的增多,一定会导致模型过于脆弱,其中任何一个变量出现异常,比如不再适用,模型预测结果就会偏离事实,更多的变量出现异常,就会造成严重的过拟合。

对于自变量β的控制,在统计学和数学上早已有了定论,每个β入组之后,都要和模型里面其他因子进行协调,控制多元共线性在一定范围之内,如果是用于金融预测,最要控制在5%以下。

出现过拟合现象的原因,就是那些做学问的人,最初没有把事做好。

具体的解决办法首先就是控制好多元共线性,多元共线性的现象有点像量子力学中那一对共振的量子,会发现两个自变量β背后的表现可能会同进同出、同高同低。

这时候要么在两个自变量β中选择其中之一,把另外一个丢掉。要么选择把自变量β进一步细分,找出其中共线性的部分,归类到一个自变量β当中,剩下的影响因子用细化因子代表。还要考虑自变量在大尺度时间等不同观察期间的韧性或脆弱程度。

这些都应该在统计建模实验室就已经完成,当初没解决,后来效果不好就开始埋怨噪声数据过多。

雷锋网:那行业内抱怨的噪音数据过多,又是怎样的原因?

汤子欧:从精算的角度,世界上任何一件东西都可以被看做为数据,进入模型成为β,也可以被看做噪音,关键在于解决问题的角度。

噪声在统计学模型的影响因子不能太高,那些效果不好的模型,最后发现噪音的delta^2和因变量的delta^2关联性能超过50%,在统计学上,完全是不合格的产品。

背后其实是数据清洗环节出现问题,我们叫做垃圾数据进、垃圾结果出。

比如医疗人工智能方向,早年好人生科技做了许多国际二次诊疗的事,从中我们发现国内疾病诊断的差错率大概在50%左右。

类似著名的沃森,直接将国内误诊率很多的数据,直接拿来做一个诊断算法。最后训练出,比贴在电线杆的老军医还不准的人工智能出来。

而且,噪音数据过多的问题,统计学上早就已经有个解决办法。那就是选择有监督学习。

如果没有现成的优质知识图谱,可以直接做抽样,之后把数据拿给专家评审,就可以直接得到差错率比例、错误种类的方向,相当于已经有了金标准。

把出错的方式方法、判断逻辑输回算法,这个时候再进行刷新,之后再抽样。三遍之后就会产生明显的优化,比如把50%的差错率降到20%,当然后面的效率会逐渐降低,前三次效率最高,最后只要比例满足要求就可以了。

这种抽样理论早就有明证,道理也很简单。但是那些学术型的人工智能创业者,仅仅看重新算法,新的神经网络的方法优化,对产业过去的知识积累,置若罔闻,甚至还不了解数据情况,就开始在行业内埋怨噪声数据过多。

其实主要原因是他们过去该干的事没干,也就是数据清洗,没有把人类的错误数据撇开,所以这个问题我觉得应该借助刘慈欣老师的一句话“弱小和无知不是生存的障碍 傲慢才是”。

雷锋网:您觉得当前计算机视觉、语音&NLP、机器学习,这些分类的技术线,哪个对实际业务改善最显著?

汤子欧:相信许多人都有这个疑问,但这个问题恰恰是让大家都掉进了一个陷阱,这个陷阱不是我们现在挖的,是别人早已经挖好的。

目前做人工智能的人,习惯性把AI分为计算机视觉、语音识别的应用,并看做人工智能应用的所有分类。

但是我们认为人工智能的概念应该分为三层:基础层、中间层、应用层。

基础层是人工智能产业的基础,主要是对于人类感知和行为能力的替代的硬件及软件,如传感器、AI芯片、数据资源、云计算平台等,这一套从工业时代以来,一直有着技术的传承。

应用层是整合了基础层和中间层以后,解决人类实际问题的最终产品化,是一种整合,过去20年很多企业都在做这件事,例如机器人等。

两者中间是中间层,也是最难的,代表者知识图谱。在底层上加入不同的知识图谱就产生不同的应用层。

加上驾驶图谱,就叫智能驾驶应用;加上物种识别图谱,这就是智能安保;加上银行风控测算图谱,就是银行风控专家。

去年一个调研发现,目前国内人工智能企业95%以上,都集中在基础层和应用层,中间层的企业特别少。也就是整个行业到现在还都在做,过去已经有继承、容易的事。

虽然早就可以通过深度学习获得知识图谱,但中间层发展不起来的原因一方面是数据质量不行,一方面是学者跟产业界结合不紧密,导致学不致用。

举个例子,有一个人工智能项目,花了很多钱,三年研发出一个单病种的决策树,并传称为重大突破。作为对比,好人生现在已经积累10800种诊断决策树,按照学者的思路,我们可能需要3万年,而且保险行业没有保单一病种的产品,只有单一病种的产品,完全是货不对板,有也卖不好。这就是两者的认知出现了严重的差距,

雷锋网:这种中间层的缺失,最终会导致什么问题?

汤子欧:就是现在这个人工智能行业的知识图谱严重依赖于境外,我们在调查中发现很多智能音箱、智能安防的应用层厂商核心算法的识别知识库,经常是需要绕到国外,最后再绕回来输出结果。

所以说知识的逻辑图谱是在国外,这对于整个行业都非常危险,像智能灯泡,依靠国外知识库的产品市占率要是高了,人家突然断一下电,大概整个中华大地瞬间全黑了,就像芯片一样。

虽然我们跟着西方进入到工业文明时代,但不意味着未来信息文明时代,还要一味跟随。所有的技能我们已经掌握,为什么不积极生成中国自己的知识图谱。

原因可能还是认知上存在差距,现在的观念还停留在有型的东西最值钱。

前几年,保险行业为了卖保单还要送手机。这种高质量的服务,无形的产品需要嫁接到有形的商品,才能卖掉,含义就是服务没有价值。

如果一直持续这种现象,趋势必然是大家都去做硬件、做手机、做基础层和应用层。

好在国内现在已经认识到这个问题,像随着手机快速迭代更新,大家已经逐渐认识到硬件是不值钱的。但是对于硬件的一种渴望,这种报复性消费可能还因为惯性会持续一段时间。

雷锋网:AI未来会在保险行业产生怎样的作用,有哪些点需要注意?

汤子欧:保险也好,社保也好,都是社会的安全稳定器,随着人工智能的深度应用,保险行业对于风险的选择和风险的控制会更加精准。

未来的应用如果停留在过程风控,提升人的健康也就罢了,但像对核保核赔两端的深度发掘,就会造成对于风险体也就是被保险人的过度选择,侵害老百姓的一些保障利益,因为更精准了,但是这不是违法的。

另一方面人工智能并非是万能的,我也同意可以重复和放大人的能力,提高效率,但人工智能思考的维度是需要人来设置,那种质变的逻辑,把原来不相干的事情进行广泛联想的能力肯定是不具备的

例如在保险行业的新产品开发,我们一名保险同事在坐过山车的时候,出于职业角度查找过山车的风险概率,发现所有事故里面,只有1~2%是因为掉下来而发生的意外,剩余99%的死亡是因为心脑血管疾病、心脏骤停等顾客自身健康原因。他就想到拿这个数据在过山车下面,可以卖掉很多心脑血管的重疾险。

但是像过山车的人工智能应用,考虑的角度大概是怎么保证安全,就不会发生像保险这样的联想。

我建议人工智能应用在像医疗和保险,这样需要深厚知识的行业,尽量不要用无监督的机器学习,即使是深度学习。

因为过去那些应用效果不好的情况,就是大量使用了无监督的深度学习,短时间确实是效率是提高了,但是后来的试错成本会非常高,造成用力过猛。

雷锋网:现在我们看到许多AI保险风控公司,一方面靠融资存活,无法盈利,另一方面产品的核心竞争力还不强,未来应该采取怎样的策略?

汤子欧:手上存了很多弹药的公司,理性的经营者会用这些弹药,很快进入到他所感兴趣的产业领域深耕,要么参股,要么收购,要么自建,总之跟产业深度结合,不要局限于自己的能力。

一个教授会神经网络算法,资本就给几亿美金的时代已经过去,不可能再有,所以必须抓住自己手上有的东西,这个忠告当面我也会这么说。

那些上轮融资余量不多,客户也不付费,产品做成半吊子,钱粮又都没了,而且还没有未来方向,可能就来不及了。

因为即使看到新的需求,也需要花大资金去砸,需要研发周期,我觉得会倒一批,但行业又不会折损太惨,因为还是会有一些接盘。

具体的解决办法,我以自己的亲身经历举例。

早年我从社保系统出来,开始进入商业保险领域,那时候自己还没有能力去筹建昆仑健康险。

我去了保险公司生命人寿,当时自己就认为,做健康险一定是要和医院打交道,因为付费的场景就高度集中在医院。而且商保作为第二支付人,还需要和社保要打交道,要了解赔了多少。

结果我用了半年时间才明白,那些已经在商保行业摸爬滚打多年的老兵,事实已经各立山头,根本不愿意跨领域沟通。

但是沟通是可以带来价值的,和社保沟通才知道,社保风控早就已经做了;和医院沟通才知道,许多数据医院本身就有,但如果不沟通,就会闭门造车。

我后来总结,不沟通的原因就是之前卖保单搂钱太容易了,2002年的时候,只给那些代理人生活费,就能圈上万人帮你卖,所以根本不愿意往深考虑问题。

现在人工智能行业也存在“夜郎自大”的问题,由学者炒起来的热度,让大家过去获得的融资太容易,这个容易是双刃剑,所以过去会很浮躁,现在就需要沉下心来思考,或许能够获得转机。

雷锋网(公众号:雷锋网):AI在保险智能营销上的作用可能比较有限,是否因为AI主要做理性的事,而营销本身就是感性的行为,那么未来AI在保险智能营销中还有怎样的前景?

汤子欧:营销最在意的就是获客,所谓的业绩提升。

但获客问题,在这个时代背景下有一个基本限制条件“大的流量入口已经被垄断”。

现在所有AI营销保险公司,所做的事或者方向都是和这些流量入口合作,做二道贩子,帮他们流量入口做转化,所以他们的原生粘性已经不在保险行业。

我们都知道当一个公司的销售力量强大之后,就会和公司的诉求逐渐不一致了,仅剩的一致点就是以特定的价格卖最多的量。

除了这个之外,公司角度会因为资本估值等一系列因素,诉求会趋向于续高质量的收入。所以粘性已经不在保险公司或者产品本身,而是感性的因素影响更多。

综合来看,引流获客的AI创业公司不太成功的第一个因素就是,高度依赖于大的流量入口,再有通过正常的做法来获得成功已经很难了,所以就会有一些庞氏骗局的案例。

但也不是完全没有机会、线下的生活体验依然存在,虽然互联网已成为巨大的流量入口,但人还没有完全活在互联网之上,另外国家体制,决定政府在保险行业是有主导作用的。

所以AI保险营销公司未来的发展方向,首先应该更好的结合线上、其次更关注线下,另外要做出真正满足本源需求的产品,独立思考,而不是盲目跟风。

跟风就是保住饭碗的做法,而不是真正的创新。无论在投资界,一窝蜂跟投某个领域,还是保险行业,一窝蜂推出百万医疗产品,没有一个不是为了保住自己的饭碗,是主观的懒惰认知。

像过山车旁边的重疾险营销,这样经过思考的想法,最后的效果还是值得一试的。

但是思考也应该跟上时代,不是想到过山车可以卖重疾险,就直接派人在过山车下面发传单,新东方那样的创业时代已经过去了。

现在这个时代,像过山车这种,娱乐设施的网上流量入口还没有被阿里或腾讯完全注意和垄断,甚至还没有上网,所以更深思考,机会还是蛮多的。

此外,打破流量垄断这件事,国家已经注意到,互联网数据和流量的垄断已经严重影响良好的生态和持续创新的产业氛围,看到监管正在一步步推进。

雷锋网:好人生面对遇到不太懂AI的客户,一般怎么教育对方,或者怎么提供咨询服务?

汤子欧:万事开头难,产品有了好的应用案例,后面的接受度就会高很多。

这个时代已经不像过去,人群对于产品需求和消费习惯基本保持10年不变,所以过去的用户可以很明确知道自己想要什么。

现在的to B行业的一大弊端,就是客户也不知道自己想要什么,到底是要风控、还是多卖产品、还是需要对产品进行创新。更深入来说,比如风控,是觉得核保有问题、还是过程控制有问题、还是回顾性调查出现问题。

另外确定问题之后,还要明白需要怎样的解决方案,是想要一次性、还是先解决最痛的痛点。

这些往往都是他自己的需求,但如果这个需求不清晰,我们会首先选择进行培训,形象讲各个风险点的解决方案究竟是什么,需要怎么做?

雷锋网:如果客户方使用供应商的产品体验不太理想,客户方通常情况下会怎么做?

汤子欧:这个问题恰恰体现to B销售越来越难,原来都是to C才试用,现在to B也需要试用。

得益于现在信息化手段的进步,模块化的产品拆解部署都非常快,接口也都非常一致,两三天就能部署完,一旦试用过程体验不好,更换和二次开发都没有问题。

从好人生的使用案例来看,很少有用户能够提出二次开发需求,要么是满足需求了,要么是试用之后,明白自己的真实需求了,可能根本就不需要核保,因为核保是打算放水的,直接批量放上百万人进来,之后的在两年抗辩期,进行回顾性调查。

另外也会存在,试用之后就走了,表示要自己开发,但写出需求之后,往往发现底层的知识图谱并不存在,又回来购买了,做生意就是这样,存在来回反复的过程。

当然最坏的情况就是订单取消了,这种情况一般都是保险公司内部的原因,原有预算被取消等等。

雷锋网:您在AI保险领域从业这么多年,是否有让你恍然大悟的一件事,甚至颠覆了你过往的认知,让你发现“哦,这件事的本质原来是这样的。”,它是什么?

汤子欧:还真有。自己这么多年,从统计到风控,在社保就做风控,后来做健康险的风控。

刚刚进入商业保险的时候,我骨子里认为风控很重要,认为保费的风控、风险选择都非常重要,是一个必需品。当然现在这些确实是必需品,但是2000年那个时候是充满庞氏骗局的时代。所以在那个时代下,想法就错了。

这一课花一年时间才想明白。2002年,大家听到风控都会点头,但实际上却完全不当回事。因为野蛮生长的大环境,收到的保费永远比过去多得多,所以对于节省过去保费的需求并不感冒。

当时他们听到风控要先花钱,然后再省钱,而且最终只能省百分之几。保险销售直接表示,我这带来的都是两倍、三倍的变化,你那才能省几个百分点,资产端也非常好。所以,风控一下子就比没了。

这是我从体制内到体制外,被上的最大一课,因为最开始就想错了。

雷锋网:您对每年不断涌入AI保险行业的新创业者和优秀技术人才有什么想说的?

汤子欧:第一,一定要给自己找好一个点,这个点越小越好,越具象越好;

第二,应该确定找到的这个点,一定是当前的刚需,千万不是伪需求;

第三、致力于解决这个具体的刚需,一定要愿意干脏活累活,直到这个想法成功。

背后原因就是新人很难去解决大问题,首先应该是解决小问题,因为资源和社会信任都不够。

如果找到了这个点,干脏活累活可以比别人更迅速、深入的了解这个行业。这比永远的泛泛而谈、浮在表面要好太多了。

雷锋网:对于新人,随着变革的加速行业已经完全不一样,他们应该怎样的去调整自己,适应市场。

汤子欧:世界的变化永远站在当下,然后去解决一两年就可以实现的问题,对于新创业者或者优秀技术人才是非常重要的。

因为我已经不在实验室,进入社会就应该以商业的方式来实现价值。这个价值要在短期内能凸显出来,否则活不到变现的那一天,因为这个时代和2000年已经完全不一样了。

所以他们应该迅速去了解自己专业领域的进展和作用,结合市场的刚需,找准一个细的点,解决一个具体的社会问题,迅速在行业内创造价值,并对这个价值进行变现,活下去。

雷锋网原创文章,未经授权禁止转载。详情见转载须知

如何看待 AI 和保险的“水土不服”(下篇)

(完)