您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
医疗科技 正文
发私信给刘海涛
发送

1

如何看待 AI 和保险的“水土不服”(下篇)

本文作者:刘海涛 2020-06-04 17:12
导语:傲慢与偏见

在上篇文章《如何看待AI和保险的“水土不服”》中,好人生科技首席健康经济学家汤子欧博士向雷锋网讲述了“AI风控和传统风控的矛盾”、“保险公司对AI的诉求”等业内的深坑与难点。

他向雷锋网表示,AI保险风控热度看似很高,但是里程碑根本没有到来,应用都还停留在浅层。

究其原因,并非是保险行业对AI没有深层次的需求,而是一批学术型的创业者,唯技术论,坚持“数据为王”,不愿意接受行业过去积累的知识,产品效果不好之后就开始抱怨,找各种数据不足、算力欠缺、预算太低的借口。

在本篇文章中,汤子欧博士将继续探讨“AI迟迟未能在保险业真正落地”的原因。

以下是专访的完整内容,雷锋网做了不改变愿意的编辑。

雷锋网:搭建一个很贵的机器学习团队,做出又大又复杂的机器学习模型,但在有些情况下,往往只能解决一些小问题,是否存在大炮打苍蝇、杀鸡用宰牛刀的问题?这个问题您认为该怎么解决?

汤子欧:从方法论角度,保险风险点比银行要多,而健康险又是保险行业风险点最多的,因为这种逻辑是和人打交道,一旦掌握好,就有可能成为全球最大的单一金融分类,规模上超过银行、超过互联网,这在美国已经是事实。

所以这些风险点注定不可能用一个模型解决,否则必然会存在方法的误区,无法兼顾有效性,单一风险覆盖率也会下降。

利用大数据建模,必然是勤快人不能懒。我们好人生的策略其实也是这样,针对一个风险点,至少存在一个模型,也肯定越多越好。

因为单一建模,可能会遇到多元共线性、风险交叉的情况。面对这些问题,用一个模型处理,究竟是作为噪音、还是因变量很难确定。

这个世界上许多事物都存在广泛相互的内在联系,也就是统计学上的多元共线性。

雷锋网:复杂的机器学习模型,在非强关联数据的分析上,有着一定的优势。但因为保险是个难以预测的领域,一旦数据过于多元,会出现过拟合的现象,噪声数据过多直接影响结果。这个问题通常有哪些解决方法?

汤子欧:过拟合本身就是一个伪命题,是象牙塔里面的人,把书本的概念卖到了社会,并引起一系列的误解。

过拟合是一个暂时性现象,原因来自于过多采用了自变量β而造成的结果,过拟合和不过拟合的区别就是预测结果和真实事件的吻合程度,所谓的拟合优度。

那些过拟合的模型,表面上使用过多自变量β显得非常精妙,但预测的结果和事实偏离甚远,这也是当年发生金融危机之后,华尔街被诟病的主要原因。

因为变量的增多,一定会导致模型过于脆弱,其中任何一个变量出现异常,比如不再适用,模型预测结果就会偏离事实,更多的变量出现异常,就会造成严重的过拟合。

对于自变量β的控制,在统计学和数学上早已有了定论,每个β入组之后,都要和模型里面其他因子进行协调,控制多元共线性在一定范围之内,如果是用于金融预测,最要控制在5%以下。

出现过拟合现象的原因,就是那些做学问的人,最初没有把事做好。

具体的解决办法首先就是控制好多元共线性,多元共线性的现象有点像量子力学中那一对共振的量子,会发现两个自变量β背后的表现可能会同进同出、同高同低。

这时候要么在两个自变量β中选择其中之一,把另外一个丢掉。要么选择把自变量β进一步细分,找出其中共线性的部分,归类到一个自变量β当中,剩下的影响因子用细化因子代表。还要考虑自变量在大尺度时间等不同观察期间的韧性或脆弱程度。

这些都应该在统计建模实验室就已经完成,当初没解决,后来效果不好就开始埋怨噪声数据过多。

雷锋网:那行业内抱怨的噪音数据过多,又是怎样的原因?

汤子欧:从精算的角度,世界上任何一件东西都可以被看做为数据,进入模型成为β,也可以被看做噪音,关键在于解决问题的角度。

噪声在统计学模型的影响因子不能太高,那些效果不好的模型,最后发现噪音的delta^2和因变量的delta^2关联性能超过50%,在统计学上,完全是不合格的产品。

背后其实是数据清洗环节出现问题,我们叫做垃圾数据进、垃圾结果出。

比如医疗人工智能方向,早年好人生科技做了许多国际二次诊疗的事,从中我们发现国内疾病诊断的差错率大概在50%左右。

类似著名的沃森,直接将国内误诊率很多的数据,直接拿来做一个诊断算法。最后训练出,比贴在电线杆的老军医还不准的人工智能出来。

而且,噪音数据过多的问题,统计学上早就已经有个解决办法。那就是选择有监督学习。

如果没有现成的优质知识图谱,可以直接做抽样,之后把数据拿给专家评审,就可以直接得到差错率比例、错误种类的方向,相当于已经有了金标准。

把出错的方式方法、判断逻辑输回算法,这个时候再进行刷新,之后再抽样。三遍之后就会产生明显的优化,比如把50%的差错率降到20%,当然后面的效率会逐渐降低,前三次效率最高,最后只要比例满足要求就可以了。

这种抽样理论早就有明证,道理也很简单。但是那些学术型的人工智能创业者,仅仅看重新算法,新的神经网络的方法优化,对产业过去的知识积累,置若罔闻,甚至还不了解数据情况,就开始在行业内埋怨噪声数据过多。

其实主要原因是他们过去该干的事没干,也就是数据清洗,没有把人类的错误数据撇开,所以这个问题我觉得应该借助刘慈欣老师的一句话“弱小和无知不是生存的障碍 傲慢才是”。

雷锋网:您觉得当前计算机视觉、语音&NLP、机器学习,这些分类的技术线,哪个对实际业务改善最显著?

汤子欧:相信许多人都有这个疑问,但这个问题恰恰是让大家都掉进了一个陷阱,这个陷阱不是我们现在挖的,是别人早已经挖好的。

目前做人工智能的人,习惯性把AI分为计算机视觉、语音识别的应用,并看做人工智能应用的所有分类。

但是我们认为人工智能的概念应该分为三层:基础层、中间层、应用层。

基础层是人工智能产业的基础,主要是对于人类感知和行为能力的替代的硬件及软件,如传感器、AI芯片、数据资源、云计算平台等,这一套从工业时代以来,一直有着技术的传承。

应用层是整合了基础层和中间层以后,解决人类实际问题的最终产品化,是一种整合,过去20年很多企业都在做这件事,例如机器人等。

两者中间是中间层,也是最难的,代表者知识图谱。在底层上加入不同的知识图谱就产生不同的应用层。

加上驾驶图谱,就叫智能驾驶应用;加上物种识别图谱,这就是智能安保;加上银行风控测算图谱,就是银行风控专家。

去年一个调研发现,目前国内人工智能企业95%以上,都集中在基础层和应用层,中间层的企业特别少。也就是整个行业到现在还都在做,过去已经有继承、容易的事。

虽然早就可以通过深度学习获得知识图谱,但中间层发展不起来的原因一方面是数据质量不行,一方面是学者跟产业界结合不紧密,导致学不致用。

举个例子,有一个人工智能项目,花了很多钱,三年研发出一个单病种的决策树,并传称为重大突破。作为对比,好人生现在已经积累10800种诊断决策树,按照学者的思路,我们可能需要3万年,而且保险行业没有保单一病种的产品,只有单一病种的产品,完全是货不对板,有也卖不好。这就是两者的认知出现了严重的差距,

雷锋网:这种中间层的缺失,最终会导致什么问题?