氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

本文作者：陈伊莉

编辑：温晓桦

2017-04-19 23:07

导语：金融大数据与人工智能算法纷繁复杂，如何基于海量高纬数据构建精准深度学习模型，有效识别、打击欺诈黑产？

高风险、高收益是金融行业永恒的标签。也因如此，金融行业非常重视风控。据多位资深金融人士表示，从事风控后，他们总是处于战战兢兢的忧虑中。他们上一次大规模的忧虑发生在十几年前。世纪之交的美国缺乏对于风控意义的认知，明明借着互联网的东风却在半途摔了个七零八落。

新科技的出现必然会对原行业产生一定影响。技术无所谓利弊，问题在于人的使用。在风控得到足够重视，AI成为最热门科技的现在，诸多从业人士不由得开始思考AI的应用价值，如何将AI与风控相结合并发挥出其积极作用？

本期雷锋网公开课邀请到氪信资深数据科学家朱敏来分享他的从业经验，深度讲解如何构建基于AI的金融风控系统。

嘉宾简介：

朱敏，氪信资深数据科学家，深耕应用统计和数据挖掘领域。复旦大学生物统计学硕士，曾任职PayPal高级分析师，负责核心风险控制数据变量、排序策略、评价指标的设计研发，并在反欺诈策略、行为特征等方面拥有丰富的研究经验。曾任职eBay数据分析师，负责AB测试与搜索算法的评估。多年以来专注金融统计和风险评估算法研究，在互联网级别的机器学习算法和统计理论商业应用领域有着丰富的理论研究和实践经验。

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

以下是本次公开课实录，雷锋网做了不改变原意的编辑：

今天给大家分享的主题是AI在金融风控领域的工业应用，我主要负责数据和模型，所以今天的公开课除了分享宏观想法，在具体实践方面也会比较偏模型和数据。其实这个主题是非常大的topic，所以会聚焦到金融尤其是消费金融领域，阐述我们氪信是怎样利用互联网、机器学习和人工智能技术和经验去解决实际问题的。

金融AI时代已到来？

首先我想跟大家分享三个数字——40万亿消费信贷、35%征信覆盖以及44ZB数据。

有资料显示，2019年中国的消费信贷市场会达到40万亿，而在2015年这个数字还只是20万亿，这几年都保持着很高的增长速度。我们可以看到市场规模很大，并且在不断变大。

而征信覆盖率并没有保持与市场规模的同步。第二个数字是35%，这是指消费金融领域只有35%的客户是有征信记录的，剩下65%没有信用记录，所以并不能用传统、成熟的风险评估方法去评估这些人的风险。

第三个要分享的数字是44ZB。对于65%没有传统征信数据的这类人，我们可以收集其他相关数据去评估，这相关数据可能是申请资料、互联网使用记录、通信记录等。而由于现在硬件的发展、数据收集的自动化，我们是可以收集到很多数据的，这个数据量也很庞大。大数据一方面是好事，另一方面也是一个难题，例如怎么运用一些技术手段从大量的数据中提取信息。而我们觉得消费金融是切入AI商业场景一个很好的契机。

大数据时代金融风控之痛

大数据时代金融风控市场规模大，需求旺盛，但要解决的问题很多。

从技术层面上来讲，有三个问题。

第一是价值困境，虽然已经意识到了大数据的价值，但不知如何实践，怎样从数据中挖掘出有用的信息。
第二是高维困境，对于65%未被传统征信覆盖的人群来说，他们的特征维度非常高，往往会产生上千维变量，那么该如何处理高位特征，如何将其有效融合，形成1+1＞2效果？
第三，敏捷困境。在人工智能和风险评估不断发展的同时，我们的敌人的欺诈演变速度也非常快。一旦发现了业务上的一个漏洞，它就会去钻模型的缺陷，利用缺陷来达到利益最大化。而单一的个体欺诈也正在演变成有组织、有规模的群体欺诈。

从战略层面来说，以上问题带来的后果是风控决策低效耗时，员工成本会很高，坏账率则更高。在金融场景里，一定需要人工智能、机器学习去帮助解决问题。

构建基于AI的金融风控系统

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

上图展示了一个理想的基于AI的金融风控系统。从左往右讲，我们一开始会去收集各个层面的数据源，这些数据源里包括交易数据、高价值黑名单，这些都是比较常见的传统信用数据。此外，我们也会搜集互联网行为、运营商数据、信贷申请资料等。

不同的数据源融合到一起的时候也会借鉴知识图谱技术，在知识图谱之上再去构建高价值金融属性的特征。

数据融合后有上千维度特征，接着我们会做一个基于深度学习的特征加工工程。再下一步是构建模型，这里列出了一些非常主流的机器学习、深度学习模型，像XGBoost或者是深度神经网络，这些模型再加上已经加工出的高价值金融特征，我们觉得这样就可以解决实际金融风控当中会遇到的问题。

而在解决问题过程中，经验会被抽象化，所以我们也会把这些经验转变成一个产品。上图列出了几个风控引擎，包括把刚刚提到的金融特征做成特征引擎、模型引擎、规则引擎，这些产品会帮助我们更好地积累数据，也更好地把已经积累的经验应用到更多场景中去。

接下来的内容也会按照这个模型来讲，首先是数据管理，关键字就是金融的知识图谱。第二部分是基于深度学习的特征工程。最后是集成模型，就是我们怎样把这些数据特征构建成一个分类模型来帮助我们判断。

知识图谱：重新定义金融数据架构体系

首先看知识图谱。知识图谱是谷歌在2012年5月发展出来的可以将搜索结果进行知识系统化，任何一个关键词都能获得完整的知识体系。本质是一个语义网络，是一个基于图的数据结构。在知识图谱当中，实体会被表示成一个节点，节点和节点之间会用关系来连接，所以这个构造方式和传统关系型数据网络是完全不同的。

在金融场景里，相比于传统的关系型数据库，它存在一些优点。

首先，金融知识图谱可扩展性更强。我们收集到的数据源无论是从结构上还是内容上来说，其实都有很大差别。如何管理这些不同结构和内容的数据源从来就是关系数据库一个大问题。

但是如果把所有的数据和知识都表示成知识图谱可以接受的结构，我们就可以把异质异构的数据统一融合在一起。无论是新的数据源变化，还是原有数据源的数据结构发生变动，都可以灵活地调整。这个灵活也是基于知识图谱的特点，无论是对于节点还是对于关系而言，增加或者更改它的属性都是非常灵活的。

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

从上图中，我们可以看到在金融风控中用到的数据还是很多的，包括历史积累数据、实时数据、第三方数据。分类方法当然有很多，但无论是怎么去看数据格式、结构都会完全不一样。

如果构建到统一的金融图谱当中去，对于下游的特征加工和模型其实会有很大帮助。对于数据库某一个数据结构的依赖就不是那么强，我们只要优化金融知识图谱的知识结构，工作中的相关问题都可以得到解决。

基于知识图谱的社交网络分析

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

金融知识图谱的第二个优点从上图中就可以看出来，知识图谱比较直接。用户面对的关系型数据库主要是表。而知识图谱可以将这些关系构建成图，更加可视化。

反欺诈是很重要的一点，在反欺诈中我们经常会做交叉验证。一个用户有来自不同数据源的特征，如果它们描述的是同一件事情，那我可以去对它们做一个验证。如果这个进程中出现了矛盾，我们会觉得这个人的风险等级偏高。我们设想了一个场景，在这个场景下单独个体的数据源比较单一，在这种情况下，交叉验证是根本没有办法发现矛盾的。而知识图谱可以帮助我们。

上图两个例子印证了知识图谱的可视化和表现力。先看左边，我们要去判断这幅图中蓝点这个人的风险等级，我们能够拿到此人相关的信息有手机号、邮箱等。从这个个体的单一信息上面来看，其实很难判断他的风险等级的高低，但是如果我们把他置于一个网络，比较个体和个体的话，我们会发现一个有意思的地方——他的邮箱和好几个其他个体的邮箱是相同的，并且这几个人在我们的判断中已经是坏人，那么对于这个申请用户风险等级也就有了一个判断。

右边还有一个判断用户风险的例子。如果只看他的手机号或者邮箱，目前比较成熟的方法是去看邮箱是不是乱码注册的或者其他。而把他置于网络中后，我们会发现他的手机号和很多用户的手机号都有联系，并且都是单向的联系。那这个其实是很明显的特征——骚扰电话，类似中介或者是广告骚扰。基于这一点，也可以形成对于这个人的风险等级判断。

这两个例子都很好展示了知识图谱能够包含更多的信息量。这个信息量是可视化的，如果有专家人工去看这些案例的话，会从中找到一些特征来判断这个人的风险等级高低。而在一些先进算法的作用下，可以自动地从社交网络中发现一些特征，自动判断哪些是好人哪些是坏人。

深度学习：超越人工定义的深度以穷尽风险

接下来讨论一下特征。数据量大，维度很高是消费金融风控必然会遇到的实际问题。此外，还会遇到很多非结构化数据，例如文本、图像等。这些都不是传统征信会遇到的问题，而这在深度学习领域会有一些很成熟的应用。

深度学习的本质是特征学习的过程。对于人工难以加工的海量非结构化数据，基于深度学习的特征生成框架自动生成特征，能够弥补人工定义特征的局限性。

DNN文本类数据特征提取框架

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

首先说文本类数据特征提取框架。金融风控过程中其实会遇到很多这样的非结构化数据，比方说申请资料的文本信息，或者是经过授信和合规要求的通讯文本。对于这些文本的分析，NLP领域其实已经有一些很成熟的技术，比如说CNN。而在金融场景中也能提取一些特征。如果这些特征能进入接下来的分类网络中去，它也可以去学习到好人或者坏人的特征。

实践的第一步是文本数据预处理，提取分词或者是关键词，并将每一个词做向量化的表示，然后这些向量化表示会进入一个卷积神经网络，并从这个卷积神经网络中去提取特征。下一步，这些特征会进入一个全连接的神经网络去学习分类，做成分类器。

此外，嵌入学习在其中也展现了很大作用。虽然我们用小规模文本库去学习词向量来做特征也不是不可以，但是我们发现如果使用业界比较成熟的大规模语料库，能提升特征提取的性能。

DNN时序类数据特征提取框架

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

另一个例子是时序类数据特征提取框架，一句话来说就是，合并学习不同周期和时序模式的循环神经子网络，有效捕捉时序数据的特征隐含信息及不同时序模式下的协同影响。

在实际中我们会遇到一些问题，比如并没有那么大的工作量去了解每一块的数据具体是什么样子的，分布是什么样的，特征可以怎么提取。所以时序类的特征其实可以借鉴深度学习里的长短时记忆技术来做相同的事情，去做时间序列的分析。它主要考虑就在NLP里，用在文本比较多，就是说上下文之间是有关系的，根据这样的关系来构建一个提取特征的网络，我们把这样的思路借鉴到了通讯记录或者是交易记录当中。

在实际应用中，时序类特征可能是通话记录或者交易记录，所以它的特征不只是在一个阶段面上去提取，还在时间轴上去提取。金融场景中，我们把通话记录分成了不同的周期，按照不同的周期构建了三个LSTM子网络，并且会对这三个时序模式LSTM子网络做一个混合，这样能大大减少时序数据分析和提取特征的工作量。

融合机器和专家经验，实现全量价值提取

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

这里还要提到一点，虽然刚才一直提深度学习特征，但是专家的特征也很重要。我们会融合机器和专家经验，实现全量价值提取。因为我们相信专家多年积累下来的成熟的风险评估方法也很有效。基于深度学习的特征智能生成框架，使用不同网络结构拟合不同的数据类型，自动从庞杂、非结构化的数据中生成高质量的深度学习特征，并且与专家人工特征结合共同融入模型。融合特征才会交给下一步模型去学习。

集成模型：最大化AI与现有业务的结合深度

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

前面已经说了数据和特征，现在说集成模型。

集成学习模型的优势表现在两点：

不同维度/领域的数据具有不同的特点，需要使用不同的建模方法，集成学习框架可以支持不同类型模型算法作为子模型。集成模型成果已经很多，所以用集成模型会帮助提高模型的性能是毋庸置疑的。
此外，在实际做金融风控的时候，从一个用户的角度来讲，我们能看到很多金融产品，例如分期产品或者消费金融产品，不同产品额度上也会不同，客群不同，获客渠道也不同（线上获客、地推获客）。面对不同的业务方式时，我们最终要抓住的坏人也是完全不同的，所以这要求我们构建不同的模型。那么这是不是要求我们面对不同业务场景都要从零开始去做数据、特征、建模呢？
并非如此。单独领域的子模型可以快速迁移应用到新业务领域，实现快速成型和持续优化。

这在实践中最好的应用就是冷启动，对于一个新上的业务，所遇的坏人与以往的业务是完全不一样的，坏人所采取的欺诈手段也是完全不同，但是因为用了集成模型，有些特征、数据、模型经验都是可以借鉴的，这会有很大的帮助。

集成学习模型在大型现金贷场景的实际应用

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

上图对之前的内容做了一个汇总。数据有结构化、非结构化之分，并根据不同数据的特点进入不同的特征提取框架。和关系比较近的数据，用网络关联特征的方法去提取；有些数据是文本、图像，用卷积神经网络的方法去提取；时序类的数据，用LSTM方法去提取特征；还有专家人工特征提取框架。

综合特征提取框架，综合评估产生三种风险评分：行为风险、社交风险、语义风险。

社交风险其实主要是从网络关联特征体系框架这一块延伸上来的。
行为风险主要从互联网的行为、运营商这一块延伸上来。
语义风险主要从申请资料、通讯文本两方面来评估。

最后根据这三块风险做一个集成模型，然后给出违约概率。

集成模型能提高性能，氪信之前将集成模型应用到大型消费金融场景中。他们之前的风控用到的特征也不多，判断模型的分类性能的 KS值指标也比较一般。在和我们合作后，运用了刚才提到的技术和框架，模型的性能提升还是非常明显的，KS值从0.19提升到0.35。从业务来看，他们的坏账率直接下降了46%。

基于网络的反欺诈应对线上群体欺诈

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课

接下来再说说基于网络的反欺诈。举个虚假申请的例子。

某个人通过篡改个人资料，提出贷款的申请，这个可以通过交叉验证来判断此人的风险等级。

但是在另一个场景，比如有人申请资料时，用的完全是张三的资料，因为张三的风险评级很安全。这种情况下对于金融这风控机构而言，评估是比较困难的。如果没有人工介入，这个人的风险评估都是基于张三的信息来做的。对于这种虚假的申请，若只根据个体的资料去判断，难度是相当大的。但是把他放到社交网络中情况会不同。不同的人共享了相同的属性或者相同的资料，那么我们就会有风险的疑虑。

还有群体欺诈。这主要是说在时间或者空间上的高频率焦点，或是高频率申请。一个简单的例子，我们发现申请资料的数量大得超出历史，然后这些申请资料，比方说手机定位的位置都来自于同一个地区，如果能排除线下获客的可能，这会是很奇怪的一件事情，存在很高的群体欺诈风险。

氪信资深数据科学家主讲：如何构建基于AI的金融风控系统 | 雷锋网公开课