数据越多模型越复杂越好？这家P2P公司认为关键在于“意识”

本文作者： AI金融评论

2018-06-05 19:48

导语：P2P大数据的问题是，嘴里喊着风控靠大数据模型，身体却很诚实地要靠高息贷款盈利。

雷锋网AI金融评论报道，6月1日，GIAC 全球互联网架构大会在深圳召开。该会议是长期关注互联网技术与架构的高可用架构技术社区推出的、面向架构师、技术负责人及高端技术从业人员的年度技术架构大会，组委会从互联网架构最热门系统架构设计、工程效率、机器学习、未来的编程语言、分布式架构等领域甄选前沿的有典型代表的技术创新及研发实践的架构案例，分享他们在本年度最值得的总结、盘点的实践启示，打造一个分享及讨论平台，改变未来一年的互联网构建方式。

大会更多的讨论的是机构方面的技术创新内容，而在6月1日上午举办的Fintech分场上，小赢科技理财研发中心负责人林实立结合小赢科技的互联网金融数据与应用的演讲则是为数不多的业务与数据运用相结合的分享。据介绍，小赢科技成立于14年，是一家快速发展的金融科技公司，累积交易千亿，注册用户过千万，林实立主要负责P2P交易系统的设计研发工作。

数据越多模型越复杂越好？这家P2P公司认为关键在于“意识”

据雷锋网了解，小赢科技所采用的数据架构是基于经典的Lambda架构进行选型的，Lambda架构是Nathan Marz提出的一个实时大数据处理框架，其核心思路是将大数据系统架构拆分为Batch Layer、Speed Layer和Serving Layer三部分，其中批处理层（Batch Layer）针对全量数据进行处理，加速层（Speed Layer）针对实时的增量数据进行处理，从而达到可以灵活应对任意规模的数据处理需求。但据林实立介绍，目前小赢科技的数据处理“主要还是在离线处理部分，增量处理还是在待建，并没有用到很大数据的处理。”

那么，在P2P交易系统中数据是如何被使用的？林实立举了两个例子：

第一个例子是邀请网络分析，是基于用户生命周期前端的“获客”行为的数据应用。从业务层面，其希望解答的问题是：邀请的营销费用花在哪些人上最有效？邀请效果会不会随时间衰减，具体情况又是什么样的？

从具体业务场景看，该分析主要研究邀请人与与受邀人注册时间上的间隔关系，以及邀请层次与邀请效果的关系。通过对数据的分析，用于指导P2P平台在用户注册多长时间后发起补贴最为合适、针对哪些用户进行补贴最为合适，以及预测一轮邀请补贴在一定的时间内带来多少新用户。

小赢科技在对数据分析中发现：对于普通邀请人（一般用户）和非普通邀请人（自媒体，大V等），在邀请与注册的间隔时间、衰减效应、邀请层次与邀请效果的关系有着比较大的区别。具体来说，普通邀请人的邀请衰减效应较为明显，而非普通邀请人的衰减效应相对没有那么明显，往往还会出现二次或三次的峰值；如果再进一步量化，普通邀请在发出邀请后到达预期被邀请比例（例如50%）的时间要更短一些，非普通邀请到达预期效果的时间则更长一些。通过经过数据分析得到邀请的事实关系表，可以大致了解到不同邀请人的再邀请传播系数，以及在什么时间激发、激发哪些用户、通过什么渠道激发等指标，从而可以指导促销的投放。

第二个例子则是高净值聚类分析。其背景则是，客服部门在人力有限的情况下，如何对高净值用户进行更有效的发展和维护？在具体的分析过程中，技术部门则根据业务部门定义高净值用户范围，以及高净值用户的分类，采用RFM模型进行了分析。

数据越多模型越复杂越好？这家P2P公司认为关键在于“意识”

（雷锋网按：RFM模型是在用户关系管理中被广泛应用的模型，按照最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)三个维度，对用户进行细分，根据不同的用户等级分类，采取不同的营销策略，并为客户管理提供依据。）

小赢科技将RFM三个指数进行量化：

R：最近一次消费，最近一次投资离现在的天数

F：消费频率，最近30天的投资次数

M：消费金额，最近30天的投资金额

在聚类方法选择中采取等记录数和等总数两种分类划分方法，其中R采取等记录数分类，越小分数越高；F采取等记录数分类，投资频率越高分数越高；M采取等总数分类，投资金额越高分数越高，并分为5类按1-5进行评分，在实际业务中，平台可以根据对于参数的重要程度给予不同的权重，最终加权得出RFM分数，根据分数划分不同的用户类别。

互联网金融行业中，如何发挥数据的最大价值？

或许是为了“留一手”，在分享中所举的两个例子都比较简单，也没有涉及到诸如“利用机器学习技术进行大数据挖掘”的内容。但这实际也引发了一个问题的讨论：在互联网金融行业中，如何发挥数据的最大价值？

相比起传统金融服务，互联网金融将金融服务的渠道从线下转移到了线上，借助用户流量红利，互联网金融在短时间内发展出了P2P、众筹、网贷等创新模式，帮助金融行业提高了获客的手段，从而得到了快速发展。然而在互联网金融发展的早期，互联网金融公司的主要利润来源是“去掉中间环节”和流量变现，在基于业务本身的理解和对基于数据的精细运营上做得并不够。

随着2015年对互联网金融合规整顿的展开、2016年的平台大混战、2017年的重新洗牌之后，“金融科技”的提法开始逐步抬头。从“互联网金融”到“金融科技”，当中的区别不仅仅是名字上的改变，而是在业务理解模式和经营思路上的转变，基于数据分析的基础上，利用机器学习、数据挖掘、区块链、云计算等创新技术手段的金融创新活动。在互联网金融业务的的资金运营、投资分析、用户分析、营销、风控等各环节，金融科技都在发挥着重要的作用。

据雷锋网了解，互联网金融企业面临的主要风险为恶意欺诈，70%左右的信贷损失来自于借款人恶意欺诈，每年互金行业因欺诈所导致的损失在数百亿元级别。因此，风控也成为了互联网金融创新的重地，几乎每家转型的互金公司都在称“我们的核心竞争力是大数据风控”，在对外的宣传资料中，这些大数据风控模型往往具有几千个甚至上万个变量，以“凸显”其技术实力。

然而在会场，一位不愿意透露姓名的从业人士告诉雷锋网，大数据并不能完全解决风控的问题。在他看来，目前成千上万个参数的风控模型过于复杂，并不一定能完全反应实际的风险情况，甚至由于需要考虑的东西太多，可能会影响结果，而且同一套风控体系，换了一个环境效果就会大不相同。

“比如说支付宝的个人信贷业务做得很好，我们看到的可能是基于芝麻信用成千上万个参数的风控，但实际上可能是因为，如果一个人在支付宝借钱不还，他可能就没法使用相关业务，没法在淘宝上买想要的东西，而这是数据上看不出来的。”他和雷锋网举例道。

在机器学习领域，过多的无关参数带来的噪音干扰被称为“过拟合”。关于参数的一个经典故事是费米曾经说过，“我的朋友冯·诺依曼用四个参数就可以拟合出一头大象，用五个参数可以让它的鼻子摆动。”引入更多的参数，可能会增加模型的精确程度，但如果选择了不恰当的参数，则有可能会反过来干扰结果。

而在实际业务中，基于大数据分析也有着不小的难度。金融业务属于业务复杂的强监管业务，存在建模困难的问题；同时可利用的数据多元化，但评价往往是有限的。成千上万的变量，如何将这些多维数据变为能否借款、可以借多少的一维数据，不同风控系统会有不同评价，这也是最具挑战性的地方。

而且这样的问题，并不一定能通过“开放数据”的方式得到解决。面对同一个征信系统，各家银行的效率、风险控制、定价能力并不一样，面对数据开放后透明的数据，即便有许多可以提供解决方案的金融科技公司输出技术，但真正决定大数据的效果的，还在于使用大数据这把“屠龙刀”的人。

如林实立在分享中的观点：数据的运营不在与多复杂，而是有没有应用的意识，在产品、开发、测试链条里对建模流程，有一个清晰的认识，才能有很好的配合，起到实际的指导作用。

但真正做好这一点并不容易，想要在成千上万个参数中找到对业务起关键作用的参数，不同的人群、不同的环境、不同的业务，起决定作用的参数可能各不相同，这对金融公司来说无异于摸着石头过河，即便碰巧找对了参数，也可能只是“炼金巫师的炼金术”。

“风控靠大数据模型，盈利靠高息贷款”，这也是整个P2P乃至整个互联网金融目前存在的问题。毫无疑问，大数据的使用可以优化管理，提高风控效率，降低风控成本，但从目前的应用来看，还是有很长的路要走。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

AI金融评论

编辑

关注金融科技前沿！在这里，读懂智能金融与未来！

发私信

当月热门文章