Jerry

Jerry Wang, 海投全球创始人兼CEO

首页文章列表博文目录

个人资料

Jerry-

给我悄悄话

当“深度学习”遇上“反欺诈”，能否扼杀一切风险？

(2018-09-05 08:56:26) 下一个

反欺诈，是通过对借款人的资料进行特征比对，从而发现其中的欺诈骗贷行为。根据互金行业调查统计，超过50%的不良资产来自欺诈，欺诈导致的坏账风险远远大于信用违约。

数据反欺诈

反欺诈是风控的核心，数据是反欺诈的基石。数据反欺诈是数据风控的武器之一，就是结合用户行为数据、业务数据、征信、黑名单等第三方数据对用户画像，找到欺诈者留下的线索，在欺诈行为之前将风险扼杀在摇篮里，减少金融行业风险。

举个例子：

A客户来申请借款业务，说B是自己的妻子。但是在大数据系统中，历史业务数据提示，存在另一逾期客户C，说D是自己的妻子，但是B和D的手机号是相同的，且该手机号和A、C均有联系。

所以我们推断B、D是经过信息包装的同一人，A、C是经过B连接的间接联系人，所以他们有很大欺诈风险。

同时，又发现有E客户，与A同单位工作。但是二人工资卡的发卡行不一致，且工作时间内的GPS定位不一致。所以， A、E都是欺诈客户。依次类推，一个庞大的欺诈团伙构成的力导向关系图越来越清晰。

简陋的模型

为了精准的识别欺诈，风控基于海量用户真实数据，深入分析用户基本属性、社会属性、行为偏好等数据，凭借人工经验，通过年龄、消费能力等用户画像标签将用户进行整理归类，并通过对样本数据调整及模型参数调整逐步优化模型。

下面以借贷人标签为例，根据借款人的特征预测是否会逾期还款。

首先假设有20万训练数据，其中有10%负样本。我们从爬虫、三方数据中挑选出10个特征数据和2个标签数据，例如客户的年龄、月消费收入比、GPS定位、2年内有无逾期记录等。

建模的第一步是特征工程，数据和特征比模型更重要，决定了机器学习的上限，而模型和算法是为了逼近上限。

接下来通过逻辑回归根据用户特征搭建简单模型，引入模型包，输入参数后进行模型训练。针对不同的特征，不同的模型之间参数不同。

我们可以采用XGBoost这个包模型训练，画出ROC曲线，再用GridsearchCV参数调优，挑出最合适的模型。

深度学习下的反欺诈

在上面的模型案例中，训练样本是人们按照一定规则筛选标注的，但是，筛选的规则也应该模型学习维度中的一部分。

浅层模型的一个典型特点，就是假设依靠人工经验选取特征。在模型运用不出错的前提下，如果客群及其环境没有发生较大变化，一套训练好的模型没有必要一次次的重复调优，因为特征是整个模型优化的瓶颈。

例如，我们可以通过形状明显的区分一只猫和一只羊，也可以根据毛色区分一只黄猫和黑猫，但是区分一对外貌相同的双胞胎黄猫，便显得格外吃力，何况数以亿计的黄猫。此时，我们可能会考虑采取对黄猫进行声学建模。

因此，人工设计样本特征的团队，经常将更多的人力投入到思考和发掘更多更好的特征上。若要发现一个优秀的特征，则要求工作人员反复摸索，并不是一个可拓展的途径，也无法满足于越来越大的数据。

深度学习模型改变了这个模式，它和大数据二者则相辅相成，导入原始数据，通过搭建隐层的机器学习模型和海量的训练数据，逐层特征变换，挖掘和刻画客户数据的内在信息，学习更加有用的特征，提升预测的准确性，远远超出了传统风控基于评分卡系统的建模能力。

深度学习是无监督学习的一种，模仿人类大脑的机制对图像、声音、文本等数据进行分析和学习。利用深度学习反欺诈，可以更加高效准确。

例如，深度学习可以通过自主分析和学习垃圾邮件和正常邮件的差别，甚至学习理解邮件文本内容含义，拦截各种形式的垃圾邮件。

以前，骗贷者经常通过虚假照片和身份证，制作一份虚假身份信息，从而注册虚假帐户来骗取贷款或者其他服务。在经过训练后，深层神经网络便可以识别被操纵过的图像。

从AlphaGo 到自动驾驶，再到风控反欺诈，深度学习迅速走红。虽然似乎没人说得清它的原理，但我们都听到了它渐近的脚步声。

-END-

[ 打印 ]

阅读 ( ) ┆ 评论

目前还没有任何评论

登录后才可评论.