反欺诈,是通过对借款人的资料进行特征比对,从而发现其中的欺诈骗贷行为。根据互金行业调查统计,超过50%的不良资产来自欺诈,欺诈导致的坏账风险远远大于信用违约。
数据反欺诈
反欺诈是风控的核心,数据是反欺诈的基石。数据反欺诈是数据风控的武器之一,就是结合用户行为数据、业务数据、征信、黑名单等第三方数据对用户画像,找到欺诈者留下的线索,在欺诈行为之前将风险扼杀在摇篮里,减少金融行业风险。
举个例子:
A客户来申请借款业务,说B是自己的妻子。但是在大数据系统中,历史业务数据提示,存在另一逾期客户C,说D是自己的妻子,但是B和D的手机号是相同的,且该手机号和A、C均有联系。
所以我们推断B、D是经过信息包装的同一人,A、C是经过B连接的间接联系人,所以他们有很大欺诈风险。
同时,又发现有E客户,与A同单位工作。但是二人工资卡的发卡行不一致,且工作时间内的GPS定位不一致。所以, A、E都是欺诈客户。依次类推,一个庞大的欺诈团伙构成的力导向关系图越来越清晰。
简陋的模型
为了精准的识别欺诈,风控基于海量用户真实数据,深入分析用户基本属性、社会属性、行为偏好等数据,凭借人工经验,通过年龄、消费能力等用户画像标签将用户进行整理归类,并通过对样本数据调整及模型参数调整逐步优化模型。
下面以借贷人标签为例,根据借款人的特征预测是否会逾期还款。
首先假设有20万训练数据,其中有10%负样本。我们从爬虫、三方数据中挑选出10个特征数据和2个标签数据,例如客户的年龄、月消费收入比、GPS定位、2年内有无逾期记录等。
建模的第一步是特征工程,数据和特征比模型更重要,决定了机器学习的上限,而模型和算法是为了逼近上限。
接下来通过逻辑回归根据用户特征搭建简单模型,引入模型包,输入参数后进行模型训练。针对不同的特征,不同的模型之间参数不同。
我们可以采用XGBoost这个包模型训练,画出ROC曲线,再用GridsearchCV参数调优,挑出最合适的模型。
深度学习下的反欺诈
在上面的模型案例中,训练样本是人们按照一定规则筛选标注的,但是,筛选的规则也应该模型学习维度中的一部分。
浅层模型的一个典型特点,就是假设依靠人工经验选取特征。在模型运用不出错的前提下,如果客群及其环境没有发生较大变化,一套训练好的模型没有必要一次次的重复调优,因为特征是整个模型优化的瓶颈。
例如,我们可以通过形状明显的区分一只猫和一只羊,也可以根据毛色区分一只黄猫和黑猫,但是区分一对外貌相同的双胞胎黄猫,便显得格外吃力,何况数以亿计的黄猫。此时,我们可能会考虑采取对黄猫进行声学建模。
因此,人工设计样本特征的团队,经常将更多的人力投入到思考和发掘更多更好的特征上。若要发现一个优秀的特征,则要求工作人员反复摸索,并不是一个可拓展的途径,也无法满足于越来越大的数据。
深度学习模型改变了这个模式,它和大数据二者则相辅相成,导入原始数据,通过搭建隐层的机器学习模型和海量的训练数据,逐层特征变换,挖掘和刻画客户数据的内在信息,学习更加有用的特征,提升预测的准确性,远远超出了传统风控基于评分卡系统的建模能力。
深度学习是无监督学习的一种,模仿人类大脑的机制对图像、声音、文本等数据进行分析和学习。利用深度学习反欺诈,可以更加高效准确。
例如,深度学习可以通过自主分析和学习垃圾邮件和正常邮件的差别,甚至学习理解邮件文本内容含义,拦截各种形式的垃圾邮件。
以前,骗贷者经常通过虚假照片和身份证,制作一份虚假身份信息,从而注册虚假帐户来骗取贷款或者其他服务。在经过训练后,深层神经网络便可以识别被操纵过的图像。
从AlphaGo 到自动驾驶,再到风控反欺诈,深度学习迅速走红。虽然似乎没人说得清它的原理,但我们都听到了它渐近的脚步声。
-END-