互联网欺诈花样百出,人工智能如何加强金融风控体系?

编者按:去年P2P公司遇冷后,纷纷转型称会用大数据、机器学习等科技手段服务金融,摇身一变成为时髦的Fintech金融科技公司。但实现过程并不简单,让机器代替人去处理数据做判断,在国内金融领域才刚刚起步。

CreditX氪信是雷锋网(公众号:雷锋网)接触的一家用机器学习做风控的公司,在金融领域拥有不少实验经验和思考。本文援引CreditX氪信在招商银行信用卡中心年度务虚会培训干货内容为例, 来解析人工智能和机器学习将会如何登上金融风控的主要舞台。

对于躲在触屏手机背后的客户,更广范围缺失征信数据的客户,金融风控体系已愈发难以通过传统风控手段去判断用户是谦谦君子还是骗子流氓,而人工智能作为过去互联网搜索、推荐处理上百万维数据的最重要手段,在处理新金融业务万维数据方面,正形成有效的降维颠覆。

新金融风控领域面对的数据痛点

在谈及机器学习在金融场景中的实际应用之前,首先我们以金融风控信用贷业务流程举例进行梳理,通常一个风控业务包括前端页面用户资料申请提交和收集,反欺诈、合规、逻辑校验,核心决策授信包括申请评分和电调,以及最后的催收。

面对这套业务流程, 新金融风控领域面对的数据痛点,一般有几大类:

反欺诈

业务流程上,机器学习已经在每个风控节点发挥作用。比如反欺诈环节,在泛互联网的环境里,

金融风控面临的传统个体欺诈已迅速演变为有组织、有规模的群体欺诈和关联风险。而传统反欺诈还停留在识别一度风险等这种简单规则方式,如联系人中借贷人个数等,对于二度、三度乃至更广范围的网络全局风险苦无良策。机器学习里面基于图的半监督算法很好地解决了这一诉求,基于申请人、手机号、设备、IP地址等各类信息建立节点,再根据其申请关系、电话关系、拥有关系等生成边,我们就可以构建庞大网络图并在此之上可进行基于规则和机器学习的反欺诈模型实时识别。

核心授信决策

在申请评分环节,传统金融风控往往是基于评分卡体系对强征信数据如银行借贷记录等进行建模,而新金融的业务下,客群的进一步“下沉”,覆盖更多收入群体,新增群体的强征信数据往往大量缺失,金融机构不得不使用更多弱金融数据,
辟如消费数据、运营商数据、互联网行为数据等。这类底层数据的改变,对传统信用评分卡造成了巨大的困难,具体体现在:

1.诸如互联网行为、运营商数据很多都是非结构化数据,数据繁杂, 建模前的特征工程很难用传统人工的方式完成加工。

2.由于数据类型和范围的大幅扩大,新模型面对的往往是加工出来的上千维弱变量特征,评分卡体系根本无法融合吸收这些特征。

3.机器学习先进风控技术也带来了模型“黑盒”的问题,如何理解和把控黑盒结果与风险之间的关系已成为AI技术在金融领域应用的一大门槛。

机器学习将如何处理?

人工智能和机器学习对上述问题有独到处理:

面对数据繁杂的问题,基于深度学习的特征生成框架已被成熟运用于大型风控场景中,通过如RNN、词嵌入、LSTM、CNN等深度学习神经网络可成熟实现对时序、文本、图像等稀疏属性数据的特征逐层提取。仅以CNN或LSTM提取短信文本特征为例,文本通过训练好的词向量模型映射到嵌入向量,通过CNN完成特征提取,最终进入分类器网络即可将文本数据与违约风险实现深度挂钩。

而成熟场景上的实践也证明,机器生成特征正显现出对模型效果超出想象的提升,深度学习对于挖掘深层时序关系,文本内容深层含义等都超越了人工定义的深度。

【图注】上图为大型信用贷场景中模型重要性特征列表,机器学习特征比例已经超过专家人工特征。

针对数据驾驭难的挑战,由于传统评分卡模型在面对上千维度弱变量且存在大量缺失值的情况下无法应对,目前氪信在大型金融场景核心风控系统中的成熟实践经验是复杂集成模型。通过对机器学习特征和专家人工特征构建规则模型、机器学习模型、深度学习模型等并进行复杂集成,即可灵活应对客户全方位需求,实现对不同用户的高度差异化定价,同时充分利用不断产生的数据和监控模型性能持续进行模型在线快速自迭代,为客户实现自适应的外部风险变化。

此外,我们知道金融风控专家都很关心模型的可解释性,而机器学习是一个“黑盒”,其中的风险很难去把控和估计,这与金融场景的诉求是矛盾的。目前氪信通过不断地验证,已成熟实现LIME模型解释器在风控场景中的应用。其原理在于对局部分界面以线性函数拟合部分曲线,就能够做到捕获影响结果的关键变量,并展示给我们的风控专家让其迅速理解结果和特征之间的内在联系。

事实上,机器学习要解决的问题很清晰,所有的这一套数据适配融合、群体反欺诈、特征工程、模型构建和训练、性能监控与自迭代的机制,包括深度学习,半监督学习,在线学习等技术,核心都是为了将互联网级别的机器学习技术“降维”应用到金融领域,解决新金融场景上数据的独特性,一方面可用数据比互联网要少,另一方面又比传统评分卡体系多了很多不可解释、高维稀疏的大数据。

本文作者:温晓桦

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-20 04:50:26

互联网欺诈花样百出,人工智能如何加强金融风控体系?的相关文章

央行科技司原司长陈静:人工智能有望解决我国金融风控依然薄弱的难题

日前,"第三届(2017)中国普惠金融大会"在京举行.大会通过政策解读.趋势探讨.案例分享等方式探讨"践行普惠金融服务实体经济"这一主题.雷锋网获悉,国家信息化专家咨询委员会委员.中国人民银行科技司原司长.金融科技创新联盟指导委员会主任.互联网金融工作委员会常务副主任陈静在主题演讲中提出,应积极推动人工智能在金融风险中的应用. 防止发生系统性金融风险是金融工作的永恒主题,而金融风险的防控与监管一直是世界难题,建立风险的智能预警防控体系十分及时和重要.陈静指出,我国金

人工智能有望解决我国金融风控依然薄弱的难题

日前,"第三届(2017)中国普惠金融大会"在京举行.大会通过政策解读.趋势探讨.案例分享等方式探讨"践行普惠金融服务实体经济"这一主题.雷锋网获悉,国家信息化专家咨询委员会委员.中国人民银行科技司原司长.金融科技创新联盟指导委员会主任.互联网金融工作委员会常务副主任陈静在主题演讲中提出,应积极推动人工智能在金融风险中的应用. 防止发生系统性金融风险是金融工作的永恒主题,而金融风险的防控与监管一直是世界难题,建立风险的智能预警防控体系十分及时和重要.陈静指出,我国金

互联网金融风控模型,需要多大的数据?

近两年来,"大数据"一词广受热议,提高了企业对数据及数据所产生的价值的重视,整体上推进了我国在各项商务应用和政务应用中数据支持的比重,提升了量化决策和科学决策的水平.然而,在大数据概念提出之前,我们也一直从事数据分析和建模的工作,在这里,我想谈谈大数据的出现,对互联网金融风控模型构建带来了哪些影响. 对大数据的理解 首先我们来谈谈对于大数据的理解. 大数据一词由维克托迈尔-舍恩伯格教授提出.有一种观点认为大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合.然

马云:基于数据的信用和风控体系是互联网金融的必要条件

在11月19日举办的2016外滩国际金融峰会上,阿里巴巴集团董事会主席马云表示,互联网金融公司必须具备三个核心能力:数据.基于数据的信用体系.基于数据的风控体系. 马云称,普惠金融就是解决了八二理论."原来传统经济过程中解决二八,就是金融机构只要服务好20%的大型企业,大型机构,能够带动80%的成长.过去30年中国这么做.普惠金融要解决的,就是八二理论." 以下为马云采访发言实录: 不好意思,没准备.今天讲新金融,普惠金融,我的理解就是解决了八二理论.原来传统经济过程中解决二八,就是金

深度评论 | 大数据金融风控大浪淘沙强弱渐分,长路漫漫投机者勿入

2016年,大数据就在一片喧嚣的气氛中过去.之所以说"喧嚣",是从2015年开始的大数据热在不断地继续升温,加剧.凡事必须跟大数据扯上点关系才算时髦,才算符合时代潮流. 做个最普通不过的统计分析报告,也要冠以"大数据XX报告"."大数据征信","大数据金融风控","大数据XX"更是比比皆是.在我看来,真正属于纯粹大数据的项目并不多,多数都在混淆概念. 个人认为,大数据的高潮并未到来.大数据在今天,也并不像大

金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

机器学习.深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述.   朱明杰表示,当下人工智能和金融的话题有些过热,我们应该冷静地看到,将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难,新业务的冷启动.大量非结构化数据加工以及前所未有的上千维度特征融合处理,包括线上的反欺诈识别,这都是横在AI与业务经验逐步结合前的鸿沟. 以下为CreditX氪信创始人朱明

氪信资深数据科学家主讲:如何构建基于AI的金融风控系统 | 硬创公开课

高风险.高收益是金融行业永恒的标签.也因如此,金融行业非常重视风控.据多位资深金融人士表示,从事风控后,他们总是处于战战兢兢的忧虑中.他们上一次大规模的忧虑发生在十几年前.世纪之交的美国缺乏对于风控意义的认知,明明借着互联网的东风却在半途摔了个七零八落. 新科技的出现必然会对原行业产生一定影响.技术无所谓利弊,问题在于人的使用.在风控得到足够重视,AI成为最热门科技的现在,诸多从业人士不由得开始思考AI的应用价值,如何将AI与风控相结合并发挥出其积极作用? 本期雷锋网公开课邀请到氪信资深数据科学

如何利用大数据做金融风控?| 硬创公开课

随着金融科技.科技金融等概念的热起,以及互联网金融.无金融服务群体的刚性需求下,大数据风控技术也获得越来越广泛地重视和应用.但是,如何利用大数据.机器学习等前沿技术做金融风控?如何通过海量数据与欺诈风险进行博弈?本次硬创公开课我们邀请了同盾科技首席风险官董骝焕博士为我们解答. 董骝焕是南开大学概率统计博士,他博士毕业后加入中科院,2007年加入IBM/ ILOG从事决策模型在各种业务问题中的应用.2010年至2013年先后在FICO和SAS支持金融反欺诈事业.2015年5月15日,董骝焕加入同盾

开发 | 为什么说集成学习模型是金融风控新的杀手锏?

当下,随着金融市场环境的迅速普惠化,新金融业务也不断下沉到更加广泛的人群.由于这部分人群的强征信数据严重缺失,金融机构纷纷涉猎多元数据包括消费.社交.行为等"大数据".然而,这些天然带有超高维.稀疏.低饱和等特点的数据也远远超出了线性回归或逻辑回归等模型所能处理的能力范围,这对传统风控提出了巨大的挑战. 集成学习模型框架很好地解决了这一问题,其核心在于针对不同领域数据使用不同机器学习或深度学习模型对数据进行处理和建模,产生一组"个体学习器",集成模型通过将多个学习器