金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

机器学习、深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。

 

朱明杰表示,当下人工智能和金融的话题有些过热,我们应该冷静地看到,将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难,新业务的冷启动、大量非结构化数据加工以及前所未有的上千维度特征融合处理,包括线上的反欺诈识别,这都是横在AI与业务经验逐步结合前的鸿沟。

以下为CreditX氪信创始人朱明杰博士的演讲速记,在不影响原意的情况下,部分有删节: 

新金融业务的冷启动是什么?

冷启动的问题其实主要是指新金融领域缺少样本,我们知道金融机构积累坏账样本的周期是比较长的,另一方面每一个坏账也都是血淋淋的教训,坏样本积累非常珍贵。

 

AI在这方面的一个解决尝试是采用互联网搜索领域常用的半监督学习方法,通过少量专家人工标记构建训练数据集,快速构建初始机器学习模型来对信贷主体进行风险和信用评估,后期通过不断迭代优化模型以达到最优的效果。此外,在大型金融场景中也可以通过Domain Adaptation的技术,比如我们积累了在不同金融业务领域的经过大数据集训练好的深度学习网络,就可以作为相似领域相同问题但只有小量标记样本用于建模时的特征生成器。

 


 

新金融业务面临的海量数据有哪些?

在这一点上,由于新金融业务客群进一步下沉,传统征信数据缺失非常严重,因此为了做到更全面可靠的金融风控,机构往往需要在申请信息之上补充大量诸如消费、运营商、社交、互联网行为甚至影像等等,然而这些海量超高维,稀疏,低饱和,多重共线的数据,传统的风控特征工程往往束手无策。

 

如果金融机构有大量无标签的数据和少量有标签的数据,其实我们已经可以通过深度学习的非监督或有监督算法,学习稳健,泛化能力好且饱含信息的特征用于分类任务。这里重点谈一下非监督的算法,包括受限玻尔兹曼机,深度置信网络等,包括目前尝试的是最先进的一些生成式算法譬如生成式博弈网络,算法启发于博弈论,由生成网络和判别网络两个网络组成,生成网络生成数据目的是欺骗判别网络,判别网络为判别数据的真假而得到奖赏或者惩罚。随着两个网络的不断博弈,生成网络可以学到很好的特征从而生成足以以假乱真的数据。

 

新金融风控正面临维度灾难

我们知道国内外目前成熟的风控系统很多都是评分卡体系,但基于之前的海量外部数据,其衍生的特征量很多时候都是上千上万维度的,远远超出了评分卡体系所能处理的能力范围,也就形成了维度灾难。那么对这些千维万维的特征该怎么很好地应用到新金融风控呢?

 

事实上,不同的数据类型,它的最优模型选择也是不同的,基于这种思想,我们去针对机器学习特征和专家人工特征构建最优的规则模型、机器学习模型、深度学习模型来吸收这些全量特征,就可以很好地化解这一问题。此外,在此之上我们进一步通过模型集成技术进行风险评分的输出,目前已经在与领先机构的风控场景中取得出人意料的效果提升。辟如在实际大型的消费金融场景中,这种集成模型无论在在稳定性或泛化能力上的表现都优于其他已知方法,最大ks值上也比传统逻辑回归提升近70%,从0.19能够达到0.32甚至更高。

 


 

新金融业务频频被瞬息万变的互联网群体欺诈攻击

最后,谈一下金融反欺诈。之前关心互联网金融的朋友应该都知道,现在网上薅羊毛的现象很严重,尤其是新上线的互联网金融业务,常常是第一个月就被网上羊毛党群体轮番攻击,这其实也就是线上反欺诈的问题,由于这些羊毛党都有专业的申请信息填写、个人数据伪造的经验,传统基于规则的风控很多时候根本无法识别。

 

基于大规模图学习的反欺诈网络很好地解决了这一问题,一方面我们能通过复杂网络来识别群体欺诈风险,另一方面我们也可以把基于图的半监督算法应用于预测“好”/ “坏”人的分类模型,即在有少量标签节点的图结构中,根据传播算法,预测无标记节点的标签类别。

 


 

举个简单例子,在申请网络中其实每一个申请人、手机号、设备、IP地址都可以是一张图中的结点,而诸如申请人拥有设备、手机号呼叫手机号等有向联系都可以是图中的边,边的权重为关联的紧密程度。在我们构建的图中,那些有违约与否标记的申请人是原始种子结点,通过使用基于图的半监督算法,把是否违约的标记传播给无标签的申请人,这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络,并打造形成我们的违约预测模型。以下是在实际场景更为复杂的网络中,基于图结构的局部风险特征、欺诈Pattern的展示,尤其是基于图挖掘算法提取的全局风险特征,目前通过FraudPageRank、community detection、SocialAffinity等风险指标已经可以实现网络全局风险的实时识别。

 


 

时下,新金融正来到转型升级的十字路口,一方面AI被寄予极大厚望,另一方面将互联网级别的AI应用于金融领域也存在很多急需突破的挑战。相信随着需求驱动技术的快速发展,机器学习将在金融风控的工业级应用中发挥越来越大的价值,但如何真正释放数据的价值,我想我们的征途才刚刚开始。

CreditX氪信是一家机器学习风控解决方案服务商,CEO朱明杰为微软亚洲研究院博士、德国马克思普朗克研究所博士后,携程大数据部门负责人。曾在MSRA、Yahoo Labs及eBaySearch Science担任重要职位,拥有丰富的数据挖掘、互联网搜索和机器学习的研究开发和产品工作经验。 

原文发布时间为:2016-12-28

时间: 2024-11-02 13:01:47

金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?的相关文章

互联网金融往往与体验、大数据、成本颠覆等概念挂钩

在互联网人眼里,"互联网金融"往往与"体验"."大数据"."成本颠覆"等概念挂钩,似乎只要掌握了这几样法宝,数百万亿金融资产就会向你敞开怀抱,实情真的是这样么? 概念总是激动人心,落地中却往往碰壁.很多时候,我们不是追求了错误的目标,只是没找到正确的时机.不少人花了很大力气才搞懂这一点:在互联网金融领域,谈"互联网"是着眼于理想,谈"金融"是立足于现实,而真正成功的创业,永远在理想与现实

地球观测领域的若干大数据问题初探

地球观测领域的若干大数据问题初探 李国庆研究员 中国科学院遥感与数字地球研究所 --地球观测领域为什么会有大数据问题?--地球观测大数据问题的辨析--若干大数据应用案例的场景和挑战分析 地球观测领域的若干大数据问题初探

深耕大数据领域 联想斩获大数据产业大奖

 近日,主题为"产业互联网时代的云计算和大数据"的2016中国软件大会在北京新世纪日航酒店盛大召开,联想集团副总裁.首席研究员田日辉荣获"2016中国大数据产业十大领军人物"奖.这次评奖是对活跃在中国软件和信息技术服务产业链上下游的实力企业.领袖人物的集中肯定,而"中国大数据产业十大领军人物"的荣誉桂冠,更是对我国大数据产业发展做出突出贡献的领袖人物的褒奖. 田日辉自2011年起负责联想集团大数据平台业务,构建了联想统一的大数据整合平台.端到端的

阿里金融日息百万:大数据的力量

阿里金融来势汹汹,今年阿里信贷业务向江浙地区普通会员放开,实现单日利息收入100万元,引发银行业震颤. 在这个年交易额过万亿元的中国最大的电子商务平台上,无担保.无抵押.纯信用的小贷模式不断刷新资金流转的速度.而阿里金融实现批量放贷的核心,正是阿里大数据. 阿里小贷的两种模式 阿里金融诞生于2010年,"如果银行不改变阿里,阿里将改变银行",马云的振臂一呼,击碎了当年的耻笑和白眼,如今不断引起金融体系地震. 阿里金融主要做小企业贷款,以日计息,随借随还,无担保无抵押.流动的资金不断为小

搞互联网金融的,少点大数据忽悠吧!

中介交易 SEO诊断 淘宝客 云主机 技术大厅 对于互联网金融,互联网行业和传统金融行业的观点往往大不相同,前者认为互联网是重点,金融不过是下一个即将被颠覆的特定行业而已,只是由于金融行业的高门槛和严监管,颠覆进程会比较曲折;后者则认为金融有自己完全不同的逻辑,信用和风险是难以逾越的门槛,护城河高筑,互联网金融只能在互联网企业的一亩三分地里自娱自乐. 但是对于大数据,二者却难得的表现出空前一致.在10月30日召开的IFC1000全球金融峰会上,金融人士异口同声宣称大数据是互联网金融的最大亮点,因

顺丰!是物流公司?金融支付公司?还是大数据公司?......

理财周报记者历经数周采访调查,甚至访遍了深圳市福田区新洲十一街万基商务大厦顺丰总部的每一个楼层. 我们从两个角度来看顺丰公司.第一个角度,我们无法否认顺丰是一家好公司,是一家有规模的公司,是一家有利润的公司.第二个角度,我们从怀疑主义角度出发,顺丰能不能成为一家具有国际管理水准.国际视野和国际竞争力的巨头公司?它可以和联邦快递匹敌吗? 在以互联网为核心的产业重构时期,这个曾经拒绝过马云和马化腾合作的公司,现在尤其值得密切关注.         顺丰20年融资破冰 今年10月,理财周报记者曾以快递

农村金融成巨头新战场 大数据或为破局核心

对整个农业产业生态圈来说,数据化都是至关重要的一步. 诺贝尔和平奖的获得者穆罕默德·尤努斯,从行业定义上来说,其实应该是个金融家.不同的是,他的格莱珉银行的目标客群是孟加拉农村的穷人. "1976年我们建立了这家银行,而直到1982年才真正拿到银行牌照."尤努斯曾经这样描述他在农村金融上遇到的困难.事实上,国内的农村金融,尽管需求巨大,但由于种种困难,至今仍然没有得到有效的总体解决. 尤努斯之梦 在互联网金融上线以后,这个蓝海市场开始被广泛注意到.很多企业开始展示自己的中国式尤努斯之梦

[互联网金融]园丁式监管走向大数据监管

互联网和金融的融合已成趋势.如何监管互联网金融,既把握好风险防范底线,又促进行业健康发展,已成各方所面对的重要课题和紧迫挑战. 互联网金融将"开放.平等.协作.分享"的互联网精神融入金融服务,通过大数据.云计算.移动互联等技术赋能金融产品,大幅降低交易成本和门槛,实践普惠金融.在"互联网金融"概念中,金融的功能属性.风险属性和契约精神没有改变,但相比传统金融已呈现一些本质上的差异,诸如加速货币去纸化.促进金融服务碎片化.推动金融系统去中心化等.此外,就像生态系统一样

中国首度在大数据标准领域发声 首项大数据提案通关

在美国孟菲斯召开的在"数据管理与交换"分技术委员会2016年全会上,中国代表团提交的大数据技术提案"SQL对MapReduce及与之相关的流数据处理的支持"完胜美国.德国,获得SC32全会决议通过. 会议确认以WG3"数据库语言工作组"和中国国家成员体的名义联合申报新工作项目"数据库语言新技术设计说明第1部分:SQL对流数据的支持".这是29年来中国首度在国际标准委员会独立提出技术提案并获通过. 据悉,该项目中国国家成员体的发