美国ZestFinance:用大数据作金融风险管控

文/中国人民银行征信中心博士后 刘新海、Turbo Financial Group联合创始人、首席风险官 顾凌云、中国联通网络技术研究院高级工程师 丁伟

作为一家创新型的科技金融公司,ZestFinance自创立以来,由于其独特的商业理念而不断受到投资界和互联网金融领域的瞩目。于2013年获得全球第三方支付平台PayPal联合创始人、美国知名投资人彼得·泰尔(Peter Thiel)2000万美元的投资。ZestFinance认为,它的使命是为每一个人创造公平而且透明的信用信息。ZestFinance最初的服务对象是只能使用高利贷的人群(称为借贷日贷款人群),通过大数据挖掘出他们的信用信息,帮助他们享受正常的金融服务。ZestFinance假定每一个消费者都是“好”人,希望通过搜集证据,证明信贷信息不完整人群的真正的信用状况,进而帮助他们实现享受正常金融服务的权利。

和传统征信相同,ZestFinance公司大数据征信对消费者的信用评估也是基于两个基本面的信息:消费者的还款能力和消费者的还款意愿。所不同的是,传统征信中,数据依赖于银行信贷数据,而大数据征信的数据并不仅仅包括传统的信贷数据,同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征,这些相关性描述风险特征的抽取与筛选是ZestFinance的技术核心(如图一)。相比于传统征信数据的强相关性,这些大数据征信的数据和消费者的信用状况相关性较弱,ZestFinance就利用大数据技术搜集更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据,可以对传统征信无法服务的人群进行征信,实现对整个消费者人群的覆盖。

图一 大数据征信视角和传统征信视角的比较

优于银行的大数据挖掘技术

ZestFiance的优势在于其强大的数据挖掘能力,能开发出新颖的信用评估模型,从大数据中挖掘出更多不易被发现的消费者信用信息。

不同的应用对大数据有着不同的理解,目前也没有一个统一的概念。ZestFinance的创始人和首席执行官梅里尔(Douglas C.Merill)认为“数据多”并不是“大数据”,能够利用IT技术将碎片化的信息整合起来才能形成真正有用的大数据。这种对大数据的理解特别适用于征信业,因为征信的基本过程也是将分散于不同信贷机构看似用处不大的局部信息整合成为可以完整描述消费者信用状况的全局信息。

值得指出的是,ZestFinance虽然利用大数据技术进行征信,但是主要利用的还是结构化的大数据,对于复杂的大数据类型,例如文本数据和社交网络数据,利用得比较少,主要原因是由于这些复杂的大数据和ZestFinance所服务的消费者的信用风险相关性太弱了。这种现象其实也被其他互联网金融的征信实践所验证,例如最大的互联网P2P公司Lending Club最早从脸谱(Facebook)平台登陆信贷市场,希望通过对社交网络的数据进行信贷审批,结果效果很差,难以为继,最后只好回归传统的信贷手段发展。

ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力,将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。

关键在于多维的数据和算法

ZestFinane的核心业务是消费信贷审批,主要客户是次级贷消费者,主要的竞争对手是银行或典当行。ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力,将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。

传统的信用评分模型一般拥有500个数据项,从中提取50个变量,利用一个预测分析模型做出信用风险量化评估。而在ZestFinance的新模型中,往往要用到3500个数据项,从中提取70,000个变量,利用10个预测分析模型进行集成学习或者多角度学习,进而得到最终的消费者信用评分。

如图二所示,ZestFinance的数据源是大数据,可以生成数以万计的风险变量,然后分别输入不同的预测模型中,例如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型等。每一个子模型都从不同的角度预测个人消费者的信用状况,克服了传统信用评估中一个模型考虑因素的局限性,使预测更为细致。

机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习最近的热门研究方向。集成学习是使用一系列算法模型进行分析预测,并使用某种规则把各个模型分析结果进行整合从而获得比单个算法模型更好的预测效果的一种机器学习方法。

如果把单个模型比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。由于融合多种信息和综合多种决策机制,经过集成学习得到的分析预测要明显优于单一模型。不同角度的信息存在关联,各自包含互补信息、多角度学习的过程,相当于一个不断搜集证据的过程,加强互补信息,进行信息融合。例如,两个独立的评分模型对利润提升的能力分别是16.9%和9.4%,传统信用评估中,第二个模型可能被弃用,但如果发现这两个模型分别包含互补信息,将这两个模型的结果进行融合,可以将利润提高至38%。

这些多角度学习中每一个子模型也没有采用传统的逻辑回归, 而是机器学习中的其它的预测模型(该模型的细节对于ZestFinance是核心机密)。ZestFinance的信用评估中没有利用逻辑回归模型的原因是大数据征信的数据比较零碎,而且变量过多,以及所抽取的风险变量分布不能满足正态分布。

抓住信贷审批管理就能控制80%的风险

根据调查,80%左右的信贷风险来自信贷审批环节,一旦消费者获得信贷,后续的管理只能控制20%的风险,由此可见科学的信贷审批管理十分重要。开发高质量的信贷审批评分模型,进行科学的审批风险管理,可以大幅降低坏账率,并取得比较好的经济效益。虽然ZestFinance并未透漏其坏账率,但在实际应用的过程中,和其竞争对手银行或典当行的放贷者相比,还是取得了一些不错的结果。

1.获得贷款顾客的成本是竞争者的25%。根据JMP2012的行业报告,对于一个在线的借贷者来说,获取一个顾客的平均花销应该在250美元和500美元之间。2014年,通过ZestFinance的服务,获得顾客的成本稳定在100美元左右。

2.首次还贷违约率(First pay default, FPD)低于竞争者。从2012年初起,ZestFinance的首次还贷违约率还在不断波动,有时高于第三个竞争对手,随着模型的不断改进,到2013年已基本稳定,明显低于三个竞争对手。

3.不断提高客户的投资回报率。ZestFinance最初的投资回报率在100%左右,随着模型的不断改进,目前的客户投资回报率达到了150%以上。

4.投资回报率高于竞争对手。图二展示了ZestFinance在不同时间和其竞争对手在投资回报率方面的比较,可以看出ZestFinance的投资回报率明显高于行业标准和其竞争对手。

图二 ZestFinance的投资回报率高于竞争对手

关于ZestFinance信用评估模型

ZestFiance的优势在于其强大的数据挖掘能力,开发出新颖的信用评估模型(见图三),从大数据中挖掘出更多不易被发现的消费者信用信息。

当ZestFinance不断地进行数据搜集和增加新数据源的同时,评分模型也在不断更新。如表一所示,从2012年到目前,差不多每一个季度就会新推出一个新的信用评估模型。而且模型是以每一位不同的开发者命名,目前已经有14个模型。ZestFinance评分模型的改进也提高了其信用风险评估水平。虽然这些新的模型仍然会遇到数据充足性和数据可得性的挑战,但是模型的持续改进还在进行中。

图三 ZestFinance的信用评估模型解读

ZestFinance最早从事的是信贷审批,仅有信贷审批评分模型,随后不断细化其评估模型来支持不断推出新的信用风险业务。如表一所示,2013年第一季度推出了催收评分,2014年第二季度推出了市场营销评分;2014年推出了汽车贷款和法律催收,目前已经开发出八类信用评估模型,用于不同信用风险评估服务。

表一 ZestFinance信用评估模型

丢失数据(Missing data)指的是机器学习中某一些数据项因为种种原因造成了缺失,较多的丢失数据会给建模过程带来挑战。由于ZestFinance利用多维度的大数据,所以丢失数据的现象更加突出。ZestFinance处理丢失数据也有其独特之处。首先ZestFinance不断改进其评分模型,增强其处理丢失数据的能力,最新的评分模型可以处理超过30%的丢失数据。其次,ZestFinance另辟蹊径,充分利用丢失数据之间的关联、和正常数据的交叉,探寻数据丢失的原因。通过这样的深耕细作,获得了一些有用的消费者信用信息。当然,这种做法要求使用于特定环境,要结合信贷业务,并对消费者的行为模式有深入的理解。

大数据征信对中国征信业的启示

ZestFinance最初的服务对象是只能使用高利贷的人群(称为借贷日贷款人群),通过大数据挖掘出他们的信用信息,帮助他们享受正常的金融服务。ZestFinance假定每一个消费者都是“好”人,希望通过搜集证据,证明信贷信息不完整人群的真正的信用状况,进而帮助他们实现享受正常金融服务的权利。

相比而言,目前国内的信用风险管理,惩罚性太强,一种类似“有罪推理”的思路大行其道,这种方式可能简单有效,但是并没有把征信的作用全面发挥出来。征信的真正作用不仅仅是惩戒失信,更重要的是褒扬诚信。ZestFinance为所有的消费者挖掘信用,用科技的力量推动普惠金融的发展,打破信贷机构为富人服务的怪圈。

定位于特定的服务人群也是ZestFinance成功的关键。ZestFinance的主要服务对象是约占人口5%的、信用评分在500分以下的次级贷人群。通过对这部分消费者的深入理解,筛选大数据描述信息,所开发的也是针对这部分人群有效的信贷审批模型。在机器学习领域没有特别通用的分析模型,但是往往有对特定范围内有效的模型。所以,合理地定位服务人群和深入理解服务对象是开发征信分析模型乃至开展征信服务业务成败的关键。

另外,ZestFinance优于其竞争对手和传统信贷机构的一个重要的原因是强大的信用评分模型的开发能力:基于多角度学习的预测模型,模型及时更新而且不断细化。相比而言,中国的信贷审批,或信用风险管理,层次不齐,从定性判断到简单的量化决策都有,总的来说量化分析不足,而且征信机构的信用评分还未推出。只有加强对量化的信用风险分析技术研发投入,才能真正实现对消费信贷的专业风险管理。同时,值得强调的是,大数据时代,没有现成的免费午餐,数据和模型需要提炼,需要数据科学家的人工参与,即使把ZestFinance的模型拿到中国来,也不能直接用。对数据和消费者的理解和数据挖掘技术的掌握都是建模过程中不能省掉的功课。

(本文仅代表作者个人观点,与所在单位无关。)

(责任编辑:mengyishan)

时间: 2024-09-20 11:39:18

美国ZestFinance:用大数据作金融风险管控的相关文章

美国大学开始用大数据来预测学生是否能顺利完成课业

当大学纷纷开设大数据课程,为学生们在新一轮的技术革命中做准备时,也有一些美国大学开始在校园内用大数据来管理学生了. 2014年,纽约州波基普西市玛丽斯特学院(Marist College)与商业数据分析公司Pentaho合作发起开源学术分析计划(The Open Academic Analytics Initiative),旨在一门新课程开始的两周内预测哪些学生可能会无法顺利完成课程. 该计划基于Pentaho的开源商业分析平台(Business Analytics Platform)开发了一个

用大数据看懂《速度与激情》的用车法则

文章讲的是用大数据看懂<速度与激情>的用车法则,当你对<速度与激情>中的车流口水时,有没有想过,这个电影里究竟有多少台车?哪个品牌车最多?什么车最厉害?-- 没错,4月12日,<速度与激情7>就要和中国观众见面了,无论你是不是<速度与激情>系列的粉丝,这都是一部不可不看的作品.在此,TD并不想剧透电影剧情,而是想和你侃侃在<速度与激情>中的那些车. 或许,你对<速度与激情>中Han驾驶的RX-7记忆犹新,或许你对拖着金柜狂飙的道奇Ch

用大数据解决人才发现问题

人才创新要以时代为背景 讲一个时代变革的问题.我们讲机制.体制离不开时代,如果工业化时代已经成为过去,而我们的思维还在过去,你无论如何是讲不好创新的.刚才林泽炎同志的观点引起我强烈共鸣,有同志认为大数据对他们的企业是摧残,这种人我估计很快就会被时代所淘汰.我认为现在是大数据.智慧化.移动终端.云数据的时代,这个变革如果你没有感受,你还要谈创新,那请你免谈."大智移云"时代人才创新怎么谈呢?以时代为背景来谈. 怎么样大题小作呢?比如说人才发现.人才争夺.人才引进,这个机制是发现评价机制,

酒店居然用大数据赚你钱?

酒店居然用大数据赚你钱?责任编辑:editor007 作者:布加迪 | 2016-09-22 21:23:58 本文摘自:51CTO 作为一个服务行业,酒店每天都要接待数以百万计的旅客,而这之中的每一个旅客在办理入住手续时所抱有的期望却都不尽相同.满足这些期望是提高顾客"回头率"的关键.所以,酒店行业和其他的一些休闲娱乐行业的运营商也慢慢开始借助先进的分析解决方案,来揣测如何让顾客老板们更加满意. 虽然行业当中的营销部门不愿承认,但其实在运营商的眼中,顾客也是有相应的区分的. 有些客人

用大数据来组建你的超级团队

当球探"遇上大数据会产生什么样的化学反应?美国奥克兰市运动家棒球队,曾因采用数学模型来预测球员成绩.遴选球员而大面积改变了球队成绩,创造了美国棒球联赛史上最长的连续获胜记录.<大西洋月刊>编辑Don Peck 特别报道<HR遭遇大数据:他们在盯着你工作>中,描述了数据分析对于职场人力资源工作带来的变革.本文由 钛媒体编译,i黑马在此推荐给各位创业者.比利·比恩(Billy Beane)曾是奥克兰市运动家棒球队的总经理.2003年,拜美国作家迈克尔·刘易斯(Michael

嘿,用大数据来组建你的超级团队!

当"球探"遇上大数据会产生什么样的化学反应?美国奥克兰市运动家棒球队,曾因采用数学模型来预测球员成绩.遴选球员而大面积改变了球队成绩,创造了美国棒球联赛史上最长的连续获胜记录.<大西洋月刊>编辑Don Peck 特别报道<HR遭遇大数据:他们在盯着你工作>中,描述了数据分析对于职场人力资源工作带来的变革.推荐如下,由钛媒体编译: 比利·比恩(Billy Beane)曾是奥克兰市运动家棒球队的总经理.2003年,拜美国作家迈克尔·刘易斯(Michael Lewis

试水移动医疗,英特尔要用大数据追踪疾病

摘要: Maker Voice是为关注新硬件的朋友们准备的一个栏目,初期的形态是每天一篇文章,梳理总结一天下来新硬件行业的精华内容,可能是有意思的产品,也可能是引人思考的观点,目标是让 Maker Voice是为关注新硬件的朋友们准备的一个栏目,初期的形态是每天一篇文章,梳理总结一天下来新硬件行业的精华内容,可能是有意思的产品,也可能是引人思考的观点,目标是让朋友们能用最短时间在这里遍览真正值得关注的内容.So,enjoy! 试水移动医疗,英特尔要用大数据追踪疾病 周三,英特尔宣布将同 Mich

从卫报到谷歌:Simon Rogers是如何用大数据玩转新闻的?

武汉大学新闻与传播学院副教授.镝次元数据传媒实验室负责人的王琼老师,告诉你什么是现在正夯的大数据新闻,其中她分享了很多谷歌趋势(Google Trends)著名数据新闻编辑Simon Rogers的案例. 1数据新闻前身是计算机辅助报道 感谢DT财经和SODA能够提供这样的机会,让我们一起交流.大家好!我是来自武汉大学镝次元数据传媒实验室的王琼,我想跟大家分享的是大数据新闻的概念.机会和风险. 什么是数据新闻?很多人对它赋予了不同的概念,有很多人都非常好奇什么是数据新闻,这是不是一个噱头?我们如

Facebook如何用大数据

一篇来自麦肯锡公司的报告曾指出,直到2009年底,那些拥有超过1000位雇员的公司已经存储了他们客户的日常生活中超过200万亿字节的数据. 在过去的四年里,社交媒体上数据的暴增,增加了这一惊人的存储数据量:上万亿条推特消息,数十亿个Facebook里的"赞",还有更多数量的Foursquare(签到应用的鼻祖)"签到".还有Instagram和Pinterest也为海量的信息数据做了贡献.光是社交媒体所收集的数据,其数目已足够惊人. 社会媒体加快创新的步伐.促进成本