文章讲的是姨搜侯松:信贷场景全流程数据风控体系,10月28日,第八届SACC系统架构师大会的第二天。八年安守一颗平常心,作为中国规模最大的架构师盛会,SACC始终坚持以技术为主,为参会者提供一场技术与思想碰撞的饕餮盛宴。站在创新的风口,本届SACC以“架构创新之路”为主题,为IT从业人员量身定制多个分会场,技术与创新擦出的火花,点燃SACC2016的起点与终点。
▲侯松
初听“姨搜”这个名词,很难将它和技术联系在一起。而宜信更是很多人都不了解,它是一家P2P金融公司,而姨搜则是为整个宜信公司提供风控数据服务和模型服务的。对于信贷产品的组成,大多数人可能都不够了解,上到产品业务本身,下到具体技术实践,核心是预测模型构建。对于大家可能一直不太了解或者忽略了的信贷行业,侯松分享了他对信贷场景数据风控体系的理解。
什么数据才是有价值的,有用的数据?
这个问题基本上可以引发全行业的思考了,在疯狂收集数据的时候有没有静下心问过自己一个问题:这些数据有意义吗?可观察到并记录下来的都是数据,庞大的数据湖泊中,该如何选择呢?侯松提到被动收集与主动收集两种方式,被动数据日后的使用模式也是被动的,而用户基础数据扩展属于主动数据,日后的使用也属于主动模式。在信贷行业,有一个很特别的玩法,为了测试新模型,可能会放出一批高风险的用户,以测试新模型的性能,这种情况下收集的数据也属于主动数据。
社交数据对金融行业有价值吗?
分清楚数据的获取方式,便可以知道日后的运营模式。不同的数据有不同的价值,对于社交数据在金融行业的价值,似乎是大家十分感兴趣的点,侯松提到此处表示,社交数据确实有用,但不同场景下的价值却并不是一定的,只有当价值大于成本时,这样的数据才是真正值得挖掘使用的。
信贷行业的风险众所周知,从数据整理到数据整合再到数据特性,从原始裸数据到简单特征变量再到复杂特征变量,风控政策人员以及数据科学家在信贷行业占据着十分重要的地位,对风险与数据要有很好的感觉,具备一定编程能力,对数据挖掘和机器学习算法有深入理解,才可以更好地对数据进行分析,对风险进行控制。
风险系统架构设计
风险系统的架构设计相对于传统的技术企业或者业务比较复杂的行业来说,比较简单。针对风险政策人员、数据挖掘科学家、贷款产品开发人员的意见分析结果,给出整体的架构设计思想。整个架构设计分为数据整合、政策执行、实验分析三大部分。在数据整合部分会给出最终的知识图谱,而政策执行部分则是给出决策引擎,侯松认为这种引擎就相当于SQL语句,而实验分析部分则会给出ALBUS架构,主要分为执行层与逻辑层,具体架构如下图所示:
信贷行业有其特殊性所在,其架构设计整体根据其用户需求以及可获得数据搭建。这个长期以来可能一直被大家忽略的行业正在悄悄完成它在大数据时代的战略转变。
作者:zyy
来源:IT168
原文链接:姨搜侯松:信贷场景全流程数据风控体系