社交数据在征信领域的应用探索

由51CTO举办的WOT”互联网+”时代大数据技术峰会上,来自腾讯数据挖掘高级工程师刘黎春做了以《社交数据在征信领域的应用探索》为主题的演讲,主要内容由社交征信背景、腾讯社交网络数据、个体用户画像研究、社团圈子研究、模型建设及应用这五部分构成,下面我们就逐一为大家介绍各部分的内容。

◆ ◆ ◆

社交征信背景


刘黎春表示,征信并不是一个简单征信评分的模型,而是由数据公司、征信公司、征信使用方三部分组成。数据公司就是采集或做一些数据的初步挖掘,这类公司可能会有特殊的数据源,例如法院、公安等这些数据都是需要深入行业背景才能拿到。征信公司是有一个产权联系,另外它也会向第三方一些数据公司去购买一些数据回来,丰富它数据的维度,并且基于这些数据去做一些征信的事情,提供一些征信级的解决方案。征信使用方就是征信的解决方案最后给到谁来用。一般来说我们的理解就是银行和P2P的贷款机构。这三部分综合起来,就形成了一个整体的征信行业的产业链。

传统征信相关机构

美国著名征信公司 

国内征信发展历程

综合以上四图的数据来看,如果社交数据可以用到征信中的话,是不是可以对央行的征信系统做一个很好的补充呢?刘黎春表示,这是腾讯在做社交征信项目时最开始思考的问题。社交数据非常庞大,但并不一定都是有效数据,还要看具体应用的业务场景是不是和数据有相关性,这些数据是不是真的能够用到最后的模型或者算法中去。这样问题就接踵而来,社交数据与信用评级有关系吗? 交易数据天然具备金融属性,社交数据有吗? 社交数据非结构化程度高,怎么挖掘并有效使用?

◆ ◆ ◆

腾讯社交网络数据


在谈腾讯社交网络数据构成之前,刘黎春先介绍了传统征信的分析维度。其一是用户的基础信息,如年龄、性别、职业、收入、婚姻状况,工作年限,工作状况等基本上和每家银行或者每个做征信的机构获得的数据都差不多。其二是信贷情况,看用户申请几张信用卡,最近一个月的征信报告被查询的次数,因为我们大家都知道征信报告被查询的次数可以直接代表最近有没有比较频繁地做贷款的申请或者信用卡申请。如果最近的次数特别多,那说明这个人最近非常缺钱,可能就会影响信用,直接影响授信额度。

 

上图是腾讯的数据现状,包含了很多维度的数据,覆盖的用户数相对来说更加全面一些。

 

腾讯社交征信SWOT分析

上图为腾讯社交征信SWOT分析,优势、劣势、机会、风险一目了然。有了这样详细的分析,做个人征信是必然的事情,但做征信之前要清楚的知道征信对象是什么样子,所以开始着手做个体用户画像的研究。

◆ ◆ ◆

个体用户画像研究


刘黎春表示,做个体用户画像研究遇到的挑战主要有如下三方面:其一,如何充分利用腾讯各种丰富的数据资源及之间的联系?其二,如何使用户画像适应各种不同的应用场景?其三,如何高效的处理海量的用户数据(超过10亿的QQ用户, 超过千亿级别的各类日志数据) ?面对这些挑战,刘黎春给出来相应的解决方案如下:

  1. 针对不同的底层数据类型设计特定的挖掘算法,挖掘用户的行为特征,形成底 层标签。综合考虑不同数据来源的,形成更上层的抽象用户标签
  2. 建立完善的用户画像标签体系结构,从不同维度、粒度对用户进行描述。
  3. 搭建用户画像挖掘系统,基于大规模存储和机器学习计算平台,定期对全 量用户数据进行计算和挖掘,并提供用户标签的使用和查询服务。

用户画像系统架构

用户画像文本挖掘系统 

用户画像行业挖掘

用户画像挖掘结果

个人用户画像研究的结果就是把结构化数据,文本分类,LBS数据,社交网络传播扩散这些挖掘之后形成一个比较完整的画像,比如说人口的一些基础属性如年龄、家乡、兴趣等。同时也会对用户婚姻状况来做一个判断。有了这些数据之后,就可以基于这些用户数据去做很多社交征信工作。

◆ ◆ ◆

社团圈子研究


这里说到的社团圈子其实就是QQ圈子,刘黎春表示,在2012年有一个社交网络的成果非常有影响力,那就是把挖掘出来的结果作用到整个前端的QQ用户。具体案例就是如用户的某个同事,你们并不是直接的好友关系,但腾讯会知道这期间的潜在关系,或自动分到同事分组并同时加上备注。这个结果在当时引起了很大争议有人觉得对于他们找到一些潜在好友提供便利,但有些人觉得触碰了他们的隐私。

QQ圈子除了它自己本身之外,也会把它作用到很多场其他景里去,比如说用它来挖掘学历的信息,基于QQ圈子好友的备注,如说很多人把这个用户备注成一个本科同学,那系统可能会判断我的学历是本科学历。这样的数据腾讯是拿一些真实的数据做过验证,数据覆盖率大概能覆盖74%,准确到90%以上。 

社交网络拓扑的应用

社交网络拓扑的应用无外乎有两种,其一是是判断拓扑的类型,其二是研究这些类型在这个关系链里的影响力。比较有标志性的拓扑类型有三角形和心型两种结构。

◆ ◆ ◆

模型建设及应用


那么要如何把个体用户画像和社团圈子的研究,用到模型中去呢?刘黎春表示,首先要做的事情就是先建立一个社交模型,但在建模之前要做一些基本假设,如两个QQ号码是属于同一个人的话有一些比较明显的特征,第一个他会经常在同一个设备里面登陆,或者在同样的IP里面登陆,或者它有其他特征的表现等等。最后把这些特征用来建立模型,去判断说某几个QQ号码背后对应的到底是不是同样一个人,这个的准确率大概是85%,覆盖率是75%左右。

变量衍生与模型结果 

模型整体效果 

微粒贷应用

最后刘黎春介绍征信模型运用到微粒贷中的具体应用流程,上图为产品截图。打开QQ如果能够看到微粒贷入口,说明是在腾讯筛选出的白名单里面。只要你点击了申请开通,它会马上给你算一个额度出来,如果你要借款,这个也是非常快,只要你绑定了你的银行卡,应该在两分钟之内会把你的借款打到你的账上。其实这个相对于去传统银行借款的话,它这个效率是有一个质的飞跃。但其前台产品表现得越简单,它背后的技术可能是越复杂的技术。征信模型作为微粒贷背后技术就是为了筛选具有良好信用的用户,为这些用户提供贷款服务。

原文发布时间为:2016-03-30

时间: 2024-11-13 08:52:40

社交数据在征信领域的应用探索的相关文章

大数据征信如何为一个人建立数据肖像?| 硬创公开课

"凡走过必留下痕迹",大数据时代,你的一举一动都在为你建立一个电子档案,从你有多少张信用卡.每个月消费多少.还款记录如何到你喜欢浏览什么网站.手机是什么型号甚至IP地址对应的位置,有一万多个词条可以刻画你的肖像,银行在不需要跟你打交道的情况下可以靠这种数据肖像决定要不要给你放款.放多少合适.这就是大数据征信. 每个人每天会产生无数的信息,征信机构如何从这里面抽丝剥茧找到有效的数据,又如何给每个数据设置合理的权重去建立模型?机器出现故障之后又如何修正?我们请到了在征信上有多年经验的嘉宾.

大数据征信成撬动消费金融的支点?

文章讲的是大数据征信成撬动消费金融的支点, [IT168资讯]如果要说近日整个互联网金融领域什么最火,相信必然非消费金融莫属.但是消费金融更多建立的是一种信用消费,而这个核心和根本就在于个人征信.但是看看目前国内整体的互联网金融个人征信,却仍然存在许多不足之处. 1.目前整个国内的央行征信系统虽然覆盖到了8亿人,但是真正和银行有信贷关系的只有3亿人.尤其是央行的征信目前尚没有介入到任何非银行类机构,客户的信用分析也不能仅仅依靠央行的征信报告就能够完全判断准确.对于大部分的传统机构来说,他们掌握的

大数据征信:央行开了“半扇门”

在1月5日,中国人民银行官网发布消息称,人民银行已印发<关于做好个人征信业务准备工作的通知>,要求芝麻信用管理有限公司等八家机构做好个人征信业务的准备工作,准备时间为六个月. 这是2013年3月15日中国征信领域首部法规<征信业管理条例>开始施行之后,央行第一次通知企业做个人征信的准备工作,多位受访专家认为,这无疑在征信市场化方面向前推进了一步.中国企业在征信业的探索始于上世纪90年代初,由于国内征信行业此前一直没有专门法规,其运行一直处于灰色地带. 这同时意味着,今后中国人个人信

从大数据征信看银行风控创新

数据将是未来银行的核心竞争力之一,这已成为银行业界的共识.在大数据时代,银行所面临的竞争不仅仅来自于同行业内部,外部的挑战也日益严峻,互联网.电子商务等新兴企业在产品创新能力.市场敏感度和大数据处理经验等方面都拥有明显的优势.在此形势下,利用大数据征信创新和提高银行的风险把控也逐渐成为业界关注与探讨的重要话题. 银行业在风险控制中的不足之处 普华永道发布的<2015年中国金融及银行业展望>指出,截至2014年第三季度末中国的商业银行不良贷款总额上升36%,达到7670亿元人民币,是四年来的高点

社交网络数据征信的作用你猜有多大?

巨大的信贷市场需求与稀疏分离的数据造成了金融机构征信与风控上的困局.随着互联网与数字技术的发展,有条件的企业开始了五花八门的征信服务,而民间企业推举最多的就是社交网络大数据征信评价.社交征信应运而生自有其作用,但这个作用有多大呢?似乎也没有达到大家所给予厚望的程度. 其作用大概只占5%-10% 业内人士分析称,目前来说,社交网络数据作为弱变量数据,其在大数据征信中的作用有限.国内运用人工智能与大数据做征信的初创企业星桥数据董事长丁卓博士表示:"其实,社交数据征信在做360度的用户画像刻画中,其作

征信大数据的盈利模式,怎么赚钱?

1)基础征信服务收入:征信机构出售信用报告.提供信用评分取得的收入(美国三大信用局的征信报告一份是30美元左右,国内央行征信中心对个人查询本人信用报告收费为第3次及以上每次收取25元服务费): 2)信用衍生服务收入:征信机构在信用评估的基础上,对外提供的决策分析服务.精准营销服务和消费者客户服务等取得的收入. 征信行业的盈利能力如何? 海外征信机构净利率能够达到15%左右.参考美国市场化主导的征信体系,我们看到经过长时间充分竞争,最终在个人征信领域,益百利(Experian).艾可菲(Equif

大数据征信面临的挑战与对策

随着征信市场化步伐加快,大数据征信成为热门话题,受到互联网金融和资本市场的追捧.征信与大数据有着基因层面的密切关系,一方面,征信数据是天然的大数据,理论上与消费者和企业相关的数据都可以用来作征信:另一方面,征信其实就是将分散在不同信贷机构.碎片化的局部信息,加工融合成为具有完整视觉效果的全局信息,从中挖掘出风险信息,破解交易过程中信息不对称问题.而大数据技术的优势就在于能够更好地利用IT先进技术,将支离破碎的数据整合起来,形成真正有用的信息.所以,大数据对传统征信业务模式的影响将是变革性的,甚至

大数据征信的发展背景及与传统征信的比较

传统征信在方便个人信贷.辅助金融授信决策.防范信用风险和提升金融获得性等方面发挥着关键作用,但其在互联网金融领域的局限性也不容忽视.一是全国还有5亿左右人口没有在持牌金融机构的信用活动,从而不被其所覆盖.二是随着"互联网+"的发展,互联网上产生.沉淀了大量与个人征信相关的数据,目前还难以被其采用[1].大数据征信的出现有助于解决上述问题,并在一定程度上取得了快速发展.据我们研究,大数据征信得以发展的基本条件有以下三点:一是我国政策扶持和部署所释放的良好信号:二是以"金融线上化

“三驾马车”拉动大数据征信 行业格局突变

2016年,科技领域里的谷歌机器人4:1战胜李世石,商业领域里阿里巴巴超越沃尔玛,可以算是人类历史上划时代的两件大事.大数据.云计算正推动互联网与传统行业的结合向纵深发展. 所有互联网影响比较大的行业必然容易数据化,正发展如火如荼的行业包括金融.医疗.零售等行业.对于所有的互联网金融相关方来说,征信就像水电煤一样,是互联网金融基础配置,而征信体系是风险管控的核心内容. 2016年大数据征信对金融行业的创新颠覆,最重要的一点将是:令金融行业的客户监测实现了动态风控.传统的评估.交易形态正在被数据化