基于大数据技术的手机用户画像与征信研究

内容提要:手机用户画像是电信运营商实现“数据驱动业务与运营”的重要举措。首先,介绍了手机用户画像过程中对个人隐私保护的方法,然后分析手机用户画像的数据来源与大数据实现技术,最后,通过数据样本实例分析手机用户画像在个人征信中的应用。

引言

随着计算机网络技术的不断发展,“数据即资源”的大数据时代已经来临。用户画像是电信运营商为了避免管道化风险,实现“数据驱动业务与运营”的重要举措。用户画像与应用大数据技术对客户分类密切相关,是单个客户的众多属性标签的累积;另一方面,在运营商涉足的消费金融领域,对手机用户所进行的个人信用评价,是对手机用户画像中的诸多特征实施再组合与分类的应用过程。

1.手机用户画像与隐私保护

所谓用户画像,是指单个用户所有信息标签的集合,即通过收集与分析用户的人口属性、社会交往、行为偏好等主要信息,将用户所有的标签综合起来,勾勒出该用户的整体特征与轮廓。在互联网经济条件下,满足消费者个性化需求成为运营商差异化竞争的主要手段,用户画像可以较为精准地发现客户类型,成为电信运营商避免管道化风险,实现“数据驱动业务与运营”的重要助力。

用户画像是个形象的比喻。在大数据技术的帮助下,我们可以了解手机用户的更多信息,但由于实施成本和隐私保护的限制,这个画像其实不是全息的“照相”或“录像”,是按需设计的,不可能无限细化,即用户“画像”不考虑成本与需求而具有超高“像素”是不现实的。一般而言,用户画像与客户分类密切相关。在大数据分析中对客户群进行分类,如聚类分析、判断逻辑分析等,可以按特征将用户划分为不同的类别;这些多维角度的客户分类,形成了一系列不同的属性标签。对于单个客户,正是这些分类范围的相互交集,即是单个客户身上的众多标签的累积,使得客户形象逐渐丰满,依稀呈现。同时,众多特征的迭加也可视同从量变到质变的“涌突”现象,在标签信息的基础上,可以再从各项特征中重新按需组合,形成相对完整的“大属性”标签,实施进一步的分类。从这个角度来看,手机用户的个人信用评价,也是个手机用户画像中的诸多特征再组合分类的应用过程。

就电信运营商而言,应本着风险防范原则,首先加强系统安全的日常管控与监查,具体包括:流程规划、权限分级、下载监控、合规巡检等内容(见表1)。其次,利用大数据技术做好威胁情报与安全数据的解析工作。近年来,随着网络安全攻防技术的不断演化,出现了依托社会工程学等方法的APT(Advanced Persistent Threat,高级持续威胁)方式,APT不单针对用户信息,而是出于特定目标长期地威胁整个网络系统的安全。APT的出现,促使电信运营商的数据安全理念从以漏洞为中心的实时防御,发展到以威胁情报为中心的安全解析管理。安全解析管理要利用大数据技术,着重分析挖掘业务系统中:①业务流程类数据:包括企业组织结构、业务环节构成、业务链关联、员工层级与分工权责、出勤在岗记录等,这些数据往往难以从机器中直接获取,且有助于对潜在威胁点的搜索与定位;②网络数据:包括FPC(full packet capture) PSTR(Packet ),会话或flow数据;③设备、主机及应用的日志:包括WEB代理日志、路由器、防火墙日志、VPN日志、windows安全及系统日志等;④报警数据:即检测工具发现异常而发出的通知等。通过全面的数据解析,可以及时发现入侵迹象,力争在攻击者完成使命前成功地阻止其活动并完成溯源。当然,前面提及的日常实时防御仍是安全管理的基础,构成了安全防守的纵深,否则后面的安全解析也无从谈起。

最后,出于保护个人数据隐私的目的,做好数据脱敏工作。数据脱敏主要对应于数据分析应用与发布的环节,目前主要技术有:水印、泛化、加密、失真、归并等。其中,水印是指对局部信息的掩遮;失真是指采用添加噪声等方法对原始数据进行扰动处置,但还要保持原有的数据统计方面的性质不变;加密是应用密码技术对数据进行封装,这种方法保护效果最好但开销较大;泛化是对数据进行更概括、更抽象的描述,如对于年龄18岁,可以泛化为年龄取值区间为[14,25];归并则是将量化的数值指标按一定的标准进行分类,形成属性指标参数,如价值5000元以上手机型号,被划分为高档手机类,记为参数1,归并方法兼顾了失真与泛化的要求,在用户画像中常被使用。

表1:电信运营商数据安全与隐私保护

当前,许多与民众生活息息相关的部门如公安户籍管理、社会保障、住房公积金管理等,都涉及到为数从多的个人家庭住址、社会关系、职业经历、个人收入等敏感信息,成为黑客们首选的攻击目标;但这些部门并没有因噎废食,在不断完善个人信息安全与隐私保护技术的前提下,充分利用大数据技术广泛开展综合业务为民服务。应该说,其它部门能够做到的,电信运营商也有能力做到。

2.主要技术来源与技术框架

2.1主要数据来源

手机用户画像的数据可以分为四大类:人口属性数据、社交网络数据、行为偏好数据和其他方面数据。

2.1.1人口属性数据

人口属性数据是指手机用户的姓名、年龄、性别、手机类型、手机用户唯一标识、订购套餐类型等基本信息,以及由此延伸的手机用户的实际话费、手机号码注册地、身份证居住地址等。2015年9月1日起手机卡实名登记制实施,原有的“临时账户”、“集团卡”、“代办卡”,以及手机卡登记信息不完整、机主姓名与实际持用者信息不匹配的现象将被制止,这部分的信息将成为手机用户画像的重要基础数据。

2.1.2社交网络数据

手机是人们交往的重要通讯工具,从手机用户的主被叫通讯记录中可以描绘出该用户的社会交往网络。社交网络的研究分为两种形态,第一种是以某个人为核心点,重点探讨研究其他各节点和核心点的连接互动关系以及连接强度,称为“自我中心网络(ego-centric networks)”。第二种形态是以整体网络为核心,在特定范围内所有成员所构成的关系网络,称之为“社会中心网络”(socio-centric networks),研究重点在于网络结构以及信息如何在网络内部扩散。社交网络技术方法有静态和动态交互法,通用研究工具有Ucinet、Pajek、Nwb、Nodexl和Gephi等软件。

手机用户画像的社交网络主要研究的是第一种形态网络,即以个人为中心的社交网络。可以根据是否一段时期有主被叫、通话时间长短、通话发生的时间等因素来标注社会交往的连接紧密程度以及关系的稳定性。例如,有人认为通话记录中,主叫较多的手机用户可能处于相对的支配地位,但仅凭某单项指标则容易发生误判,主叫多的可能是从事物流业的快递员;而被叫较多的手机用户,也有可能是导游或会议组织的服务人员。所以,有必要综合考虑其它因素,如一段时期内的双向通话的时长等。另一方面,根据“物以类聚,人以群分”的思路,手机用户的社交网络中有紧密连接关系的群体的一些相关信息,如ARPU值、手机型号的整体价格水平等也可以间接反映该用户所处的社会环境与地位。另外,社交网络也可以缓解信息不对称问题,对手机用户行为产生“声誉约束”的影响。

2.1.3行为偏好数据

手机用户的上网行为可以有两种方式获取。一是通过电信运营商自身经营的网站日志进行挖掘。如中国电信的“号码百事通”网站上有旅游、团购、演出、购物、民生信息查询,以及水电、有线费支付等模块,手机用户登录该网站浏览及进行购物消费,其行为数据可以在网站日志中留下记录。二是通过手机上网的信令分析。与前者网站日志分析不同,这部分行为数据的收集过程比较复杂,目前主要是进行Gb口信令分析。常用Wireshark和Compass等信令解码分析系统,对采集到的Gb口信令数据进行解码翻译,并且对访问的网站域名或通过文本和图片分析对用户所访问的网页内容进行识别,最终实现上网行为的分析。手机用户GPRS上网流程经过5个步骤,分别是附着过程、PDP激活、WAP连接、数据传输与释放连续。Gb口信令采集主要在于“WAP连接阶段”,上网信令数据获取的方法包括:分类采集、交换机端口镜像采集等。手机用户上网涉及的数据有:开始上网时间(也称上线时间)、结束上网时间(下线时间)、用户上线所在小区、所浏览的网站类型、浏览网站所传输的流量等。

同时,利用通信基站定位技术,在用户允许的条件下,可以记录查询用户的位置与活动轨迹。

2.1.4其它异常数据

例如:在手机实名制下,某用户拥有多个手机号码(10部以上),或者较短时间内频繁地更换手机号,以及话费欠缴,为了区分无意欠缴,要重点关注话费欠缴累计逾期次数和最长逾期记录。

当然,用户画像的数据可根据应用场景的需求,进一步进行衍生组合。例如,对于某手机用户的社交网络,可以在(2.1.2)项中分析出关系稳定而且亲密的网络成员(intimate relationship)的基础上,进一步分析这些成员的(2.1.1)项中的年龄结构和套餐、(2.1.3)项中的上网行为等,特别是结合(2.1.4)项中有极个别联系的成员异常情况,已成为侦察破案发现线索的主要渠道之一。

2.2MPP+Hadoop大数据技术框架

用户画像不是全息的,而且大数据的特点是数据量大但往往价值稀疏,所以,要从海量数据中挖掘有价值的特征属性,前提是设计提供性价比可以接受的大数据技术解决方案。

类似于经济学中的现象,曾经有个“三元悖论”一直困扰着数据存储与查询分析的资源协调与管理,也就是说,由于自身属性特点,Hadoop和MPP目前只能满足以下的两项功能,而不能满足全部要求。具体来说,数据分析主要实现以下目标:

(1)实时。在这方面,单节点执行系统具有明显优势,这方面MPP表现突出,其他方式会一定程度上弱化实时性能。虽然新近出现的spark技术帮助hadoop提高了实时性能,但实施成本过高,相关技术有待进一步的成熟完善。

(2)可扩展,即要按数据量的增加而扩容。MPP扩容到一定程度后因传输等因素将会受到限制,而Hadoop的Mapreduce在此方面表现较好。

(3)对数据复杂查询与复杂分析的处理能力。Hadoop和MPP均可以通过算法实现此功能,但会有难易与熟练程度上的差别。

图1:运营商“MPP+HADOOP”大数据技术框架

电信运营商运用的“MPP+Hadoop”混搭模式可以较好地解决这一问题(所图1所示)。其中,MPP主要针对BSS 域(业务支撑系统)的相关数据以及部分的OSS 域(网管支撑系统)数据,主要包括用户身份信息、费用账单、欠费信息、套餐信息、登记住址以及接入网络类型、用户终端类型等具有准确性和实时性要求的数据信息。Hadoop主要针对MSS 域(管理支撑系统)、NSS 域(网络安全系统)以及部分OSS 域(网管支撑系统)的数据,主要包括活动位置轨迹、上下线时间、通信时长、次数、访问应用时间、上网偏好、投诉信息、用户感知状态、社交网络、安全威胁情报等。

3.用户画像在征信方面的应用实例

2015年3月中国联通与招商银行下属的永隆银行出资组建了招联消费金融公司,积极开展互联网消费金融业务。这种消费金融业务由于具有无担保、无抵押的特点,可以采取相对灵活的信贷政策,进而扩大了信贷范围,但也面临着一定的风险。为提高履约水平,电信运营商有必要从用户画像角度对个人消费信贷进行征信管理。

个人信用评价实质是一个类别识别问题。由于个人征信的基本过程,是将分散于不同来源的局部信息,整合成为可以完整描述消费者信用状况,因此电信运营商的用户画像方法同样适用于个人信用测评(如图2所示)

图2:手机用户画像在个人征信中的应用流程

可以这样理解,所谓用户画像的应用,是根据情景需要对用户标签的再归并组合以及对标签重要性重新排序的过程。一般以为,用户画像的样本可以从银行个人信贷的记录中进行筛选,但这种对已发放贷款的回收情况来进行逻辑判别,实质上会陷入“先验性误导”中。因为,所选取的有贷款业务的用户已经被银行风控部门进行了必要的审查和筛选,由此发生的信贷逾期呆坏账,是基于贷前审核通过后的样本,不是真正的完整的初审样本。这里,我们以人民银行安徽省分行为例,对省内部分申请贷款的个人用户进行实证分析。首先,选取3525个申请个人贷款的手机用户为样本,运用两种方法进行信用评价,其中,一种方法是银行根据现有的申请人的审核资料进行征信,另一种方法是通过手机用户画像的方法进行征信。具体步骤如下:

3.1先由银行风险管控部门人员根据银行自身的信用评级标准(层次分析法,简称AHP法)对所有样本进行打分;具体指标如表2所示。一般分为9级,为了进一步简化区分,我们以银行最终放贷决定为依据,将样本分为“可予授信”样本和“不予授信”样本两种。(当然,可授信样本中也不能保证以后就不发生呆坏账,一定程度的小额坏账率也是银行业务中的正常现象)。

表2:银行传统APH法的个人信用评价指标

3.2根据征信应用的情景需求,将手机用户画像的量化具体指标进行重新归并与组合,如表3所示。

表3:基于应用需求的手机用户画像指标归并与组合

3.3将所有样本进一步分为两部分,一部分为测试集,样本数占60%;另一部分为检验集,样本数占40%,并让这两个样本集中的可授信和不可授信样本占有相同比率。

3.4以银行传统评级结果为依据,运用监督学习算法中的支持分量机,对测试样本中的手机用户画像特征进行维度约简,找出关键属性值组合。在分类过程中,变量多所获得的信息也相对多,其判断正确性也将会比较高。但是变量多,代表着收集样本的成本和时间增加,最好的方法是能以较少的变量,却能获得不错的判断正确性。在个人征信中有效的用户画像指标

本文转自d1net(转载)

时间: 2024-08-03 14:50:49

基于大数据技术的手机用户画像与征信研究的相关文章

基于大数据技术的金融投资实验室建设探讨

基于大数据技术的金融投资实验室建设探讨 聂小东  黄羽中 本文以广州某理工科高校为背景,针对大数据及工科环境下高校金融投资教学存在的不足提出如何通过hadoop技术以及Linux平台对金融投资示范实验室进行建设规划从而将传统的金融投资教学模式进行改革,使原来的概念教学转变为实践与理论并重的教学从而提高了学生的能力.最后本文阐述了学校现阶段取得的成果以及未来的建设目标. 基于大数据技术的金融投资实验室建设探讨

趣店转型 大数据技术精确计算用户信用值

ZD至顶网软件频道消息: 近期,成立仅两年多的趣店集团拟入股消费金融公司,借此持牌,积极谋划扩展自身在Fintech(金融科技)领域的布局. 据趣店联合创始人何洪佳透露,早在2015年初,趣分期就已经不再局限于校园,而开始布局非校园业务,转型后趣店用户结构发生了"群体变化"这样质的改变,目前已经全面停止校园地面推广. 目前,趣店非校园用户已逼近2000万,用户覆盖了白领.蓝领等消费群体.最令人瞩目的是,趣店借贷业务的逾期率只有2‰,仅为同行企业的1/10,实现良性循环.何洪佳表示,面对

小牛资本大数据新品“智引”To B市场征信

金融创新已经迎来新起点,跑步进入科技创新阶段,一些技术名词开始走红:智能投顾.区块链.电子货币以及目前最受瞩目的大数据风控.对于金融企业,尤其是互联网金融创新企业而言,风控关乎企业命脉,风控难题一直是把悬在头顶的剑,而大数据风控被行内企业寄予厚望. 数据资源正和土地.劳动力.资本等生产要素一样,成为促进经济增长和社会发展的基本要素,技术的进步使得企业和个人更多的行为可记录.被记录.可分析.被分析.因看好前景,互联网巨头.征信公司乃至金融信贷机构纷纷发力金融科技,大数据风控产品涌现.比如阿里的芝麻

新一代SOC技术:基于大数据的信息安全

文章讲的是新一代SOC技术:基于大数据的信息安全,2015年6月11日,以"大数据.新视角.智享安全"为主题的新一代SOC技术研讨会在北京举行.来自金融.制造等行业的近百名嘉宾及大数据领域的专家等出席了该活动. 会上,关于在大数据时代企业如何应用新一代SOC技术进行安全事件管理成为了话题焦点.北京华青融天技术有限责任公司(简称华青融天)作为业界领先的基于大数据技术的IT运维.安全.交易监控解决方案提供商,以"大数据.新视角.智享安全"为主题,从大数据技术在安全领域的

借力大数据技术 证券行业迎转型契机

互联网+时代,证券行业制定大数据战略迫切而适时.一方面,近年来大数据被提升到国家发展战略层面,政府提供资金及政策支持,鼓励企业在大数据方面的发展和转型,大数据技术体系发展逐渐成熟.基于开源和商业技术共同形成的大数据技术体系已经在互联网行业应用多年,推出的稳定软件版本及云服务能够支持后来者落地实施大数据战略.另一方面,得益于部分互联网行业龙头在大数据方面的探索和推动,具备大数据项目经验的人才培养体系逐渐建立,形成了大数据发展的良好土壤.同时,经过多年的发展积累,大数据资源已经越来越丰富,国内外领先

大数据技术公司百分点今日宣布完成第二轮1000万美元融资

摘要: 新浪科技讯 7月25日下午消息,大数据技术公司百分点今日宣布完成第二轮1000万美元融资,投资方为东方星空创投和IDG资本,百分点同时发布新战略,由提供大数据技术进入到大数据管 新浪科技讯 7月25日下午消息,大数据技术公司百分点今日宣布完成第二轮1000万美元融资,投资方为东方星空创投和IDG资本,百分点同时发布新战略,由提供大数据技术进入到大数据管理与应用领域. 成立4年的百分点一直从事于大数据技术的创新,2011年7月获得IDG资本和名信中国成长基金720万美元的投资,百分点创始人

明朝万达:以大数据技术应对新形势下企业数据安全威胁

数据作为一种资源,它的普遍性.共享性.增值性.可处理性和多效用性,使其对人类具有特别重要的意义.但作为信息的重要载体,数据安全问题在其应用过程中又是每个用户必须面临的难题,尤其是对于企业用户来说,安全是成本,而且是无法产生效益的成本.伴随大数据技术的出现及广泛应用,其安全问题也成为各领域用户"谈虎色变"的敏感"神经",其实新技术的出现是为了更好的解决现有问题.十年来专注于企业级数据安全市场的明朝万达,研发出一套完整有效的基于大数据技术的企业数据安全解决方案. 网络安

互联网大数据技术与传统行业的融合

本文讲的是互联网大数据技术与传统行业的融合,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. Hadoop中国技术峰会由China Hadoop Summit专家委员会主

学者贵于行,报名参加线上大数据技术峰会的4个理由

回顾大数据技术领域大事件,最早可追溯到2006年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦.然而着眼当下,大数据在行业内的实际落地仍然不是件简单的事情,大数据创业成功的案例更是少之又少. 票选14个大数据案例,布道14种不同类型玩法 机器学习.增量流计算,阿里规模的技术实践 本次"大数据技术峰会"上,4位行业应用专家之外,6位