大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法。而且这些模型很可能是线性的、非线性的,也可能是参数的、非参数的,甚至是一元的、多元的,低维的、高维的,不尽相同。所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析。

另外,这些都是在“术”的层面讨论回归分析。除了“术”,回归分析还有一个更高的“道”的层面。

回归分析的“道”

在这个层面,回归分析可以被抽象成为一种重要的思想。在这种思想的指引下,人们可以把一个业务问题定义成一个数据可分析问题。什么样的问题可以被看作数据可分析问题呢?只需要回答两点:第一,Y是什么;第二,X是什么。

Y,俗称因变量,即因为别人的改变而改变的变量。在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。

举一个征信方面的例子。对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,结果有两种:他还给我还是不还给我。如果还,定义老王的Y=0,这说明老王是好人;如果不还,定义老王的Y=1,这说明老王是坏人。这就是征信的核心业务诉求,即因变量Y。在这种情况下,因变量是一个取值为0-1的变量,俗称0-1变量。

而对于车险而言,业务的核心指标就是是否出险。比如隔壁老王买了我家车险,接下来12个月,他是否会出险呢?如果他出险,定义老王的Y=1,这说明老王是个马路杀手;如果他不出险,定义老王的Y=0,这说明老王是个天使。这种情况下,因变量Y又是一个取值为0-1的因变量。

对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说,一旦出险,保险公司到底要赔多少。例如,老王、老李都买了我家车险,结果这两个客户都出险了。老王属于轻微刮蹭,保险公司赔付600元。那么,对于赔付金额这个业务指标而言,老王的因变量Y=600(元)。老李在高速公路上出了一次大车祸,人和车都伤得不轻,保险公司赔付60000元。那么,老李的因变量Y=60000(元)。这种情况下的因变量,即赔付金额,是一个连续的取值为正的因变量。如果再取一个对数,那么就是一个取值可以是正负无穷的、连续的因变量。

人类医学的一个重要使命就是攻克癌症,为此,科学家需要理解不同类型癌症的形成机制。隔壁老王,还有马路对面的老李,平时看起来身体都倍儿棒,吃嘛嘛香。可是,老王得了某种癌症,而老李没有。对于这个问题,老王的因变量Y=1,表示老王是个倒霉蛋;而老李的因变量Y=0,表示老李不是倒霉蛋。因此,这又是一个取值为0-1的变量。

所以,我们可以得出结论:Y就是实际业务的核心诉求,或者科学研究的关键问题。

X是什么?

X就是用来解释Y的相关变量,可以是一个,也可以是很多个。我们通常把X称作解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底是什么样的?

对于征信而言,我们已经讨论了,Y=0或者1,表示隔壁老王是否还钱,这是业务的核心指标。当老王找我借钱的那个时刻,我并不知道老王将来是否会还钱,也就是说,我不知道老王的Y。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的Y。这种预测是否会100%准确呢?答:基本不可能。但是,希望能够做得比拍脑袋准确,这是非常有可能的。为此,我们需要寻找优质的X。

举一个例子,假设老王想找我借1万元现金,我得想想,他会还吗?此时,如果知道他家境富裕,房产价值几千万元,我就不会担心他不还钱。因为如果他不还钱,可以用他的房子进行抵押。这说明充足的实物资产,尤其是可以抵押的实物资产,是有可能极大地影响一个人的还钱行为的。如果这个业务分析是正确的,那么可以定义很多X,用于描述老王的财产情况。例如,X1表示是否有房;X2表示是否有车;X3表示是否有黄金首饰可以抵押,等等。这些X都是围绕老王的实物资产设定的。

除了实物资产,老王还有哪些特征有可能影响他的还钱行为呢?如果老王月工资收入10万元,那么还款1万元,不是小菜一碟吗?相反,如果老王月工资收入1000元,估计吃饭都有问题,哪来的钱还呢?这说明老王的收入可能同他的还款行为有相关关系。那么,是否可以构造一系列的X,用于描述老王的收入情况呢?例如,可以重新定义X1是老王的工资收入;X2是老王的股票收入;X3是老王太太的收入,等等。于是,朴素的业务直觉又引导产生了一系列新的X变量,它们都是围绕老王的收入设定的。

除了实物资产、收入,老王还有什么值钱的呢?有,老王有自己在社交圈中的尊严。就像电影《老炮儿》里面的顽主六爷那样,面子老大了,不会为了万把块钱去赖账,然后让街坊邻居、同事朋友都笑话,丢不起那人。如果老王是一个这样的人,那他的还款意愿会很强烈。这个朴素的业务直觉说明,一个人的社交圈即他的社交资产是可以影响他的还款行为的。如果这个直觉是对的,那么哪些指标能刻画一个人的社交资产呢?例如,定义X1是老王的微信好友数量;X2是他的微博好友数量;X3是他的电话本上的好友数量;X4是他的QQ好友数量,等等。又可以生成一系列新的X变量,它们都是围绕老王的社交资产设定的。

由此可以看出,对于征信这个业务问题而言,简单地进行头脑风暴,就产生了许多X变量。所以,依赖于人们的想象力以及数据采集能力,可以产生成千上万,甚至上百万、上千万个X变量。有了X,也就有了Y。至此,回归分析“道”的使命已经完成,因为一个业务问题已经被定义成数据可分析问题。

回归分析的“术”

接下来,从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数化的线性回归模型来说,它要完成三个重要的使命。

使命1:回归分析要去识别并判断,哪些X变量是同Y真的相关,哪些不是。而那些不相关的X变量会被抛弃,不会被纳入最后的预测模型。因为不干活的人多了会捣蛋,即没有用的X不会提高Y的预测精度,而且会狠狠地捣蛋,拉后腿,所以必须抛弃。关于这方面的统计学论述很多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。

使命2:有用的X变量同Y的相关关系是正的还是负的。也就是说,要把一个大概的方向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款行为可能性是正相关,还是负相关?如果是正相关,那么老王的股票收入越高,还款能力越强,我越敢借钱给他;如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越不敢借钱给他。

使命3:赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。例如,老王、老李都找我借钱。老王每月基本工资X1=1(万元),但是股票收入X2=0。老李恰恰相反,没有基本工资,因此X1=0,但是每个月股票收入X2=1(万元)。请问哪一个还款能力更强?请注意,他们的月总收入都是1万元。但他们的还款能力恐怕是不同的。此时,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就容易回答了。

这就是回归分析要完成的三个使命:识别重要变量;判断相关性的方向;估计权重(回归系数)。

简单总结一下。什么是回归分析?从“道”的层面而言,回归分析就是一种把业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使命。

再举一个例子,有一次参观一家世界500强的制造企业,对方意识到,数据之于企业非常重要。因此,集团特意成立了大数据部门,购买了几百台高性能服务器,并配备所有需要的存储、软硬件环境,以及人才。

然后,数据部门的老大非常骄傲地介绍他们这个部门计算机有多牛,做了哪些有趣的分析。但是,从熊大的角度看,这些分析都是趣味性很大,可没有朴素的业务价值。

熊大终于忍不住问了一个问题:“请问,咱们大数据部门,在集团内部主要支持哪些业务部门?”对方腰板一挺,大声回答:“所有业务部门!”

大家觉得可信吗?反正我不信。企业这么大,实话实说,一定有大量的甚至大多数业务部门同数据无关,至少现在是这样。就在这时,旁边的一个业务部门的老大忍不住了,说:“不对啊,我们就觉得你们对我们支持不够!没什么支持啊!”数据部门老大很生气:“你提需求啊!只要你提需求,我都能帮你搞定。”结果业务部门老大一脸懵圈:“我提不出需求啊。”

这是一个非常典型的问题。业务部门就是数据部门的客户,可是,客户只知道自己需要数据分析支持,但是提不出需求。为什么?大家还记得回归分析的理念吗?即从道的层面帮助我们把业务问题定义为数据可分析问题。而业务部门的绝大多数人员没有受过这样的训练,因此,无法洞见自己正在操心的业务问题,其实是数据可分析的。为此,他只需要把Y定义清楚,给一些关于X的想法,剩下的事情,数据分析的小伙伴们就可以全力以赴了。

所以,从这个角度看,数据之于企业的价值,最需要被普及教育的,不是数据分析部门,而是业务部门。当然,数据分析部门也需要。只有全员都具备朴素的数据价值观,都使用同一种回归分析的语言,需求才有可能被说清楚。

原文发布时间为:2017-12-8

本文作者:马文

原文链接:大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

时间: 2024-09-30 22:04:38

大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”的相关文章

北大教授王汉生:大数据被神化

近来,大数据不断被提及,成为了一个热门概念. 企业纷纷宣称自己的大数据能力很强,但网民被推送的"精准广告"常常是没用的垃圾信息处理.中国企业的大数据能力究竟如何?大数据方便了生活,也带来了隐私和安全风险,其边界在哪里? 6月12日,就大数据的热点问题,新京报记者和北京大学光华管理学院商务统计与经济计量系教授王汉生展开对话. 王汉生 北京大学光华管理学院商务统计与经济计量系教授,博士生导师,系主任.北京大学商务智能研究中心主任.博雅立方科技有限公司首席科学家.微信公众号"狗熊会

大咖直播第三期问答整理:邵汉成讲解驴妈妈基于混合云的OTA行业数据分析、精准运营和大数据用户推荐

问答列表: 混合云 ,自建和阿里在网络上 如何优化 驴妈妈的标签系统是如何一步步建立起来的? 对于学生来说 能否简明说一下学习路线 推荐一些好的书籍 社区 一主多备,如何解决主从同步延迟的问题? web端使用什么框架,对于微服务有什么使用? 未来技术人员的必备技能 刚才邵老师提到多遇到问题,技术人才能成长.能讲讲您个人的发展经历吗?今天大部分内容都是大系统,如果要做架构师,需要什么知识储备? google AI 战胜李世石,您有什么看法 帮转:老师的微信.博客能发出来吗?:) 景区的IT系统都比

第五届CCF大数据学术会议10月召开,多位大咖带你走向学术最前沿

雷锋网按:第五届CCF大数据学术会议(CCF Big Data 2017)将于2017年10月13日-15日在深圳举行,这是我国大数据领域的旗舰会议. 此次会议汇集学术界和产业界多方人士,会上将组织专题论坛.青年论坛和分会场口头报告等多种形式的学术交流活动,也会颁发最佳学术论文奖.最佳应用论文奖和最佳学生论文奖.此外,还有来自学术界.产业界的大咖带来的主题演讲. 大会的成功举办离不开多方人士的共同协作.那么,大会的组织委员会又有哪些学术大咖?下面雷锋网(公众号:雷锋网)将会一一介绍. 指导委员会

大咖直播第七期问答整理:美柚黄益聪最懂女性App背后的混合云架构与大数据服务

问答列表: 报表图表展现工具 目前你们全都迁移到阿里云上了吗?为什么迁移到阿里云? 有没有高并发的场景?你们怎么应对的? 美柚这样的规模,一年租用阿里云的金额大概是多少范围的? 每天帖子亿万阅读量,怎么应对这么大阅读量的?比如页面加载等如何优化? 往期回顾: 大咖直播第二期问答整理:游族李志勇讲解如何运维千台以上游戏云服务器 https://yq.aliyun.com/articles/7919 大咖直播第三期问答整理:邵汉成讲解驴妈妈基于混合云的OTA行业数据分析.精准运营和大数据用户推荐 h

GBDC|大数据将超越摩尔定律发展速度 听大咖畅谈大数据未来

ZD至顶网CIO与应用频道 01月19日 北京消息: 2016年1月20日,由全球大数据联盟GBDC.全球移动游戏联盟GMGC.世界O2O组织WOO.光合资本主办,中国互联网协会ISC O2O工作组支持的全球大数据峰会GBDC2016,将在国家会议中心盛大举行.大会紧跟时代的潮流,研究大数据的走向,探讨信息时代的共享经济,为行业 交流提供一个良好的平台. 大数据时代:超越摩尔定律发展速度   在摩尔定律长达50年的支配下,当今的信息产业呈现出前所未有的繁荣,新的互联网技术不断涌现.从传统互联网的

中国大数据利用率仅0.4%?行业大咖教你如何用好大数据

文章讲的是 中国大数据利用率仅0.4%?行业大咖教你如何用好大数据,中国的大数据利用率只有0.4%!9月7日,第五届中国云计算大会的"大数据及人工智能"分论坛上,相关专家的数据公布让人们不禁为中国大数据领域的应用担忧.如何有效利用大数据,打造新型的智慧城市过程中大数据的重要地位,怎样让大数据与人工智能更好地服务企业,助推中国经济发展.现场的行业大咖们各抒己见. 论坛上,大数据算法与分析技术国家工程实验室社会大数据分析与应用中心主任赵玺,北京供销大数据集团首席信息官杨正洪,北京开数科技有

2017年大数据向左走、向右走?且看阿里数据经济研究中心六位大咖怎么看

2016年的市场热点从大数据已经过渡到了人工智能,但大数据.计算能力和算法这三大要素结合在一起才真正造就了人工智能在2016年的崛起.那么,业内专家如何看过去的2016和2017年大数据的发展呢?让我们看下6位ADEC(阿里数据经济研究中心)的特邀研究员的观点吧. 数据隐私界定和保护是焦点 田杰棠 国务院发展研究中心技术经济部副部长 2016年是大数据从探索性应用走向纵深发展的一年,两批共八个国家级大数据综合试验区启动建设,越来越多的行业试水数据分析和应用,一些高校已经开设大数据专业,大数据和人

大咖 | 车品觉:我们为什么要认识数据的本质

时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样.在不同场合上,阿里巴巴的马云.百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点.这种对话有点儿像金庸小说中的华山论剑.到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的.经历了互联网20年的发展,我们已经积累了足够多的数据去驱动一场"智能盛宴",以大数据为核心的人工智能渐露端倪. 有一天晚上准备睡觉时,听到隔壁传来女儿跟苹果智能语音助手Siri对话的声音.我太太问我,这样正常吗?我告诉她

大咖直播第八期问答整理:有货李健讲解六层混合云架构打造中国最潮生态圈

3月29日在线实时分享顺利结束,本次由有货CTO李健讲解六层混合云架构打造中国最潮生态圈.本次直播中现场观众提出了很多技术问题,我们把这些问题和答案整理好分享给大家. 问答列表: 不同网络设置不同的超时时间,给个例子?比如2G设置多少,3G设置多少,4G设置多少,WiFi设置多少? HttpDns的话,要是IP丢了的话怎么办 重构是和业务开发同时进行的吗?是同一批操作的吗? 为什么要异地双写,感觉带来的成本比较高 有货的架构怎么过度到混合云的?上云过程中遇到过什么问题吗? 而且要是用httpdn