学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法。而且这些模型很可能是线性的、非线性的,也可能是参数的、非参数的,甚至是一元的、多元的,低维的、高维的,不尽相同。所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析。
另外,这些都是在“术”的层面讨论回归分析。除了“术”,回归分析还有一个更高的“道”的层面。
回归分析的“道”
在这个层面,回归分析可以被抽象成为一种重要的思想。在这种思想的指引下,人们可以把一个业务问题定义成一个数据可分析问题。什么样的问题可以被看作数据可分析问题呢?只需要回答两点:第一,Y是什么;第二,X是什么。
Y,俗称因变量,即因为别人的改变而改变的变量。在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。
举一个征信方面的例子。对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,结果有两种:他还给我还是不还给我。如果还,定义老王的Y=0,这说明老王是好人;如果不还,定义老王的Y=1,这说明老王是坏人。这就是征信的核心业务诉求,即因变量Y。在这种情况下,因变量是一个取值为0-1的变量,俗称0-1变量。
而对于车险而言,业务的核心指标就是是否出险。比如隔壁老王买了我家车险,接下来12个月,他是否会出险呢?如果他出险,定义老王的Y=1,这说明老王是个马路杀手;如果他不出险,定义老王的Y=0,这说明老王是个天使。这种情况下,因变量Y又是一个取值为0-1的因变量。
对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说,一旦出险,保险公司到底要赔多少。例如,老王、老李都买了我家车险,结果这两个客户都出险了。老王属于轻微刮蹭,保险公司赔付600元。那么,对于赔付金额这个业务指标而言,老王的因变量Y=600(元)。老李在高速公路上出了一次大车祸,人和车都伤得不轻,保险公司赔付60000元。那么,老李的因变量Y=60000(元)。这种情况下的因变量,即赔付金额,是一个连续的取值为正的因变量。如果再取一个对数,那么就是一个取值可以是正负无穷的、连续的因变量。
人类医学的一个重要使命就是攻克癌症,为此,科学家需要理解不同类型癌症的形成机制。隔壁老王,还有马路对面的老李,平时看起来身体都倍儿棒,吃嘛嘛香。可是,老王得了某种癌症,而老李没有。对于这个问题,老王的因变量Y=1,表示老王是个倒霉蛋;而老李的因变量Y=0,表示老李不是倒霉蛋。因此,这又是一个取值为0-1的变量。
所以,我们可以得出结论:Y就是实际业务的核心诉求,或者科学研究的关键问题。
X是什么?
X就是用来解释Y的相关变量,可以是一个,也可以是很多个。我们通常把X称作解释性变量。回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底是什么样的?
对于征信而言,我们已经讨论了,Y=0或者1,表示隔壁老王是否还钱,这是业务的核心指标。当老王找我借钱的那个时刻,我并不知道老王将来是否会还钱,也就是说,我不知道老王的Y。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的Y。这种预测是否会100%准确呢?答:基本不可能。但是,希望能够做得比拍脑袋准确,这是非常有可能的。为此,我们需要寻找优质的X。
举一个例子,假设老王想找我借1万元现金,我得想想,他会还吗?此时,如果知道他家境富裕,房产价值几千万元,我就不会担心他不还钱。因为如果他不还钱,可以用他的房子进行抵押。这说明充足的实物资产,尤其是可以抵押的实物资产,是有可能极大地影响一个人的还钱行为的。如果这个业务分析是正确的,那么可以定义很多X,用于描述老王的财产情况。例如,X1表示是否有房;X2表示是否有车;X3表示是否有黄金首饰可以抵押,等等。这些X都是围绕老王的实物资产设定的。
除了实物资产,老王还有哪些特征有可能影响他的还钱行为呢?如果老王月工资收入10万元,那么还款1万元,不是小菜一碟吗?相反,如果老王月工资收入1000元,估计吃饭都有问题,哪来的钱还呢?这说明老王的收入可能同他的还款行为有相关关系。那么,是否可以构造一系列的X,用于描述老王的收入情况呢?例如,可以重新定义X1是老王的工资收入;X2是老王的股票收入;X3是老王太太的收入,等等。于是,朴素的业务直觉又引导产生了一系列新的X变量,它们都是围绕老王的收入设定的。
除了实物资产、收入,老王还有什么值钱的呢?有,老王有自己在社交圈中的尊严。就像电影《老炮儿》里面的顽主六爷那样,面子老大了,不会为了万把块钱去赖账,然后让街坊邻居、同事朋友都笑话,丢不起那人。如果老王是一个这样的人,那他的还款意愿会很强烈。这个朴素的业务直觉说明,一个人的社交圈即他的社交资产是可以影响他的还款行为的。如果这个直觉是对的,那么哪些指标能刻画一个人的社交资产呢?例如,定义X1是老王的微信好友数量;X2是他的微博好友数量;X3是他的电话本上的好友数量;X4是他的QQ好友数量,等等。又可以生成一系列新的X变量,它们都是围绕老王的社交资产设定的。
由此可以看出,对于征信这个业务问题而言,简单地进行头脑风暴,就产生了许多X变量。所以,依赖于人们的想象力以及数据采集能力,可以产生成千上万,甚至上百万、上千万个X变量。有了X,也就有了Y。至此,回归分析“道”的使命已经完成,因为一个业务问题已经被定义成数据可分析问题。
回归分析的“术”
接下来,从“术”的层面探讨,回归分析还要完成什么使命。一般而言,至少对于参数化的线性回归模型来说,它要完成三个重要的使命。
使命1:回归分析要去识别并判断,哪些X变量是同Y真的相关,哪些不是。而那些不相关的X变量会被抛弃,不会被纳入最后的预测模型。因为不干活的人多了会捣蛋,即没有用的X不会提高Y的预测精度,而且会狠狠地捣蛋,拉后腿,所以必须抛弃。关于这方面的统计学论述很多,以至于统计学中有一个非常重要的领域,叫做“变量选择”。
使命2:有用的X变量同Y的相关关系是正的还是负的。也就是说,要把一个大概的方向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款行为可能性是正相关,还是负相关?如果是正相关,那么老王的股票收入越高,还款能力越强,我越敢借钱给他;如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越不敢借钱给他。
使命3:赋予不同X不同的权重,也就是不同的回归系数,进而可以知道不同变量之间的相对重要性。例如,老王、老李都找我借钱。老王每月基本工资X1=1(万元),但是股票收入X2=0。老李恰恰相反,没有基本工资,因此X1=0,但是每个月股票收入X2=1(万元)。请问哪一个还款能力更强?请注意,他们的月总收入都是1万元。但他们的还款能力恐怕是不同的。此时,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就容易回答了。
这就是回归分析要完成的三个使命:识别重要变量;判断相关性的方向;估计权重(回归系数)。
简单总结一下。什么是回归分析?从“道”的层面而言,回归分析就是一种把业务问题定义成一个数据可分析问题的重要思想。而从“术”的层面,回归分析要完成三个重要的使命。
再举一个例子,有一次参观一家世界500强的制造企业,对方意识到,数据之于企业非常重要。因此,集团特意成立了大数据部门,购买了几百台高性能服务器,并配备所有需要的存储、软硬件环境,以及人才。
然后,数据部门的老大非常骄傲地介绍他们这个部门计算机有多牛,做了哪些有趣的分析。但是,从熊大的角度看,这些分析都是趣味性很大,可没有朴素的业务价值。
熊大终于忍不住问了一个问题:“请问,咱们大数据部门,在集团内部主要支持哪些业务部门?”对方腰板一挺,大声回答:“所有业务部门!”
大家觉得可信吗?反正我不信。企业这么大,实话实说,一定有大量的甚至大多数业务部门同数据无关,至少现在是这样。就在这时,旁边的一个业务部门的老大忍不住了,说:“不对啊,我们就觉得你们对我们支持不够!没什么支持啊!”数据部门老大很生气:“你提需求啊!只要你提需求,我都能帮你搞定。”结果业务部门老大一脸懵圈:“我提不出需求啊。”
这是一个非常典型的问题。业务部门就是数据部门的客户,可是,客户只知道自己需要数据分析支持,但是提不出需求。为什么?大家还记得回归分析的理念吗?即从道的层面帮助我们把业务问题定义为数据可分析问题。而业务部门的绝大多数人员没有受过这样的训练,因此,无法洞见自己正在操心的业务问题,其实是数据可分析的。为此,他只需要把Y定义清楚,给一些关于X的想法,剩下的事情,数据分析的小伙伴们就可以全力以赴了。
所以,从这个角度看,数据之于企业的价值,最需要被普及教育的,不是数据分析部门,而是业务部门。当然,数据分析部门也需要。只有全员都具备朴素的数据价值观,都使用同一种回归分析的语言,需求才有可能被说清楚。
原文发布时间为:2017-12-8
本文作者:马文
原文链接:大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”