大数据文摘原创干货系列,根据美国房地美同事电话访谈整理
数据分析团队有上百人,按照公司产品不同而有模型和分支模型,团队包含有研发团队和实现团队(implementation)。
分析团队基本全部是博士和硕士学位,且都拥有丰富的建模经验。这样的团队是不靠“KPI"、"流程化"和工序化的,而是更多依靠分析者本身的素质、对数据的理解、建模的经验,以及对最前沿数据分析方法的学习和掌握。例如做一个信贷风险的评估模型,可能会从多个维度去分析,每个维度也许都需要经过一个验证的过程。但是前沿的分析方法+建模经验+数据直观理解可能会更快速的找到有效模型。最后通过模型和分支模型团队的合作,公司便可以进行分析和测试实践。
模型建立之后的事情就会交给进行落地的团队,这些团队将对经过研究的模型进行实现,应用的于生产实践中,为其企业进行利润最大化。同时,模型建立之后,还有模型检测团队对模型的正确性,有效性以及稳定性进行测试。
有的看官可能会说,这样的团队我也能搭一个!呵呵,那看看我下面的问题,您就知道挑战有多大。
1. 高学历的团队。上面说的研发团队,基本全部是博士和硕士。且大部分是数学,物理,或者金融工程专业,有很深厚的建模经验。
2. 可利用的数据有很多。做一个风控模型,需要多个维度的数据来构建,但是在那边,可用的数据有几十年的存量!美国不光有自己的多家信用评级公司(FICO,WestUnion等),还有国家层面的数据保全机制。比如信用数据,交易记录等等,通过官方渠道都有获取路径(涂子沛先生的著作中已有论述,此处不赘述)。这个也是我觉的我们差距最大的地方。
举个例子,就拿最近最热门的互联网金融来说,官方能够有信用记录的只有人行征信中心,剩下的大多都是通过各家自己的交易记录来计算生成得来。由于本身不具备权威性,产出数据的有效性有待检验。做中小企业小额贷款可以,但是大额还是做不了。哦,当然,还有那些所谓用外部数据进行信用评估的,我就不多说了,数据带来10000个评分项(像什么申请时间,申请人社交关系),能给每个评分项多少权重?每个0.0001不还是没意义?权重最大的是不是仍然是FICO的那几项?
我们应该做点什么?
我觉的首先还是管理好自己的数据。可以做的事情很多,改造或升级现有的系统,建立以数据为核心的机制,更长周期的数据在线等等。特别是那些金融行业的公司或朋友,上面的案例还是很有借鉴意义的。
其次,建立自己的数据分析和运营团队。在管理自己已有的数据的同时,自建团队无疑成本最低。没有全博士的团队,可能会少了天赋,但是一分辛苦一分才,只要做,办法总比问题多,做不到最短路径,但是可以快速迭代。短期不要在搞KPI了,这么长期的生意,毁在短期KPI 的手里,岂不可惜!
最后,结个尾吧。还没关注自己公司数据的朋友们,你们还等啥呢?
注:房地美(Freddie Mac),是美国政府监管企业(GSE, Government Sponsored Enterprise)中第二大的一家,商业规模仅次于房利美(Fannie Mae)。主要业务是在美国房屋抵押贷款二级市场中收购贷款,并通过向投资者发行机构债券或证券化的抵押债券,以较低成本集资,赚取利差。
原文发布时间为:2014-01-01