房地美如何做数据分析

大数据文摘原创干货系列,根据美国房地美同事电话访谈整理

数据分析团队有上百人,按照公司产品不同而有模型和分支模型,团队包含有研发团队和实现团队(implementation)。 

分析团队基本全部是博士和硕士学位,且都拥有丰富的建模经验。这样的团队是不靠“KPI"、"流程化"和工序化的,而是更多依靠分析者本身的素质、对数据的理解、建模的经验,以及对最前沿数据分析方法的学习和掌握。例如做一个信贷风险的评估模型,可能会从多个维度去分析,每个维度也许都需要经过一个验证的过程。但是前沿的分析方法+建模经验+数据直观理解可能会更快速的找到有效模型。最后通过模型和分支模型团队的合作,公司便可以进行分析和测试实践。

模型建立之后的事情就会交给进行落地的团队,这些团队将对经过研究的模型进行实现,应用的于生产实践中,为其企业进行利润最大化。同时,模型建立之后,还有模型检测团队对模型的正确性,有效性以及稳定性进行测试。

 

有的看官可能会说,这样的团队我也能搭一个!呵呵,那看看我下面的问题,您就知道挑战有多大。

1. 高学历的团队。上面说的研发团队,基本全部是博士和硕士。且大部分是数学,物理,或者金融工程专业,有很深厚的建模经验。

2. 可利用的数据有很多。做一个风控模型,需要多个维度的数据来构建,但是在那边,可用的数据有几十年的存量!美国不光有自己的多家信用评级公司(FICO,WestUnion等),还有国家层面的数据保全机制。比如信用数据,交易记录等等,通过官方渠道都有获取路径(涂子沛先生的著作中已有论述,此处不赘述)。这个也是我觉的我们差距最大的地方。

 

举个例子,就拿最近最热门的互联网金融来说,官方能够有信用记录的只有人行征信中心,剩下的大多都是通过各家自己的交易记录来计算生成得来。由于本身不具备权威性,产出数据的有效性有待检验。做中小企业小额贷款可以,但是大额还是做不了。哦,当然,还有那些所谓用外部数据进行信用评估的,我就不多说了,数据带来10000个评分项(像什么申请时间,申请人社交关系),能给每个评分项多少权重?每个0.0001不还是没意义?权重最大的是不是仍然是FICO的那几项?

 

我们应该做点什么?

我觉的首先还是管理好自己的数据。可以做的事情很多,改造或升级现有的系统,建立以数据为核心的机制,更长周期的数据在线等等。特别是那些金融行业的公司或朋友,上面的案例还是很有借鉴意义的。 

其次,建立自己的数据分析和运营团队。在管理自己已有的数据的同时,自建团队无疑成本最低。没有全博士的团队,可能会少了天赋,但是一分辛苦一分才,只要做,办法总比问题多,做不到最短路径,但是可以快速迭代。短期不要在搞KPI了,这么长期的生意,毁在短期KPI 的手里,岂不可惜!

 最后,结个尾吧。还没关注自己公司数据的朋友们,你们还等啥呢?

注:房地美(Freddie Mac),是美国政府监管企业(GSE, Government Sponsored Enterprise)中第二大的一家,商业规模仅次于房利美(Fannie Mae)。主要业务是在美国房屋抵押贷款二级市场中收购贷款,并通过向投资者发行机构债券或证券化的抵押债券,以较低成本集资,赚取利差。

原文发布时间为:2014-01-01


时间: 2024-10-29 16:44:47

房地美如何做数据分析的相关文章

浅谈站长做数据分析需要注意的几点

做站长的想必大家都知道数据分析的重要性,但是想问一下大家,你们都知道做数据分析我们该尤其注意那几点吗?下面我就关公面前耍大刀,试着浅论一番了,希望能给大家带去帮助. 一.广告点击数据 先来说说淘宝客单页站吧,淘宝客单页站一般都是随便拿个程序,然后首页最上面挂一个广告页模板,现在一般做排行榜的比较多,网站来流量之后,有没有点击广告,点击了哪个,这些数据绝大部分站长都没有理会过,有些人是懒得去分析,有些人是不知道该怎么去统计这些数据,我这里简单说下,我们可以让这个广告链接到网站的一个页面,然后这个页

创业公司如何做数据分析(六)数据仓库的建设

作为系列文章的第六篇,本文将重点探讨数据处理层中数据仓库的建设.在第二篇运营数据系统一文,有提到早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题: 中间数据流失,计算结果没有共享.比如在很多数据报告中都会对同一个功能进行数据提取.分析,但是都是各自处理一遍,没有对结果进行共享. 数据分散在多个数据源,如MySQL.MongoDB.Elasticsearch,很难对多个源的数据进行联合使用.有效组织.

Las Vegas精英100:集中做数据分析

文章讲的是Las Vegas精英100:集中做数据分析,所有的目光都集中在上周拉斯维加斯会议上信息周报公布的精英100的排名上,本次大会公布了一些IT领域的顶尖的项目并且所有人公认的前五名的项目都是大数据和分析领域的. 一些世界上顶尖的CIO和他们的团队正在因为这件事相聚庆祝并重新审视这些改变游戏规则的IT项目.让我们来看看其中的一部分是什么样子的. 联邦快递项目旨在加快商业客户的进出口进程.这个过程受到了内部系统不同的阻力同时也被许多地区复杂的海关环境阻碍.为了解决这个问题,联邦快递服务启动了

创业公司做数据分析(四)ELK日志系统

作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志.这些日志分散地存储在不同的机器上,取决于服务的部署情况了.如果我们依次登录每台机器去查阅日志,显然非常繁琐,效率也很低,而且也没法进行统计和检索.因此,我们需要对日志进行集中化管理,将所有机器上的日志信息收集.汇总到一起.完整的日志数据具有非常重要的作用: 信息查找.通过检索日志信息,定位相应的bug,

做数据分析时,R 用户如何学习 Python?

本文是帮助 R 用户增强技能和为数据科学进阶而学习 Python (从零开始).毕竟,R 和 Python 是数据科学从业者必需掌握的两门最重要的编程语言. Python 是一门功能强大和多用途的编程语言,在过去几年取得惊人发展.它过去用于 Web 开发和游戏开发,现在数据分析和机器学习也要用到它.数据分析和机器学习是 Python 应用上相对新的分支. 作为初学者,学习 Python 来做数据分析是比较痛苦的.为什么? 在谷歌上搜索"Learn Python ",你会搜到海量教程,但

创业公司如何做数据分析(四)ELK日志系统

作为系列文章的第四篇,本文将重点探讨数据采集层中的ELK日志系统.日志,指的是后台服务中产生的log信息,通常会输入到不同的文件中,比如Django服务下,一般会有nginx日志和uWSGI日志.这些日志分散地存储在不同的机器上,取决于服务的部署情况了.如果我们依次登录每台机器去查阅日志,显然非常繁琐,效率也很低,而且也没法进行统计和检索.因此,我们需要对日志进行集中化管理,将所有机器上的日志信息收集.汇总到一起.完整的日志数据具有非常重要的作用: 信息查找.通过检索日志信息,定位相应的bug,

创业公司如何做数据分析(五)微信分享追踪系统

作为系列文章的第五篇,本文重点探讨数据采集层中的微信分享追踪系统.微信分享,早已成为移动互联网运营的主要方向之一,以Web H5页面(下面称之为微信海报)为载体,利用微信庞大的好友关系进行传播,实现宣传.拉新等营销目的.以下图为例,假设有一个海报被分享到了微信中,用户A与B首先看到了这个海报,浏览后又分享给了自己的好友,用户C看到了A分享的海报,浏览后继续分享给了自己的好友.这便形成了一个简单的传播链,其中蕴含了两种数据: 行为,指的是用户对微信海报的操作,比如打开.分享. 关系,指的是在海报传

做数据分析时,你的方法论是什么?

这是一篇方法论.是的,很枯燥. 在知乎.woshipm.pmcaff.产品100等搜索了大量的数据分析相关的文章,发现没有多少适合自己的,因为内容太过碎片化,就买了一套书,开始系统的学习. 当你完成一份数据分析报告时,不知领导是否有问过你,"你的分析方法论是什么?".如果分析方法论不正确或不合理,那分析结果参考价值几何呢? 困惑 相信很多人在做数据分析时,会经常遇到这几个问题:不知从哪方面入手开展分析;分析的内容和指标常常被质疑是否合理.完整,自己也说不出个所以然来.当然我也一样,处在

创业公司做数据分析(三)用户行为数据采集系统

作为系列文章的第三篇,本文将重点探讨数据采集层中的用户行为数据采集系统.这里的用户行为,指的是用户与产品UI的交互行为,主要表现在Android App.iOS App与Web页面上.这些交互行为,有的会与后端服务通信,有的仅仅引起前端UI的变化,但是不管是哪种行为,其背后总是伴随着一组属性数据.对于与后端发生交互的行为,我们可以从后端服务日志.业务数据库中拿到相关数据;而对于那些仅仅发生在前端的行为,则需要依靠前端主动上报给后端才能知晓.用户行为数据采集系统,便是负责从前端采集所需的完整的用户