【干货】林漳希：新兴中的数据科学与工程

我先谈谈如何重新认识大数据，接着我要分别强调一下数据科学和数据工程，这是这个报告的要点，我想从一个具体的案例分析说起，最后一点谈谈如何重构大数据的价值。

我们对大数据的认识，如同一个人在成长过程中对人生的认识，可以用德国文学家歌德的著名短篇小说“少年维特之烦恼”来比喻。在2010年起的短短几年中经历了觉察、憧憬、定义、实践等过程，在读过少年青春期的躁动之后，现在开始进入价值实现的时期。

现在大数据的领域面临一个现实的大问题，我们开发了那么多技术，有那么多好算法，囤积了那么多数据，那么我们怎么获得数据价值？我们如果能继续获取更多价值，那么数据的不断存储和囤积是有用的。但是即使你有了一笔数据，不等于你有了一切，因为数据是在不断变化的，你如果不生成新数据，那么老数据价值会慢慢减低。所以在目前大家认可的数据是有价值这个基础上，还要补充一点，就是一个动态增长的数据体系是获得数据更高价值的保证。

如这张源于IBM的图所示，获取大数据价值核心是由中间五个公共应用部分来实现的：大数据探索、安全和风险预警、数据仓库能力增强、运维和运营分析和360度全方位客户分析，这些可分享的功能可以应用在外面这一圈不同的领域中。在这里面，数据科学和数据工程起到重要作用，只用通过数据科学家和数据工程师的努力，不断增长的数据才能转化为源源不断财富。

今天，数据科学已经不再是新鲜的概念，我国一些大学已经有了数据科学研究院，如清华大学和天津大学，而在硅谷早已经有很多公司都成立了数据科学的部门。这是因为数据科学和已经广为应用的商务智能是一脉相承的，而商务智能已经发展了20年了。怎么把数据转化为信息，信息转化为知识，知识转化为见识，再把见识转化为决策是非常重要的。这个数据科学应用的流程实际上就是商务智能的流程。

我这里介绍一个例子-北京1039交通台样本数据，这数据非常小，是通过北京市给一万多个出租车司机一人发一个手机采集来的，手机上有GPS，这里作为例子所展示的信息是汽车所在地点和时间，变量很少，但是我们可以看看这样简单的信息能给我们提供什么样的分析结果。

这是在某一时刻汽车位置图，是根据浮动车辆在同一时刻的位置画出来的。根据这个位置图，如果在下一个时刻可以知道某辆汽车的新位置，就可以知道这部车移动多少，那么距离÷时间就是速度。由此可以得到所有车辆的车行速度，然后就是动态的汽车分布和密集度。通过对某个时间段数据的汇总，我们还可以看到车辆的活动范畴和活动规律。

这里再举一个例子，IBM上海研究院几年前为肯尼亚的M-Pesa做了一个移动银行的信用评估项目，肯尼亚M—Pesa是世界上最大的移动银行系统，后来要推出移动信贷服务业务。肯尼亚手机用户在小额贷款上有很大需求，贷款额一般不超过一百美元，月息可以达到5%。IBM所做的这个项目是要用手机的移动信息做信用评估，但是要怎么评估这些用户的信用呢？其中一个诀窍就是把实际位置信息和地标信息做关联。但是IBM上海研究院拿到这个数据时遇到一个很大的问题，就是肯尼亚的用户用的大都是非智能手机，没有GPS的地理位置信息，只有移动中和哪一个基站相关联的信息。IBM花了近三年时间解决了这个问题，搞出一个不错的信用评估模型，这个项目的成功靠的是数据科学与工程。同样的，宜信在这方面做了大量工作，宜人贷去年上市和他们公司的大数据分析应用非常相关，其中一个应用分析模块是和手机地理位置信息分析相关联的。

数据科学可以做什么呢？归纳起来，数据科学在数据质量诊断和问题处理，数据资源整合和价值发现，数据建模和模型性能评估，数据降维，商业价值实现等方面扮演着重要角色。在图的右边是关于数据科学所需要的基本技能的一个调查结果，从网上刊登的一篇文章转债的，可以看到，统计方面技能占了十大技能的一半。

数据工程相对于数据科学还提得比较少，但是现在我们发现数据工程在大数据应用中的地位变得越来越重要。数据工程在数据科学和大数据之间扮演着十分重要的作用，没有采用数据工程的方法来采集、清理、处理、管理大数据，再好的数据科学方法也难以施展。

这是美国积累多年的数据框架和方法论，上面分了很多细节的问题，底下的两层是和数据工程密切相关的。当我们通过集成统计、数学、计算机等知识系统地训练数据科学家时，我们却缺少同样的体系来培养优秀的数据工程师。对数据科学和工程的综合人才培养，目前我只查到有一个学校办了数据科学与工程硕士点，就是清华大学，其他学校的我暂时还没有看到。

数据工程是和业界的实际应用紧密关联的，而我们的大学讲课的内容和实践比有很大滞后。比如数据湖这个概念，大学里有多少学校在介绍数据湖呢？这个概念刚刚提出两三年时间，现在业界已经广泛应用与大数据管理。通常的数据管理和应用，我们有面向生产的业务数据库，在ODS经过预处理以后加载到数据仓库，完了以后，各个部门通过导入这些数据到自己的数据集市，提供本地的数据分析应用。实际使用中，这些来自生产部门的数据是不够用的，很多部门还自己采集外部数据作为补充，比如银行的市场营销部除了银行的数据之外还会搜集其他的行业数据，这些数据不来自业务数据库，也不会包括在公司数据仓库里，所以形成了本部门很混杂的数据群，而一个公司里的这类数据加在一起就形成了一个很大但是没有很好地协调管理的数据集群，这就提出了公司内部数据治理的一个课题。在这个问题上我们面临的问题就是要解决大数据的管理问题，你必须要有一个全面的大数据存储和管理的架构，你要先把整个数据体系设计好，然后才有可能把各种渠道采集来的数据存储好，才有可能充分共享，并在在上面提炼到所需要的东西，这个任务就是数据工程的很重要的一个部分。数据湖技术在这里扮演着重要角色，相信很快就会再中国普及。

数据工程涉及的内容挺多，其中要求数据工程人员对于业务工作了解足够深入，基本技能有数据逻辑思维，数据查错能力，计算机数据处理能力，统计分析和采样技术，等。其中在数据处理上，我们中很多过来的人会有共同的体验，比如国家发改委的经济信息中心系统从1980年代初第三次人口普查开始形成，在这个系统里的很多人在长年累月的数据处理中获得很多技能，而这些技能是大学里从来没有学过的，需要在实践中摸索体验，所以一般大学出来的都要一到两年才能逐步上手。到现在，大学的计算机课程教学还是没有数据处理这个内容。我们说游泳要有水性，做数据要有数据性，在这方面人才怎么培养是一个问题。

在前面谈了数据科学与工程的定义和重要性的基础上，接下来就是大数据价值体系重构问题，我们已经认识到大数据非常有价值，但是如何实现大数据价值，最终还是需要合适的人来做，套用名人的说法“数据战略决定之后，人才就是决定的因数”。重构大数据价值体系的关键在于重构大数据人才培养体系。

这是各个行业数据科学家的比例。

对数据科学家的需求在不断的上升，未来五年需要50名有素质的数据科学家，缺口高达19万，还需要150万名了解数据的高管和人员。

作为一个企业大数据的主管，可以查查你的企业是否能够应对这些挑战。就是说你的大数据团队能够胜任这些任务吗？你的科学家和工程师，还有你的系统技术人员能支撑你的关键技术吗？对于一家公司来讲是否有能力制定数据发展战略和制定企业的数据治理方案，是不是有能力把数据整合以后，而且能把整合后的资源转化为你的生产力，使你的业务能力大大提高，这是一个很重要的问题，我现在接触到很多公司高管，不管在北京、上海、成都、福建，都提到一个共同的问题 - 我们缺人。包括阿里巴巴也缺人，腾讯也缺人。大家缺的是数据科学与工程的高端人才。

所以在缺人的情况下我们必须要有人做知本家，知识的资本家。要有知本，我们在教育方面一定要提升。大数据价值实现要解决的核心首先是人才培养，这些人才可以解决大数据价值获取的问题。因此我们需要数据战略家，需要数据科学家，还需要数据工程师。

我设想的人才结构分四个梯次，战略型、研究型、研发型、和创业型。这四个梯次可以用类似智库、产业研究院和创新工厂的组合形式来实现，由高校提供基本人才，通过面向产业化的研究院，由创新实验室研发成功项目，再进入新创企业。在高地上的人才指的是智库的人才，在沙滩上的人就是愿意下海的人，他们对产业东西很了解，同时得到智库的指导，但是他们并没有下海，而涉水的则是那些直接给公司提供服务咨询，但是还没有开始创业，他们在条件成熟后就可以下水游泳，那些跳下去游泳的，也就是下海的，专职创业。现在很多创新和产业孵化机构已经在做这些事情，但是一般强调的是项目，我这里强调的是人才。

这个四阶段人才应该纳入一个体系中，针对大数据领域的特点，形成一个数据科学与工程的人才供应链，和大数据产业结合成一个有机的生态系统。在图中这么一个体系结构中，大数据产业联盟的地方应该是例如塔塔数据的位置，当然包括其它公司和研究机构，核心部分是数据科学与工程研究机构，它们不是纯粹的研究机构，是面向产业化的研究机构，就有点像清华数据科学研究院这类性质的，直接和企业挂钩，同时背靠大学，同时要和其他资源对接起来。

原文发布时间为：2016-07-30

时间： 2024-09-27 16:04:13

【干货】林漳希：新兴中的数据科学与工程

【干货】林漳希：新兴中的数据科学与工程的相关文章

干货 | 从菜鸟到老司机，数据科学的 17 个必用数据集推荐

大数据：13个真实世界情景中的数据科学应用

数据科学在明年呈现哪四大趋势？物联网和未来医疗是香饽饽

数据科学工具包（万余字介绍几百种工具，经典收藏版！）

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

研究了数千个在线课程，我整理了一份数据科学入门课清单

清华大学数据科学研究院与Cloudera联手发布大数据人才教育项目

如何真正学好数据科学?

哥伦比亚大学数据科学课程笔记