【干货】林漳希:新兴中的数据科学与工程

我先谈谈如何重新认识大数据,接着我要分别强调一下数据科学和数据工程,这是这个报告的要点,我想从一个具体的案例分析说起,最后一点谈谈如何重构大数据的价值。

我们对大数据的认识,如同一个人在成长过程中对人生的认识,可以用德国文学家歌德的著名短篇小说“少年维特之烦恼”来比喻。在2010年起的短短几年中经历了觉察、憧憬、定义、实践等过程,在读过少年青春期的躁动之后,现在开始进入价值实现的时期。

现在大数据的领域面临一个现实的大问题,我们开发了那么多技术,有那么多好算法,囤积了那么多数据,那么我们怎么获得数据价值?我们如果能继续获取更多价值,那么数据的不断存储和囤积是有用的。但是即使你有了一笔数据,不等于你有了一切,因为数据是在不断变化的,你如果不生成新数据,那么老数据价值会慢慢减低。所以在目前大家认可的数据是有价值这个基础上,还要补充一点,就是一个动态增长的数据体系是获得数据更高价值的保证。

如这张源于IBM的图所示,获取大数据价值核心是由中间五个公共应用部分来实现的:大数据探索、安全和风险预警、数据仓库能力增强、运维和运营分析和360度全方位客户分析,这些可分享的功能可以应用在外面这一圈不同的领域中。在这里面,数据科学和数据工程起到重要作用,只用通过数据科学家和数据工程师的努力,不断增长的数据才能转化为源源不断财富。

今天,数据科学已经不再是新鲜的概念,我国一些大学已经有了数据科学研究院,如清华大学和天津大学,而在硅谷早已经有很多公司都成立了数据科学的部门。这是因为数据科学和已经广为应用的商务智能是一脉相承的,而商务智能已经发展了20年了。怎么把数据转化为信息,信息转化为知识,知识转化为见识,再把见识转化为决策是非常重要的。这个数据科学应用的流程实际上就是商务智能的流程。

我这里介绍一个例子-北京1039交通台样本数据,这数据非常小,是通过北京市给一万多个出租车司机一人发一个手机采集来的,手机上有GPS,这里作为例子所展示的信息是汽车所在地点和时间,变量很少,但是我们可以看看这样简单的信息能给我们提供什么样的分析结果。

这是在某一时刻汽车位置图,是根据浮动车辆在同一时刻的位置画出来的。根据这个位置图,如果在下一个时刻可以知道某辆汽车的新位置,就可以知道这部车移动多少,那么距离÷时间就是速度。由此可以得到所有车辆的车行速度,然后就是动态的汽车分布和密集度。通过对某个时间段数据的汇总,我们还可以看到车辆的活动范畴和活动规律。

这里再举一个例子,IBM上海研究院几年前为肯尼亚的M-Pesa做了一个移动银行的信用评估项目,肯尼亚M—Pesa是世界上最大的移动银行系统,后来要推出移动信贷服务业务。肯尼亚手机用户在小额贷款上有很大需求,贷款额一般不超过一百美元,月息可以达到5%。IBM所做的这个项目是要用手机的移动信息做信用评估,但是要怎么评估这些用户的信用呢?其中一个诀窍就是把实际位置信息和地标信息做关联。但是IBM上海研究院拿到这个数据时遇到一个很大的问题,就是肯尼亚的用户用的大都是非智能手机,没有GPS的地理位置信息,只有移动中和哪一个基站相关联的信息。IBM花了近三年时间解决了这个问题,搞出一个不错的信用评估模型,这个项目的成功靠的是数据科学与工程。同样的,宜信在这方面做了大量工作,宜人贷去年上市和他们公司的大数据分析应用非常相关,其中一个应用分析模块是和手机地理位置信息分析相关联的。

数据科学可以做什么呢?归纳起来,数据科学在数据质量诊断和问题处理,数据资源整合和价值发现,数据建模和模型性能评估,数据降维,商业价值实现等方面扮演着重要角色。在图的右边是关于数据科学所需要的基本技能的一个调查结果,从网上刊登的一篇文章转债的,可以看到,统计方面技能占了十大技能的一半。

数据工程相对于数据科学还提得比较少,但是现在我们发现数据工程在大数据应用中的地位变得越来越重要。数据工程在数据科学和大数据之间扮演着十分重要的作用,没有采用数据工程的方法来采集、清理、处理、管理大数据,再好的数据科学方法也难以施展。

这是美国积累多年的数据框架和方法论,上面分了很多细节的问题,底下的两层是和数据工程密切相关的。当我们通过集成统计、数学、计算机等知识系统地训练数据科学家时,我们却缺少同样的体系来培养优秀的数据工程师。对数据科学和工程的综合人才培养,目前我只查到有一个学校办了数据科学与工程硕士点,就是清华大学,其他学校的我暂时还没有看到。

数据工程是和业界的实际应用紧密关联的,而我们的大学讲课的内容和实践比有很大滞后。比如数据湖这个概念,大学里有多少学校在介绍数据湖呢?这个概念刚刚提出两三年时间,现在业界已经广泛应用与大数据管理。通常的数据管理和应用,我们有面向生产的业务数据库,在ODS经过预处理以后加载到数据仓库,完了以后,各个部门通过导入这些数据到自己的数据集市,提供本地的数据分析应用。实际使用中,这些来自生产部门的数据是不够用的,很多部门还自己采集外部数据作为补充,比如银行的市场营销部除了银行的数据之外还会搜集其他的行业数据,这些数据不来自业务数据库,也不会包括在公司数据仓库里,所以形成了本部门很混杂的数据群,而一个公司里的这类数据加在一起就形成了一个很大但是没有很好地协调管理的数据集群,这就提出了公司内部数据治理的一个课题。在这个问题上我们面临的问题就是要解决大数据的管理问题,你必须要有一个全面的大数据存储和管理的架构,你要先把整个数据体系设计好,然后才有可能把各种渠道采集来的数据存储好,才有可能充分共享,并在在上面提炼到所需要的东西,这个任务就是数据工程的很重要的一个部分。数据湖技术在这里扮演着重要角色,相信很快就会再中国普及。

数据工程涉及的内容挺多,其中要求数据工程人员对于业务工作了解足够深入,基本技能有数据逻辑思维,数据查错能力,计算机数据处理能力,统计分析和采样技术,等。其中在数据处理上,我们中很多过来的人会有共同的体验,比如国家发改委的经济信息中心系统从1980年代初第三次人口普查开始形成,在这个系统里的很多人在长年累月的数据处理中获得很多技能,而这些技能是大学里从来没有学过的,需要在实践中摸索体验,所以一般大学出来的都要一到两年才能逐步上手。到现在,大学的计算机课程教学还是没有数据处理这个内容。我们说游泳要有水性,做数据要有数据性,在这方面人才怎么培养是一个问题。

在前面谈了数据科学与工程的定义和重要性的基础上,接下来就是大数据价值体系重构问题,我们已经认识到大数据非常有价值,但是如何实现大数据价值,最终还是需要合适的人来做,套用名人的说法“数据战略决定之后,人才就是决定的因数”。重构大数据价值体系的关键在于重构大数据人才培养体系。

这是各个行业数据科学家的比例。

对数据科学家的需求在不断的上升,未来五年需要50名有素质的数据科学家,缺口高达19万,还需要150万名了解数据的高管和人员。

作为一个企业大数据的主管,可以查查你的企业是否能够应对这些挑战。就是说你的大数据团队能够胜任这些任务吗?你的科学家和工程师,还有你的系统技术人员能支撑你的关键技术吗?对于一家公司来讲是否有能力制定数据发展战略和制定企业的数据治理方案,是不是有能力把数据整合以后,而且能把整合后的资源转化为你的生产力,使你的业务能力大大提高,这是一个很重要的问题,我现在接触到很多公司高管,不管在北京、上海、成都、福建,都提到一个共同的问题 - 我们缺人。包括阿里巴巴也缺人,腾讯也缺人。大家缺的是数据科学与工程的高端人才。

所以在缺人的情况下我们必须要有人做知本家,知识的资本家。要有知本,我们在教育方面一定要提升。大数据价值实现要解决的核心首先是人才培养,这些人才可以解决大数据价值获取的问题。因此我们需要数据战略家,需要数据科学家,还需要数据工程师。

我设想的人才结构分四个梯次,战略型、研究型、研发型、和创业型。这四个梯次可以用类似智库、产业研究院和创新工厂的组合形式来实现,由高校提供基本人才,通过面向产业化的研究院,由创新实验室研发成功项目,再进入新创企业。在高地上的人才指的是智库的人才,在沙滩上的人就是愿意下海的人,他们对产业东西很了解,同时得到智库的指导,但是他们并没有下海,而涉水的则是那些直接给公司提供服务咨询,但是还没有开始创业,他们在条件成熟后就可以下水游泳,那些跳下去游泳的,也就是下海的,专职创业。现在很多创新和产业孵化机构已经在做这些事情,但是一般强调的是项目,我这里强调的是人才。

这个四阶段人才应该纳入一个体系中,针对大数据领域的特点,形成一个数据科学与工程的人才供应链,和大数据产业结合成一个有机的生态系统。在图中这么一个体系结构中,大数据产业联盟的地方应该是例如塔塔数据的位置,当然包括其它公司和研究机构,核心部分是数据科学与工程研究机构,它们不是纯粹的研究机构,是面向产业化的研究机构,就有点像清华数据科学研究院这类性质的,直接和企业挂钩,同时背靠大学,同时要和其他资源对接起来。

原文发布时间为:2016-07-30

时间: 2024-09-27 16:04:13

【干货】林漳希:新兴中的数据科学与工程的相关文章

干货 | 从菜鸟到老司机,数据科学的 17 个必用数据集推荐

编者按:数据集可谓是数据科学的练兵场,不管是对菜鸟入门还是老司机上路,能找到一个好用的数据集无异于如虎添翼.以下是雷锋网(公众号:雷锋网)整理编译的 17 个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你. 菜鸟入门 1. Iris 数据集 在模式识别文献中,Iris 数据集恐怕是最通用也是最简单的数据集了.要学习分类技术,Iris 数据集绝对是最方便的途径.如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有 4 列 150 行. 典型问题:在可用属性

大数据:13个真实世界情景中的数据科学应用

现在让我们看看13个在真实世界情景下的例子,了解现代数据科学家可以帮助我们做些什么.这些例子将有助于你学习如何专注于一个问题和如何形式化一个问题,以及如何仔细评估所有潜在问题--总之,是学习数据科学家在提出解决方案之前,如何定位问题和进行战略性思考.你也会看到为什么一些广泛使用的技术,如标准回归,可能并不适合所有情况. 数据科学家的思维方式不同于工程师.运筹学专业人士.计算机科学家.虽然运筹学涉及很多分析,但这一领域的焦点是具体业务优化层面,如库存管理和质量控制.运筹学涉及国防.经济.工程.军事

数据科学在明年呈现哪四大趋势?物联网和未来医疗是香饽饽

雷锋网(公众号:雷锋网)按:数据科学.大数据和物联网正在以令人炫目的速度发展和演进,而商业界正以缓慢的速度将更多来自不同渠道的数据整合起来,并能从中洞察更多信息.本文是 Andrew Dipper 对数据科学行业2017年的展望,并列举了四大重要趋势,雷锋网编译,未经许可不得转载. 大数据技术的崛起 在过去一年,我们已经见证了大数据技术惊人的成长,但随着大数据技术在企业界中被广泛接受,下一年留给大数据技术的预算会快速增加.大多数企业已经确认需要在业务的数据方向上进行改进,这转而会需要更多的数据科

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学

本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划.

研究了数千个在线课程,我整理了一份数据科学入门课清单

一年前,我退出了加拿大最好的计算机科学项目之一,利用在线资源开始创建属于自己的数据科学硕士课程.我意识到我可以通过edX, Coursera,以及Udacity学习我所需要的一切,而且学的更快.效率更高,学费更低. 数据可视化:Alanah Ryding 现在我差不多快要完成了.我上了很多数据科学相关的课程,旁听过更多课程的部分内容.我知道对于一个准备成为数据分析师或数据科学家的初学者来说有哪些选择,以及什么样的技能是必需的.几个月前,我开始创建一个用评价驱动的指南,用来为数据科学中的每个主题推

清华大学数据科学研究院与Cloudera联手发布大数据人才教育项目

根据IDC研究显示,大数据解决方案将在未来四年中,帮助全球企业分享大约1.6万亿美元新增收入的数据红利.在大数据产业发展中,以Hadoop为代表的开源大数据生态成为大数据和云计算的重要技术支撑,有效推动了开源社区的用户和贡献者,带动了技术进步与商业发展.而在全球范围内,大数据行业正在面临数据专业人才短缺的困境. 2016年8月5日,清华大学数据科学研究院("清华数科院")宣布与Cloudera合作. Hadoop之父.Cloudera首席架构师Doug Cutting与清华大学数据科学

如何真正学好数据科学?

作为一个全新的领域,数据科学的飞速发展让人激动.数据科学在带来巨大经济效益的同时,人们在数据科学技术方面的知识沟也逐渐出现,这意味着更多的人需要试图了解和学习数据科学. "我该如何学习数据科学"这个问题是初学者需要迈过的第一个门槛.大家在解决这个问题的时候,通常采用的办法是给自己安排一大串的课程去学习,当然还有一大摞的课本来阅读,线性代数和统计学成为大家必须要打交道的"新朋友".我们使出了"洪荒之力"拼了命地学习,我们甚至没有编程的学习背景,但是

哥伦比亚大学数据科学课程笔记

第一周:什么是数据科学? 课程大纲 Rachel Schutt教授以梳理课程大纲开始,下面是她主要的摘要: 1. 课程需要的基础知识有:线性代数,基础统计学,以及一些编程课程. 2. 课程目标:学习数据科学家都做些什么,并学会做其中的一些事儿. 3. Rachel主讲几个礼拜的课,然后会有客席讲座. 4. 客座教授的简历跨度非常大,他们的背景也是如此.但他们都是数据科学家. 5. 我们将有丰富的阅读材料:做一名数据科学家的一种能力就是认识到许多还未记录下来的东西. 6. 差不多每两周一次家庭作业