大数据时代 寻找数据科学家

数据科学家已供不应求,这已经不是什么秘密了。数据爆炸以及相应的防爆工具,还有摩尔定律和梅特卡夫定律,他们的连锁影响导致与以往相比有更多的数据、链接、以及技术需要处理。在去年的Hadoop世界中,掀起了一股培养数据科学家的狂潮,他们只能勉强满足相形见绌以技术为导向的数据结构师的需求。这意味着:

1.潜在的MacArthur Grant受助人,他需要对数据、数学和统计学技能的有热情和洞察力,它能够明白运算法则,了解绘画图片的艺术性,并且明白所有数据的导向性。这就是数据科学家的意思。

2.这些人可以了解大数据平台的侧面,也就是数据结构师或者数据工程师。

数据结构师将会是更加直面困难的一方。了解大型的数据平台(Hadoop, MongoDB, Riak)和新兴的高级SQL产品(Exadata, Netezza, Greenplum, Vertica, 以及最近崛起的一项技术,比如说Calpont),这是一项技术技能,可以通过明确的课程来进行教授。供给和需求的法则将会解决这一问题——就像早在1999年泡沫创造了对Java程序员的需求一样。

在所有需要Hadoop程序员的呼声背后,还有一个类似的,但是非常安静的,人们争先恐后的急于招聘数据科学家的趋势。就像一些数据科学家称数据科学家是一个流行语一样,这种需求是真实存在的。

然而,数据科学将会有很多的困难需要克服。这所有的一切都是与连接点相关的,并不像听起来那么容易。大数据的V——容量,品种,速度和价值——都需要某些人根据对数据的洞察力而有所发现;传统上,该角色是由数据开发人员来完成的。但数据开发人员只能处理好有限的问题,以及有界(已知)的数据集,这使问题更加二维化。

各种各样的大数据——在形式和来源上引进了一种未知的元素。大数据的解读需要进行精明的调查、沟通技巧、创意/艺术,并且还要有对数字非常直觉的思考能力。并且不要忘记这一切都要建立在坚实的统计和机器学习背景,加上对工具和贸易编程语言的技术知识的基础之上。

有时好像我们正在寻找爱因斯坦或某些智者。

自然界讨厌真空

正像自然界讨厌真空一样,现在人们不但急于定义什么样的人是数据科学家,而且也都在考虑开发出一些程序,通过这些程序来进行教学,通过软件包在某些程度上将这些信息包含在里面,否则就将它们扔到其他的地方。EMC和其他厂商正在加紧开发板块来提供培训,不仅仅是在平台上,还要针对数据科学。kaggle提供一种创新性的基于云的,众包方式的数据科学,提供了预测性的建模平台,然后再分段发起24小时的比赛,用于潜在培养数据科学家制定针对特殊问题的最佳的解决方案(这使人联想到Netflix的100万美元的奖金制度,设计出一个更聪明的算法来预测观众的口味)。

随着数据科学的人才奇缺,我们期望顾问公司购买更多的人才,然后可以“租”给多个客户端。除了少数的国外公司之外,很少有系统集成商(SI)已经加紧推出板块,正式推出大数据实践(逻辑数据科学家将驻留的地方),但我们期望这种情况会很快改变。

Opera的解决方案,自2004年以来,它已经参与到了预测性分析咨询的比赛中来,这一方案下一步采用的是下行的包装路线。去年在系列A中增加了8400万美元的资金,该公司已配备了近200个数据科学家,在谷歌的这一边成为了最大的天才组合之一。Opera的预测分析解决方案是专为各种不同的平台设计的,SQL和Hadoop,今天他们加入了SAP Sapphire的宣布潮流中,同时发布了他们对HANA内存数据库的报价。安德鲁?布鲁斯特对本公告的细节进行了很好的深入分析。

从SAP的角度来看,Opera的预测分析解决方案在逻辑上是合适HANA的,因为它们涉及到各种复杂问题(例如,一个计算触发其他计算),其新的内存中的数据库平台是专门为其设计的。

期望Opera继续保持作为唯一的大型聚集数据科学家的公司,这些科学家可供其他的公司租用,这种期望对于Opera公司来说,具有非常大的价值。但具有讽刺意味的是,市场进入壁垒将会使竞争的空间一直非常狭窄并且高度集中。当然,随着市场需求的增加,将不可避免地出现对数据科学家定义的下行态势,这样越来越多的公司就可以声称他们已经得到了一个或许多的数据科学家。

供给和需求的法则将在数据科学家方面出现偏差,但供给的上升速度不会像更加注重平台的数据建筑师或工程师一样迅速。不可避免的,数据科学家的供应将会受到软件的加强,软件可以自动的解释机器学习的内容,但是软件的功能只能仅止于此,你可以在机器上编制具有创造力和反直觉洞察力的程序。

(责任编辑:蒙遗善)

时间: 2024-09-27 23:12:58

大数据时代 寻找数据科学家的相关文章

大数据时代寻找“数据侠” 提升传播大数据应用价值

当人们在谈论大数据的时候,希望通过分析大数据,更了解过去发生了什么.现在正在流行什么.未来会怎样,希望数据能为人们所用,给企业发展以决策依据,给政府政策以公共价值,给普通人以启发.3日,第一财经旗下数据新媒体DT财经和上海开放数据创新应用大赛(SODA)联合举办"寻找数据侠"活动,正式宣布启动"数据侠"计划. 大数据变革的时代,人们面前呈现同样的技术壁垒:使用产品和服务的时间多.接触背后数据的机会少,利用工具对数据进行分析.决策更是难上加难.普通民众和大数据之间似乎

大数据时代的数据新闻:源于数据但高于数据

数据新闻报道是互联网发展背景下催生的新型报道,可视化表达是数据新闻的一种重要表现方式.数据新闻不仅仅是指在新闻实践中直接引入数据分析技术和可视化设计,其更核心内容是数据背后的新闻叙事. 为了将抽象数据具体而直观地展现出来,从而通过数据表达其背后的概念和内涵,可视化是数据新闻叙事的一种主要的表达手段. 类型 7种视觉叙事分类交融 美国学者爱德华·西格和杰弗里·希尔曾在相关研究中把数据新闻的视觉叙事类型做出如下分类:杂志式.图表式.分栏图式.流程图式.连环画式.幻灯片式及视频式.这7种分类并不相互排

大数据时代的数据交易规则的法律思考

大数据时代已经到来,之后将是人工智能时代,而且可能在非常近的时间我们都能看到.目前各国纷纷将大数据作为国家战略,我国也积极为大数据做充分准备并付诸实践.大数据离我们很近,它已经介入我们的生活;也离我们很远,更多人不知道大数据为何物.大数据时代的数据交易.数据共享及数据安全等在目前法律上均为空白,如何维护我们现在及未来的权利留待我们作出的法律思考. 一. 大数据国家战略 现在随着全球数字化.网络宽带化.互联网应用于各行各业,一个大规模的产生.分享和应用数据的大数据时代已经到来.大数据将是下一个创新

大数据时代,数据对企业来说蕴藏着巨大的商业价值

数据会说话吗?在大数据时代,数据不光会说话,还会驱动企业决策,让企业往正确的方向发展. 信息化技术的飞速发展,造就了大量信息的爆发性增长,海量信息被IT系统所传输.使用.保留和存储,成为海量的数据,大数据时代已经来临.在大数据时代,数据不仅仅是信息的简单记录和保存,更是蕴藏着巨大商业价值的"宝藏",数据已经成为了企业的重要战略资产,数据分析则对企业的商业发展起着举足轻重的作用,成为企业重点关注的领域. 数据分析困局 据Gartner相关数据表明,2014年全球花费810亿美元在业务分析

大数据时代留给数据分析师的羁绊

大数据搭着信息时代的快车来到了我们的面前,数据的价值逐渐为人们所重视,同时也让数据分析师的身价倍增.而随着大数据分析工具等大数据应用技术的出现,未来的数据分析师又将遇到怎样的挑战和机遇呢? 工具抢了人的饭碗? 很多大数据分析工具的设计起点非常高,定位了数据分析过程中所需要的大部分功能.好的工具应该可以从数据前期整合.收集到挖掘.分析乃至末端的数据可视化的整个数据分析过程. 但如果仅凭这些就认定大数据分析工具能取代数据分析师,未免有些杞人忧天了.恰恰相反,大数据分析工具不是数据分析师的竞争者,而是

大数据时代,数据=财富!

拥有财富.名声.世界上的一切的男人 "商业王,阿里巴巴,马云.说了一句话,让全世界的人都涌向了市场."想要我的宝藏吗?如果想要的话,那就到数据上去找吧!我吧我的未来全部都放在那里.",世界开始迎接"大数据时代"的来临. -------前言 什么是大数据呢? 故名思意大数据便是数量巨大,类型众多,结构复杂的数据集合.数据具有较小的价值,而数据的集合因为数量的众多量变引起的质变所以其价值无可估量. 数据出现的最早的时间可以追溯到18000年前,原始人类.开始用

清华数据院院长韩亦舜:大数据时代的数据伦理问题探究

导读:5月26日,2015年贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会在贵阳召开,数据开放与隐私保护作为一个专门的分论坛,在同天下午举办.清华大学数据科学研究院执行副院长在会上做了大数据伦理与道德的分享.大数据文摘今日带您走进数据开放与隐私保护论坛,聆听韩亦舜院长对数据引发伦理道德问题的看法. 韩亦舜 清华大学数据科学研究院执行副院长,关注数据开放,数据伦理以及数据隐私研究 以下是演讲实录 刚才几位嘉宾就数据的安全问题,隐私问题分享了观点,我今天从不同的角度说一些有待探讨的观点. 我不知道

大数据时代的数据资产管理

昨天的文章中,认为数据是资产.是可交易的,那么到底什么是数据资产,和传统的资产有何区别,请看今天的推荐.   虽然数据还没有被列入企业的资产负债表,但这只是一个时间问题.-维克托·迈尔-舍恩伯格   伴随着大数据时代的悄然来临,对数据的重视提到了前所未有的高度.套上大数据的光环后,原本那些存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增.按照世界经济论坛报告的看法,"大数据为新财富,价值堪比石油".大数据之父维克托则乐观预测,数据列入企业资产负债表只是时间问题. 但是,数据真的可以和资

EMC打造大数据时代的数据众包人才市场

北京时间10月24日消息,据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,EMC旗下的Greenplum部门专注于数据分析软件的开发,Kaggle则是一家专注于统计归纳人才发现和部署的公司.二者如今展开了合作,力图打造一个大数据工程师市场.这样,一家没有全职数据科学家的企业如今也可以把数据分析的工作众包出去. Kaggle会举办全球范围的数据科学家竞赛活动.Greenplum的客户可以通过一款叫做Chorus的产品来搜