数据科学家大调查:职业受挫数据多样性,吐槽Hadoop

  

  经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆仑山上的雪豹数量还少。

  显然,数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事。不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性(IT经理网记者此前曾与百度创始七剑客之一,酷我音乐CEO雷鸣讨论机器学习和大数据分析的最大挑战,他也认为是数据维度),而不是数据总量构成其职业最大威胁和挑战。

  值得注意的是,只有48%的受访数据科学家表示他们在工作中曾使用过Hadoop或者Spark,高达76%的数据科学家抱怨Hadoop太慢,编程速度过慢,以及其他一些局限性。

  虽然Hadoop口碑不佳,但是有接近半数的数据科学家表示很难将数据存入传统关系数据库表中。Nexedi的首席执行官Jean-Paul Smets在接受采访时也曾指出,大数据的真正难题其实并不是所谓的“大”,业界目前缺乏是通过使用高效的分布式运算法则来处理数据的软件,Hadoop 过于依赖Java,而Java已经被Oracle牢牢控制。中国兴起的去IOE运动,实际上为Hadoop之外的大数据软件方案提供了良机。

企业大数据进入复杂分析阶段

  根据报告,有59%的数据科学家表示其所在企业已经开始采用更加复杂的分析技术,例如集群、机器学习、种量分析(Principal components analysis)、图论分析等高级分析技术分析数据,而不是局限于传统的BI报告。

  还有15%的数据科学家表示计划在明年启用复杂分析技术,另有16%的数据科学家表示将在未来两年内采用复杂分析技术。

Hadoop被过度吹捧

  Paradigm4的报告指出,Hadoop被过度吹捧成无所不能的,革命性的大数据解决方案,实际上Hadoop并不适用于需要进行复杂分析的大数据应用场景。

  Hadoop的核心技术方法数据并行(data parallel),被Paradigm4称作“闹心的并行”。报告指出,复杂分析人物往往需要经常访问、处理和分享全体数据,并在数据处理中交叉沟通中间结果,而这恰恰是Hadoop MapReduce的软肋。

  22%的受调查数据科学家表示Hadoop和Spark压根不适合他们的分析任务,此外还有35%的数据科学家在尝试Hadoop或Spark后停止使用这两项技术。

总结:

  在快数据和机器学习为主要趋势的大数据潮流中,Hadoop作为开源系统,企业用户自主安装后,其性能优化有相当技术门槛。其实 Hadoop系统也并非数据科学家反映得那样不堪用,Hadoop系统其实也可以快起来,例如老牌超算厂商Cray的Hadoop解决方案进行了软硬件调优,并且提供后继的技术支持,测试性能要高出很多倍,很好地解决了Hadoop性能差的问题。

  Paradigm4数据科学家调查报告中的一些亮点被浓缩在下面这张信息图中,供有兴趣的读者深究:

  

  End.

时间: 2024-10-23 21:49:04

数据科学家大调查:职业受挫数据多样性,吐槽Hadoop的相关文章

数据科学家调查:受挫数据多样性,吐槽 Hadoop

经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆仑山上的雪豹数量还少. 显然,数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事.不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性(IT经理网记者此前曾与百度创始七剑客之一,酷我音乐CEO雷

2014中国大数据行业大调查首批获奖名单大曝光

在2014中国大数据技术大会召开前期,CSDN特举行了"2014中国大数据行业大调查(2014年11月7日 - 2014年12月7日)"活动,旨在为大数据技术从业者和创业者们提供一个合理的参考.而在活动进行的两周内,我们得到了来自全国各地数百位CSDN小伙伴的支持. 那么,究竟是什么吸引了全国如此多小伙伴的踊跃参与?这里我们不妨看向本次2014中国大数据行业大调查的一等奖: BDTC 2014之旅 本届大会将持续三天,大会第一天也就是12月12日,将举办第二届CCF大数据学术会议论文宣

数据科学家大减价:一小时只收30美元

你有没有想过雇佣一个数据科学家为你工作,也许你还认为雇佣数据科学家的成本会让你难以承受,事实上,数据科学家已经逐渐转变为经济适用型人才了. 数据科学家大减价:一小时只收30美元 Vincent Granville是一个数据科学家,一次偶然的机会,他发现一些专业数据分析人士在自由职业者网站Elance上寻求一份30美元一小时的工作,近期他在数据科学中心网站上发布的一篇博客详细描述了这一事件. 这个求职者叫Andrew Collier,他在Elance简历上称自己是数据科学家,期望自己的工资最低为2

参与2014中国大数据行业大调查 BDTC门票等你拿

2014中国大数据行业大调查将全方位洞察当下大数据生态圈,了解大数据平台开发者的需求,分析大数据行业发展趋势及产品方向,为大数据技术从业者和创业者们提供参考. 希望能够得到您的支持与合作,我们将从参与者中抽取幸运用户赠送丰厚大奖. 调查时间:2014年11月07日 - 2014年12月07日 奖品介绍: 一等奖: 2014中国大数据技术大会(BDTC2014)暨第二届CCF大数据学术会议门票,共10张(价值 2700元/张). 二等奖:CSDN书包,共20个. 三等奖:CSDN精美笔记本,共30

美媒:大数据兴起 数据科学家成热门职业

美国<华尔街日报>网站8月9日报道称,克里斯·法雷尔现年28岁,是一名http://www.aliyun.com/zixun/aggregation/13768.html">数据科学家.这个工作头衔3年前还不存在,但从那时以来却成为高科技劳动市场上最热门的角落之一.零售商.银行.重型设备制造厂和婚介所都想让专家从互联网.机器和智能手机上提取并分析大量的数据,从而引发了寻找和培训这种人才的一场竞争. 雇主们说,理想的候选人必须具备超出传统的市场研究技能:能在不同来源不断提供的千百

科研人员变身数据科学家 大数据成天津大港油田“找油利器”

ZDNet至顶网软件频道消息:在一般人的印象中,油田与科研之间似乎划不上等号,再把油田与1000名科研人员联系在一起,很多人会问:这些科研人员在油田中的作用是什么?作为一名对油田不太了解的IT记者,我也有这样的疑问.为此,ZDNet记者近日专门采访了天津大港油田信息中心数据管理部主任范德军. 1000这个数字,是天津大港油田科研人员的规模.在范德军看来,与公司3.4万名职工数相比,科研人员比例并不高,但是他们的作用却非常大.大港油田信息中心负责整个油田信息化建设,而为科研生产提供好的信息化支持,

数据分析师?架构师?科学家?大数据时代的热门职业

沈阳市大数据局公开招聘110名智慧城市建设信息员,7月7日起至11日报名,引起社会广泛关注,报名网站点击率迅速蹿升. 大数据已是当下信息时代一个非常热的概念,大数据时代到来,将给人才发展带来哪些机会?谁将是未来最热门的人才?大数据时代的热门职业都有哪些?让我们一起来看看吧-- 说起大数据,可能你还会觉得云里雾里,实际上,大数据就发生在你我身边,和小编一起先来点入门级的-- 你的通话记录.上网记录,会留在三大电信运营商那里: 你的身份.家庭房产信息,会通过刷信用卡而被银行知晓: 你去了哪里,现在哪

大数据科学家,听起来好听,干的是搬砖的活儿

"大数据"这个流行词包含了各类丰富的数码数据,从网络.感应器,到手机.电脑.用智能软件来挖掘这些数据,可以得到许多发现.它使得各领域的数据导向决策过程成为可能.这也是数据科学家成为热门职业的原因.但你知道数据科学家平时都做些什么吗? 整理数据 事实上,数据科学家们百分之五十到八十的时间都在埋头整理无序的数据,直到它们能被用于挖掘,即所谓的"Data Mining".这些精细而繁琐的工作,完全不像想象中那么信手拈来.这是因为我们正身处于大数据的现代蛮荒之中,数据从收集

Hadoop局限性与数据多样性令数据科学家抓狂

企业用户正逐渐将更多注意力集中在创建大数据分析能力身上,而http://www.aliyun.com/zixun/aggregation/13768.html">数据科学家则因此而承受着更为沉重的压力. 在Paradigm4(也就是开源计算数据库管理系统SciDB的缔造者)本周发布的一份面向超过一百位数据科学家的调查报告当中,他们发现有71%的受访数据科学家认为随着数据源种类以及数据规模的不断增加.他们的工作难度也随之逐步攀升. 值得注意的是,只有48%的受访者在调查中表示他们曾经在工作当