调查显示76%的数据科学家认为Hadoop太慢

  据分析调研公司Paradigm4一项调查显示,76%的数据科学家认为Hadoop太慢了。数据科学家表示,Hadoop作为开源软件框架,在实际应用中还需要更多的精力进行编程,与大数据应用需求相比,其处理速度也还不够快。

  据分析调研公司Paradigm4一项调查显示,76%的数据科学家认为Hadoop太慢了。数据科学家表示,Hadoop作为开源软件框架,在实际应用中还需要更多的精力进行编程,与大数据应用需求相比,其处理速度也还不够快。

  91%的受访者表示,正在执行有关大数据的复杂分析,其中39%的人认为其工作变得更加困难。71%的受访者表示:数据类型的多样性和数据量让分析更加困难。

  76%的受访者提到了有关Hadoop的问题,39%人认为需要太多的编程努力;37%的人表示即席查询速度太慢,30%的人认为进行实时分析其速度太慢。

  如今大数据对于企业越来越重要。据戴尔委托Competitive Edge Research的一项研究显示:那些员工人数在2000~5000人的中型企业已经开始拥抱大数据技术兴起,80%的中型企业认为应该更好地分析他们的数据,他们相信大数据应用能够更好地提升企业决策水平。

  对于小型企业而言,免费和便宜工具会让大数据收集和分析变得简单,也是提升竞争力必须要做的事情。Paradigm4本次调查从三月开始,四月结束,为期一个月,得到了美国111数据科学家的响应。

  Hadoop是什么:

  一个分布式系统基础架构,由Apache基金会所开发。

  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

  Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

时间: 2024-09-14 15:50:27

调查显示76%的数据科学家认为Hadoop太慢的相关文章

调查显示:大数据带来大困惑

"很多人都不理解究竟什么是大数据,大家都感到很困惑."LogLogic公司http://www.aliyun.com/zixun/aggregation/35685.html">首席营销官Mandeep Khera这样说.最近,LogLogic与IT安全研究公司Echelon One共同完成了一项大数据管理调查.调查发现,有49%的企业比较或者非常关心大数据管理问题,而有38%的企业并不明白什么是大数据,另外有27%的企业表示他们对大数据一知半解.此外,调查还发现,59

调查显示北美大型数据中心能源效率低下

Digital Realty Trust对北美http://www.aliyun.com/zixun/aggregation/15530.html">大型企业的300名IT决策者进行了调查,这些企业每年至少有100亿美元的年收入或者至少拥有5000名员工. 结果显示数据中心平均PUE(电源使用效率)得分为2.9.PUE是测量数据中心效率的指标,分数越低越好.理想的分数是接近1.0,此前的调查显示平均得分接近2.0. PUE是目前测量能源效率的唯一方法,并没有标准化的方法来计算,所以这个结果

数据科学家调查:受挫数据多样性,吐槽 Hadoop

经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆仑山上的雪豹数量还少. 显然,数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事.不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性(IT经理网记者此前曾与百度创始七剑客之一,酷我音乐CEO雷

数据科学家大调查:职业受挫数据多样性,吐槽Hadoop

经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆仑山上的雪豹数量还少. 显然,数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事.不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性(IT经理网记者此前曾与百度创始七剑客之一,酷我音乐CEO雷

大数据工具,在数据科学家眼中是怎样的存在?

随着大数据工具数量的增长和计算能力的飞跃,数据科学家越来越多地发现,如果他们想从自己的模型中获得最佳性能,那就必须考虑所使用的数据管道. 数据科学工具的功能通常围绕着预测建模,机器学习和数据可视化.但这些工具还应该包括后端数据管道技术,因为这有助于加快分析的速度. 更强的计算能力 数据科学家们通常喜欢把后端技术扔给工程师来处理.当你的主要关注点是提高模型的预测精度或发现一个数据集中的未知相关性时,文件系统和资源管理工具通常情况下并不十分友好. 但随着大数据工具数量的增长和计算能力的飞跃,数据科学

Hadoop局限性与数据多样性令数据科学家抓狂

企业用户正逐渐将更多注意力集中在创建大数据分析能力身上,而http://www.aliyun.com/zixun/aggregation/13768.html">数据科学家则因此而承受着更为沉重的压力. 在Paradigm4(也就是开源计算数据库管理系统SciDB的缔造者)本周发布的一份面向超过一百位数据科学家的调查报告当中,他们发现有71%的受访数据科学家认为随着数据源种类以及数据规模的不断增加.他们的工作难度也随之逐步攀升. 值得注意的是,只有48%的受访者在调查中表示他们曾经在工作当

KDnuggets 官方调查:数据科学家最常用的十种算法

最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法. 哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的? 这是基于 844 个投票者的结果. 排名前十的算法以及他们的投票者的比例分布如下: 图 1 :数据科学家使用度最高的 10 大算法 每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长. 与 2011 年关于数据分析/数据挖掘的调查相比

为何Python攀上数据科学巅峰?调查显示Python超越R

根据KDnuggets 2017年最新调查,Python生态系统已经超过了R,成为了数据分析.数据科学与机器学习的第一大语言.本文对KDnuggets的此项调查结果做了介绍,并补充了一篇文章讲解为何Python能成为数据科学领域最受欢迎的语言. Python vs R:2017 年调查结果 近日,KDnuggets 发起了一项调查,问题是: 你在 2016 年到现在是否使用过 R 语言.Python(以及它们的封装包),或是其他用于数据分析.数据科学与机器学习的工具? 预料之内的是,Python

KDnuggets调查|数据科学家最常用的10种算法

最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的12个月中,你在实际数据科学相关应用中用到了那些模型/算法? 于是就有了以下基于844份答卷的结果. ◆ ◆ ◆ 排名前十的算法和它们在投票者中所占比例 图1:数据科学家最常用的10大算法,所有算法见文末表格   每个受访者平均用到了8.1种算法,这相比于 2011 的相似调查显示的结果有了巨大的增