磁盘性能同样彪悍,Spark打破大数据基准测试记录

Apache Spark是当今最火爆的大数据处理框架。Spark的性能和速度都大大优于MapReduce,且更加容易使用,而且Spark已经拥有一个庞大的用户 和贡献者社区,这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求,大有取代MapReduce的趋势。

但不少人认为Spark仅仅是在内存计算环境比Mapreduce表现出色。近日为了给Spark正名,Spark商业化公司Databrick在磁盘环境给Spark做了GraySort跑分测试(下图)。

Databrick的Daytona GraySort测试环境使用了亚马逊云中的206台服务器共计6600个内核,测试数据量高达100TB,测试用时仅仅23分钟,打破了此前由雅虎保持 的记录,雅虎当时动用了2100节点的Hadoop集群,共计5万多个内核才完成100TB数据的测试(用时72分钟)。

为了展示Spark在可靠处理超大规模数据集方面的性能,Databrick还增加了一个非正式的测试(上图),190台服务器处理1PB数据用时 4小时。Databricks的客户营销总监Arsalan Tavakoli表示,不少公司的大数据处理规模远不止1PB,对Spark在生产环境的扩展性持怀疑态度的人,应当看到阿里巴巴的Spark集群已经扩 展到数百PB。

Databrick的GraySort基准测试采用HDFS作为存储层,测试数据来自Databricks云,存储在亚马逊的S3或HDFS(AWS实例)。Databrick的官网上周五公布了更多的测试细节,包括测试方法和可信度等。

时间: 2024-10-11 14:54:57

磁盘性能同样彪悍,Spark打破大数据基准测试记录的相关文章

Spark:大数据时代的电光火石

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台.它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. Spark已正式申请加入Apache孵化器,从灵机一闪的实验室"电火花"成长为大数据技术平台中异军突起的新锐.本文主要讲述Spark的设计思想.Spark如其名,展现了大数据不常见的"电光石火".具体特点概括为"轻.快.灵和巧". 轻:Spark 0.6核心代码有2万行,H

Spark:大数据的“电光石火”

Spark已正式申请加入Apache孵化器,从灵机一闪的实验室"电火花"成长为大数据技术平台中异军突起的新锐.本文主要讲述Spark的设计思想.Spark如其名,展现了大数据不常见的"电光石火".具体特点概括为"轻.快.灵和巧". 轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行.一方面,感谢Scala语言的简洁和丰富表达力:另一方面,Spark很好地利用了Hadoop和Mesos(伯克利 另一个进入孵化器的

Spark:大数据的电花火石!

什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark. 当然这里说的Spark指的是Apache Spark,Apache Sparkis a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎.如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的.   Spark解决了什么问题? 在这里不得

Apache Spark是大数据领域的下一个大家伙吗?

作者观察到http://www.aliyun.com/zixun/aggregation/14417.html">Apache Spark 最近发出一些不同寻常的事件,Databricks将提供$14M美金支持Spark,Cloudera决定支持Spark,Spark被认为是大数据领域的大事情. 美好的第一印象 作者认为自己已经与Scala的API(Spark使用Scala编写)打交道了一段时间,说实话,起初是相当深刻的印象,因为Spark是看上去这么小而好.基本的抽象是有弹性分布式数据集

打破大数据先污染后治理 普元帮企业抓准数据治理最佳时机

ZD至顶网CIO与应用频道 07月06日 北京消息(文/王聪彬):现如今企业都在关注大数据该如何用,但企业在真正应用大数据的过程中并不那么顺畅,尤其是有着各种分公司或子公司的集团型.大型企业,他们数据的形态和标准都不统一,这也给应用添加了难度. 数据治理本就是个痛苦的过程,尤其是面向海量数据进行大数据的价值转化与清洗更加痛苦,所以从国家层面已经开始积极建立制度标准推行数据治理.目前一些行业已经是数据治理的领先者,但某一行业的数据治理模型并不具备普适性,由于各行业数据治理需求的不同,通用版的数据治

IBM:Watson Analytics为中小企业打破大数据障碍

ZDNet至顶网软件频道消息:上周IBM发布了基于云.基于沃森认知计算平台的分析服务--Watson Analytics,被IBM定位为为普通企业用户带来大数据分析的大数据游戏规则改写者. IBM中端市场业务总经理John Mason表示:"大型公司进一步采用分析,而中小企业则落在其后.通过发布Watson Analytics,我们正在试图为企业提供分析解决方案的强大优势."   免费定价模式显然是IBM打算用于推动大数据民主化进程的战略,因为这样用户可以体验到沃森的自然语言查询和认知

[hadoop+spark+python]大数据实战随手笔记

1.提交任务 指令(我配置了spark-submit的环境变量) spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10 fielname 逐条解释如下: (1)–class org.apache.spark.examples.SparkPi 设置运行的环境,java或者ya

技术派:优酷土豆用Spark完善大数据分析

大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活.也许有人认为大数据在中国仍然只是噱头,但在当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展,并为广大中国网民提供更加优秀的服务.优酷土豆作为国内最大的视频网站,和国内其他互联网巨头一样,率先看到大数据对公司业务的价值,早在2009年就开始使用Hadoop集群,随着这些年业务迅猛发展,优酷土豆又率先尝试了仍处于大数据前沿领域的Spark/Shark 内存计算框架,很好地解决了机器

作为大数据工程师,你必须熟练运用的性能优化技术

最近几年一直参与大数据产品的研发,同时大数据产品在海量数据场景下其处理性能又是其主要卖点和突破,所以个人在这几年经常忙于如何对大数据产品进行性能上面的优化,并且想通过本文和大家聊聊具体的几种比较常见大数据性能优化技术. 常见的大数据性能优化技术一般分为两部分,其一是硬件和系统层面的观测,从而来发现具体的瓶颈,并进行硬件或者系统级的调整;其二是主要通过对软件具体使用方法的调整来实现优化. 硬件方面的监测 图1. Windows7性能指数 关于硬件性能本身,个人觉得最好对性能的诠释就像图1大家比较熟