磁盘性能同样彪悍，Spark打破大数据基准测试记录

Apache Spark是当今最火爆的大数据处理框架。Spark的性能和速度都大大优于MapReduce，且更加容易使用，而且Spark已经拥有一个庞大的用户和贡献者社区，这意味着Spark更加符合下一代低延迟、实时处理、迭代计算的大数据应用的要求，大有取代MapReduce的趋势。

但不少人认为Spark仅仅是在内存计算环境比Mapreduce表现出色。近日为了给Spark正名，Spark商业化公司Databrick在磁盘环境给Spark做了GraySort跑分测试（下图）。

Databrick的Daytona GraySort测试环境使用了亚马逊云中的206台服务器共计6600个内核，测试数据量高达100TB，测试用时仅仅23分钟，打破了此前由雅虎保持的记录，雅虎当时动用了2100节点的Hadoop集群，共计5万多个内核才完成100TB数据的测试（用时72分钟）。

为了展示Spark在可靠处理超大规模数据集方面的性能，Databrick还增加了一个非正式的测试（上图），190台服务器处理1PB数据用时 4小时。Databricks的客户营销总监Arsalan Tavakoli表示，不少公司的大数据处理规模远不止1PB，对Spark在生产环境的扩展性持怀疑态度的人，应当看到阿里巴巴的Spark集群已经扩展到数百PB。

Databrick的GraySort基准测试采用HDFS作为存储层，测试数据来自Databricks云，存储在亚马逊的S3或HDFS（AWS实例）。Databrick的官网上周五公布了更多的测试细节，包括测试方法和可信度等。

时间： 2024-10-11 14:54:57

磁盘性能同样彪悍，Spark打破大数据基准测试记录的相关文章

Spark：大数据时代的电光火石

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台.它立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. Spark已正式申请加入Apache孵化器,从灵机一闪的实验室"电火花"成长为大数据技术平台中异军突起的新锐.本文主要讲述Spark的设计思想.Spark如其名,展现了大数据不常见的"电光石火".具体特点概括为"轻.快.灵和巧". 轻:Spark 0.6核心代码有2万行,H

Spark：大数据的“电光石火”

Spark已正式申请加入Apache孵化器,从灵机一闪的实验室"电火花"成长为大数据技术平台中异军突起的新锐.本文主要讲述Spark的设计思想.Spark如其名,展现了大数据不常见的"电光石火".具体特点概括为"轻.快.灵和巧". 轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行.一方面,感谢Scala语言的简洁和丰富表达力:另一方面,Spark很好地利用了Hadoop和Mesos(伯克利另一个进入孵化器的

Spark：大数据的电花火石！

什么是Spark?可能你很多年前就使用过Spark,反正当年我四六级单词都是用的星火系列,没错,星火系列的洋名就是Spark. 当然这里说的Spark指的是Apache Spark,Apache Sparkis a fast and general engine for large-scale data processing: 一种快速通用可扩展的数据分析引擎.如果想要搞清楚Spark是什么,那么我们需要知道它解决了什么问题,还有是怎么解决这些问题的. Spark解决了什么问题? 在这里不得

Apache Spark是大数据领域的下一个大家伙吗？

作者观察到http://www.aliyun.com/zixun/aggregation/14417.html">Apache Spark 最近发出一些不同寻常的事件,Databricks将提供$14M美金支持Spark,Cloudera决定支持Spark,Spark被认为是大数据领域的大事情. 美好的第一印象作者认为自己已经与Scala的API(Spark使用Scala编写)打交道了一段时间,说实话,起初是相当深刻的印象,因为Spark是看上去这么小而好.基本的抽象是有弹性分布式数据集

打破大数据先污染后治理普元帮企业抓准数据治理最佳时机

ZD至顶网CIO与应用频道 07月06日北京消息(文/王聪彬):现如今企业都在关注大数据该如何用,但企业在真正应用大数据的过程中并不那么顺畅,尤其是有着各种分公司或子公司的集团型.大型企业,他们数据的形态和标准都不统一,这也给应用添加了难度. 数据治理本就是个痛苦的过程,尤其是面向海量数据进行大数据的价值转化与清洗更加痛苦,所以从国家层面已经开始积极建立制度标准推行数据治理.目前一些行业已经是数据治理的领先者,但某一行业的数据治理模型并不具备普适性,由于各行业数据治理需求的不同,通用版的数据治

IBM：Watson Analytics为中小企业打破大数据障碍

ZDNet至顶网软件频道消息:上周IBM发布了基于云.基于沃森认知计算平台的分析服务--Watson Analytics,被IBM定位为为普通企业用户带来大数据分析的大数据游戏规则改写者. IBM中端市场业务总经理John Mason表示:"大型公司进一步采用分析,而中小企业则落在其后.通过发布Watson Analytics,我们正在试图为企业提供分析解决方案的强大优势." 免费定价模式显然是IBM打算用于推动大数据民主化进程的战略,因为这样用户可以体验到沃森的自然语言查询和认知

[hadoop+spark+python]大数据实战随手笔记

1.提交任务指令(我配置了spark-submit的环境变量) spark-submit --class org.apache.spark.examples.SparkPi --master spark://192.168.12.233:7077 --executor-memory 10G --total-executor-cores 10 fielname 逐条解释如下: (1)–class org.apache.spark.examples.SparkPi 设置运行的环境,java或者ya

技术派：优酷土豆用Spark完善大数据分析

大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活.也许有人认为大数据在中国仍然只是噱头,但在当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展,并为广大中国网民提供更加优秀的服务.优酷土豆作为国内最大的视频网站,和国内其他互联网巨头一样,率先看到大数据对公司业务的价值,早在2009年就开始使用Hadoop集群,随着这些年业务迅猛发展,优酷土豆又率先尝试了仍处于大数据前沿领域的Spark/Shark 内存计算框架,很好地解决了机器

作为大数据工程师，你必须熟练运用的性能优化技术

最近几年一直参与大数据产品的研发,同时大数据产品在海量数据场景下其处理性能又是其主要卖点和突破,所以个人在这几年经常忙于如何对大数据产品进行性能上面的优化,并且想通过本文和大家聊聊具体的几种比较常见大数据性能优化技术. 常见的大数据性能优化技术一般分为两部分,其一是硬件和系统层面的观测,从而来发现具体的瓶颈,并进行硬件或者系统级的调整;其二是主要通过对软件具体使用方法的调整来实现优化. 硬件方面的监测图1. Windows7性能指数关于硬件性能本身,个人觉得最好对性能的诠释就像图1大家比较熟

猜你喜欢

阿里云的SLB，植入cookie和重写cookie有什么区别？

之前的一篇文章<使用curl测试阿里云的SLB,会话保持无效>测试得知阿里云的HTTP协议的SLB会话保持必须使用cookie,但是阿里云的HTTP协议的SLB有SLB植入cookie和重 ...

ASP.NET 2.0数据教程之四十九：使用SqlDataSource插入、更新以及删除数据

返回"ASP.NET 2.0数据教程目录" 导言在概述插入.更新和删除数据中我们讨论过,GridView控件提供了内建的更新与删除功能,而DetailsView和FormVie ...

C#用delegate实现AOP事务[C# | AOP | delegate]

前言上一篇 C# 用Attribute实现AOP事务 [C# | AOP | Attribute | ContextAttribute | IContributeObjectSink | IMess ...

C# 实时动态刷新列表[如 DataGridView,ListView等

ThreadPool.QueueUserWorkItem(_ => { this.Invoke((MethodInvoker)(() => { try { lock (m_objLoc ...

word密码怎么破解

1.首先小编先创建一个有密码的文档,然后再破解给大家参考. 2.首先打开软件,新建一些文字,因为是演示给大家看的,所以我就随意编写了一些文字; 3.选择"审阅"栏目下的&quo ...

JavaScript中扩展Array contains方法实例

这篇文章主要介绍了JavaScript中扩展Array contains方法实例,本文直接给出实现代码,需要的朋友可以参考下 javascript的Array没有contains方法,有时候 ...

笔记本双显卡切换方法 - AMD篇

适用显卡: AMD 双显卡机器适用系统:Win7 首先有显卡硬件开关的机器,请先参看说明书,确定显卡开关在打开的位置,并已正确的安装好显卡驱动,参看以下的图列来切换双显卡功能: 特别提示:如果打开开 ...

qq音乐2015听歌识曲如何使用

一.打开手机中的QQ音乐,然后点击底部的[发现],如下图所示: 二.进入手机QQ音乐的发现后,就可以看到[听歌识曲]功能了,点击进入即可使用,如下图所示: 手机QQ音乐听歌识曲使用方法当我们走在 ...

ThinkPHP模板之变量输出、自定义函数与判断语句用法_php实例

本文实例讲述了ThinkPHP模板之变量输出.自定义函数与判断语句用法.主要包括变量输出.自定义函数与判断语句三种用法.分享给大家供大家参考.具体分析如下: 模板操作变量输出: 快捷输出变量复制代码 ...

TCP/IP模型的一个简单解释

TCP/IP模型是互联网的基础. 想要理解互联网,就必须理解这个模型.但是,它不好懂,我就从来没有搞懂过. 前几天,BetterExplained上有一篇文章,很通俗地解释了这个模型.我读后有一种恍然 ...

服务器-LINUX 防火墙关不掉如何处理？求大神指教

问题描述 LINUX 防火墙关不掉如何处理?求大神指教 http://ask.csdn.net/questions/183873 为了解决这个问题,我重启了服务器,之前别人帮我解决的防火墙关闭不了的情 ...

java-Request method &amp;#39;GET&amp;#39; not supported

问题描述 Request method 'GET' not supported 经常遇到这个问题,现在是一个很简单的程序,HelloWeb,一个jsp一个Controller然后就是servlet和s ...

iOS设计模式之命令模式

命令模式基本理解命令模式(Command),将一个请求封装为一个对象,从而使你可用不同的请求对客户端进行参数化:对请求队列或记录请求日志,以及支持客可撤离的操作. 苹果的Target-Action ...

java-将批处理文件注册成windows服务

问题描述将批处理文件注册成windows服务具体情况如下: 写了个java应用程序,想用 java -jar ss.jar的方式执行写了个批处理文件ss.bat 里面写 java -jar s ...

objective c-在文档目录下保存wav录音

问题描述在文档目录下保存wav录音下面的代码用来保存一个.wav格式的录音文件,然后加到Email中,但是在Email中没有成功邮出.可能是在录音中出了问题,请大家帮忙看一下. NSArray * ...

在Linux系统的命令行中为MySQL创建用户的方法_Mysql

要访问一个MySQL服务器,你需要使用一个用户帐号登录其中方可进行.每个MySQL用户帐号都有许多与之相关连的属性,例如用户名.密码以及权限和资源限制."权限"定义了特定用户能够在 ...

ORACLE11g随RHEL5系统自动启动与关闭的设置方法_oracle

写好脚本,注册好服务之后,经测试,ORACLE可以随RHEL启动而启动,但不能随系统关闭而关闭.在网上找答案,发现几乎所有的设置过程帖子都是从同一篇原样照抄过来的,根本就行不通.天下文章一大抄.求助他 ...

vim下使用YouCompleteMe实现代码提示、补全以及跳转设置

配置YouCompleteMe 1. 安装vundle vundle是一个管理vim插件的工具,使用vundle安装YouCompleteMe比较方便. 按照作者在https://github.com ...

敏捷开发和测试中重现缺陷和验证缺陷的解决方案（1）

第1部分:部署重现缺陷的环境简介:本文为系列的第一篇文章,首先简述了系列的主旨和每部分的内容.然后针对敏捷开发和测试中开发人员重现测试人员开出的缺陷这一问题,具体描述了如何用IBM工具Rationa ...

平台不仅能够创造大量的优质原创内容，而且还能够吸引不少的铁杆粉丝

随着自媒体平台的大量出现,平台不仅能够创造大量的优质原创内容,而且还能够吸引不少的铁杆粉丝,所以百度对于自媒体平台的重视程度非同一般.笔者查询了一下目前的知名的自媒体平台网站权重,基本上都在6左右.按 ...

比特网推出SNS社区服务新产品比特邦即将问世

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅千龙网讯日前,由天极传媒集团旗下 ...

联想笔记本充电时起火用户不满赔偿提起诉讼

昨天上午,市民孟先生向本报反映,称其亲戚家的一台"联想"笔记本电脑在充电时起火.除笔记本电脑在火灾中受损外,数千元物件也被这场火灾吞噬.事发后,他协助亲戚向联想方进行索赔时,却遭到 ...

Naval Ravikant的投资风格

AngelList是硅谷最有名的让创业企业与投资者相互联系的网站.它就像是为创业企业和投资者设立的约会网站一样,平台可以让两方建立真实的档案,并互相交流.在这上面已经完成的著名交易包括Uber.Pin ...

分别率-[UIScreen mainScreen]的疑问

问题描述 [UIScreen mainScreen]的疑问 IPAD Retina屏通过［[UIScreen mainScreen] bounds]获取IPAD屏幕尺寸永远是 1024*768, 而 ...

支持中文字母数字、自定义字体php验证码程序

代码如下复制代码 <?php /* * Captcha Class base on PHP GD Lib * @author Design * @version 1.0 * @copyrig ...

天天风之旅第二章任务有哪些第二章任务奖励大全

1.关卡中击杀10个蝙蝠,奖励5000金币 2.进入2次杀戮模式,奖励10000金币 3.获得1个水晶碎片,奖励5000金币(挑战3.19关) 4.达成180次perfect击杀怪物,奖励20钻石.5 ...

详解javascript replace()第二个参数为函数时的参数用法

javascript的replace()第二个参数为函数时的参数: replace()函数具有替换功能,它可以具有两个参数,第一个参数可以是要被替换的字符串或者匹配要被替换字符串的正则表达式,第二个参 ...

中国式的互联网应用“元年”真正开启

中介交易 SEO诊断淘宝客云主机技术大厅最近,中国式电子商务研讨会在北京召开,讨论新型的电子商务模型,大力发展现代服务业.笔者愚见,这些讨论毫无意义,因为他们在讨论一个毫无根基的问题,缘于中国 ...

北京seo：健康行业的两个案例对比分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅健康行业是seo竞争最大的,也是百 ...

互联网事件频出给站长的机会该如何把握

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅俗话说得好:"乱世出英雄 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.028 s.