E-MapReduce支持计算与存储分离,成本下降1倍

引言

Hadoop一出生就是存储与计算在一起的,前几年面试题中都问,Hadoop怎么保证高性能呢?其中一个原因是存储不动,计算(code)动,不同于传统的集中式的存储模式。那我们为什么还要谈存储计算分离呢?众观历史,分久必合、合久必分,在计算机历史中也很类似,如今,也许到了计算与存储分离的阶段。后面我们以实际的case说明,分离的好处与劣势。

我们交流群为开源大数据技术社区召集令,欢迎大家关注。特别推荐 E-MapReduce产品,如果有大数据的需求,欢迎大家尝试使用,以下的讨论、测试都是基于E-MapReduce平台的。

为什么呢?

先说一个笔者的,也应该是大家的经历:笔者家里的带宽是100mpbs,现在从来不保存电影,要看直接下载,基本几分钟就好了。这在几年前不可想象。
笔者也在《云上Hadoop之挑战》中分析了其中的挑战,其中有本地化的挑战:

带宽的速度,特别是机房内带宽的速度,已经从1000mps、2000mps、10000mps,甚至100000mpbs。但是磁盘的速度基本没有太大的变化。
因为硬件的变化,带来了软件架构的变化。

基本架构


架构其实比较简单,OSS作为默认的存储,Hadoop、Spark可以作为计算引擎直接分析OSS存储的数据。


以上比较了计算与存储分离的优缺点。

  • 灵活性:在《E-MapReduce(Hadoop)10大类问题之集群规划》 一文中分析了集群规划问题,关键是匹配计算量与存储量,如果把计算与存储分离后,则 集群规划则变得简单很多,基本不需要估算未来业务的规模了,真正做到按需使用。
  • 成本:存储与计算分离后。按照 1 master 8cpu32g 6 slave 8cpu32g 10T数据量 估算大致为,成本下降一倍。在ecs自建的磁盘选择 高效云盘。
  • 性能:大约下降10%以内,对于一般的应用是可以接受的。后续详细说明。

场景测试及数据

 /opt/apps/spark-1.6.1-bin-hadoop2.7/bin/spark-submit  --master yarn --deploy-mode cluster --executor-memory 3G --num-executors 30    --conf spark.default.parallelism=800   --class  com.github.ehiggs.spark.terasort.TeraSort  spark-terasort-1.0-jar-with-dependencies.jar /data/teragen_100g /data/terasort_out_100g
  • 测试的性能图
  • 时间对比

分析

我们可以看到,emr+oss后,成本节约了一半,但是性能下降基本可以忽略不计。从性能图上看,emr+oss对比ecs自建hadoop对比:

  • 整体的负载更低
  • 内存利用率基本一样
  • cpu使用低一些,特别是iowait与sys低很多,这是因为ecs自建有datanode及磁盘操作,需要占一些资源,增加cpu的开销。
  • 从网络看,因为sortbenchmark有两次读取数据,第一次是采样、第二次是真正的读取数据,开始网络比较高,随后shuffle+输出结果阶段,网络比ecs自建hadoop低一半左右,从网络来看,整体使用量基本持平。

也就是整体来讲,emr+oss比自建使用更少的资源,如果提高emr+oss的并发度,则时间上有可能超过ecs自建hadoop集群的。

哪些场景不适合

并不是所有的场景都适合使用emapreduce+oss,对于以下场景目前不适合:

  • 过多的 小的文件,比如小于10m,请合并小文件,当数据量在128m以上,使用emr+oss的性能最佳。
  • 频繁操作OSS元数据的操作,此块emr+oss正在优化,目前并不太适合。

后记

优化无止尽,请持续关注后续E-MapReduce的发展。

时间: 2024-12-14 10:21:32

E-MapReduce支持计算与存储分离,成本下降1倍的相关文章

2017双11技术揭秘—阿里数据库计算存储分离与离在线混布

作者:吕建枢(吕健) 背景 随着阿里集团电商.物流.大文娱等业务的蓬勃发展,数据库实例以及数据存储规模不断增长,在传统基于单机的运维以及管理模式下,遇到非常多的困难与挑战,主要归结为: 机型采购与预算问题在单机模式下计算资源(CPU和内存)与存储资源(主要为磁盘或者SSD)存在着不可调和的冲突:计算与存储资源绑定紧密,无法进行单独预算.数据库存储时,要么计算资源达到瓶颈,要么是存储单机存储容量不足.这种绑定模式下,注定了有一种资源必须是浪费的. 调度效率问题在计算与存储绑定的情况下,计算资源无法

四种方法,让你准确计算虚拟化和云成本

相比传统计算方式而言,如今,几乎所有的IT行业厂商和分析师都达成了这样一种共识:几乎所有类型的虚拟化解决方案都能提供快速高效.成本节省的优势特性.IDC系统和虚拟化软件集团研究分析师lan Song表示,尤其是服务器虚拟化,在P2V迁移的早期阶段就能快速实现投资回报. 他说道:"人们对服务器虚拟化还是存在一定好感的,在于它能够在6个月内就能收回投资,并且你可以将4个或者以上的服务器放置在一个物理机柜中,从而硬件成本,更重要的是,桌面虚拟化对以上目标更能达成,相比之下云和流应用以及其他应用类型却没

云计算高效、成本低 计算虚拟化和云成本的四种方法

现在,几乎所有的IT行业厂商和分析师都达成了这样一种共识:相比传统计算方式,几乎所有类型的虚拟化解决方案都能提供快速高效.成本节省的优势特性. 根据IDC系统和虚拟化软件集团研究分析师lan Song表示,尤其是服务器虚拟化,在P2V迁移的早期阶段就能快速实现投资回报. "人们对服务器虚拟化抱有好感,因为它容易被人接受而且能够在6个月内就能收回投资,你可以将4个或者以上的服务器放置在一个物理机柜中,从而硬件成本"他说道,"尤其是桌面虚拟化更能达成以上目标,相比之下云和流应用以

计算虚拟化和云成本的四种方法

现在,几乎所有的IT行业厂商和分析师都达成了这样一种共识:相比传统计算方式,几乎所有类型的虚拟化解决方案都能提供快速高效.成本节省的优势特性. 根据IDC系统和虚拟化软件集团研究分析师lan Song表示,尤其是服务器虚拟化,在P2V迁移的早期阶段就能快速实现投资回报. 为云计算的真实成本做好准备 "人们对服务器虚拟化抱有好感,因为它容易被人接受而且能够在6个月内就能收回投资,你可以将4个或者以上的服务器放置在一个物理机柜中,从而硬件成本"他说道,"尤其是桌面虚拟化更能达成以

基于HBase做Storm 实时计算指标存储

基于 HBase 做 Storm 实时计算指标存储 HBase 实时指标存储是我入职乐视云后对原有的实时系统改造的 一部分.部分分享内容其实还处于实施阶段.架构方案设计的话应该是仁者见仁智者见智,也会有很多考虑不周的地方,欢迎大家批评指正.说不定大家听完分享后好的提议我们会用到工程上,也为后面的实际课程做好准备. HBase 存储设计 Storm 结果如何存储到 HBase HBase 写入性能优化 与传统方案 (Redis/MySQL) 对比 乐视云内部用 Storm 做 CDN,点播,直播流

存储的成本不单单是购买物理硬件的价格

大多数存储经理都会同意这个观点:存储的成本不单单是购买物理硬件的价格.IT经理通常会加上维护成本,以及管理员运行和管理存储的成本.实际上,存储的真正成本还有更多组成部分,确定存储系统的真正成本需要确定向某个应用程序提供Y级性能水平的X容量的成本. 首先让我们看看提供容量的成本,比如说,你有一个应用程序需要10 TB净额可用容量,你需要实际购买多少存储来确保这10 TB的存储容量?很显然,你不能只购买10个1 TB的硬盘驱动器,然后将它们安装在服务器上,并宣布任务已经完成. 首先,你不可能在不影响

(课程)基于HBase做Storm 实时计算指标存储

Hi,大家好!我是祝威廉,本来微博也想叫祝威廉的,可惜被人占了,于是改名叫·祝威廉二世.然后总感觉哪里不对.目前在乐视云数据部门里从事实时计算,数据平台.搜索和推荐等多个方向.曾从事基础框架,搜索研发四年,大数据平台架构.推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向. 这次探讨的主题是: 基于 HBase 做 Storm 实时计算指标存储 HBase 实时指标存储是我入职乐视云后对原有的实时系统改造的一部分.部分分享内容其实还处于实施阶段.架构方案设计的话应该是仁者

#云存储的成本到底省在哪儿# 终于搞明白,存储TCO原来是这样算的......

随着业务的进展到一个新的阶段以及数据量积累到一定程度后,老板开始关注成本.老板一关注成本就开始悄悄的打听各种服务器.硬件啥的价格了,然后突然有一天老板叫来开发运维狗小明: "小明啊,你用的阿里云存储啥价格啊?"小明顿时抖了一个机灵,心中暗暗一喜:"老板,我用的是阿里云的300TB三年存储包,折算下来才0.068元/GB/月,相当于打了46折呢.""你回去再研究一下,我在网上拼拼凑凑,自己搭个存储集群,算下来才不到X分/GB/月.成本相差这么多,我们是不是可

云存储的成本可能是模糊的

云存储服务提供便利,可以减少IT支出,但并非所有情况都如此.企业在确定将关键数据放入云计算之前务必先进行数学运算. 如果有人相信平常所看到的IT内容,可能会认为企业所有的操作将全部是基于云计算的服务.如果IT设备还没有这样做,那么它可能在装箱打包,企业将其数据中心出租,以更好地利用云存储来节省成本. 但事实并非如此.当然,有些公司实际上是在云端诞生的,得以成长,并经常在那里茁壮成长.Netflix公司和其他大型网络公司就是这样的公司.但它通常不是采用云计算的企业及其IT部门,更像是云端采用无IT