如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 “大数据”的价值,互联网、电商到金融业、政企等各行业开始处理海量数据。如何低成本、敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键。

为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性、高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+。这对Hadoop/Spark技术爱好者来说是个非常大的福音,用户可以轻松在D1上搭建大数据存储与计算分析平台,尤其是互联网、金融、电商、政企等对大数据需求旺盛的行业。
据悉,在云端建设大数据平台的建设周期仅需“数分钟”,比传统模式下缩短95%以上;项目建设成本从一次性重资产投入,变为轻资产分期使用,初期建设成本降低80%以上。
不妨一起来看看,相比传统的Hadoop/Spark场景解决方案,D1都有哪些优势:

•按需部署和弹性灵活

传统大数据平台有几个通病:建设周期过长,扩容不便,因此一般都会适当放大大数据建设规模,造成早期资源闲置浪费,也埋下了后期资源不足的隐患,影响业务发展。云计算很早就解决了弹性建设的问题,我们可以按需进行大数据平台建设,并伴随业务的增长而快速弹性伸缩,企业可以做到按需支付成本。
此外,Hadoop/Spark大数据生态系统中组件众多,每种组件对硬件资源的要求不同,而传统大数据平台建设中,往往很难兼顾资源需求上的差异。D1和其他独享型规格族提供了不同的配置,可以为每个Hadoop/Spark组件节点“量体裁衣”来选择实例,最大限度避免资源浪费。

当遇到临时性突发的大数据分析需求时,借助阿里云大数据平台的规模和分析能力,可以快速获得需要的结果,当任务完成后,又能立即释放资源,节省成本。

•性价比

阿里云D1实例采用独享计算架构+本地存储设计,CPU的计算性能在实例间是独享的,这种设计能有效保障大数据计算能力的稳定性。配备高性能企业级6TB SATA硬盘,D1单实例的存储吞吐能力可以达到最大5GB/s,有效缩短HDFS文件读取和写入时间。基于阿里云SDN和网络加速技术,D1在10GE组网环境下,最大可提供20Gbps网络带宽,可满足大数据分析节点间数据交互需求,例如MapReduce计算框架下Shuffle过程等,缩短分析任务整体运行时间。
最重要的一点是,阿里云在D1上做了非常大的交付创新,支持包月、包年的预付费支付模式,同时也支持按小时付费的使用模型,真正做到即开即用,按量付费,没有运维,钱不浪费,云本身的弹性优势就很明显,加上业务上的优化,确实加分不少。

•可靠性

这次云栖大会,阿里云还推出了一个ECS独有的部署集(Deployment Set)机制,可以保证用户采用D1实例构建大数据平台时,在任何规模下都可以充分将实例按业务可靠性要求,在阿里云数据中心中,进行机架、交换机、可用区等级别容灾保护。同时,还可以充分享用阿里云全球高效、稳定的机房和网络基础设施,大大降低客户建设复杂度和成本。这在传统模式下是很难做到,既能做到全局的安全性又能做到局部的弹性伸缩,或许,这就是云的终极形态吧。
总之还是非常推荐这款D1实例的,中大型企业对大数据处理平台的稳定性、性价比、部署周期都有比较强的要求的可以考虑一下。

时间: 2024-10-30 20:40:50

如何低成本、高效率搭建Hadoop/Spark大数据处理平台的相关文章

Hadoop并非大数据处理的一切 - 产品和技术

Hadoop并非大数据处理的一切 发布时间:2012.05.30 15:48      来源:赛迪网     作者: 云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hado

Spark大数据处理系列之Machine Learning

本文是<Spark大数据处理>系列的第四篇,其他三篇:Spark介绍. Saprk SQL和 Spark Streaming . 最近几年,机器学习.预测分析和数据科学主题得到了广泛的关注.Spark的机器学习库(Spark MLlib),包括各种机器学习算法:协同过滤算法.聚类算法.分类算法和其他算法. 在前面的<Spark大数据处理>系列文章,介绍Apache Spark框架,介绍如何使用Spark SQL库的SQL接口去访问数据,使用Spark Streaming进行实时流式

大数据处理平台——hadoop能为企业带来什么?

现在,"大数据"这个概念在IT行业是越来越流行了.美国国家海洋与大气管理局NOAA利用"大数据"进行各种分析.<纽约时报>使用大数据对于新闻分析和WEB信息进行挖掘.迪斯尼则利用主题公园.商店以及WEB资产进行客户http://www.aliyun.com/zixun/aggregation/9850.html">行为分析. "大数据"不单单只是适用于大型的企业,而且还可以应用于各个不同规模的,不同杨业的企业.比如通过

Hadoop:稳定、高效、灵活的大数据处理平台

如果你和别人谈论大数据,那么你们很快就会把话题转到那只黄色的大象身上--Hadoop(它的标志是一只黄色大象).这个开源的软件平台是由Apache基金会发起的,它的价值在于能够简便且高效地处理超大型数据. 但是,究竟什么是 Hadoop呢?简单地说, Hadoop是一个能够对大量数据进行分布式处理的软件框架.首先,它将大量的数据集保存在分布式服务器集群中,之后它将在每个服务器集群里运行"分布式"数据分析应用. 那Hadoop又有什么特殊之处呢?首先,它很可靠,即使某一个或某一组服务器宕

不得不用Hadoop进行大数据处理的五大理由

Joe http://www.aliyun.com/zixun/aggregation/33805.html">Brightly身为Hadoop的超级粉丝,自己曾经在无数个场合承认自己热爱Hadoop来进行数据处理的理由,比如"可以处理PB级别的数据;可以扩展到数千个处理大量计算工作的节点;可以用非常灵活的方式存储和加载数据--"但当他部署Hadoop用于大数据处理分析的时候,他才意识到它并不是无所不能. 在Quantivo,Joe及其同事已经"探索了许多方法

《Spark大数据处理》—— 读后总结

前几章 工作机制 本文转自博客园xingoo的博客,原文链接:<Spark大数据处理>-- 读后总结,如需转载请自行联系原博主.

省时省事省力 巧用阿里ECS D1构建大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键.   为了让用户以最简便地方式享用阿里云全球云资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,阿里云在云栖大会·成都峰会上正式推出了Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,充分满足泛互联网行业.金融.电商.政企等行业等搭建大数据存储与计算分析平台的要求,真正意义上做到了"省时省事省力

用F#从0开始打造一个大数据处理平台(1.整体规划)

这一大系列博客将介绍一个伟大的大数据处理平台是如何诞生的. 预计会有很多很多篇,持续很长很长时间. 为什么说 "伟大" 呢? 因为这将打造一整个新的体系. 不同于现有的大数据生态圈里各种产品的新的函数式体系结构.  数据处理本是函数式语言的专长, (比如Map 和 Reduce 是所有函数式语言的最重要的两个基础函数---哪怕在某些语言中不叫这两个名字), 无奈Hadoop 根植于jvm, 来源于Java,带动整个社区生态从hdfs, hbase, zookeeper, spark 以

搭建好司法大数据平台

近日,司法部印发<关于进一步加强司法行政信息化建设的意见>,要求大力加强司法行政信息化综合管理平台建设,建成涵盖司法行政各项业务的"一站式"司法行政信息化综合管理平台,形成综合集成.业务协同.信息共享的司法行政信息化工作格局,实现信息化与司法行政的深度融合. 近年来,信息技术在司法行政工作中的应用水平日益提高.然而,各地在司法行政信息推进过程中,因应用软件系统缺乏统一规划等因素,各系统之间数据互补程度低,功能局限性较大,客观上形成了部门壁垒.信息孤岛,数据"失声&