大数据计算架构Hadoop、Spark和Storm 三者技术比较

短短几年时间,大数据这个词便已家喻户晓。但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史。从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进。今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了。但究竟这三者之间是什么关系,未来大数据架构究竟该走向何方呢?

分布式计算架构鼻祖Hadoop

所谓分布式计算过程就像蚂蚁搬家一样,将一个大型任务分割成很多部分,每一台电脑相当于一个小蚂蚁将其中一部分搬走。Hadoop作为分布式系统的基础架构,其重要性不言而喻。Hadoop的数据处理工作在硬盘层面,借助HDFS(分布式文件系统),可以将架构下每一台电脑中的硬盘资源聚集起来,不论是存储计算还是调用都可以视为一块硬盘使用,就像以前电脑中的C盘,D盘,之后使用集群管理和调度软件YARN,相当于Windows,毕竟我们要进行编程首先需要一个操作系统,最后利用Map/Reduce计算框架相当于Virtual Studio,就可以在这上面进行计算编程。从而大幅降低了整体计算平台的硬件投入成本。而这也就是最基础的分布式计算架构。

流数据处理双雄Spark和Storm

所谓流数据处理其实不难理解,比如看网上视频,都是下载一段看一段,然后快结束的时候自动下载下一段。由于Hadoop的计算过程放在硬盘,受制于硬件条件限制,数据的吞吐和处理速度明显不如使用内存来的快。于是Spark和Storm开始登上舞台。Spark和Storm两者最大的区别在于实时性:Spark是准实时,先收集一段时间的数据再进行统一处理,好比看网页统计票数每隔几秒刷新一次,而Storm则是完全实时,来一条数据就处理一条。当然Storm实时处理方式所带来的缺点也是很明显的,不论离线批处理,高延迟批处理还是交互式查询都不如Spark框架。不同的机制决定了两者架构适用的场景不同,比如炒股,股价的变化不是按秒计算的(Spark实时计算延迟度是秒级),在高频交易中,高频获利与否往往就在1ms(0.001秒)之间,而这恰好就是Storm的实时计算延迟度。

混合架构,各显神通

今天大数据的混合架构就像目前云计算市场中风头最劲的混合云一样,成为大多数公司的首选。每一种架构都有其自身的独特优缺点,就像Hadoop,尽管数据处理的速度和难易度都远比不过Spark和Storm。但是由于硬盘断电后数据可以长期保存,因此在处理需要长期存储的数据时还是需要借助Hadoop。不过Hadoop由于具有非常好的兼容性,因此非常容易的同Spark和Storm进行结合,从而满足公司的不同需求。

纵观技术的发展史,我们可以看到,每一项新技术的问世都有着之前技术的身影,伴随着大数据的需求增长,不同的架依然会不断进化,并改进自身的缺点,从而使得自身架构得到进一步的完善。就目前来看Hadoop,Spark和Storm目前远谈不到谁取代谁。

本文作者:佚名

来源:51CTO

时间: 2024-11-08 18:02:59

大数据计算架构Hadoop、Spark和Storm 三者技术比较的相关文章

大数据计算架构三国争霸胜负未明

短短几年时间,大数据这个词便已家喻户晓.但在大数据这个名词被命名之前,人类对数据的搜集与分析已有着悠久的历史.从人工统计分析到电脑/大型机再到今天的分布式计算平台,数据处理速度飞速提高的背后则是整体架构的不断演进.今天大数据架构最火热的莫过于Hadoop,Spark和Storm这三种,而Spark和Storm这两个后起之秀更是抢了不少Hadoop的风头,也让网上逐渐开始有一种声音说Hadoop的日子已经快到头了.但究竟这三者之间是什么关系,未来大数据架构究竟该走向何方呢? 分布式计算架构鼻祖Ha

企业应该如何在大数据基础架构方面做出选择?

如果询问十家公司他们为了运行大数据负载需要使用怎样的基础架构,那么可能会得到十种不同的答案.现在这个领域当中几乎没有可以遵循的原则,甚至没有可以参考的最佳实践. 不管是从资源还是从专业性方面来说,大数据分析已经成为基础架构领域当中真正的难题.顾名思义,大数据分析工具所针对的数据集合,规模将会非常庞大,并且需要大量的计算.存储和网络资源来满足性能需求.但是这些大数据工具通常是由超大规模企业开发的,这些企业并不存在普通企业需要考虑的同等级安全问题和高可用性问题,而主流IT企业还没有深入了解这些工具,

如何设计基于Hadoop、Spark、Storm的大数据风控架构?

量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品"信用钱包"帮助个人用户展示经济财务等状况,撮合金融机构为用户提供最优质的贷款服务.金融的本质是风险和流动性,但是目前中国对于个人方面的征信行业发展落后于欧美国家,个人消费金融的需求没有得到很好的满足.按照央行最新数据,目前央行征信中心的数据覆盖人口达到8亿人[1],但其中有实际征信记录的只有3亿人左右,有5亿人在征信系统中只是一个身份证号码.此外,我国还有5亿人跟银行从来没有信贷交易关系,这5亿人对金融部门来

1.58元/小时起快速体验 Hadoop & Spark ,为你助力大数据计算

随着全球双11狂欢节的到来,阿里云优惠措施惠及中小企业.除充值返现外,E-MapReduce 同步限时打折.1.58元/小时起,快速体验 Hadoop & Spark 等,阿里云为你助力大数据计算. E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统.包括Hadoop.Spark.HBase,为用户提供集群.作业.数据等管理的一站式大数据处理分析服务. 赶快来这里,点击使用 限时打折优惠 测试体验版:最低至1.58元/小时,快速体验Hadoop.Spark 包

大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

Spark作为Apache顶级的开源项目,项目主页见http://spark.apache.org.在迭代计算,交互式查询计算以及批量流计算方面都有相关的子项目,如Shark.Spark Streaming.MLbase.GraphX.SparkR等.从13年起Spark开始举行了自已的Spark Summit会议,会议网址见http://spark-summit.org.Amplab实验室单独成立了独立公司Databricks来支持Spark的研发. 为了满足挖掘分析与交互式实时查询的计算需求

百度大数据首席架构师林仕鼎:新计算时代

中国最具影响.规模最大的大数据领域盛会--2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行.数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL.NewSQL等技术方向,还对互联网.金融.电信.交通.医疗等创新案例,大数据资源的法律法规.大数据商业利用的政策管制等有深入讨论. 百度大数据首席架构师林仕鼎从一个大数据系统架构师的角度,分享了应用驱动.软件定义的数据中心计

百度大数据首席架构师林仕鼎:应用驱动的数据中心计算

第五届中国云计算大会于2013年6月5-7日在北京国家会议中心拉开帷幕.本次大会以国际视野,洞悉全球http://www.aliyun.com/zixun/aggregation/13638.html">云计算发展趋势,并从应用出发,探讨云计算与大数据.云计算与移动互联网.云安全及云计算行业应用等焦点话题.大会还特别设立了云计算服务展示区域,交流国际云计算最新研究成果,展示国内云计算试点城市发展成就,分享云计算发展经验,促进全球云计算创新合作. 6月7日,在云计算核心技术架构专题论坛上,百

《Spark与Hadoop大数据分析》一一1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子.1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子. 1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好的数据产品需求的不断增长. 让我们来