最全的大数据技术大合集:Hadoop家族、Cloudera系列、spark

大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。

我们可以带着下面问题来阅读本文章:
1.hadoop都包含什么技术?
2.Cloudera公司与hadoop的关系是什么,都有什么产品,产品有什么特性?
3.Spark与hadoop的关联是什么?
4.Storm与hadoop的关联是什么?

hadoop家族

创始人:Doug Cutting
整个Hadoop家族由以下几个子项目组成:

Hadoop Common:
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。

HDFS:
是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNode(主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据所设计,所以相比传统文件系统在大批量小文件上的优化,HDFS优化的则是对小批量大型文件的访问和存储。

MapReduce:
是一个软件框架,用以轻松编写处理海量(TB级)数据的并行应用程序,以可靠和容错的方式连接大型集群中上万个节点(商用硬件)。

Hive:
Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer。hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据 的汇总,即席查询简单化。

Pig:
Apache Pig是一个用于大型数据集分析的平台,它包含了一个用于数据分析应用的高级语言以及评估这些应用的基础设施。Pig应用的闪光特性在于它们的结构经得起大量的并行,也就是说让它们支撑起非常大的数据集。Pig的基础设施层包含了产生Map-Reduce任务的编译器。Pig的语言层当前包含了一个原生语言——Pig Latin,开发的初衷是易于编程和保证可扩展性。
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

HBase:
Apache HBase是Hadoop数据库,一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的读/写访问,并针对了商用服务器集群上的大型表格做出优化——上百亿行,上千万列。其核心是Google Bigtable论文的开源实现,分布式列式存储。就像Bigtable利用GFS(Google File System)提供的分布式数据存储一样,它是Apache Hadoop在HDFS基础上提供的一个类Bigatable。

ZooKeeper:
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

Avro:
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Sqoop:
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库中数据导入Hadoop的HDFS中,也可以将HDFS中数据导入关系型数据库中。

Mahout:
Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用例:
推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。
聚集:收集文件并进行相关文件分组。
分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确的归类。
频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

Cassandra:
Apache Cassandra是一个高性能、可线性扩展、高有效性数据库,可以运行在商用硬件或云基础设施上打造完美的任务关键性数据平台。在横跨数据中心的复制中,Cassandra同类最佳,为用户提供更低的延时以及更可靠的灾难备份。通过log-structured update、反规范化和物化视图的强支持以及强大的内置缓存,Cassandra的数据模型提供了方便的二级索引(column indexe)。

Chukwa:
Apache Chukwa是个开源的数据收集系统,用以监视大型分布系统。建立于HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和稳定性。Chukwa同样包含了一个灵活和强大的工具包,用以显示、监视和分析结果,以保证数据的使用达到最佳效果。

Ambari:
Apache Ambari是一个基于web的工具,用于配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。

HCatalog
Apache HCatalog是Hadoop建立数据的映射表和存储管理服务,它包括:
提供一个共享模式和数据类型机制。
提供一个抽象表,这样用户就不需要关注数据存储的方式和地址。
为类似Pig、MapReduce及Hive这些数据处理工具提供互操作性。

Chukwa:
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。

Cloudera系列产品:
创始组织:Cloudera公司

1.Cloudera Manager:
有四大功能
(1)管理
(2)监控
(3)诊断
(4)集成

2.Cloudera CDH:英文名称:CDH (Cloudera’s Distribution, including Apache Hadoop)
Cloudera对hadoop做了相应的改变。
Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。

3.Cloudera Flume
Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPC(Thrift-RPC)、text(文件)、tail(UNIX tail)、syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力。

Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。

4.Cloudera Impala
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。

5.Cloudera hue
Hue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,hue db。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。

Spark

创始组织:加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Storm

创始人:Twitter

Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。

 

——转自炼数成金

时间: 2024-09-30 21:35:43

最全的大数据技术大合集:Hadoop家族、Cloudera系列、spark的相关文章

除Hadoop大数据技术外,还需了解的九大技术

除Hadoop外的9个大数据技术: 1.Apache Flink 2.Apache Samza 3.Google Cloud Data Flow 4.StreamSets 5.Tensor Flow 6.Apache NiFi 7.Druid 8.LinkedIn WhereHows 9.Microsoft Cognitive Services Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了

Hadoop之父Doug Cutting眼中大数据技术的未来

上次见到(膜拜)Hadoop之父Doug Cutting是在2年前,2014中国大数据技术大会上.今年Hadoop10岁,刚看到他的Hadoop十周年贺词,感觉时间飞逝. Doug Cutting成长史 1985年毕业于美国斯坦福大学的Cutting并不是一开始就决心投身IT行业的.在大学时代的头两年,Cutting学习了诸如物理.地理等常规课程.因为学费的压力,Cutting开始意识到,自己必须学习一些更加实用.有趣的技能.这样,一方面可以帮助自己还清贷款,另一方面,也是为自己未来的生活做打算

2014 中国大数据技术大会将于12月中旬隆重召开

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所与CSDN共同协办的" 2014中国大数据技术大会"(Big Data Technology Conference 2014,BDTC 2014)将在北京新云南皇冠假日酒店隆重举办. 传承自2008年,历经七届沉淀,"中国大数据技术大会"是目前国内最具影响.规模最大的大数据领域技术盛会,为大数据领域的实践分享.成果展示.行业探讨.技术布道做出重要贡献.

王洪涛:大数据技术的最终目标是应用

文章讲的是王洪涛:大数据技术的最终目标是应用,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 王洪涛,中国保险大数据智慧应用的倡导者和实践者.博士.国家访问学者.历任某保险集团战略发展部.CRM部.某保险公司董办总经理.21年保险从业经历,领导完成了跨产寿险

不可错过,参加2016中国大数据技术大会的十大理由(议题攻略)

作为国内大数据领域的顶级大会,中国大数据技术大会从2008年至今已近十年,超过一万名大数据开发者参与其中,完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验,见证了整个大数据生态圈技术的发展与演变.历经九届的中国大数据技术大会由于其专业性.技术性,已经成为国内外大数据领域的顶级盛会,也因此受到大数据开发者的强烈关注. BDTC 2016中国大数据技术大会 2016年12月8日-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会

115期:在线大数据技术峰会回顾合集!

本期头条   票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为"高可用大数据计算服务如何持续发布和演进"的演讲.本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具.Flighting工具和灰度上线.细粒度回滚等,点击查看. • [资料合集]在线大数据技术峰会:讲义PDF+活动视频! • 提速1000倍!阿里率先采用Intel Optane SSD • 东京见闻:快速走

AdTime:大数据技术支撑全媒体跨屏营销

文章讲的是AdTime:大数据技术支撑全媒体跨屏营销,7月24日,第九届艾瑞高峰会议在深圳召开.艾瑞峰会定位于全国范围内最具影响力的区域,辐射并连结北京.上海.广州.江浙鲁及海外地区,立足全局产业,结合区域化地方特色,构建互联网行业最具影响力的传播桥梁,艾瑞峰会现已成为互联网行业知名度最高和影响力最大的行业会议. 今年艾瑞峰会的主题依然涉猎广泛,其中围绕着互联网跨界营销.多屏互动.移动互联网.智能设备创新设立了分论坛.在多屏互动分论坛中,大数据营销企业AdTime副总裁于捷与众多业内同行共同分享

【资料合集】在线大数据技术峰会:讲义PDF+活动视频!

回顾大数据技术领域大事件,最早可追溯到2006年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦.然而着眼当下,大数据在行业内的实际落地仍然不是件简单的事情,大数据创业成功的案例更是少之又少. 1. MaxCompute 2.0 性能优化揭秘 演讲视频:http://yq.aliyun.com/webinar/play/188 PDF下载:h

明朝万达:以大数据技术应对新形势下企业数据安全威胁

数据作为一种资源,它的普遍性.共享性.增值性.可处理性和多效用性,使其对人类具有特别重要的意义.但作为信息的重要载体,数据安全问题在其应用过程中又是每个用户必须面临的难题,尤其是对于企业用户来说,安全是成本,而且是无法产生效益的成本.伴随大数据技术的出现及广泛应用,其安全问题也成为各领域用户"谈虎色变"的敏感"神经",其实新技术的出现是为了更好的解决现有问题.十年来专注于企业级数据安全市场的明朝万达,研发出一套完整有效的基于大数据技术的企业数据安全解决方案. 网络安