Hadoop学习-生态体系(ecosystem)概览

0. 大背景

全球No.1搜索引擎公司谷歌(Google)面临每天海量搜索引擎数据的问题，经过长时间的实践积累，

谷歌形成了自己的大数据框架，但是并没有开源，而是发表了一篇论文，阐述了自己的思想，在论文中

提到了MapReduce的方法。这篇论文，被Doug Cutting也就是后来的Hadoop之父所关注，引起了他极大的兴趣。

因为，这个时候，他正在致力于一个项目，该项目需要多任务并行处理大量的数据，他和伙伴努力了多次，结果都不理想。

于是，Doug和他的团队决定基于Google的MapReduce的思想重新开发一个框架。

经过一段时间的努力，于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入Hadoop项目作为Apache基金会的项目。

Hadoop这个名字不是一个缩写，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名：“这个名字是我孩子给一个棕黄色的大象玩具命名的。

学习Hadoop建议的参考书：Hadoop权威指南，目前中文版到第3版，英文版已经到Edition 4, 该书的作者Tom White是Hadoop创始团队的核心成员，是Hadoop委员会的成员。

大牛级的人物！！

2. 生态体系概览

经过长时间的发展，Hadoop已经形成了自己的生态体系。

有些框架是诸如一些大公司如Yahoo, Facebook团队所开发的，下面我们来看一下它的生态图：

从上图可以看出，Apache Hadoop包含如下主要组件：

* HDFS and MapReduce: 这是Hadoop的核心框架(也就是Doug Cutting和他的团队所开发的)

* HBase, Hive, Pig: 这3个框架主要负责数据存储和查询，分别由不同公司开发，我们后面会介绍到

* Flume, Sqoop：负责数据的导入/导出

* Mahout: 机器学习和分析

* Zookeeper：分布式协调

* Ambari：　　集群管理

* Avro：数据存储和序列化

* HCatalog: 元数据管理

3. 各组件分别介绍

1）Apache HBase

由于HDFS是只能追加数据的文件系统，它不允许数据的修改。

所以，Apache HBase由此而诞生。

HBase是一个分布式的，随机访问的，面向列的数据库系统。

HBase在HDFS的顶层运行，它允许应用程序开发人员直接读写HDFS数据。

但是，唯一的缺陷在于：HBase并不支持SQL语句。

所以，它也是NOSQL数据库的一种。

然而，它提供了基于命令行的界面以及丰富的API函数来更新数据。

需要提到的是：HBase中的数据是以键值对的形式存储在HDFS文件系统中的。

2）Apache Pig

Apache Pig由Yahoo开发，它提供了在MapReduce之上的抽象层。

它提供了一种叫做Pig Latin的被用来创建MapReduce程序的语言。

Pig Latin被程序员用来编写程序，分析数据，通过它可以创建并行执行的任务，

从而可以更有效地利用Hadoop的分布式集群。

Pig有很多成功的大公司项目案例，如：eBay, LinkedIn, Twitter。

3）Apache Hive

Hive被用来作为大数据的数据仓库，它也使用HDFS文件系统来存储数据。

在Hive中我们不编写MapReduce程序，因为Hive提供了一种类SQL语言，叫做HiveQL,

这让开发者能够迅速写出类似关系型数据SQL查询的点对点(ad-hoc)查询。

4）Apache ZooKeeper

Hadoop通过节点(nodes)的方式提供相互间的通信。

ZooKeeper便是被用来管理这些节点的，它被用来协调各个节点。

除了管理节点以外，它还维护一些配置信息，并且对分布式系统的服务进行分组。

ZooKeeper可以独立于Hadoop来运行，而不像生态系统中的其它组件一样。

由于ZooKeeper是基于内存来管理信息的，因此它的性能相对来说还是挺高的。

5）Apache Mahout

Mahout是一个开源的机器学习库，它能使Hadoop用户高效地进行诸如数据分析，数据挖掘以及集群等一些列操作。

Mahout对于大数据集特别高效，它提供的算法经过性能优化能够在HDFS文件系统上高效地运行MapReduce框架。

6）Apache HCatalog

HCatalog在Hadoop的顶层提供元数据的管理服务。

所有运行在Hadoop之上的软件能够使用HCatalog在HDFS文件系统中存储它们的计划(schema)。

HCatalog以REST API的方式使第三方的软件能够创建，编辑和暴露表格的定义以及生成的元数据。

因此，我们通过HCatalog并不需要知道数据的物理位置在那里。

HCatalog提供了数据定义语句(DDL),通过它们MapReduce, Pig, Hive等的工作任务将以队列的形式等待执行，如有需要

还可以监控它们各自的进度。

7）Apache Ambari

Ambari被用来监控Hadoop集群。

它提供了一些列特性，诸如：安装向导，系统警告，集群管理，任务性能等。

Ambari也提供了RESTful的API以便与其他软件进行整合。

8）Apache Avro

如何用过其它编程语言来有效地组织Hadoop的大数据，Avro便是为了这个目的而生。

Avro提供了各个节点上的数据的压缩以及存储。

基于Avro的数据存储能够轻松地被很多脚本语言诸如Python，或者非脚本语言如Java来读取。

另外，Avro还可被用来MapReduce框架中数据的序列化。

9）Apache Sqoop

Sqoop被用来在Hadoop中高效地加载大数据集，例如它允许开发人员轻松地从一些数据源，如：

关系型数据库，企业级数据仓库，甚至应用程序导入/导出数据数据。

10）Apache Flume

Flume常被用来进行日志的聚合操作，它被用来作为ETL(Extract-Transform-Load) - 解转加(解压-转换-加载）工具来使用。

好了，Hadoop生态体系以及它们的主要组件就大致介绍到这里了！

时间： 2024-10-25 13:58:26

Hadoop学习-生态体系(ecosystem)概览的相关文章

Hadoop学习资源集合

Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储.Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取.变形和加载(ETL)方面上的天然优势.Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储. 目录: Awesome Hadoop Hadoop YARN NoSQL Hadoop上的SQL 数据管理工作流.生命周期及管理数据提取与整合 DSL 库和工具实时

与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。

免费开通大数据服务:https://www.aliyun.com/product/odps "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因此明源决定采用阿里云,等资金和人到位再搬到自己内部.然而就是这种误打误撞,却让明源抓住了一个很好的机会走在了正确的轨道上."--副总裁童继龙 "阿里云数加的覆盖面很广,从存储.计算到上层应用,提供了一整套的解决方案,确实起到了马总说的普惠大数据.此外,数加也在不断的迭代,不停的有新产品出现

安全走向开放建安全架构协同互联生态体系

随着联网设备的增加,安全威胁的来源变得更为广泛.预计到2019年连网设备达到200多亿,而这些联网设备的类型也将更加多样性.大量智能终端访问企业内部数据的需求,以及移动办公.BYOD的兴起,对于企业安全防护带来新的挑战. 攻防态势严重失衡在互联网+时代,接入设备数量的增长,黑客攻击的入口增多,防范的难度也随之叠加.分析显示,当前安全威胁态势的特点有三大表现,首先企业公有云.私有云的应用,云化趋势迫使形势越来越复杂.其次,攻防时间严重失衡,黑客入侵的周期非常短,75%的攻击在一天内破译,而检测以

阿里云六级生态体系及六大合作伙伴范畴

<专访阿里云总裁王文彬:做出"用得爽"的工程产品>一文,用了相当笔墨描写阿里云生态体系.王文彬(菲青)当时明确表示:"我们正在加紧布局生态体系,已经规划了新的体系.有计划进行公布,其中也包含扶植计划." 阿里云计算公司总裁及阿里巴巴集团副总裁王文彬一个月之后,8月19日,阿里云宣布正式启动"云和计划",六级体系拟招募10000家云服务商,为更多用户提供一站式云服务. 打造六级体系生态系统云计算的爆发已经不可逆转.最新数据显示,2

互联网广告生态体系的希望与纠结

一个庞大的互联网广告生态体系已经形成,关键的基础就是对用户数据的收集和分析. 作者:匡冬芳不久前,一家化妆品公司推出一款新化妆品,他们找到徐鹏来谈广告投放.客户想知道的第一个问题是:我们品牌在你们媒体数据库里的受众群体有多少?徐鹏根据品牌关键字导出数据库,显示有50万cookies(cookies是网站为了辨别用户身份.进行session跟踪而储存的数据).客户的第二个问题是:要精准触达到这50万cookies,需要多少预算?按照科学的精准投放模型,用户一般接触媒体广告的有效到达率是30%,也

IBM举行云计算发布会携手合作伙伴打造云生态体系

今天,IBM 创新中心隆重召开了云计算发布会.与以往不同的是,此次发布会直接面向本地合作伙伴,通过 IBM 创新中心这一窗口,向独立软件开发商.系统集成商介绍了 IBM 云计算的最新战略与计划,全面推动了 IBM 云计算生态体系的建立.这是继 8月 23日 IBM 正式发布云计算战略及路线图以来,在云计算领域的又一重要推进.IBM 大中华区副总裁及渠道事业部总经理郑小聪.IBM 大中华区创新中心总经理谢勤芳带领 IBM 云计算专家团队与众多 IBM 合作伙伴共同出席了此次大会. 随着企业业务及技

Hadoop学习笔记一简要介绍

这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的.其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了.我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结. 言归正传,先说一下Hadoop的来龙去脉.谈到Hadoop就不得不提到Lucene和Nutch.首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种

图存储结构-请教Hadoop学习相关问题

问题描述请教Hadoop学习相关问题刚开始学习hadoop 求教 1:有java基础,如何学习Hadoop 2:有向图如何在hadoop 中存储,边没有权重,但是每个节点有很多属性解决方案最好是网上买份视频,或者去查查资料,多动手,多理解,就会了

大数据创新生态体系，引燃新的产业突破与高校转型

理解大数据创新生态体系的战略布局,首先要从数据中国"百校工程"开始. 按照国家<促进大数据发展行动纲要>和<"十三五"国家战略性新兴产业发展规划>决策部署,不难看出,大数据的出发点是数据强国,通过数据整合分析和深度挖掘,发现规律.创造价值,进而推动国家创新驱动发展战略.创造性的落实大数据产业发展战略,高校责无旁贷.只有在探索校企合作新模式和新机制,加快培养大数据产业人才的基础上,才可能真正理解大数据创新生态体系的战略意图. 大数据时代,线上与

猜你喜欢

论文摘抄 - Tenzing

本摘抄不保证论文完整性和理解准确性背景异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询. 架构概述 Worker pool,query server,clientinterface ...

输出1-100间的素数并求和。

public class ForPrime { public static void main(String[] args) { int sum = 0; for (int i = 2; i < ...

使用Server.scripttimeout来减少ASP意外错误而使务器瘫痪

server|错误我们在执行一些程序时, 比如论坛的递归, ASP程序常常会在意外之外执行出错. 此类意外发生率极少, 但一旦发生, 则会使ASP代码产生不计其数的html或占用大量的服务器资源, ...

ASP.Net中自定义Http处理及应用之HttpModule篇

asp.net HttpHandler实现了类似于ISAPI Extention的功能,他处理请求(Request)的信息和发送响应(Response).HttpHandler功能的实现通过实现IHt ...

JFreeChart图表文字模糊问题的有效解决方法

JFreeChart 文字模糊问题不令人满意,网上有提到用修改字体的方式来改善 ,感觉还是效果不怎么样,所以继续测试,找到了比较满意的解决方法下面这个图是默认情况下显示的字体下面这个是改成黑体字候 ...

Photoshop给美女照片加上韩系淡红色

图片的主色以黄红色为主,高光部分有点偏灰.调色的时候可以考虑把主色转为紫红色,高光部分渲染一些淡蓝色,再把整体柔化处理即可. 原图 <点小图查看大图> photoshop教程最终效果 1. ...

基于裸数据的异地数据库性能诊断与优化

在猪爸爸的努力下,泥坑银行终于能高效正常的运作了,但猪爸爸一直比较担心海盗岛那边的网点,因为他总是担心跨海的通讯会因为极端情况出现问题.果不其然,一个雷雨交加的晚上,海盗岛的发电站被击中,整个岛处于停 ...

java-struts2 实现一个同步方法的问题？

问题描述 struts2 实现一个同步方法的问题? 现在有一个业务逻辑是页面点击[执行]完成所有操作之后.下一个人才能再执行. 第一个人执行过程中,第二个人点击执行需要等第一个人执行完毕之后,才能执行 ...

经典设计模式——命令模式

考虑这样一种场景,某个方法需要完成某一个功能,完成这个功能的大部分步骤已经确定了,但可能有少量具体步骤无法确定,必须等到该方法执行时才可以确定.具体一点:假设有个方法需要遍历某个数组的数组元素 ...

报警分析云上集成解决方案

背景: 本实践是以化工业的安全生产为背景,随着工业企业的日益大型化和复杂化,非正常事件(下称故障)不仅影响了企业效益,更带来了很多的安全问题.据非正常状况管理联盟(Abnormal Situ ...

foreach迭代ArrayList时，真的不能删除元素吗？

ArrayList是java开发时非常常用的类,常碰到需要对ArrayList循环删除元素的情况.这时候大家都不会使用foreach循环的方式来遍历List,因为它会抛java.util.Concur ...

为什么改用追加的方法后!本来３多K的内容就变成２４Ｋ为什么变的这么大了？

问题描述 SaveBodyIndexindex=newSaveBodyIndex(mySite);index.SaveLine(tempObject,iD);/////////publicFsOutp ...

学校超市选址问题

海南师范大学课程设计报告书题目: 学校超市选址问题院系: 海南师范大学计算机科学与教育技术系 ...

2014年20大数据可视化工具及资料

巴西的新闻网站Visualoop,这是一家汇集来自互联网的信息图表和数据为中心的可视化网站,今年,他们继续评选出这一年最优秀的大数据可视化相关工具. "我们很艰难的选出这20个新的平台或工具 ...

微软IE浏览器明年将开始自动更新

网易科技讯 12月15日消息,据国外媒体报道,明年一月微软IE将通过Windows Update开始自动更新,更加逼近竞争对手,同时为企业用户着想,此次更新依然支持旧版本.据报道,IE浏览器自动更新将 ...

jsp web项目 mysql-jsp连接数据库第一步就出现问题

问题描述 jsp连接数据库第一步就出现问题 <%@ page language="java" contentType="text/html; charset=utf ...

求一个在字符串中识别括号并删除括号及其中内容的函数

问题描述求一个在字符串中识别括号并删除括号及其中的内容的函数括号包括大中小 3种括号.输入为 1个字符串 s="我是一个人(中国人)[真的]{确定}";输出为 result = ...

实验五

实验五排序院 .系海师计教系班级计本二班学号 200624101101 姓名杨振平完成日期 2007-12-19 源程序名 123.cpp 一.题目定 ...

汇编语言-arm 汇编胡问题,,ldr pc,lr

问题描述 arm 汇编胡问题,,ldr pc,lr arm 汇编胡问题我想问您一下arm 汇编胡问题,如下. .globl _start: bl _test _end: b _end _test: ...

用友:打造生态系统服务企业互联网化

本文讲的是用友:打造生态系统服务企业互联网化,用友近来的变化业界有目共睹:更名用友网络.与阿里战略合作.成立用友超客等动作无不彰显着用友全面转型互联网的决心和力度.转型的过程自然也少不了资本动作,记者 ...

AutoCAD Architecture 2012英文版安装和注册说明

AutoCAD® Architecture 是为建筑师量身定做的AutoCAD®软件.软件直观的用户环境和专门为建筑师定制的工具可以让图档制作事半功倍.用户可以快速提升工作效率,同时根据自己的节奏循序 ...

UL加入ZigBee联盟声誉卓著的独立测试实验室行列

中文商业新闻网(biznewcn.com)讯: ZigBee联盟新增第五家授权测试实验室,满足日益增多的物联网产品认证需求 UL加入ZigBee联盟声誉卓著的独立测试实验室行列为开发物联网设备的数百 ...

IBM Power全面推动认知时代大数据分析发展

近日,IBM在2015中国大数据技术大会上分享了其在大数据分析领域的最新成果,阐述了面向大数据分析领域的IT基础架构的最新战略.针对企业在认知时代面临的大数据分析工作负载,IBM坚信要以全新的IT基础 ...

flasn AS3根据两点坐标，计算连线与坐标轴间的夹角（弧度、角度）

开发中,有时需要计算两个坐标点组成的向量与坐标轴之间的夹角,然后我们用计算结果,来对元件进行旋转(rotation)等操作.下面分别演示与X轴.Y轴夹角的计算方法. 1,与X轴的夹角 var p1:P ...

JavaScript Date对象日期获取函数_时间日期

JavaScript Date对象使用小例子: 运行结果: 总结: 1.尽管我们认为12月是第12个月份,但是JavaScript从0开始计算月份,所以月份11表示12月: 2.nowDate.set ...

mysql-重装系统后安装MySQL出现错误

问题描述重装系统后安装MySQL出现错误重装系统后安装MySQL 出现 you still have failling product requirements..... 解决方案百度知道里面 ...

索尼宣布3.8亿美元收购美国云游戏公司Gaikai

http://www.aliyun.com/zixun/aggregation/17197.html">北京时间7月2日消息,索尼电脑娱乐(SCE)公司周一宣布,他们已经与美国互动云游 ...

“Windows脚本宿主”autorun.js的处理方法_常用工具

[问题故障描述]: 双击C.D.E盘就会出现一个"Windows脚本宿主"无法找到脚本文件,下面是脚本:D:\autorun.vbs 行: 25 字符: 4 错误: 错误的'Nex ...

有关C#中listview的问题

问题描述 C#编写WinForm应用程序,listview空间中设置checkbox=True,现在我想选中checkbox的时候,取出里面的内容,如何实现,高手指教,谢谢! 解决方案解决方案二:参 ...

游戏蜗牛：一步一步爬上来

石海有着标志性的长发和不羁的笑容.在投身网游行业之前,他开过餐厅.飚歌城,然后选择在互联网受挫最惨烈的2000年逆市杀入,并在国内最早提出做3D游戏,开发3D引擎. 石海创办的蜗牛公司,藏在苏州最古老 ...

热搜