基础篇:Hadoop组件与生态系统介绍

从2014年开始,大数据逐渐发展壮大起来。越来越多的公司开始使用大数据,包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术,无论业务规模是大还是小。

大数据,简单来说就是存在于我们身边的大量数据,如智能终端、网络应用、社交媒体、聊天室、移动App、通讯记录、支付历史以及各种其他方式涉及到的数据。大数据技术对大量的信息进行整合、存储以及分析,数据量一般在PB级别。

这项技术已经完全改变了人们看待数据与数据库的方式,也改变了人们使用数据的方式。在军事方面,大数据主要用来预防损伤。在NBA,大数据主要用来捕捉并且分析一场比赛中数以百万计的个人动作。健康产业将大数据应用于治疗癌症与心脏病。汽车公司将这项技术实现自动驾驶以及汽车自主交流。

大数据正在改变这个世界。但,究竟在这之后存在着怎样的软件呢?是什么使得大数据技术不断发展与运行呢?

答案揭晓,Hadoop。

很多人认为hadoop就是大数据,但它不是。在hadoop出现之前就已经存在大数据,而且即使没有hadoop大数据也将继续存在。然而,hadoop现在是大数据行业的寡头。hadoop与大数据二者混用是有原因的——很多人都这样用。你可以自己去找找看哪些大数据公司不使用hadoop。

Hadoop究竟是什么?

它是一个“软件库”,使用者可以通过它获得处理大批数据的能力,即“使用简单编程模型在计算机集群上处理大量数据”。换句话说,它使公司有能力对大批数据进行汇总、存储与分析。

另外,理解大数据很重要的一点在于它是一个“软件库”。大量的程序库补充了Hadoop基本框架,给予各个公司所需的特定工具,以获得期望的hadoop结果。

让我们来看一下hadoop生态系统。相关资源及更多信息参见hadoop网站

Hadoop项目包含了各种模块——Hadoop通用库、hadoop分布式文件系统、Hadoop YARN 与Hadoop MapReduce。这些系统的整合,支撑了我们下面提到的其他hadoop项目,赋予了大数据处理实时自动任务调度和集群资源管理能力。

其他项目提供了特定的服务,完善了整个 hadoop生态系统。

Apache Hive:“一个提供数据汇总与即席查询的数据仓库”。该系统是一个强大的查询工具,并能仅实时的得到查询结果。

Apache Spark: Apache Spark是一个通用计算引擎,能对大规模数据进行快速分析。Spark建立在HDFS之上,而不依赖于MapReduce,它使用了自己的数据处理框架。Apache Spark通常的使用场景,包括实时查询、事件流处理、迭代计算、复杂操作与机器学习。

Apache Ambari: Ambari的目的在于帮助管理hadoop。它能够为许多hadoop生态环境中的工具提供支持,包括Hive, HBase, Pig, Sqoop 与Zookeeper。该工具的特征在于有一个控制面板,能够跟踪集群健康状态,帮助诊断性能问题。

Apache Pig: Pig是一个平台工具,它支持一种处理大数据集的查询语言。

Apache HBase: HBase是一个在HDFS之上运行的非关系型数据库管理系统。建立HBase的目的在于处理大数据项目中的稀疏数据集。

其他常见的hadoop项目包括:Avro, Cassandra, Chukwa, Mahout与Zookeeper。

通过构建hadoop,使用者能够获得大量工具和资源,从而深度定制他们的大数据平台,以适应自己的业务所需。

时间: 2025-01-14 01:59:28

基础篇:Hadoop组件与生态系统介绍的相关文章

ExtJs 学习笔记基础篇 Ext组件的使用第1/2页_extjs

天介绍一下Ext中组件举几个简单的例子做说明.注意:文章内容有些摘自本人学习过程中看到的资料. Ext2.0对框架进行了非常大的重构,其中最重要的是形成了一个结构及层次分明的组件体系,由这些组件形成了Ext控件.Ext组件由Component类定义,每一种组件都有一个指定的xtype属性值,通过该值可以得到一个组件的类型或者是定义一个指定类型的组件. Ext组件体系由下图所示: 组件大致可分成三大类,即基本组件.工具栏组件.表单元素组件.      基本组件有这么多的组件,可都是非常酷的.组件使

JAVA程序员必读:基础篇(3)

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.2什么是消息 软件对象之间进行交互作用和通讯是利用消息的. 单一的一个对象通常不是很有用的.相反,一个对象通常是一个包含了许多其它对象的更大的程序或者应用程序.通过这些对象的交互作用,程序员可以获得高阶的功能以及更为复杂的行为.你的自行车如果不使用它的时候,它就是一堆铝合金和橡胶,它没有任何的活动.而只有当有其它的对象来和它交互的时候才是有用的. 软件对象与其它对象进行交互与通讯是利用

文件系统驱动编程基础篇之1——我们的准备

一.导言 在四个月漫长的征战后,终于在国庆节的今天完成了基础篇系列.本文写作的初衷很简单,就是给平静的池水中加入一点波澜,如果大家在阅读后感受到一点生气,激起探索未知的热情,笔者也会感到由衷的喜悦. 本系列文章为业余编程爱好者而写,仅仅作为初学者的一个借鉴,真正的精华存在于参考资料*中.知识的积累将经历从薄到厚,再从厚到薄的反复过程,为了打下牢固的基础,请读者务必在阅读本文的基础上花费必要的时间完成参考资料. 二.基本架构 为了保证性能,汇编与c成为操作系统编写的首选语言,Windows家族的前

ES6 你可能不知道的事 - 基础篇

序 ES6,或许应该叫 ES2015(2015 年 6 月正式发布),对于大多数前端同学都不陌生. 首先这篇文章不是工具书,不会去过多谈概念,而是想聊聊关于每个特性 你可能不知道的事,希望能为各位同学 正确使用 ES6,提供一些指导. 对于 ES6,有些同学已经在项目中有过深入使用了,有些则刚刚开始认识他,但不论你是属于哪一类,相信这篇文章都有适合你的部分.针对文章中的问题或不同意见,欢迎随时拍砖.指正. 正文 Let + Const 这个大概是开始了解 ES6 后,我们第一个感觉自己完全明白并

Vuejs第十三篇之组件——杂项_javascript技巧

什么是组件? 组件(Component)是 Vue.js 最强大的功能之一.组件可以扩展 HTML 元素,封装可重用的代码.在较高层面上,组件是自定义元素,Vue.js 的编译器为它添加特殊功能.在有些情况下,组件也可以是原生 HTML 元素的形式,以 is 特性扩展. 本篇资料是小编参考官方文档的基础上整理的一篇更加细致的说明,代码更多更全,非常适合新手学习. 官方文档: http://cn.vuejs.org/guide/components.html 组件--杂项详细介绍如下所示: ①组件

《TensorFlow技术解析与实战》——第一篇 基础篇

第一篇 基础篇 TensorFlow技术解析与实战著名历史学家斯塔夫里阿诺斯在<全球通史>中,曾以15世纪的航海在"物理上"连通"各大洲"作为标志将人类历史划分为两个阶段.在我正在写作的<互联网通史>中,我把互联网这个"信息上"连通"人类个体"的物件作为划分人类历史的标志.而随着人工智能最近的崛起,我们又该思考重新划分了,因为人工智能将会在"信息上"连通"各个物体"

JAVA程序员必读:基础篇(8)

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31 作者:ZSC 太平洋网络学院 2.6什么是接口 接口是一个收集方法和常数表单的契约.当类执行一个接口,它就许诺声明在那个接口中执行所有的方法. 接口是一个设备或者一个系统,它是用于交互的无关的实体.根据这个定义,远程控制是一个在你和电视的接口:而英语是两个人之间的接口:强制在军事中的行为协议是不同等价人之间的接口.在JAVA语言中,接口是一个设备,它是用来与其它对象交互的设备.一个接口可能对一个协议是类似的.实际上,

JAVA程序员必读:基础篇(9)

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.8 面向对象概念的问题和练习 本节教程测试一下你对对象.类.消息等等的理解,我们是通过做一些练习以及回答一些问题来进行的. 2.8.1 问题 你可以使用API文档来回答这些问题: ClickMe applet使用Color.red来设置画图颜色为红色.其它有什么颜色可以象这样来使用? 怎样设置颜色为紫色(purple)? 2.8.2 练习 现在,利用你从API文档中学到的知识来修改Cl

JAVA程序员必读:基础篇(7)

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.5什么是继承 一个类可以从它的父类继承状态和行为.继承为组织和构造软件程序提供了一个强大的和自然的机理. 总得说来,对象是以类得形式来定义得.你可能现在已经可以从它类知道许多对象了.即使你如知道,如果我告诉你它是一辆自行车,你就会知道它有两个轮子和脚踏板等等.面向对象系统就更深入一些了,它允许类在其它类中定义.比如,山地自行车.赛车以及串座双人自行车都是各种各样的自行车.在面向对象技术